Evreleme (veri) - Staging (data)

Bir evreleme alanıveya iniş bölgesi, veri işleme sırasında kullanılan bir ara depolama alanıdır. ayıkla, dönüştür ve yükle (ETL) süreç. Veri hazırlama alanı, veri kaynakları ile veri hedefleri arasında yer alır ve bunlar genellikle veri depoları, veri reyonları veya diğer veri havuzları.[1]

Veri aşamalandırma alanları, genellikle bir ETL süreci çalıştırmadan önce veya bir ETL sürecinin başarıyla tamamlanmasının hemen ardından içerikleri silinerek, doğaları gereği geçicidir. Bununla birlikte, verileri arşivleme veya sorun giderme amacıyla uzun süreler boyunca tutmak için tasarlanmış evreleme alanı mimarileri vardır.

Uygulama

Aşamalandırma alanları, ilişkisel veritabanlarında tablolar, dosya sistemlerinde depolanan metin tabanlı düz dosyalar (veya XML dosyaları) veya dosya sistemlerinde depolanan tescilli biçimlendirilmiş ikili dosyalarda uygulanabilir.[2] Aşama alanı mimarileri, bir hedef veritabanındaki bir dizi basit ilişkisel tablolardan bağımsız veritabanı örneklerine veya dosya sistemlerine kadar karmaşıklık gösterir.[3] ETL süreçleri tarafından desteklenen kaynak sistemler ve hedef sistemler genellikle ilişkisel veritabanları olsa da, veri kaynakları ile hedefler arasında yer alan evreleme alanlarının da ilişkisel veritabanları olması gerekmez.[4]

Fonksiyonlar

Evreleme alanları birçok fayda sağlayacak şekilde tasarlanabilir, ancak kullanımlarının birincil motivasyonları ETL süreçlerinin verimliliğini artırmak, veri bütünlüğünü sağlamak ve veri kalitesi işlemlerini desteklemektir. Evreleme alanının işlevleri şunları içerir:

Konsolidasyon

Aşama alanı tarafından gerçekleştirilen birincil işlevlerden biri, birden çok kaynak sisteminden gelen verilerin birleştirilmesidir.[2] Bu işlevi yerine getirirken, aşamalandırma alanı, içine birden çok kaynak sisteminden gelen verilerin daha sonraki işlemler için geçici olarak yerleştirilebildiği büyük bir "kova" görevi görür. Aşama alanındaki verileri, başlangıç ​​kaynağını belirten ek meta veriler ve verilerin aşamalandırma alanına ne zaman yerleştirildiğini gösteren zaman damgaları ile etiketlemek yaygındır.

Hizalama

Verilerin hizalanması aşağıdakilerin standardizasyonunu içerir referans verisi çoklu kaynak sistemleri arasında ve farklı kaynaklardan gelen kayıtlar ve veri öğeleri arasındaki ilişkilerin doğrulanması.[2] Evreleme alanındaki veri hizalaması, aşağıdakilerle yakından ilişkili ve bunları destekleyen bir işlevdir: Ana veri yönetimi yetenekleri.[5]

Çekişmeyi en aza indirmek

Desteklediği evreleme alanı ve ETL süreçleri, genellikle kaynak sistemlerdeki çekişmeyi en aza indirmek amacıyla tasarlanır. Gerekli verilerin kaynak sistemlerden hazırlık alanına tek seferde kopyalanması, genellikle tek tek kayıtları (veya küçük kayıt kümelerini) tek seferde almaktan daha etkilidir. İlk yöntem, veri akış teknolojileri gibi teknik verimliliklerden, kaynak sistemlerine bağlantıların kesilmesi ve yeniden kurulması ihtiyacını en aza indirerek ve çok kullanıcılı kaynak sistemlerinde eşzamanlılık kilidi yönetiminin optimizasyonundan yararlanmaktadır. ETL süreci, kaynak sistemlerden kaynak verileri kopyalayarak ve hazırlık alanında yoğun işleme ve dönüşüm gerçekleştirmeyi bekleyerek, ETL süreci üzerinde büyük bir kontrol uygular. eşzamanlılık sorunları işleme sırasında.

Bağımsız planlama / çoklu hedefler

Hazırlama alanı, bağımsız programlara göre işlenecek verilerin ve birden çok hedefe yönlendirilmesi amaçlanan verilerin barındırılmasını destekleyebilir.[2] Bazı durumlarda, veriler aynı anda tutulmak ve işlenmek üzere farklı zamanlarda hazırlama alanına çekilebilir. Bu durum, örneğin kurumsal işlemler her gece birden fazla saat diliminde yapıldığında meydana gelebilir. Diğer durumlarda veriler, farklı zamanlarda işlenmek üzere hazırlık alanına getirilebilir; veya evreleme alanı, verileri birden çok hedef sisteme göndermek için kullanılabilir. Örnek olarak, günlük operasyonel veriler bir operasyonel veri deposu (ODS) aynı veriler aylık toplu bir biçimde bir veri ambarına gönderilebilir.

Algılamayı değiştir

Evreleme alanı, hedef sistemlere karşı verimli değişiklik algılama işlemlerini destekler. Bu işlevsellik, kaynak sistemler, sistem tarafından uygulanan zaman damgası, değişiklik izleme veya değişiklik izleme gibi güvenilir değişiklik algılama biçimlerini desteklemediğinde özellikle yararlıdır. veri yakalamayı değiştirme (CDC).

Verileri temizleme

Veri temizleme geçersiz verilerin kaynak sistemlerden tanımlanmasını ve kaldırılmasını (veya güncellenmesini) içerir. Aşama alanını kullanan ETL süreci, "geçersiz" verileri tanımlamak ve işlemek için iş mantığını uygulamak için kullanılabilir. Geçersiz veriler genellikle iş kuralları ve teknik sınırlamaların bir kombinasyonu yoluyla tanımlanır. Veri geçerliliği kurallarını uygulamak için evreleme alanı yapılarına (ilişkisel bir veritabanındaki tablo kısıtlamaları gibi) ek olarak teknik kısıtlamalar yerleştirilebilir.[2]

Toplam ön hesaplama

Toplamaların önceden hesaplanması, karmaşık hesaplamalar ve karmaşık iş mantığının uygulanması, hedef sistemlerde özet raporlama için yüksek düzeyde duyarlı hizmet seviyesi anlaşmalarını (SLA'lar) desteklemek için bir hazırlık alanında yapılabilir.[3]

Veri arşivleme ve sorun giderme

Veri arşivleme, bir evreleme alanında gerçekleştirilebilir veya bu alanda desteklenebilir. Bu senaryoda, hazırlık alanı yükleme işlemi sırasında geçmiş kayıtları korumak için kullanılabilir veya verileri bir hedef arşiv yapısına göndermek için kullanılabilir. Ek olarak, ETL işleminin teknik sorun giderme işlemlerini desteklemek için veriler, hazırlık alanında uzun süre saklanabilir.[3]

Referanslar

  1. ^ Oracle 9i Veri Ambarlama Kılavuzu, Veri Ambarlama Kavramları, Oracle Corp.
  2. ^ a b c d e Veri Ambarlamanın Temelleri: BT Uzmanları için Kapsamlı Bir Kılavuz, s. 137-138, Paulraj Ponniah, 2001.
  3. ^ a b c BI Uzmanları: Büyük Veri ve Veri Ambarınızın Veri Evreleme Alanı, Veri Ambarlama Enstitüsü, Phillip Russom, 2012.
  4. ^ Veri Evreleme İlişkisel mi? Arşivlendi 2013-12-26 Wayback Makinesi Ralph Kimball, 1998.
  5. ^ Uygulamada Ana Veri Yönetimi: Gerçek Müşteri MDM'sine Ulaşmak, Dalton Cervo ve Mark Allen, 2011.