Veri Hazırlama - Data preparation

Veri Hazırlama manipüle etme (veya ön işleme) eylemidir işlenmemiş veri (farklı veri kaynaklarından gelebilir) kolayca ve doğru bir şekilde analiz edilebilecek bir forma, örn. iş amaçlı.[1]

Veri hazırlama, veri analizi projelerinde ilk adımdır ve veri yükleme veya veri alımı gibi birçok ayrı görevi içerebilir, veri füzyonu, veri temizleme, veri büyütme ve veri teslimi.[2]

Ele alınacak konular iki ana kategoriye ayrılır:

  • Muhtemelen farklı kaynaklardan geldikleri için çok sayıda veri kaydını içeren sistematik hatalar;
  • Muhtemelen orijinal veri girişindeki hatalardan dolayı az sayıda veri kaydını etkileyen bireysel hatalar.

Veri spesifikasyonu

İlk adım, her bir veri alanının formatının tam ve ayrıntılı bir tanımını ve girişlerin ne anlama geldiğini belirlemektir. Bu, aşağıdakileri dikkatlice hesaba katmalıdır:

  • en önemlisi, verilerin kullanıcıları ile istişare
  • Analizi gerçekleştirmek için verileri kullanacak sisteme ait mevcut herhangi bir spesifikasyon
  • mevcut bilgilerin ve kaynak verilerdeki boşlukların tam olarak anlaşılması.

Ayrıca bakınız Veri tanımı özelliği.

Misal

Coğrafi konumu gösteren iki karakterli bir alfabetik alan olduğunu varsayalım. Bir veri kaynağında "EE" kodunun "Avrupa" ve başka bir veri kaynağında aynı kodun "Estonya" anlamına gelmesi mümkündür. Belirgin bir kod seti tasarlamanız ve bir kayıt setindeki kodu buna göre değiştirmeniz gerekecektir.

Ayrıca, "coğrafi alan", örn. teslimat adresi, fatura adresi, malların tedarik edildiği adres, fatura para birimi veya geçerli ulusal düzenlemeler. Tüm bu konular şartnamede kapsanmalıdır.

Bu alanda "X" veya "555" olan bazı kayıtlar olabilir. Açıkçası, spesifikasyona uymadığı için bu geçersiz verilerdir. Bu tür kayıtların yalnızca az sayıda olması halinde, ya elle düzeltilebilir ya da hassasiyet önemli değilse, bu kayıtları dosyadan silin. Diğer bir olasılık, "bilinmeyen" bir kategori oluşturmak olabilir.

Düzeltme gerektiren diğer geçersiz veri örnekleri

  • Telefon numaraları doğru formattadır ve coğrafi konum alanında belirtilen bölge için doğru değerlere sahiptir. Ülke kodu bazı kayıtlarda mevcut olabilir ve bazılarında olmayabilir: veri özelliklerine bağlı olarak kaldırılmalı veya (coğrafi konuma göre) eklenmelidir. Benzer şekilde, tarihlerin formatları ve ölçü birimleri (ağırlıklar, uzunluklar) tutarsız olabilir.
  • Bazı durumlarda eksik veriler harici kaynaklardan sağlanmalıdır (örneğin, bir adresin Zip / Posta kodunu harici bir veri kaynağı aracılığıyla bulma)
  • Veriler, farklı ancak ilgili veri kayıtları arasında tutarlı olmalıdır (örneğin, aynı kişinin farklı kayıtlarda veya veri kümelerinde farklı doğum tarihleri ​​olabilir).

Mümkün ve ekonomik olduğunda, veriler yetkili bir kaynağa göre doğrulanmalıdır (örneğin, işletme bilgileri bir D&B[açıklama gerekli ] doğruluğu sağlamak için veritabanı)

[3][4]

Veri kaynaklarının çeşitliliği göz önüne alındığında (ör. veritabanları, iş uygulamaları ) veri sağlayan ve formatlar verilerin ulaşabileceği, veri hazırlama oldukça karmaşık ve karmaşık olabilir. Birçok araç ve teknoloji var[5] veri hazırlama için kullanılan. Verileri temizlemenin maliyeti her zaman iyileştirilmiş doğruluğun değeriyle dengelenmelidir.

Self servis veri hazırlama

Komut dosyası dilleri veya ETL ve Veri Kalitesi araçları gibi geleneksel araçlar ve teknolojiler işletme kullanıcıları için tasarlanmamıştır. Genellikle çoğu işletme kullanıcısının sahip olmadığı programlama veya BT becerilerini gerektirirler.[kaynak belirtilmeli ]

Paxata, Trifacta, Alteryx, Talend ve Ataccama gibi bir dizi şirket, verileri görüntüleyen ve kullanıcının doğrudan kullanıcı tarafından sağlanan örnek verileri keşfetmesine, yapılandırmasına, temizlemesine, artırmasına ve güncellemesine olanak tanıyan görsel arayüzler sağlar.

Hazırlık çalışması tamamlandığında, aynı işlemleri gerçekleştirmek için temeldeki adımlar diğer veri kümelerinde çalıştırılabilir. Bu yeniden kullanım, veri hazırlamaya yönelik daha geleneksel manuel ve elle kodlama yöntemlerine kıyasla önemli bir verimlilik artışı sağlar.

Ayrıca bakınız

Referanslar