Belirsiz veriler - Uncertain data

İçinde bilgisayar Bilimi, belirsiz veriler içeren verilerdir gürültü, ses bu, doğru, amaçlanan veya orijinal değerlerden sapmasına neden olur. Çağında Büyük veri belirsizlik veya veri doğruluğu, verilerin tanımlayıcı özelliklerinden biridir. Veriler hacim, çeşitlilik, hız ve belirsizlik (1 / gerçek) bakımından sürekli olarak büyüyor. Belirsiz veriler bugün web'de, sensör ağlarında, işletmelerde hem yapılandırılmış hem de yapılandırılmamış kaynaklarında bol miktarda bulunur. Örneğin, bir kurumsal veri kümesindeki bir müşterinin adresi veya sensörün eskimesi nedeniyle bir sensör tarafından yakalanan sıcaklık değerleri ile ilgili belirsizlik olabilir. 2012'de IBM çağrıda bulundu belirsiz verileri geniş ölçekte yönetme onun içinde küresel teknoloji görünümü bildiri[1] Dünyayı değiştirecek önemli, yıkıcı teknolojileri belirlemeye çalışan, geleceğe üç ila on yıl bakan kapsamlı bir analiz sunuyor. Gerçek dünyadaki verilere dayalı olarak güvenilir iş kararları verebilmek için, analizlerin mutlaka çok büyük miktarda veride bulunan birçok farklı belirsizlik türünü hesaba katması gerekir. Belirsiz verilere dayalı analizler, sonraki kararların kalitesi üzerinde bir etkiye sahip olacaktır, bu nedenle bu belirsiz verilerdeki yanlışlıkların derecesi ve türleri göz ardı edilemez.

Alanında belirsiz veriler bulunur. sensör ağları; metin nerede gürültülü metin sosyal medyada, web'de ve yapılandırılmış ve yapılandırılmamış veriler eski, modası geçmiş veya tamamen yanlış olabilir; modellemede matematiksel model gerçek sürecin yalnızca bir tahmini olabilir. Bu tür verileri bir veri tabanı, bazı göstergeler olasılık çeşitli değerlerin doğruluğunun da tahmin edilmesi gerekir.

Veritabanlarında belirsiz verilerin üç ana modeli vardır. İçinde öznitelik belirsizliği, bir demetteki her belirsiz öznitelik kendi bağımsız olasılık dağılımı.[2] Örneğin, sıcaklık ve rüzgar hızı okumaları alınırsa, her biri kendi olasılık dağılımı ile açıklanacaktır, çünkü bir ölçüm için okumayı bilmek diğeri hakkında herhangi bir bilgi sağlamayacaktır.

İçinde ilişkili belirsizlik, birden çok öznitelik, bir ortak olasılık dağılımı.[2] Örneğin, bir nesnenin pozisyonunun okumaları alınırsa ve x- ve y- Depolanan koordinatlar, farklı değerlerin olasılığı kaydedilen koordinatlardan olan mesafeye bağlı olabilir. Mesafe her iki koordinata da bağlı olduğundan, bu koordinatlar için ortak bir dağılım kullanmak uygun olabilir. bağımsız.

İçinde grup belirsizliği, a'nın tüm öznitelikleri tuple ortak bir olasılık dağılımına tabidir. Bu, ilişkili belirsizlik durumunu kapsar, ancak aynı zamanda, toplamı olmayan tüm olasılıklarla gösterilen ilgili ilişkiye ait olmayan bir demet olasılığının olduğu durumu da içerir.[2] Örneğin, aşağıdaki diziye sahip olduğumuzu varsayalım: olasılıklı veritabanı:

(a, 0.4) | (b, 0.5)

Ardından, başlığın veritabanında bulunmaması% 10 şansa sahiptir.

Referanslar

  1. ^ Küresel Teknoloji Görünümü (PDF) (Bildiri). 2012.
  2. ^ a b c Prabhakar, Sunil. "ORION: Belirsiz (Sensör) Verileri Yönetme" (PDF). Alıntı dergisi gerektirir | günlük = (Yardım)
  • Volk, Habich; Clemens Utzny, Ralf Dittmann, Wolfgang Lehner. "Hataya Duyarlı Yoğunluğa Dayalı Belirsiz Ölçüm Değerlerinin Kümelenmesi". Yedinci IEEE Uluslararası Veri Madenciliği Çalıştayları Konferansı, 2007. ICDM Çalıştayları 2007. IEEE.CS1 bakım: birden çok isim: yazarlar listesi (bağlantı)
  • Rosentahl, Volk; Martin Hahmann, Dirk Habich, Wolfgang Lehner. "Belirsiz Verileri Olası Dünyalarla Kümeleme". 25. Uluslararası Veri Mühendisliği Konferansı ile birlikte Belirsiz Verilerin Yönetimi ve madenciliği üzerine 1. Çalıştayın Bildirileri, 2009. IEEE.CS1 bakım: birden çok isim: yazarlar listesi (bağlantı)