Düzeltilmiş karşılıklı bilgiler - Adjusted mutual information

İçinde olasılık teorisi ve bilgi teorisi, ayarlanmış karşılıklı bilgi, bir varyasyonu karşılıklı bilgi karşılaştırmak için kullanılabilir kümelenmeler.[1] Anlaşmanın etkisini yalnızca kümelenmeler arasındaki şansa bağlı olarak düzeltir; ayarlanmış rand endeksi düzeltir Rand indeksi. İle yakından ilgilidir bilgi değişimi:[2] VI indeksinde benzer bir ayarlama yapıldığında, AMI'ye eşdeğer hale gelir.[1] Ancak ayarlanan ölçü artık metrik değildir.[3]

İki bölümün karşılıklı bilgisi

Bir set verildi S nın-nin N elementler , iki düşünün bölümler nın-nin S, yani ile R kümeler ve ile C kümeler. Burada bölümlerin sözde olduğu varsayılmaktadır. sert kümeler; bölümler ikili ayrıktır:

hepsi için , Ve tamamla:

karşılıklı bilgi küme örtüşme oranı U ve V şeklinde özetlenebilir RxC olasılık tablosu , nerede kümelerde ortak olan nesnelerin sayısını gösterir ve . Yani,

Bir nesnenin rastgele seçildiğini varsayalım. S; nesnenin kümeye düşme olasılığı dır-dir:

entropi bölümleme ile ilişkili U dır-dir:

H (U) negatif değildir ve 0 değerini yalnızca bir nesnenin küme üyeliğini belirleyen bir belirsizlik olmadığında alır, yani, yalnızca bir küme olduğunda. Benzer şekilde, kümelenmenin entropisi V şu şekilde hesaplanabilir:

nerede . karşılıklı bilgi (MI) iki bölüm arasında:

nerede bir noktanın her iki kümeye de ait olma olasılığını gösterir içinde U ve küme içinde V:

MI, entropiler tarafından sınırlanan negatif olmayan bir miktardır H(U) ve H(V). İki kümelenme tarafından paylaşılan bilgilerin miktarını belirler ve böylece bir kümeleme olarak kullanılabilir benzerlik ölçüsü.

Şans ayarı

Gibi Rand indeksi, iki rasgele kümeleme arasındaki karşılıklı bilginin temel değeri sabit bir değer almaz ve iki bölüm daha fazla sayıda kümeye sahip olduğunda daha büyük olma eğilimindedir (sabit sayıda set öğesi ile) N). hipergeometrik rastgelelik modeli, iki rastgele kümeleme arasında beklenen karşılıklı bilginin şu şekilde olduğu gösterilebilir:

nerede gösterir . Değişkenler ve beklenmedik durum tablosunun kısmi toplamlarıdır; yani,

ve

Ayarlanmış ölçü[1] karşılıklı bilgi şu şekilde tanımlanabilir:

.

AMI, iki bölüm aynı olduğunda 1 değerini alır ve iki bölüm arasındaki MI, yalnızca şans nedeniyle beklenen değere eşit olduğunda 0 değerini alır.

Referanslar

  1. ^ a b c Vinh, N.X .; Epps, J .; Bailey, J. (2009). "Kümeleme karşılaştırması için bilgi teorik ölçütleri". 26. Uluslararası Makine Öğrenimi Konferansı Bildirileri - ICML '09. s. 1. doi:10.1145/1553374.1553511. ISBN  9781605585161.
  2. ^ Meila, M. (2007). "Kümelerin karşılaştırılması - bilgiye dayalı bir mesafe". Çok Değişkenli Analiz Dergisi. 98 (5): 873–895. doi:10.1016 / j.jmva.2006.11.013.
  3. ^ Vinh, Nguyen Xuan; Epps, Julien; Bailey James (2010), "Kümelenmelerin Karşılaştırması için Bilgi Teorik Ölçüleri: Varyantlar, Özellikler, Normalleştirme ve Şans için Düzeltme" (PDF), Makine Öğrenimi Araştırmaları Dergisi, 11 (ekim): 2837 - 54

Dış bağlantılar