İkinci dereceden birlikte oluşma noktasal karşılıklı bilgi - Second-order co-occurrence pointwise mutual information

İçinde hesaplamalı dilbilimleri, ikinci dereceden birlikte oluşma noktasal karşılıklı bilgi bir anlamsal benzerlik ölçü. Derecesini değerlendirmek için bağlantı verilen iki kelime arasında noktasal karşılıklı bilgi (PMI) iki hedef kelimenin önemli komşu kelimelerinin listelerini büyük bir külliyat.

Tarih

PMI-IR yöntemi[açıklama gerekli ] Kullanılmış AltaVista Hesaplanacak Gelişmiş Arama sorgusu sözdizimi olasılıklar. AltaVista'nın "NEAR" arama operatörünün PMI-IR yönteminde önemli bir operatör olduğuna dikkat edin.[kaynak belirtilmeli ] Ancak, artık AltaVista'da kullanılmamaktadır; bu, uygulama açısından PMI-IR yönteminin yeni sistemlerde aynı biçimde kullanılmasının mümkün olmadığı anlamına gelir. Her durumda, algoritmik bakış açısından, SOC-PMI kullanmanın avantajı, iki kelime arasındaki benzerliği hesaplayabilmesidir. birlikte meydana gelmek sıklıkla, çünkü aynı komşu sözcüklerle birlikte ortaya çıkarlar. Örneğin, British National Corpus (BNC), frekansların ve bağlamların kaynağı olarak kullanılmıştır.

Metodoloji

Yöntem, her iki listede ortak olan kelimeleri dikkate alır ve göreli anlamsal benzerliği hesaplamak için PMI değerlerini (karşı listeden) toplar. Biz tanımlıyoruz noktasal karşılıklı bilgi sadece sahip olan kelimeler için işlev ,

nerede bize türünün kaç katı olduğunu söyler tüm külliyatta göründü, bize kaç kez kelime söyler kelime ile ortaya çıktı bir bağlam penceresinde ve korpustaki toplam simge sayısıdır. Şimdi, kelime için , bir dizi kelime tanımlıyoruz , PMI değerlerine göre azalan sırada sıralanmıştır. ve en iyiyi aldı sahip olan kelimeler .

Set , kelimeler içerir ,

, nerede ve

Bir temel kural değerini seçmek için kullanılır . -PMI toplamı Bir kelimenin işlevi başka bir kelimeye göre tanımlanır. Kelime için kelimeye göre bu:

nerede kümedeki kelimelerin tüm pozitif PMI değerlerini toplayan ayrıca setteki kelimeler için ortaktır . Başka bir deyişle, bu işlev aslında tüm anlamsal olarak yakın kelimelerin pozitif PMI değerlerini toplar. aynı zamanda yaygın olan 'ın listesi. 1'den büyük bir değere sahip olmalıdır. Yani, -PMI toplamı kelime için işlev kelimeye göre sahip olmak ve -PMI toplamı kelime için işlev kelimeye göre sahip olmak vardır

ve

sırasıyla.

Son olarak anlamsal PMI benzerliği iki kelime arasındaki fonksiyon, ve , olarak tanımlanır

Anlamsal kelime benzerliği normalleştirilir, böylece aralarında bir benzerlik puanı sağlar. ve kapsayıcı. Anlamsal benzerlik algoritmasının normalleşmesi, iki kelime arasında normalleştirilmiş bir benzerlik puanı verir. İki kelimeyi argüman olarak alır, ve ve maksimum değer, , bu semantik benzerlik işlevi Sim () tarafından döndürülür. 0 ile 1 arasında bir benzerlik puanı döndürür. Örneğin, algoritma kelimeler için 0.986 döndürür mezarlık ve mezarlık ile (SOC-PMI yöntemi için).

Referanslar