Normalleştirilmiş Google mesafesi - Normalized Google distance

Normalleştirilmiş Google Mesafesi (NGD) bir anlamsal benzerlik ölçü tarafından döndürülen isabet sayısından türetilmiştir Google arama motoru verilen için Ayarlamak nın-nin anahtar kelimeler.[1] Doğal dil anlamında aynı veya benzer anlamlara sahip anahtar kelimeler Normalleştirilmiş Google Uzaklığı birimlerinde "yakın" olma eğilimindeyken, farklı anlamlara sahip kelimeler daha uzak olma eğilimindedir.

Özellikle, iki arama terimi arasındaki Normalleştirilmiş Google Mesafesi (NGD) x ve y dır-dir

nerede N Google tarafından aranan toplam web sayfası sayısının, sayfalarda bulunan ortalama tekil arama terimi sayısıyla çarpımıdır; f(x) ve f(y) arama terimleri için isabet sayısıdır x ve y, sırasıyla; ve f(xy) her ikisinin de bulunduğu web sayfalarının sayısıdır. x ve y meydana gelir.

Eğer o zaman x ve y olabildiğince benzer görünür, ancak x ve y çok farklıdır. iki arama terimi x ve y asla aynı web sayfasında birlikte oluşmaz, ancak ayrı ayrı oluşurlar, aralarındaki NGD sonsuzdur. Her iki terim de her zaman birlikte yer alıyorsa, NGD'leri sıfırdır.

Örnek: 9 Nisan 2013 tarihinde, "Shakespeare" için Google'da arama yapmak 130.000.000, "Macbeth" için Google'da arama yapmak 26.000.000 isabet verdi; ve "Shakespeare Macbeth" için googling 20.800.000 tıklama verdi. Google tarafından dizine eklenen sayfa sayısı, 25.270.000.000 tıklama olan "the" arama teriminin tıklama sayısı ile tahmin edildi. Verdiği ortalama sayfada yaklaşık 1000 arama terimi olduğunu varsayarsak Bu nedenle

.

"Shakespeare" ve "Macbeth", tarafından sağlanan göreli anlambilgisine göre çok benzerdir. Google.

Giriş

Normalleştirilmiş Google Mesafesi, daha önce Normalize Sıkıştırma Mesafesi..[2][3]Yani, nesnelere, bir farenin gerçek dört harfli genomu veya gerçek metni gibi tam anlamıyla verilebilir. Macbeth tarafından Shakespeare. Bu nesnelerin benzerliği NCD tarafından verilmektedir. Basitlik için, nesnenin tüm anlamının gerçek nesnenin kendisi tarafından temsil edildiğini kabul ederiz. Nesneler, 'bir farenin dört harfli genomu' veya 'metni gibi isimleriyle de verilebilir. Macbeth tarafından Shakespeare. ' Kelimenin tam anlamıyla verilemeyen, sadece ismiyle verilebilen ve anlamlarını insanoğlunun arka plandaki bildiği bağlamlarından alan nesneler de vardır, örneğin "ev" veya "kırmızı". Nesnelerin isimleri arasındaki benzerlik NGD tarafından verilmiştir.

Google Dağıtımı ve Google Kodu

Google tarafından döndürülen sayfa sayısı sıklıklarının Google tarafından dizine eklenen sayfa sayısına bölünmesiyle (bu sayfalardaki arama terimlerinin ortalama sayısıyla çarpılır) olarak tasarlanan Google arama terimlerinin olasılıkları, bu arama terimlerinin gerçekte toplumda kullanılan gerçek göreli sıklıklarına yaklaşıktır . Bu önermeye dayanarak, normalleştirilmiş Google mesafesi ile temsil edilen ilişkiler, arama terimlerini yöneten varsayılan gerçek anlamsal ilişkileri yaklaşık olarak yakalar. NGD'de World Wide Web ve Google kullanılmaktadır. Diğer metin şirket olabilir Wikipedia, King James versiyonuKutsal Kitap ya da Oxford ingilizce sözlük uygun arama motorları ile birlikte.

Özellikleri

Aşağıdaki özellikler kanıtlanmıştır:[1]

  • NGD kabaca 0 ile . Biraz olumsuz olabilir. Örneğin, "kırmızı kırmızı", Google'da yaklaşık% 20 daha fazla isabet verir. Dünya çapında Ağ "kırmızı" dan daha fazla. (2013 ortalarında "kırmızı" için 4.260.000.000 ve "kırmızı kırmızı" için 5.500.000.000 sonuç vardı. Şu anda, "kırmızı kırmızı" artık "kırmızı" dan çok daha az sonuç döndürüyor.) sonra x ve y'yi çok farklı görürüz.
  • NGD bir metrik. Başlangıçta, x ve y'nin her zaman aynı web sayfasında birlikte bulunması koşuluyla, NGD'nin x ve y için sıfır olduğunu gördük. NGD formülünden, bunun simetrik. üçgen mülkiyet NGD tarafından karşılanmaz. Ancak bu sonuçlar teoriktir. Bunun pratik örneklerini bulmak zor. Dünya çapında Ağ Google'ı ihlal eden üçgen Emlak.

Başvurular

Rakamlara karşı renk uygulamaları, asal asal olmayanlara karşı ve böylece verilir,[1]yanı sıra, kullanarak randomize büyük bir deney WordNet kategoriler. Asal sayılar ve asal olmayanlar durumunda ve WordNet NGD yönteminin bir Destek Vektör Makinesi Sınıflandırıcı Deneyler 25 olumlu ve 25 olumsuz örnekten oluşmaktadır. WordNet deney 100 rastgele oluşuyordu WordNet kategoriler. NGD yönteminin başarı oranı% 87,25'tir. Bu ortalama 0,8725 iken standart sapma 0,1169'dur. Bu oranlar, WordNet Doktora sahibi araştırmacıların bilgilerini temsil eden kategoriler. % 75'in altında anlaşma görülmesi nadirdir.

Referanslar

  1. ^ a b c ArXiv.org'daki Google benzerlik mesafesi veya R.L. Cilibrasi ve P.M.B. Vitanyi, Google benzerlik mesafesi, IEEE Trans. Bilgi ve Veri Mühendisliği, 19: 3 (2007), 370–383 veya https://arxiv.org/abs/cs.CL/0412098
  2. ^ ArXiv.org'da Sıkıştırma ile Kümeleme veya R.L. Cilibrasi ve P.M.B. Vitanyi, Sıkıştırma ile Kümeleme, IEEE Trans. Bilgi Teorisi, 51:12 (2005).
  3. ^ "M. Li, X. Chen, X. Li, B. Ma, P.M.B. Vitanyi, Benzerlik ölçüsü, IEEE Trans. Inform. Th., 50:12 (2004), 3250- 3264". Ieeexplore.ieee.org. 2011-09-27. doi:10.1109 / TIT.2004.838101. S2CID  221927. Alıntı dergisi gerektirir | günlük = (Yardım)

İlgili Literatür