SimHash - SimHash

İçinde bilgisayar Bilimi, SimHash hızlı bir şekilde tahmin etmek için bir tekniktir benzer iki set vardır. algoritma tarafından kullanılır Google Paletli yinelenen sayfaların yakınında bulmak için. Tarafından oluşturuldu Moses Charikar.

Değerlendirme ve karşılaştırmalar

Tarafından büyük ölçekli bir değerlendirme yapılmıştır. Google 2006'da[1] performansını karşılaştırmak Minhash ve Simhash[2] algoritmalar. 2007'de Google, web taramasında yinelenen saptama için Simhash kullandığını bildirdi[3] Minhash kullanarak ve LSH için Google Haberleri kişiselleştirme.[4]

Ayrıca bakınız

Referanslar

  1. ^ Henzinger, Monika (2006), "Neredeyse yinelenen web sayfalarını bulmak: algoritmaların büyük ölçekli bir değerlendirmesi", 29. Yıllık Uluslararası ACM SİGİR Bilgi Erişiminde Araştırma ve Geliştirme Konferansı Bildirileri, s. 284, doi:10.1145/1148170.1148222, ISBN  978-1595933690.
  2. ^ Charikar, Moses S. (2002), "Yuvarlama algoritmalarından benzerlik tahmin teknikleri", Bilişim Teorisi üzerine 34. Yıllık ACM Sempozyumu Bildirileri, s. 380, doi:10.1145/509907.509965, ISBN  978-1581134957.
  3. ^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Web taraması için neredeyse kopyaları tespit etme", 16. Uluslararası World Wide Web Konferansı Bildirileri (PDF), s. 141, doi:10.1145/1242572.1242592, ISBN  9781595936547.
  4. ^ Das, Abhinandan S .; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Google haber kişiselleştirme: ölçeklenebilir çevrimiçi ortak çalışmaya dayalı filtreleme", 16. Uluslararası World Wide Web Konferansı Bildirileri, s. 271, doi:10.1145/1242572.1242610, ISBN  9781595936547.

Dış bağlantılar