Bulanık geri alma - Fuzzy retrieval

Bulanık geri alma teknikler dayanmaktadır Genişletilmiş Boole modeli ve Bulanık küme teori. İki klasik bulanık alma modeli vardır: Karışık Min ve Maks (MMM) ve Paice modeli. Her iki model de sorgu ağırlıklarını değerlendirmenin bir yolunu sağlamaz, ancak bu, P-normları algoritması.

Karışık Min ve Maks modeli (MMM)

Bulanık küme teorisinde, bir elementin değişen derecelerde üyeliği vardır dBir, belirli bir sete Bir geleneksel üyelik seçimi yerine (bir unsurdur / bir unsur değildir).
MMM'de[1] her bir indeks terimi, kendisiyle ilişkilendirilmiş bir belirsiz kümeye sahiptir. Bir indeks terimine göre bir belgenin ağırlığı Bir ile ilişkili bulanık kümedeki belgenin üyelik derecesi olarak kabul edilir Bir. Bulanık küme teorisinde sendika ve kesişim için üyelik derecesi şu şekilde tanımlanmıştır:

Buna göre form sorgusu için alınması gereken belgeler A veya b, iki kümenin birleşimiyle ilişkili bulanık kümede olmalıdır Bir ve B. Benzer şekilde, bir form sorgusu için alınması gereken belgeler A ve B, iki kümenin kesişimiyle ilişkili bulanık kümede olmalıdır. Bu nedenle, bir belgenin benzerliğini tanımlamak mümkündür. veya olmak için sorgu max (dBir, dB) ve belgenin benzerliği ve olmak için sorgu zihinBir, dB). MMM modeli, sorgu-belge benzerliğinin doğrusal bir kombinasyon olduğunu düşünerek Boole işleçlerini yumuşatmaya çalışır. min ve max belge ağırlıkları.

Bir belge verildi D endeks terim ağırlıkları ile dA1, dA2, ..., dBir şartlar için Bir1, Bir2, ..., Anve sorgular:

Qveya = (A1 veya A2 veya ... veya An)
Qve = (A1 ve A2 ve ... ve An)

MMM modelindeki sorgu-belge benzerliği şu şekilde hesaplanır:

SLM (Qveya, D) = Cveya1 * maks (dA1, dA2, ..., dBir) + Cveya2 * zihinA1, dA2, ..., dBir)
SlM (Qve, D) = Cve 1 * zihinA1, dA2, ..., dBir) + Cve 2 * maks (dA1, dA2 ..., dBir)

nerede Cveya1, Cveya2 "yumuşaklık" katsayıları veya operatör ve Cve 1, Cve 2 yumuşaklık katsayılarıdır ve Şebeke. Belge ağırlıklarına maksimum önem vermek istediğimiz için veya sorgu ve minimum daha fazla önem dikkate alınırken ve sorgu, genellikle bizde Cveya1 > Cveya2 ve Cve 1 > Cve 2. Basit olması açısından, genellikle Cveya1 = 1 - Cveya2 ve Cve 1 = 1 - Cve 2.

Lee ve Fox[2] deneyler, en iyi performansın genellikle Cve 1 [0,5, 0,8] aralığında ve Cveya1 > 0.2. Genel olarak, MMM'nin hesaplama maliyeti düşüktür ve geri alma etkinliği, Standart Boole modeli.

Paice modeli

Paice model[3] MMM modelinin genel bir uzantısıdır. Endeks terimleri için yalnızca minimum ve maksimum ağırlıkları dikkate alan MMM modeliyle karşılaştırıldığında, Paice modeli benzerliği hesaplarken tüm terim ağırlıklarını içerir:

nerede r sabit bir katsayıdır ve wdi artan sırada düzenlenmiştir ve için sorgular ve azalan sıra veya sorguları. N = 2 olduğunda, Paice modeli MMM modeliyle aynı davranışı gösterir.

Lee ve Fox'un deneyleri[2] ayarlamanın r 1.0 için ve sorgular ve 0.7 için veya sorgular iyi bir geri getirme etkinliği sağlar. Bu modelin hesaplama maliyeti, MMM modelinden daha yüksektir. Bunun nedeni, MMM modelinin yalnızca aşağıdakilerin belirlenmesini gerektirmesidir: min veya max her seferinde bir dizi terim ağırlığı ve veya veya cümle kabul edilir, ki bu yapılabilir O (n). Paice modeli, terim ağırlıklarının artan veya azalan düzende sıralanmasını gerektirir. ve cümle veya bir veya fıkra değerlendiriliyor. Bu, en az bir 0 (n günlük n) sıralama algoritması. Çok sayıda kayan nokta hesaplaması da gereklidir.

Standart Boole modeline göre iyileştirmeler

Lee ve Fox[2] Standart Boole modelini, CISI, CACM ve INSPEC olmak üzere üç test koleksiyonuyla MMM ve Paice modelleriyle karşılaştırmıştır. Bunlar, ortalama ortalama hassasiyet iyileştirmesi için bildirilen sonuçlardır:

CISICACMINSPEC
MMM68%109%195%
Paice77%104%206%

Bunlar, Standart modele göre çok iyi iyileştirmelerdir. MMM, Paice ve P-norm sonuçlarına çok yakındır, bu da çok iyi bir teknik olabileceğini ve üçü arasında en verimli olduğunu gösterir.

Son iş

Son günlerde Kang et al..[4] kavram tanımlama ile indekslenen bulanık bir geri alma sistemi tasarladılar.

Belgelere saf olarak bakarsak Tf-idf yaklaşımı, hatta durdurma kelimelerini ortadan kaldırarak, belgenin konusuyla diğerlerinden daha alakalı kelimeler olacaktır ve aynı terim frekansına sahip oldukları için aynı ağırlığa sahip olacaklardır. Bir sorguda kullanıcının amacını hesaba katarsak, bir belgenin şartlarını daha iyi ağırlıklandırabiliriz. Her terim, o kavramın o belge için önemini tercüme eden belirli bir sözcük zincirindeki bir kavram olarak tanımlanabilir.
Ortalama hassasiyette Paice ve P-normuna göre iyileştirmeler ve alınan İlk 5 belgeye ilişkin geri çağırma bildirirler.

Zadrozny[5] bulanık bilgi erişim modelini yeniden ziyaret etti. Bulanık genişletilmiş Boole modelini şu şekilde daha da genişletir:

  • Dilbilimsel terimlerin, belgelerde de anahtar kelimelerin önem ağırlıkları olduğunu varsaymak
  • belgelerin ve sorguların temsiline ilişkin belirsizliği dikkate alarak
  • Belgelerin ve sorguların temsilinde dil terimlerini ve bunların Zadeh'in bulanık mantığı (dilbilimsel ifadeler hesabı) açısından eşleştirmelerini yorumlama
  • Önerilen modelin bazı pragmatik yönlerini, özellikle de belgeleri ve sorguları indeksleme tekniklerini ele almak

Önerilen model, metinsel bilgi temsili ve erişime ilişkin hem belirsizliği hem de belirsizliği kavramayı mümkün kılar.

Ayrıca bakınız

daha fazla okuma

  • Fox, E .; S. Betrabet; M. Koushik; W. Lee (1992), Bilgi Erişimi: Algoritmalar ve Veri yapıları; Genişletilmiş Boole modeli, Prentice-Hall, Inc.

Referanslar

  1. ^ Fox, E. A .; S. Sharat (1986), Bilgi Erişimde Yumuşak Boole Yorumlama İçin İki Yöntem Karşılaştırması, Teknik Rapor TR-86-1, Virginia Tech, Department of Computer Science
  2. ^ a b c Lee, W. C .; E.A. Fox (1988), Boolean Sorguları Yorumlamak için Şemaların Deneysel Karşılaştırması
  3. ^ Paice, C.D. (1984), Bilgi Erişim Sistemlerinde Boolean Arama Sorgularının Yumuşak Değerlendirmesi, Bilgi Teknolojileri, Arş. Dev. Uygulamalar, 3 (1), 33-42
  4. ^ Kang, Bo-Yeong; Dae-Won Kim; Hae-Jung Kim (2005), "Kavram Tanımlamasına Göre Dizine Alınmış Bulanık Bilgi Erişimi", Metin, Konuşma ve Diyalog, Bilgisayar Bilimleri Ders Notları, 3658, Springer Berlin / Heidelberg, s. 179–186, doi:10.1007/11551874_23, ISBN  978-3-540-28789-6
  5. ^ Zadrozny, Sławomir; Nowacka, Katarzyna (2009), "Bulanık bilgi erişim modeli yeniden ziyaret edildi", Bulanık Kümeler ve Sistemler, Elsevier North-Holland, Inc., 160 (15): 2173–2191, doi:10.1016 / j.fss.2009.02.012