Bulanık geri alma - Fuzzy retrieval

Bulanık geri alma teknikler dayanmaktadır Genişletilmiş Boole modeli ve Bulanık küme teori. İki klasik bulanık alma modeli vardır: Karışık Min ve Maks (MMM) ve Paice modeli. Her iki model de sorgu ağırlıklarını değerlendirmenin bir yolunu sağlamaz, ancak bu, P-normları algoritması.

Karışık Min ve Maks modeli (MMM)

Bulanık küme teorisinde, bir elementin değişen derecelerde üyeliği vardır d_Bir, belirli bir sete Bir geleneksel üyelik seçimi yerine (bir unsurdur / bir unsur değildir).
MMM'de^[1] her bir indeks terimi, kendisiyle ilişkilendirilmiş bir belirsiz kümeye sahiptir. Bir indeks terimine göre bir belgenin ağırlığı Bir ile ilişkili bulanık kümedeki belgenin üyelik derecesi olarak kabul edilir Bir. Bulanık küme teorisinde sendika ve kesişim için üyelik derecesi şu şekilde tanımlanmıştır:

{ displaystyle d_ {A cap B} = min (d_ {A}, d_ {B})}

{ displaystyle d_ {A cup B} = maks (d_ {A}, d_ {B})}

Buna göre form sorgusu için alınması gereken belgeler A veya b, iki kümenin birleşimiyle ilişkili bulanık kümede olmalıdır Bir ve B. Benzer şekilde, bir form sorgusu için alınması gereken belgeler A ve B, iki kümenin kesişimiyle ilişkili bulanık kümede olmalıdır. Bu nedenle, bir belgenin benzerliğini tanımlamak mümkündür. veya olmak için sorgu max (d_Bir, d_B) ve belgenin benzerliği ve olmak için sorgu zihin_Bir, d_B). MMM modeli, sorgu-belge benzerliğinin doğrusal bir kombinasyon olduğunu düşünerek Boole işleçlerini yumuşatmaya çalışır. min ve max belge ağırlıkları.

Bir belge verildi D endeks terim ağırlıkları ile d_A1, d_A2, ..., d_Bir şartlar için Bir₁, Bir₂, ..., A_nve sorgular:

Q_veya = (A₁ veya A₂ veya ... veya A_n)
Q_ve = (A₁ ve A₂ ve ... ve A_n)

MMM modelindeki sorgu-belge benzerliği şu şekilde hesaplanır:

SLM (Q_veya, D) = C_veya1 * maks (d_A1, d_A2, ..., d_Bir) + C_veya2 * zihin_A1, d_A2, ..., d_Bir)
SlM (Q_ve, D) = C_{ve 1} * zihin_A1, d_A2, ..., d_Bir) + C_{ve 2} * maks (d_A1, d_A2 ..., d_Bir)

nerede C_veya1, C_veya2 "yumuşaklık" katsayıları veya operatör ve C_{ve 1}, C_{ve 2} yumuşaklık katsayılarıdır ve Şebeke. Belge ağırlıklarına maksimum önem vermek istediğimiz için veya sorgu ve minimum daha fazla önem dikkate alınırken ve sorgu, genellikle bizde C_veya1 > C_veya2 ve C_{ve 1} > C_{ve 2}. Basit olması açısından, genellikle C_veya1 = 1 - C_veya2 ve C_{ve 1} = 1 - C_{ve 2}.

Lee ve Fox^[2] deneyler, en iyi performansın genellikle C_{ve 1} [0,5, 0,8] aralığında ve C_veya1 > 0.2. Genel olarak, MMM'nin hesaplama maliyeti düşüktür ve geri alma etkinliği, Standart Boole modeli.

Paice modeli

Paice model^[3] MMM modelinin genel bir uzantısıdır. Endeks terimleri için yalnızca minimum ve maksimum ağırlıkları dikkate alan MMM modeliyle karşılaştırıldığında, Paice modeli benzerliği hesaplarken tüm terim ağırlıklarını içerir:

{ displaystyle S (D, Q) = toplam _ {i = 1} ^ {n} { frac {r ^ {i-1} * w_ {di}} { toplamı _ {j = 1} ^ { n} r ^ {j-1}}}}

nerede r sabit bir katsayıdır ve w_di artan sırada düzenlenmiştir ve için sorgular ve azalan sıra veya sorguları. N = 2 olduğunda, Paice modeli MMM modeliyle aynı davranışı gösterir.

Lee ve Fox'un deneyleri^[2] ayarlamanın r 1.0 için ve sorgular ve 0.7 için veya sorgular iyi bir geri getirme etkinliği sağlar. Bu modelin hesaplama maliyeti, MMM modelinden daha yüksektir. Bunun nedeni, MMM modelinin yalnızca aşağıdakilerin belirlenmesini gerektirmesidir: min veya max her seferinde bir dizi terim ağırlığı ve veya veya cümle kabul edilir, ki bu yapılabilir O (n). Paice modeli, terim ağırlıklarının artan veya azalan düzende sıralanmasını gerektirir. ve cümle veya bir veya fıkra değerlendiriliyor. Bu, en az bir 0 (n günlük n) sıralama algoritması. Çok sayıda kayan nokta hesaplaması da gereklidir.

Standart Boole modeline göre iyileştirmeler

Lee ve Fox^[2] Standart Boole modelini, CISI, CACM ve INSPEC olmak üzere üç test koleksiyonuyla MMM ve Paice modelleriyle karşılaştırmıştır. Bunlar, ortalama ortalama hassasiyet iyileştirmesi için bildirilen sonuçlardır:

	CISI	CACM	INSPEC
MMM	68%	109%	195%
Paice	77%	104%	206%

Bunlar, Standart modele göre çok iyi iyileştirmelerdir. MMM, Paice ve P-norm sonuçlarına çok yakındır, bu da çok iyi bir teknik olabileceğini ve üçü arasında en verimli olduğunu gösterir.

Son iş

Son günlerde Kang et al..^[4] kavram tanımlama ile indekslenen bulanık bir geri alma sistemi tasarladılar.

Belgelere saf olarak bakarsak Tf-idf yaklaşımı, hatta durdurma kelimelerini ortadan kaldırarak, belgenin konusuyla diğerlerinden daha alakalı kelimeler olacaktır ve aynı terim frekansına sahip oldukları için aynı ağırlığa sahip olacaklardır. Bir sorguda kullanıcının amacını hesaba katarsak, bir belgenin şartlarını daha iyi ağırlıklandırabiliriz. Her terim, o kavramın o belge için önemini tercüme eden belirli bir sözcük zincirindeki bir kavram olarak tanımlanabilir.
Ortalama hassasiyette Paice ve P-normuna göre iyileştirmeler ve alınan İlk 5 belgeye ilişkin geri çağırma bildirirler.

Zadrozny^[5] bulanık bilgi erişim modelini yeniden ziyaret etti. Bulanık genişletilmiş Boole modelini şu şekilde daha da genişletir:

Dilbilimsel terimlerin, belgelerde de anahtar kelimelerin önem ağırlıkları olduğunu varsaymak
belgelerin ve sorguların temsiline ilişkin belirsizliği dikkate alarak
Belgelerin ve sorguların temsilinde dil terimlerini ve bunların Zadeh'in bulanık mantığı (dilbilimsel ifadeler hesabı) açısından eşleştirmelerini yorumlama
Önerilen modelin bazı pragmatik yönlerini, özellikle de belgeleri ve sorguları indeksleme tekniklerini ele almak

Önerilen model, metinsel bilgi temsili ve erişime ilişkin hem belirsizliği hem de belirsizliği kavramayı mümkün kılar.

Ayrıca bakınız

Bilgi alma

daha fazla okuma

Fox, E .; S. Betrabet; M. Koushik; W. Lee (1992), Bilgi Erişimi: Algoritmalar ve Veri yapıları; Genişletilmiş Boole modeli, Prentice-Hall, Inc.

Referanslar

^ Fox, E. A .; S. Sharat (1986), Bilgi Erişimde Yumuşak Boole Yorumlama İçin İki Yöntem Karşılaştırması, Teknik Rapor TR-86-1, Virginia Tech, Department of Computer Science
^ ^a ^b ^c Lee, W. C .; E.A. Fox (1988), Boolean Sorguları Yorumlamak için Şemaların Deneysel Karşılaştırması
^ Paice, C.D. (1984), Bilgi Erişim Sistemlerinde Boolean Arama Sorgularının Yumuşak Değerlendirmesi, Bilgi Teknolojileri, Arş. Dev. Uygulamalar, 3 (1), 33-42
^ Kang, Bo-Yeong; Dae-Won Kim; Hae-Jung Kim (2005), "Kavram Tanımlamasına Göre Dizine Alınmış Bulanık Bilgi Erişimi", Metin, Konuşma ve Diyalog, Bilgisayar Bilimleri Ders Notları, 3658, Springer Berlin / Heidelberg, s. 179–186, doi:10.1007/11551874_23, ISBN 978-3-540-28789-6
^ Zadrozny, Sławomir; Nowacka, Katarzyna (2009), "Bulanık bilgi erişim modeli yeniden ziyaret edildi", Bulanık Kümeler ve Sistemler, Elsevier North-Holland, Inc., 160 (15): 2173–2191, doi:10.1016 / j.fss.2009.02.012

[1] Fox, E. A .; S. Sharat (1986), Bilgi Erişimde Yumuşak Boole Yorumlama İçin İki Yöntem Karşılaştırması, Teknik Rapor TR-86-1, Virginia Tech, Department of Computer Science

[leefox-2] Lee, W. C .; E.A. Fox (1988), Boolean Sorguları Yorumlamak için Şemaların Deneysel Karşılaştırması

[3] Paice, C.D. (1984), Bilgi Erişim Sistemlerinde Boolean Arama Sorgularının Yumuşak Değerlendirmesi, Bilgi Teknolojileri, Arş. Dev. Uygulamalar, 3 (1), 33-42

[4] Kang, Bo-Yeong; Dae-Won Kim; Hae-Jung Kim (2005), "Kavram Tanımlamasına Göre Dizine Alınmış Bulanık Bilgi Erişimi", Metin, Konuşma ve Diyalog, Bilgisayar Bilimleri Ders Notları, 3658, Springer Berlin / Heidelberg, s. 179–186, doi:10.1007/11551874_23, ISBN 978-3-540-28789-6

[5] Zadrozny, Sławomir; Nowacka, Katarzyna (2009), "Bulanık bilgi erişim modeli yeniden ziyaret edildi", Bulanık Kümeler ve Sistemler, Elsevier North-Holland, Inc., 160 (15): 2173–2191, doi:10.1016 / j.fss.2009.02.012

[1]

[2]

[3]

[4]

[5]