Kneser-Ney yumuşatma - Kneser–Ney smoothing - Wikipedia

Kneser-Ney yumuşatma öncelikle hesaplamak için kullanılan bir yöntemdir olasılık dağıtımı n-gramlar içinde belge geçmişlerine göre.^[1] Yaygın olarak en etkili yöntem olarak kabul edilir. yumuşatma Olasılığın düşük mertebeden şartlarından sabit bir değer çıkararak mutlak indirgeme kullanması nedeniyle n-daha düşük frekanslı gramlar. Bu yaklaşım, hem yüksek hem de düşük mertebede eşit derecede etkili kabul edilmiştir. n-gramlar. Yöntem, Reinhard Kneser, Ute Essen ve Hermann Ney [de ].^[2]

Bu yöntemin arkasındaki kavramı gösteren yaygın bir örnek, Bigram "San Francisco ". Bir eğitimde birkaç kez görünüyorsa külliyat, frekansı unigram "Francisco" da yüksek olacak. Frekanslarını tahmin etmek için sadece unigram frekansına güvenmek n-gramlar çarpık sonuçlara yol açar;^[3] ancak Kneser-Ney düzgünleştirme, kendinden önceki olası kelimelere göre unigramın sıklığını dikkate alarak bunu düzeltir.

Yöntem

İzin Vermek ${ displaystyle c (w, w ')}$ kelimenin geçtiği yerlerin sayısı ${ displaystyle w}$ ardından kelime ${ displaystyle w '}$ külliyatta.

Bigram olasılıkları için denklem aşağıdaki gibidir:

${ displaystyle p_ {KN} (w_ {i} | w_ {i-1}) = { frac { max (c (w_ {i-1}, w_ {i}) - delta, 0)} { toplam _ {w '} c (w_ {i-1}, w')}} + lambda _ {w_ {i-1}} p_ {KN} (w_ {i})}$ ^[4]

Unigram olasılığı nerede ${ displaystyle p_ {KN} (w_ {i})}$ kelimeyi görmenin ne kadar olası olduğuna bağlıdır ${ displaystyle w_ {i}}$ başka bir kelimeden sonra görünme sayısının, külliyatta birbirini izleyen farklı kelime çiftlerinin sayısına bölünmesiyle tahmin edilen alışılmadık bir bağlamda:

${ displaystyle p_ {KN} (w_ {i}) = { frac {| {w ': 0$

Bunu not et ${ displaystyle p_ {KN}}$ yukarıdaki şekilde tanımlanan değerler negatif olmadığından ve toplamı bir olduğundan uygun bir dağılımdır.

Parametre ${ displaystyle delta}$ her n-gramın sayısından çıkarılan iskonto değerini ifade eden bir sabittir, genellikle 0 ile 1 arasındadır.

Normalleştirme sabitinin değeri ${ displaystyle lambda _ {w_ {i-1}}}$ koşullu olasılıkların toplamını yapmak için hesaplanır ${ displaystyle p_ {KN} (w_ {i} | w_ {i-1})}$ her şeyden önce ${ displaystyle w_ {i}}$ bire eşit. Buna dikkat edin (sağlanan ${ displaystyle delta <1}$ ) her biri için ${ displaystyle w_ {i}}$ bağlamında en az bir kez meydana gelen ${ displaystyle w_ {i-1}}$ külliyatta, olasılığı tam olarak aynı sabit tutarda indirgiyoruz ${ displaystyle { delta} / sol ( toplamı _ {w '} c (w_ {i-1}, w') sağ)}$ , bu nedenle toplam indirim doğrusal olarak benzersiz kelimelerin sayısına bağlıdır ${ displaystyle w_ {i}}$ sonra ortaya çıkabilir ${ displaystyle w_ {i-1}}$ Bu toplam indirim, herkese yayabileceğimiz bir bütçedir. ${ displaystyle p_ {KN} (w_ {i} | w_ {i-1})}$ orantılı olarak ${ displaystyle p_ {KN} (w_ {i})}$ Değerleri olarak ${ displaystyle p_ {KN} (w_ {i})}$ toplamı bire, basitçe tanımlayabiliriz ${ displaystyle lambda _ {w_ {i-1}}}$ bu toplam indirime eşit olacak şekilde:

${ displaystyle lambda _ {w_ {i-1}} = { frac { delta} { toplamı _ {w '} c (w_ {i-1}, w')}} | {w ': 0$

Bu denklem n-grama kadar uzatılabilir. İzin Vermek ${ displaystyle w_ {i-n + 1} ^ {i-1}}$ ol ${ displaystyle n-1}$ önceki kelimeler ${ displaystyle w_ {i}}$ :

${ displaystyle p_ {KN} (w_ {i} | w_ {i-n + 1} ^ {i-1}) = { frac { max (c (w_ {i-n + 1} ^ {i- 1}, w_ {i}) - delta, 0)} { toplamı _ {w '} c (w_ {i-n + 1} ^ {i-1}, w')}} + delta { frac {| {w ': 0$ ^[5]

Bu model, daha yüksek ve daha düşük seviyeli dil modellerinden gelen bilgileri içeren mutlak indirgeme interpolasyonu kavramını kullanır. Daha düşük dereceden n-gramlar için terimin eklenmesi, daha yüksek dereceden n-gramların sayımı sıfır olduğunda genel olasılığa daha fazla ağırlık ekler.^[6] Benzer şekilde, n-gram sayısı sıfır olmadığında, düşük dereceden modelin ağırlığı azalır.

Kneser-Ney yumuşatma modifiye edilmiş

Bu yöntemin modifikasyonu da mevcuttur.^[7]

Referanslar

^ 'Yorumlanmış Kneser-Ney NUS Bilgisayar Okulu Teknik Raporunun Bayesçi Bir Yorumu TRA2 / 06'
^ Ney, Hermann; Essen, Ute; Kneser, Reinhard (Ocak 1994). "Stokastik dil modellemesinde olasılıksal bağımlılıkların yapılandırılması üzerine". Bilgisayar Konuşma ve Dili. 8 (1): 1–38. doi:10.1006 / csla.1994.1001.
^ 'Brown Üniversitesi: Hesaplamalı Dilbilime Giriş'
^ 'Kneser Ney Pürüzsüzleştirici Açıklaması'
^ 'NLP Eğitimi: Yumuşatma'
^ 'Dil modelleme için yumuşatma tekniklerinin deneysel bir çalışması'
^ Dil Modelleme için Düzeltme Tekniklerinin Ampirik Bir Çalışması s 21

[1] 'Yorumlanmış Kneser-Ney NUS Bilgisayar Okulu Teknik Raporunun Bayesçi Bir Yorumu TRA2 / 06'

[neykneser94onstructprob-2] Ney, Hermann; Essen, Ute; Kneser, Reinhard (Ocak 1994). "Stokastik dil modellemesinde olasılıksal bağımlılıkların yapılandırılması üzerine". Bilgisayar Konuşma ve Dili. 8 (1): 1–38. doi:10.1006 / csla.1994.1001.

[3] 'Brown Üniversitesi: Hesaplamalı Dilbilime Giriş'

[4] 'Kneser Ney Pürüzsüzleştirici Açıklaması'

[5] 'NLP Eğitimi: Yumuşatma'

[6] 'Dil modelleme için yumuşatma tekniklerinin deneysel bir çalışması'

[7] Dil Modelleme için Düzeltme Tekniklerinin Ampirik Bir Çalışması s 21

[1]

[2]

[3]

[4]

[5]

[6]

[7]