Otomatik sözlük edinimi - Automatic acquisition of lexicon - Wikipedia

Otomatik sözlük edinimi bir dilin karmaşık bir morfolojik sözlüğünün geliştirilmesi için kullanılan bilgisayarlı bir süreçtir. Sözlük, NLP için gereklidir (Doğal dil işleme ) ve herhangi bir geniş kapsamlı ayrıştırıcı için bir ön koşul.[1]İki ana gereksinim şunları temsil eder: çiğ külliyat ve morfolojik açıklama dilin. Amaç sağlamaktır lemmalar bu, külliyatta geçen tüm kelimelerin açıklamasına hizmet edecek. Kaliteli bir sözlüğün elde edilmesi için, üretilen lemaları manuel olarak doğrulamak ve tüm süreci birkaç kez yinelemek gerekir. açık kelime sınıfları (örneğin isimler, sıfatlar, fiiller). Kapalı sınıflar (ör. Edatlar, zamirler, rakamlar) hariçtir. Bu yöntem Slovakça, Rusça veya Hırvatça gibi zengin morfolojiye sahip diller için geçerlidir.

Uygulanan Slovak otomatik edinim çekimsel bir dil olarak çekim morfolojisine ve türev morfolojisine odaklanır. Bu gerçek, kullanıcıların sözlükteki türevsel ilişkiler (örneğin sıfatlar, ön ekler) hakkındaki bilgileri bulmalarını sağlar. Örneğin, Slovakça kelime Korpusový bir sıfattır Korpus (eng. külliyat).

Üç adımlı döngü

Benoît Sagot'a uygun,[1] lemmaların edinilmesiyle ilgili üç aşama vardır:

  • 1. Nesil ve çekim
  • 2. Sıralama
  • 3. Manuel doğrulama

Ne kadar çok yineleme yapılırsa, o kadar doğru bir sözlük elde edilecektir. Her bir yineleme için, manuel bir doğrulayıcı tarafından verilen bilgiler gereklidir.

Nesil ve çekim

İlk olarak, kapalı kelime sınıflarını (zamirler, edatlar, rakamlar) temsil eden tüm kelimeler verilen külliyattan manuel olarak çıkarılır. Külliyatta geçiş sayıları verilir ve bir dilin morfolojik tanımına göre varsayımsal lemmalar oluşturulduğunda otomatik nesil gelir. Üretilen lemmalar sonuç olarak çekilir, böylece tüm çekimli formları inşa edilir. Elde edilen formlar, karşılık gelen lemma ve bir morfolojik etiket ile ilişkilendirilir.

Sıralama

İlk adımda oluşturulan varsayımsal lemaları sıralamak için bir sabit nokta algoritmasıyla temsil edilen olasılıksal bir model oluşturuldu. En iyi dereceli lemmaların ideal olarak hepsinin doğru olması beklenirken, en düşük dereceli lemaların yanlış olma eğilimindedir.

Manuel doğrulama

Önceki adımda oluşturulan en iyi dereceli lemaların doğruluğu, ana dili İngilizce olması gereken manuel doğrulayıcı tarafından kontrol edilir. Lemmalar bu aşamada üç kategoriye ayrılır: - geçerli formlar tarafından oluşturulan sözlük hatalı lemmalara eklenmiş geçerli lemmalar (daha sonra başka bir lemalarla ilişkilendirilir) - geçersiz formlar tarafından üretilen hatalı lemmalar (bunların hariç tutulması gerekir)

Gelecek geliştirme

Otomatik edinim, sözlüklerin tamamen manuel olarak geliştirilmesine kıyasla, ihtiyaç duyulan kısa doğrulama süresi ve nispeten az miktarda insan emeği nedeniyle, gelecekteki gelişme göz önüne alındığında umut verici görünüyor.

Referanslar

  1. ^ a b Sagot, Benoît. Bir Raw Corpus'tan otomatik olarak bir Slovak Sözlüğü edinimi. [1]

Dış bağlantılar

  • Benoît Sagot yayınları [2]