Anlam etiketli külliyatın otomatik edinimi - Automatic acquisition of sense-tagged corpora

Bilgi edinme Darboğaz, belki de sorunu çözmenin önündeki en büyük engeldir. kelime anlamında belirsizlik giderme (WSD) sorunu. Denetimsiz öğrenme yöntemler, sözlüklerde ve sözcüksel veritabanlarında zar zor formüle edilen sözcük duyuları hakkındaki bilgilere dayanır. Denetimli öğrenme yöntemler büyük ölçüde her kelime anlamı için manuel olarak açıklanmış örneklerin varlığına bağlıdır, bu şimdiye kadar yalnızca test amaçlı bir avuç kelime için karşılanmalıdır, çünkü Senseval egzersizler.

Mevcut yöntemler

Bu nedenle, WSD araştırmalarındaki en umut verici eğilimlerden biri, şimdiye kadar erişilebilen en büyük külliyatın kullanılmasıdır: Dünya çapında Ağ, sözcük bilgisini otomatik olarak elde etmek için.[1] WSD, geleneksel olarak, aşağıdaki gibi uygulamaları geliştirebilen bir ara dil mühendisliği teknolojisi olarak anlaşılmıştır. bilgi alma (IR). Ancak bu durumda, bunun tersi de doğrudur: Web arama motorları, WSD'de kullanılacak bilgiler için Web'de araştırma yaparken başarıyla kullanılabilen basit ve sağlam IR tekniklerini uygular.

Web'i (ve diğerlerini) kullanmanın en doğrudan yolu corpora ) WSD performansını artırmak, beslenmek için temel kaynak olan, duyu etiketli kurumların otomatik olarak edinilmesidir. denetimli WSD algoritmaları. Bu, WSD literatüründe sıradan olmaktan uzak olsa da, bu amaca ulaşmak için bir dizi farklı ve etkili strateji zaten önerilmiştir. Bu stratejilerden bazıları:

Özet

İyimser sonuçlar

Gözden geçirilen denetimli öğrenme algoritmalarını eğitmek için örneklerin otomatik olarak çıkarılması, kelime anlamındaki belirsizliği ortadan kaldırmak için web'de araştırma yapmak için açık ara en iyi araştırılmış yaklaşım olmuştur. Bazı sonuçlar kesinlikle cesaret vericidir:

  • Bazı deneylerde, WSD için Web verilerinin kalitesi, insan etiketli örneklerinkine eşittir. Monosemous akrabalar artı Semcor tohumları tekniği ile bootstrapping vakası budur.[2] ve ODP Web dizinlerinden alınan örnekler.[3] Ancak ilk durumda, Semcor boyutlu örnek tohumlar gereklidir (ve yalnızca İngilizce için mevcuttur) ve yalnızca çok sınırlı sayıda isimle test edilmiştir; ikinci durumda kapsam oldukça sınırlıdır ve alınan örneklerin kalitesinden ödün vermeden büyütülebileceği henüz net değildir.
  • Gösterildi[4] Yalnızca web verileriyle eğitilmiş ana akım denetimli bir öğrenme tekniğinin, Senseval-2'ye katılan tüm denetimsiz WSD sistemlerinden daha iyi sonuçlar elde edebileceği.
  • Web örnekleri, en iyi Senseval-2 İngilizce tüm sözcükler sistemine önemli bir katkı yaptı.[5]

Zorluklar

Bununla birlikte, WSD'de Web örneklerinin kullanımıyla ilgili birkaç açık araştırma sorunu vardır:

  • Alınan örneklerde yüksek kesinlik (yani örnekler için doğru algılama atamaları) mutlaka iyi denetlenen WSD sonuçlarına yol açmaz (yani örnekler eğitim için muhtemelen yararlı değildir).[6]
  • Denetimli WSD için Web örneklerinin en eksiksiz değerlendirmesi[7] Web verileriyle öğrenmenin denetimsiz tekniklere göre geliştiğini, ancak sonuçların yine de elle etiketlenmiş verilerle elde edilenlerden çok uzak olduğunu ve hatta en sık görülen temeli geçmediğini belirtir.
  • Sonuçlar her zaman yeniden üretilemez; aynı veya benzer teknikler, farklı deneylerde farklı sonuçlara yol açabilir. Örneğin Mihalcea (2002[8]) Agirre ve Martínez (2004[9]) veya Agirre and Martínez (2000[10]) Mihalcea ve Moldovan ile (1999[11]). Web verileriyle elde edilen sonuçlar, öğrenme algoritmasındaki küçük farklılıklara, külliyatın çıkarıldığı zamana (arama motorları sürekli değişir) ve küçük sezgisel sorunlara (örneğin, alınan örneklerin bir kısmını atmak için filtrelerdeki farklılıklar) çok duyarlı görünmektedir.
  • Sonuçlar büyük ölçüde önyargıya bağlıdır (yani, kelime anlamı başına örneklerin göreceli sıklığına).[12] Bunun sadece bir Web verisi sorunu mu yoksa denetimli öğrenme tekniklerinin kendine özgü bir sorunu mu yoksa sadece WSD sistemlerinin nasıl değerlendirildiğine ilişkin bir sorun mu olduğu açık değildir (aslında, oldukça küçük Senseval verileriyle test etmek, elde edilen duyu dağılımlarına kıyasla duyu dağılımlarını aşırı vurgulayabilir. tam Web'den korpus olarak).
  • Her durumda, Web verilerinin kendine özgü bir önyargısı vardır, çünkü arama motorlarına yapılan sorgular doğrudan alınan örneklerin bağlamını kısıtlar. Her anlamda birkaç farklı çekirdek / sorgu kullanmak gibi bu sorunu hafifleten yaklaşımlar vardır.[13] veya Web dizinlerine duyu atamak ve ardından örnekler için dizinleri taramak;[14] ancak bu sorun yine de çözülmekten uzaktır.
  • Örneklerden oluşan bir Web topluluğu oluşturulduktan sonra, dağıtımının yasal açıdan güvenli olup olmadığı tam olarak açık değildir.

Gelecek

Web'den otomatik olarak örneklerin alınmasının yanı sıra, Web'den kazanç sağlayan başka WSD deneyleri de vardır:

  • Sosyal ağ olarak Web, ortak açıklama bir külliyatın (OMWE, Açık Fikir Kelime Uzmanı projesi),[15] Zaten üç Senseval-3 görevinde (İngilizce, Romence ve Çok Dilli) kullanılmış olan.
  • Web, WordNet duyularını etki alanı bilgileriyle zenginleştirmek için kullanılmıştır: konu imzaları[16] ve Web dizinleri,[17] WSD için başarıyla kullanılmıştır.
  • Ayrıca, bazı araştırmalar, Wikipedia sürdürür belirsizliği giderme sayfaları.[18][19]

Gayet net,[kime göre? ] ancak, çoğu araştırma fırsatı büyük ölçüde keşfedilmemiş durumda. Örneğin, bilgi tabanlı WSD sistemlerinde Web'den çıkarılan sözcük bilgisinin nasıl kullanılacağı hakkında çok az şey bilinmektedir; WSD'de paralel korporayı kullanan etkili algoritmalar olmasına rağmen, WSD için Web madenciliğine dayalı paralel korporayı kullanan sistemleri bulmak da zordur.

Referanslar

  1. ^ Kilgarriff, A .; G. Grefenstette. 2003. Korpus olarak Web'deki özel sayıya giriş. Hesaplamalı Dilbilim 29 (3)
  2. ^ Mihalcea, Rada. 2002. Bootstrapping geniş anlamda corpora etiketli. Dil Kaynakları ve Değerlendirme Konferansı (LREC) Bildirileri, Las Palmas, İspanya.
  3. ^ Santamaría, Celina, Julio Gonzalo ve Felisa Verdejo. 2003. Web dizinlerinin kelime duyularıyla otomatik ilişkilendirilmesi. Hesaplamalı Dilbilim, 29 (3): 485–502.
  4. ^ Agirre, Eneko ve David Martínez. 2004. Otomatik olarak alınan örneklere dayalı olarak denetlenmeyen WSD: Önyargının önemi. Doğal Dil İşlemede Ampirik Yöntemler Konferansı Bildirileri (EMNLP), Barselona, ​​İspanya, 25–33.
  5. ^ Mihalcea, Rada. 2002a. Kalıp öğrenme ve otomatik özellik seçimi ile kelime anlamında belirsizlik giderme. Natural Language Engineering, 8 (4): 348–358.
  6. ^ Agirre, Eneko ve David Martínez. 2000. Karar listeleri ve Web ile otomatik kelime anlamındaki belirsizliği keşfetme. Anlamsal Açıklama ve Akıllı Açıklama Üzerine COLING Çalıştayı Bildirileri, Lüksemburg, 11–19.
  7. ^ Agirre, Eneko ve David Martínez. 2004. Otomatik olarak alınan örneklere dayalı olarak denetlenmeyen WSD: Önyargının önemi. Doğal Dil İşlemede Ampirik Yöntemler Konferansı Bildirileri (EMNLP), Barselona, ​​İspanya, 25–33.
  8. ^ Mihalcea, Rada. 2002b. Bootstrapping geniş anlamda corpora etiketli. Dil Kaynakları ve Değerlendirme Konferansı (LREC) Bildirileri, Las Palmas, İspanya.
  9. ^ Agirre, Eneko ve David Martínez. 2004. Otomatik olarak alınan örneklere dayalı olarak denetlenmeyen WSD: Önyargının önemi. Doğal Dil İşlemede Ampirik Yöntemler Konferansı Bildirileri (EMNLP), Barselona, ​​İspanya, 25–33.
  10. ^ Agirre, Eneko ve David Martínez. 2000. Karar listeleri ve Web ile otomatik kelime anlamındaki belirsizliği keşfetme. Anlamsal Ek Açıklama ve Akıllı Açıklama Üzerine COLING Çalıştayı Bildirileri, Lüksemburg, 11–19.
  11. ^ Mihalcea, Rada ve Dan Moldovan. 1999. Sense etiketli corpora oluşturmak için otomatik bir yöntem. Amerikan Yapay Zeka Derneği'nin (AAAI) Bildirileri, Orlando, ABD, 461–466.
  12. ^ Agirre, Eneko ve David Martínez. 2004. Denetlenmeyen WSD, otomatik olarak elde edilen örneklere dayalıdır: Önyargının önemi. Doğal Dil İşlemede Ampirik Yöntemler Konferansı Bildirileri (EMNLP), Barselona, ​​İspanya, 25–33.
  13. ^ Mihalcea, Rada. 2002b. Bootstrapping geniş anlamda corpora etiketli. Dil Kaynakları ve Değerlendirme Konferansı (LREC) Bildirileri, Las Palmas, İspanya.
  14. ^ Santamaría, Celina, Julio Gonzalo ve Felisa Verdejo. 2003. Web dizinlerinin kelime duyularıyla otomatik ilişkilendirilmesi. Hesaplamalı Dilbilim, 29 (3): 485–502.
  15. ^ Chklovski, Tim ve Rada Mihalcea. 2002. Açık Zihin Kelime Uzmanı ile duyu etiketli bir külliyat oluşturma. Kelime Anlamında Belirsizliği Giderme üzerine ACL SIGLEX Çalıştayı Bildirileri: Son Başarılar ve Gelecek Yönergeler, Philadelphia, ABD, 116–122.
  16. ^ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy ve David Martínez. 2000. WWW kullanarak çok büyük ontolojileri zenginleştirme. Ontoloji Öğrenme Çalıştayı Bildirileri, Avrupa Yapay Zeka Konferansı (ECAI), Berlin, Almanya.
  17. ^ Santamaría, Celina, Julio Gonzalo ve Felisa Verdejo. 2003. Web dizinlerinin kelime duyularıyla otomatik ilişkilendirilmesi. Hesaplamalı Dilbilim, 29 (3): 485–502.
  18. ^ Denis Turdakov, Pavel Velikhov. Link Analizine Dayalı Wikipedia Kavramları için Anlamsal İlişki Metriği ve Kelime Anlamında Belirsizliği Giderme için Uygulaması // SYRCoDIS.
  19. ^ Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» .- 2009. pdf (rusça)