Metin basitleştirme - Text simplification

Metin basitleştirme kullanılan bir işlemdir doğal dil işleme İnsan tarafından okunabilir metnin mevcut bir külliyatını, düzyazının grameri ve yapısı büyük ölçüde basitleştirilecek şekilde değiştirmek, geliştirmek, sınıflandırmak veya başka şekilde işlemek anlam ve bilgi aynı kalmak. Metnin sadeleştirilmesi önemli bir araştırma alanıdır, çünkü doğal insan dilleri genellikle büyük kelime dağarcığı ve kolayca işlenemeyen karmaşık bileşik yapılar içerir. otomasyon. Dil çeşitliliğini azaltmak açısından, anlamsal sıkıştırma verilen metinlerde kullanılan bir dizi kelimeyi sınırlamak ve basitleştirmek için kullanılabilir.

Misal

Metin Basitleştirme, Siddharthan'dan (2006) bir örnekle gösterilmektedir.[1] İlk cümle iki ilgili cümle ve birleşik bir fiil cümlesi içerir. Bir metin sadeleştirme sistemi, ilk cümleyi ikinci cümleye kadar basitleştirmeyi amaçlamaktadır.

  • Analist, bakırdaki sıkılığa da katkıda bulunan, Chicago satın alma acenteleri tarafından bugün teslim edilmesi gereken tam satın alma acenteleri raporundan önce gelen ve tam raporun neler içerebileceğine dair bir gösterge veren bir rapor olduğunu belirtti.
  • Analist ayrıca, bakırdaki sertliğe katkıda bulunan, Chicago satın alma acentelerinin bir raporu olduğunu belirtti. Chicago raporu, tam satın alma acenteleri raporundan önce gelir. Chicago raporu, tam raporun neler içerebileceğine dair bir ipucu veriyor. Raporun tamamı bugün çıkacak.

Metni sadeleştirmeye yönelik bir yaklaşım, sözcüksel sadeleştirme üzerinden sözcük ikamesi karmaşık kelimelerin tanımlanmasından ve bunların daha basit eşanlamlılarla değiştirilmesinden oluşan iki aşamalı bir süreç. Buradaki temel zorluk, etiketli veriler üzerinde eğitilmiş bir makine öğrenimi sınıflandırıcısı tarafından gerçekleştirilen karmaşık kelimeleri tanımlamaktır. Basit ya da karmaşık olarak kelimelere ikili etiketleri uygulamanın klasik yöntemlerine göre bir gelişme, etiketleyicilerden kelimeleri karmaşıklık sırasına göre sıralamalarını istemektir; bu, sonuç etiketlerinin daha yüksek tutarlılığı ile sonuçlanır.[2]

Ayrıca bakınız

Referanslar

  1. ^ Siddharthan, Advaith (28 Mart 2006). "Sözdizimsel Basitleştirme ve Metin Uyum". Dil ve Hesaplama Üzerine Araştırma. 4 (1): 77–109. doi:10.1007 / s11168-006-9011-1. S2CID  14619244.
  2. ^ Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (Ağustos 2019). "Karşılaştırmalı yargılar, kelime karmaşıklığını etiketlemek için ikili sınıflandırmadan daha tutarlıdır". 13. Dilbilimsel Açıklama Çalıştayı Bildirileri: 208–214. doi:10.18653 / v1 / W19-4024. Alındı 22 Kasım 2019.
  • Wei Xu, Chris Callison-Burch ve Courtney Napoles. "Güncel Metin Basitleştirme Araştırmalarındaki Sorunlar ". İşlemlerde Hesaplamalı Dilbilim Derneği (TACL), Cilt 3, 2015, Sayfa 283-297.
  • Advaith Siddharthan. "Sözdizimsel Basitleştirme ve Metin Uyum ". In Research on Language and Computation, Cilt 4, Sayı 1, Haziran 2006, Sayfa 77–109, Springer Science, Hollanda.
  • Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral ve Graciela Gonzalez. Biyomedikal Metnin Otomatik İşlenmesi İçin Etkili Cümle Sadeleştirmesine Doğru. Proc. NAACL-HLT 2009, Boulder, ABD, Haziran. [1]

Dış bağlantılar