Truecasing - Truecasing

Truecasing sorun mu doğal dil işleme (NLP) uygun olanı belirleme Kapitalizasyon Bu tür bilgilerin mevcut olmadığı kelimelerin. Bu genellikle standart uygulama nedeniyle ortaya çıkar ( ingilizce ve diğer birçok dil) bir cümlenin ilk kelimesinin otomatik olarak büyük harfle yazılması. Ayrıca kötü büyük / küçük harfli veya tamamen büyük olmayan metinde de ortaya çıkabilir (örneğin, tümü küçük veya tümü büyük harf) Metin mesajları ).

Truecasing, komut dosyalarında büyük ve küçük harfler arasında bir ayrım olmayan dillerde gereksizdir. Bu, içinde yazılmayan tüm dilleri içerir. Latince, Yunan, Kiril veya Ermeni alfabesi, gibi Japonca, Çince, Tay dili, İbranice, Arapça, Hintçe, ve Gürcü.

Teknikler

  • Cümle bölütleme Cümlelerin nerede başladığını belirlemek, her cümlenin ilk kelimesinin büyük harfle yazılması kuralını uygulamak için kullanılabilir.
  • Konuşma bölümü etiketleme büyük harfle yazılması gereken uygun isimleri tanımlamak için kullanılabilir. Bazı durumlarda, aynı kelime farklı sözcük türleri olarak kullanılabilir ve farklı şekilde büyük harfle yazılır. Örneğin, Xerox şirket, isim olarak büyük harfle yazılır, ancak bir belgeyi xerox için fiil olarak büyük harfle yazılmaz. Bir xerox, bir belgenin kopyasında olduğu gibi, bir belgenin varlığıyla tanınabilir. belirleyici, özel isimler için kullanılmaz.
  • Adlandırılmış varlık tanıma büyük harfle yazılması gereken uygun isimleri tanımlamak için kullanılabilir.
  • Bir yazım denetleyicisi her zaman büyük harfle yazılan kelimeleri tanımlamak için kullanılabilir.

Başvurular

Truecasing yardımları gibi diğer NLP görevlerinde adlandırılmış varlık tanıma, otomatik içerik çıkarma, ve makine çevirisi.[1]Uygun şekilde büyük harf kullanımı, NER ve ACE'nin başlangıç ​​noktaları olan doğru isimlerin daha kolay tespit edilmesini sağlar. Bazı çeviri sistemleri istatistiksel makine öğrenimi doğruluğu artırmak için büyük harf kullanımında bulunan bilgileri kullanabilen teknikler.

Referanslar

  1. ^ Lita, L. V .; Ittycheriah, A .; Roukos, S .; Kambhatla, N. (2003). "EKSİKLİK". Hesaplamalı Dilbilim Derneği 41. Yıllık Toplantısı Bildirileri. Sapporo, Japonya. s. 152–159.