Metin bölümleme - Text segmentation

Metin bölümleme yazılı metni kelimeler gibi anlamlı birimlere ayırma işlemidir, cümleler veya konular. Terim her ikisi için de geçerlidir zihinsel süreçler insanlar tarafından metin okurken kullanılır ve bilgisayarlarda uygulanan yapay süreçler doğal dil işleme. Sorun önemsiz değildir, çünkü bazı yazılı dillerde yazılı İngilizcenin kelime boşlukları ve farklı ilk, orta ve son harf şekilleri gibi açık kelime sınırı işaretleri varken Arapça, bu tür sinyaller bazen belirsizdir ve tüm yazılı dillerde mevcut değildir.

Karşılaştırmak konuşma bölütleme, konuşmayı dilbilimsel olarak anlamlı kısımlara bölme süreci.

Segmentasyon sorunları

Kelime segmentasyonu

Kelime segmentasyonu, bir yazı dili dizisini bileşen kelimelere bölme sorunudur.

İngilizce ve diğer birçok dilde Latin alfabesi, Uzay iyi bir yaklaşımdır kelime bölücü (kelime sınırlayıcı ), bu kavramın hangi dillerdeki değişkenlik nedeniyle sınırları olsa da emikçe saygı eşdizimler ve Bileşikler. Birçok İngilizce bileşik isimler değişken şekilde yazılır (örneğin, buz kutusu = buz kutusu = buz kutusu; domuz arpacık = domuz ahırı = domuz ahırı ) karşılık gelen bir varyasyonla, konuşmacıların bunları tamlamalar veya tek isimler; Normların nasıl belirlendiğine dair eğilimler vardır, örneğin, açık bileşikler genellikle yaygın bir konvansiyonla sonunda katılaşma eğilimindedir, ancak varyasyon sistemik kalır. Tersine, Almanca bileşik isimler katılaşma daha güçlü bir norm olmakla birlikte, daha az ortografik varyasyon gösterir.

Bununla birlikte, kelime boşluk karakterinin eşdeğeri tüm yazılı komut dosyalarında bulunmaz ve onsuz kelime bölütleme zor bir problemdir. Önemsiz bir kelime bölümleme sürecine sahip olmayan diller arasında Çince, Japonca bulunur. cümleler ama kelimeler sınırlandırılmaz, Tay dili ve Lao, kelime öbekleri ve cümlelerin sınırlandırıldığı ancak kelimelerin sınırlı olmadığı ve Vietnam, hecelerin sınırlandırıldığı ancak sözcüklerin sınırlandırılmadığı.

Ancak bazı yazı sistemlerinde Ge'ez komut dosyası için kullanılır Amharca ve Tigrinya diğer dillerin yanı sıra, kelimeler boşluk olmayan bir karakterle (en azından tarihsel olarak) açıkça sınırlandırılmıştır.

Unicode Konsorsiyumu bir yayınladı Metin Bölümlemeye İlişkin Standart Ek,[1] multiscript metinlerde bölümleme konularının araştırılması.

Kelime bölme süreci ayrıştırma sıralı kelime sonlarının nerede olduğunu anlamak için metin (yani boşluk veya başka kelime ayırıcı içermeyen metin).

Sözcük bölme, aynı zamanda tireleme.

Amaç segmentasyonu

Niyet segmentasyonu, yazılı kelimeleri anahtar kelimelere (2 veya daha fazla kelime grubu) bölme sorunudur.

İngilizce'de ve diğer tüm dillerde, temel amaç veya arzu tanımlanır ve anahtar sözcük Amaç segmentasyonunun temel taşı haline gelir. Temel ürün / hizmet, fikir, eylem ve veya düşünce anahtar sözcüğü sabitler.

"[Her şey yapılmıştır atomlar]. [Küçük parçacıklar bu hareket] [sürekli etrafta hareket], [her birini çekiyor diğer] [onlar küçükken mesafe ayrı], [ancak itici] [var olduktan sonra sıkılmış] [içine bir başka]."

Cümle bölütleme

Cümle bölütleme, bir yazı dizgesini bileşenine bölme sorunudur. cümleler. İngilizce ve diğer bazı dillerde, özellikle noktalama işaretleri kullanarak tam durak / nokta karakteri makul bir yaklaşımdır. Bununla birlikte, İngilizcede bile bu sorun, kısaltmalar için tam son karakterinin kullanılması nedeniyle önemsiz değildir, bu da bir cümleyi sonlandırabilir veya sonlandırmayabilir. Örneğin, Bay. kendi cümlesi değil "Bay Smith, Jones Caddesi'ndeki dükkanlara gitti. " Düz metin işlenirken, nokta içeren kısaltma tabloları, cümle sınırlarının yanlış atanmasını önlemeye yardımcı olabilir.

Sözcük bölütlemede olduğu gibi, tüm yazılı diller cümle sınırlarını yaklaştırmak için yararlı olan noktalama karakterleri içermez.

Konu segmentasyonu

Konu analizi iki ana görevden oluşur: konu tanımlama ve metin bölümleme. İlki basit olsa da sınıflandırma Belirli bir metnin ikinci durumu, bir belgenin birden fazla konu içerebileceğini ve bilgisayarlı metin bölümlemenin görevi, bu konuları otomatik olarak keşfetmek ve metni buna göre bölümlere ayırmak olabilir. Konu sınırları, bölüm başlıklarından ve paragraflardan anlaşılabilir. Diğer durumlarda, kullanılanlara benzer tekniklerin kullanılması gerekir. belge sınıflandırması.

Metni bölümlere ayırmak konular veya söylem dönüşler bazı doğal işleme görevlerinde yararlı olabilir: gelişebilir bilgi alma veya Konuşma tanıma önemli ölçüde (belgeleri daha kesin olarak indeksleyerek / tanımak suretiyle veya sonuç olarak sorguya karşılık gelen bir belgenin belirli bir bölümünü vererek). Aynı zamanda konu algılama ve izleme sistemleri ve özetleyen metin sorunlar.

Birçok farklı yaklaşım denendi:[2][3] Örneğin. HMM, sözcük zincirleri, kelime kullanarak geçiş benzerliği birlikte oluşma, kümeleme, konu modelleme, vb.

Oldukça belirsiz bir görevdir - metin bölümleme sistemlerini değerlendiren insanlar genellikle konu sınırları açısından farklılık gösterir. Dolayısıyla, metin bölümü değerlendirmesi de zorlu bir sorundur.

Diğer segmentasyon sorunları

Metni belirtilen bölümlere ayırmak için işlemler gerekebilir. morfemler (genellikle adı verilen bir görev morfolojik analiz ) veya paragraflar.

Otomatik segmentasyon yaklaşımları

Otomatik segmentasyon şu alandaki problemdir: doğal dil işleme metni bölümlere ayırmak için bir bilgisayar işlemi uygulama.

Noktalama işaretleri ve benzer ipuçları tutarlı bir şekilde mevcut olmadığında, bölümleme görevi genellikle istatistiksel karar verme, büyük sözlükler ve sözdizimsel ve anlamsal kısıtlamaların dikkate alınması gibi oldukça önemsiz olmayan teknikler gerektirir. Etkili doğal dil işleme sistemleri ve metin bölümleme araçları genellikle belirli alan ve kaynaklardaki metin üzerinde çalışır. Örnek olarak, tıbbi kayıtlarda kullanılan metinlerin işlenmesi, haber makalelerini veya emlak reklamlarını işlemekten çok farklı bir sorundur.

Metin bölütleme araçları geliştirme süreci, bir uygulama alanında büyük bir metin külliyatının toplanmasıyla başlar. İki genel yaklaşım vardır:

  • Metnin manuel analizi ve özel yazılım yazma
  • Sınır bilgileriyle örnek külliyatın açıklamasını yapın ve kullanın makine öğrenme

Bazı metin bölümleme sistemleri, HTML gibi herhangi bir işaretlemeden yararlanır ve cümle ve paragraf sınırları için ek kanıt sağlamak için PDF gibi belge biçimlerini bilir.

Ayrıca bakınız

Referanslar

  1. ^ UAX # 29
  2. ^ Freddy Y. Y. Choi (2000). "Etki alanından bağımsız doğrusal metin segmentasyonundaki gelişmeler" (PDF). Hesaplamalı Dilbilim Derneği Kuzey Amerika Bölümü 1. Toplantısı Bildirileri (ANLP-NAACL-00). s. 26–33.
  3. ^ Jeffrey C. Reynar (1998). "Konu Bölümleme: Algoritmalar ve Uygulamalar" (PDF). IRCS-98-21. Pensilvanya Üniversitesi. Alındı 8 Kasım 2007. Alıntı dergisi gerektirir | günlük = (Yardım)