Bigram - Bigram

Bir Bigram veya digram iki bitişik elemanın bir dizisidir dizi nın-nin jetonlar, tipik olarak harfler, heceler veya kelimelerdir. Bigram bir ngram için n= 2. Bir dizedeki her bigramın frekans dağılımı, genellikle hesaplamalı dilbilim, kriptografi, konuşma tanıma vb. Dahil birçok uygulamada metnin basit istatistiksel analizi için kullanılır.

Gappy bigrams veya bigramları atlama boşluklara izin veren kelime çiftleridir (belki de kelimeleri birleştirmekten kaçınmak veya bazı bağımlılık simülasyonlarına izin vermek, bağımlılık grameri ).

Baş kelimesi bigrams açık bir bağımlılık ilişkisine sahip boşluklu bigramlardır.

Detaylar

Bigrams, önceki belirteç verilen bir belirtecin koşullu olasılığını sağlamaya yardımcı olur. şartlı olasılık uygulandı:

Yani olasılık bir simgenin önceki belirteç verildiğinde Bigram'larının olasılığına veya iki jetonun birlikte oluşma olasılığına eşittir , önceki jetonun olasılığına bölünür.

Başvurular

Bigram'lar en başarılı dil modelleri için Konuşma tanıma.[1] Bunlar özel bir durumdur N-gram.

Bigram frekans saldırıları, kriptografi çözmek için kriptograflar. Görmek frekans analizi.

Bigram frekansı bir yaklaşımdır istatistiksel dil tanımlama.

İçinde bazı aktiviteler logoloji veya rekreasyonel dilbilim, bigramları içerir. Bunlar, olası her bigram ile başlayan İngilizce kelimeleri bulma girişimlerini içerir.[2] veya yinelenen bir bigram dizisi içeren kelimeler; logogogue.[3]

İngiliz dilinde Bigram frekansı

Küçük bir İngilizce külliyatında en yaygın bigram harflerinin sıklığı şöyledir:[4]

th 1.52 en 0.55 ng 0.18he 1.28 ed 0.53 of 0.16in 0.94 to 0.52 al 0.09er 0.94 it 0.50 de 0.09an 0.82 ou 0.50 se 0.08re 0.68 ea 0.47 le 0.08nd 0.63 hi 0.46 sa 0.06at 0.59 is 0.46 si 0.05on 0.57 veya 0.43 ar 0.04nt 0.56 ti 0.34 ve 0.04ha 0.56 as 0.33 ra 0.04es 0.56 te 0.27 ld 0.02st 0.55 et 0.19 ur 0.02

Daha büyük bir külliyat için eksiksiz bigram frekansları mevcuttur.[5][6]

Ayrıca bakınız

Referanslar

  1. ^ Collins, Michael John (1996-06-24). "Bigram sözcük bağımlılıklarına dayalı yeni bir istatistiksel ayrıştırıcı". Bilişimsel Dilbilim Derneği'nin 34. yıllık toplantısının bildirileri -. Hesaplamalı Dilbilim Derneği. s. 184–191. arXiv:cmp-lg / 9605012. doi:10.3115/981863.981888. Alındı 2018-10-09.
  2. ^ Cohen, Philip M. (1975). "İlk Bigrams". Kelime Yolları. 8 (2). Alındı 11 Eylül 2016.
  3. ^ Corbin, Kyle (1989). "İkili, Üçlü ve Dörtlü Bigramlar". Kelime Yolları. 22 (3). Alındı 11 Eylül 2016.
  4. ^ Cornell Math Explorer's Project - Substitution Ciphers
  5. ^ Jones, Michael N; D J K Mewhort (Ağustos 2004). "Büyük ölçekli İngilizce külliyatından büyük / küçük harfe duyarlı harf ve bigram sıklığı sayıları". Davranış Araştırma Yöntemleri, Araçları ve Bilgisayarları. 36 (3): 388–396. doi:10.3758 / bf03195586. ISSN  0743-3808. PMID  15641428.
  6. ^ "İngilizce Harf Frekans Sayımları: Mayzner Revisited veya ETAOIN SRHLDCU". norvig.com. Alındı 2019-10-28.