İstatistiksel olarak olası olmayan ifade - Statistically improbable phrase

Bir istatistiksel olarak olası olmayan ifade (Yudumlamak) bir belgede (veya belge koleksiyonunda), daha büyük bir belgede olduğundan daha sık geçen bir kelime öbeği veya kelime grubudur. külliyat.[1][2][3] Amazon.com Bir kitabın veya bölümün anahtar sözcüklerinin o bölümde orantısız bir şekilde görünmesi muhtemel olduğundan, bu kavramı belirli bir kitap veya bölüm için anahtar sözcükleri belirlemede kullanır.[4][5] Christian Dümen bu kavramı ayrıca çevrimiçi randevu profilleri ve Twitter kitabındaki belirli bir ırkın veya cinsiyetin en karakteristik ifadelerini belirlemek için gönderiler Dataclysm.[6]

Misal

Bilgisayarlarla ilgili bir belgede, en yaygın kelime muhtemelen "the" kelimesi olacaktır, ancak "the" İngilizce dilinde en yaygın kullanılan kelime olduğundan, herhangi bir belgede "the" kelimesi bulunması muhtemeldir. çok sık kullanılır. Bununla birlikte, belgede "açık Boole algoritması" gibi bir ifade, İngilizce'deki ortalama oranından çok daha yüksek bir oranda ortaya çıkabilir. Bu nedenle, verilen herhangi bir belgede olması muhtemel olmayan bir ifadedir, ancak yaptı verilen belgede meydana gelir. "Açık Boole algoritması" istatistiksel olarak olası olmayan bir ifade olacaktır.

Darwin'in istatistiksel olarak olası olmayan ifadeleri Türlerin Kökeni olabilirdi: Ilıman üretim, cins soy, geçiş aşamaları, bilinmeyen atalar, fosilli oluşumlar, evcil ırklarımız, değiştirilmiş yavrular, şüpheli formlar, yakından ilişkili formlar, karlı varyasyonlar, son derece uzak, geçiş dereceleri, çok farklı türler ve melez yavru.[7]

Ayrıca bakınız

  • Sıralama - Tesadüfen beklenenden daha sık birlikte geçen herhangi bir kelime dizisi
  • Googlewhack - Google tarafından dizine eklendiği şekliyle tek bir web sayfasında yer alan bir çift kelime
  • tf-idf - Bilgi erişiminde ve metin madenciliğinde kullanılan bir istatistik

Referanslar

  1. ^ "SIPping Wikipedia" (PDF). Courses.cms.caltech.edu. Alındı 2017-01-01.
  2. ^ Jonathan Bailey (3 Temmuz 2012). "İstatistiksel Olarak Olasılıksız Bir İfade Ne Kadar Sürmeli?". İntihal Bugün.
  3. ^ Errami, Munir; Güneş, Zhaohui; George, Angela C .; Long, Tara C .; Skinner, Michael A .; Wren, Jonathan D .; Garner, Harold R. (1 Haziran 2010). "İstatistiksel olarak olası olmayan ifadeler kullanarak yinelenen içeriği tanımlama". Biyoinformatik. 26 (11): 1453–1457. doi:10.1093 / biyoinformatik / btq146. PMC  2872002. PMID  20472545. Alındı 1 Ocak 2017 - bioinformatics.oxfordjournals.org aracılığıyla.
  4. ^ "İstatistiksel Olarak Olasılıksız İfadeler Nelerdir?". Amazon.com. Alındı 2007-12-18.
  5. ^ Weeks, Linton (30 Ağustos 2005). "Amazon'un Hayati İstatistikleri Kitapların Nasıl Yığıldığını Gösteriyor". Washington post. Alındı 8 Eylül 2015.
  6. ^ Dümen, Hıristiyan (2014). Dataclysm: Kimsenin Bakmadığını Düşündüğümüzde Kimiz?. New York: Crown Publishers. ISBN  978-0-385-34737-2.
  7. ^ Sosyolojik Olarak Olasılıksız İfadeler Eğri Kereste Nisan 2005