Ikili veri - Binary data

Ikili veri dır-dir veri birimi, geleneksel olarak 0 ve 1 olarak etiketlenen, yalnızca iki olası durumu üstlenebilir. ikili sayı sistemi ve Boole cebri.

İkili veriler, farklı isimlerle adlandırılabilecek birçok farklı teknik ve bilimsel alanda ortaya çıkar:

"bit "(ikili rakam) bilgisayar Bilimi,
"gerçek değer " içinde matematiksel mantık ve ilgili alanlar,
"ikili değişken "istatistiklerde.

Matematiksel ve kombinatorik temeller

Bir ayrık sadece alabilen değişken bir devlet sıfır içerir bilgi, ve 2 sonraki doğal sayı 1'den sonra. Bu nedenle bit, yalnızca iki olası değere sahip bir değişken, standart bir birincildir bilgi birimi.

Koleksiyonu $n$ bitler olabilir $2 n$ devletler: bkz ikili numara detaylar için. Kesikli değişkenler koleksiyonunun durumlarının sayısı, üssel olarak değişkenlerin sayısı ve yalnızca bir Güç yasası her değişkenin durum sayısı üzerinde. On bit daha fazla (1024 ) üçten fazla eyalet Ondalık basamak (1000 ). $10 k$ bitler bir bilgiyi temsil etmek için fazlasıyla yeterlidir (a numara veya başka bir şey) gerektiren $3 k$ ondalık basamaklar, dolayısıyla ayrık değişkenlerde bulunan bilgiler 3, 4, 5, 6, 7, 8, 9, 10 … Durumların yerine iki, üç veya dört kat daha fazla bit ayrılabilir. Dolayısıyla, 2'den küçük herhangi bir sayının kullanılması bir avantaj sağlamaz.

Bir Hasse diyagramı: Boole cebirinin bir olarak gösterimi Yönlendirilmiş grafik

Dahası, Boole cebri, bir semantik koleksiyonuyla bitlerin toplanması için uygun bir matematiksel yapı sağlar. önerme değişkenleri. Boole cebri işlemleri "bitsel işlemler "bilgisayar biliminde. Boole fonksiyonları ayrıca teorik olarak iyi çalışılmış ve kolayca uygulanabilir. bilgisayar programları veya sözde mantık kapıları içinde dijital elektronik. Bu, başlangıçta ikili olmayanlar da dahil olmak üzere farklı verileri temsil etmek için bitlerin kullanılmasına katkıda bulunur.

İstatistiklerde

İçinde İstatistik, Ikili veri bir istatistiksel veri türü oluşan kategorik veriler "A" ve "B" veya "yazı" ve "yazı" gibi tam olarak iki olası değer alabilir. Kategorik veri biçimi olarak, ikili veriler Nominal veri temsil ettikleri anlamına gelir niteliksel olarak farklı sayısal olarak karşılaştırılamayan değerler. Bununla birlikte, ikili veriler sıklıkla verileri say iki değerden birini "başarı" olarak kabul ederek ve sonuçları 1 veya 0 olarak temsil ederek, bu da tek bir denemedeki başarı sayısının sayılmasına karşılık gelir: 1 (başarılı) veya 0 (başarısız); görmek § Sayma.

Genellikle, kavramsal olarak zıt iki değerden birini temsil etmek için ikili veriler kullanılır, örneğin:

bir deneyin sonucu ("başarı" veya "başarısızlık")
evet-hayır sorusuna verilen yanıt ("evet" veya "hayır")
bazı özelliklerin varlığı veya yokluğu ("mevcut" veya "mevcut değil")
bir önermenin doğruluğu veya yanlışlığı ("doğru" veya "yanlış", "doğru" veya "yanlış")

Bununla birlikte, kavramsal olarak zıt olmasalar veya uzaydaki tüm olası değerleri kavramsal olarak temsil etseler bile, yalnızca iki olası değere sahip olduğu varsayılan veriler için de kullanılabilir. Örneğin, ikili veriler genellikle seçmenlerin seçmenlerin parti seçimlerini temsil etmek için kullanılır. Amerika Birleşik Devletleri yani Cumhuriyetçi veya Demokratik. Bu durumda, yalnızca iki tanesinin doğuştan gelen bir nedeni yoktur. siyasi partiler olması gerekir ve aslında ABD'de başka partiler de vardır, ancak bunlar o kadar küçüktür ki genellikle basitçe görmezden gelinirler. Sürekli verilerin (veya 2 kategoriden fazla kategorik verilerin) analiz amacıyla ikili değişken olarak modellenmesi denir ikiye ayırma (yaratmak ikiye bölünme ). Hepsi gibi ayrıştırma, içerir ayrıklaştırma hatası ama amaç, hataya rağmen değerli bir şey öğrenmektir: önemsiz Eldeki amaç için, ancak genel olarak önemsiz sayılamayacağını hatırlayarak.

İkili değişkenler

Bir ikili değişken bir rastgele değişken ikili tür, iki olası değerle anlamına gelir. Bağımsız ve aynı şekilde dağıtılmış (i.i.d.) ikili değişkenler bir Bernoulli dağılımı, ancak genel olarak ikili verilerin i.i.d'den gelmesi gerekmez. değişkenler. Toplam i.i.d. ikili değişkenler (eşdeğer olarak, 1 veya 0 olarak kodlanmış ikili değişkenlerin toplamları) Binom dağılımı, ancak ikili değişkenler i.i.d olmadığında, dağılımın iki terimli olması gerekmez.

Sayma

Kategorik veriler gibi, ikili veriler de bir vektör nın-nin verileri say olası her değer için bir koordinat yazarak ve oluşan değer için 1 ve oluşmayan değer için 0 sayarak.^[1] Örneğin, değerler A ve B ise, veri kümesi A, A, B (1, 0), (1, 0), (0, 1) olarak sayımlarla temsil edilebilir. Sayıma dönüştürüldükten sonra, ikili veriler gruplanmış ve sayılar eklendi. Örneğin, A, A, B kümeleri gruplanmışsa, toplam sayımlar (2, 1): 2 A ve 1 B'dir (3 denemeden).

Yalnızca iki olası değer olduğundan, bu, bir değeri "başarı" ve diğeri "başarısızlık" olarak kabul ederek, başarının değerini 1 ve başarısızlığın değerini şu şekilde kodlayarak tek bir sayıya (skaler bir değer) basitleştirilebilir. 0. Örneğin, A değeri "başarılı" olarak kabul edilirse (ve bu nedenle B "başarısız" olarak kabul edilirse), A, A, B veri kümesi 1, 1, 0 olarak temsil edilir. Bu gruplandığında, değerler eklenirken, deneme sayısı genellikle örtük olarak izlenir. Örneğin, A, A, B, 1 + 1 + 0 = 2 başarı olarak gruplandırılır ( ${ displaystyle n = 3}$ }} deneme). Diğer tarafa gitmek, verileri saymak ${ displaystyle n = 1}$ iki sınıf 0 (başarısız) veya 1 (başarılı) olmak üzere ikili veridir.

İ.i.d. ikili değişkenler bir Binom dağılımı, ile ${ displaystyle n}$ toplam deneme sayısı (gruplanmış verilerdeki noktalar).

Regresyon

Regresyon analizi ikili değişkenler olan tahmin edilen sonuçlara göre ikili regresyon; ikili veriler verileri saymaya dönüştürüldüğünde ve i.i.d olarak modellendiğinde. değişkenler (böylece iki terimli dağılımları vardır), iki terimli regresyon kullanılabilir. İkili veriler için en yaygın regresyon yöntemleri şunlardır: lojistik regresyon, probit regresyon veya ilgili türler ikili seçim modeller.

Benzer şekilde, i.i.d. İkiden fazla kategoriye sahip kategorik değişkenler, bir çok terimli regresyon. İ.i.d olmayanların sayıları. ikili veriler, daha karmaşık dağıtımlarla modellenebilir. beta-binom dağılımı (bir bileşik dağıtım ). Alternatif olarak, ilişki Çıktı değişkeninin dağılımını aşağıdaki teknikler kullanılarak açıkça modellemeye gerek kalmadan modellenebilir: genelleştirilmiş doğrusal modeller (GLM), örneğin yarı olasılık ve bir yarı terimli model; görmek Aşırı Dağılım § Binom.

Bilgisayar biliminde

Bir ikili görüntü bir QR kod tipik bir 24-bit yerine piksel başına 1 biti temsil eder doğru renk görüntü.

Modern bilgisayarlar ikili veriler, daha yüksek bir düzeyde yorumlanmak yerine ikili biçimde temsil edilen herhangi bir veriyi ifade eder veya dönüştürülmüş başka bir biçime. En düşük seviyede, bitler bir iki durumlu gibi bir cihaz takla. Çoğu ikili verinin sahip olduğu simgesel anlam (hariç umursamıyorum ) tüm ikili veriler sayısal değildir. Bazı ikili veriler karşılık gelir bilgisayar talimatları örneğin içindeki veriler işlemci kayıtları tarafından çözüldü kontrol ünitesi boyunca getir-çöz-yürüt döngüsü. Bilgisayarlar, performans nedenleriyle nadiren bireysel bitleri değiştirir. Bunun yerine, veriler hizalı sabit sayıda bitlik gruplar halinde, genellikle 1 bayt (8 bit). Dolayısıyla, bilgisayarlardaki "ikili veriler" aslında bayt dizileridir. Daha yüksek bir düzeyde, verilere 1'li gruplar halinde erişilir kelime (4 bayt) için 32 bit sistemler ve 2 kelime 64 bit sistemleri.

Uygulamada bilgisayar Bilimi Ve içinde Bilişim teknolojisi alan, terim Ikili veri genellikle özellikle zıttır metin tabanlı veriler, metin olarak yorumlanamayan her türlü veriye atıfta bulunur. "Metin" ve "ikili" ayrımı bazen bir dosyanın anlamsal içeriğine atıfta bulunabilir (ör. Yazılı bir belgeye karşı bir Dijital görüntü ). Ancak, genellikle bir dosyanın tek tek baytlarının metin olarak yorumlanıp yorumlanamayacağına atıfta bulunur (bkz. karakter kodlaması ) veya bu şekilde yorumlanamaz. Bu son anlam istendiğinde, daha spesifik terimler ikili biçim ve metin (ual) biçimi bazen kullanılır. Anlamsal olarak metinsel veriler ikili biçimde temsil edilebilir (örneğin sıkıştırıldığında veya çeşitli biçimlendirme kodlarını karıştıran belirli biçimlerde olduğu gibi) DOC biçimi tarafından kullanılan Microsoft Word ); tersine, görüntü verileri bazen metin biçiminde temsil edilir (ör. X PixMap kullanılan görüntü formatı X Pencere Sistemi ).

Ayrıca bakınız

Referanslar

^ Agresti Alan (2012). "1.2.2 Çok Terimli Dağılım". Kategorik Veri Analizi (3. baskı). Wiley. s. 6. ISBN 978-0470463635.CS1 bakimi: ref = harv (bağlantı)

[1] Agresti Alan (2012). "1.2.2 Çok Terimli Dağılım". Kategorik Veri Analizi (3. baskı). Wiley. s. 6. ISBN 978-0470463635.CS1 bakimi: ref = harv (bağlantı)

[1]