İstatistiğin temelleri - Foundations of statistics

istatistiğin temelleri endişelenmek epistemolojik tartışma İstatistik nasıl yapılacağı hakkında tümevarımlı çıkarım verilerden. Ele alınan konular arasında istatiksel sonuç soru mu Bayesci çıkarım e karşı sık görüşlü çıkarım arasındaki ayrım Fisher "önem testi" ve NeymanPearson "hipotez testi" ve olasılık ilkesi takip edilmelidir. Bu sorunlardan bazıları çözüme kavuşturulmadan 200 yıla kadar tartışılıyor.[1]

Bandyopadhyay ve Forster[2] dört istatistiksel paradigmayı açıklayın: "(i) klasik istatistikler veya hata istatistikleri, (ii) Bayes istatistikleri, (iii) olasılığa dayalı istatistikler ve (iv) Akaikean-Bilgi Kriteri tabanlı istatistikler ".

Savage'ın metni İstatistiğin Temelleri tarihinde 15000'den fazla alıntı yapılmıştır Google Scholar.[3] Aşağıdakileri belirtir.

İstatistiğin bir şekilde olasılığa bağlı olduğu konusunda oybirliğiyle kabul edildi. Ancak olasılığın ne olduğuna ve istatistiklerle nasıl bağlantılı olduğuna gelince, Babil Kulesi'nden bu yana nadiren bu kadar tam bir anlaşmazlık ve iletişim kopukluğu yaşandı. Kuşkusuz, anlaşmazlığın çoğu yalnızca terminolojiktir ve yeterince keskin analiz altında ortadan kalkacaktır.[4]

Fisher'ın "anlamlılık testi" ve Neyman-Pearson "hipotez testi"

20. yüzyılın ikinci çeyreğinde klasik istatistiğin geliştirilmesinde, birbiriyle yarışan iki endüktif istatistiksel test modeli geliştirilmiştir.[5][6] Göreceli değerleri hararetle tartışıldı[7] Fisher'in ölümüne kadar (25 yıldan fazla). İki yöntemin bir karışımı yaygın olarak öğretilip kullanılırken, tartışmada ortaya çıkan felsefi sorular çözülmedi.

Önem testi

Fisher öncelikli olarak iki popüler ve oldukça etkili kitapta popüler hale getirilmiş önem testi.[8][9] Fisher'in bu kitaplardaki yazı stili örnekler üzerinde güçlüydü ve açıklamalar açısından nispeten zayıftı. Kitaplar, anlamlılık testi istatistiklerinin kanıtlarından veya türevlerinden yoksundu (istatistiksel pratiği istatistiksel teorinin önüne yerleştirdi). Fisher'ın daha açıklayıcı ve felsefi yazıları çok daha sonra yazılmıştır.[10] Önceki uygulamaları ile sonraki görüşleri arasında bazı farklılıklar var gibi görünüyor.

Fisher, önceki görüşlerin açık etkisi olmadan bilimsel deneysel sonuçlar elde etmek için motive edildi. Anlamlılık testi, olasılıklı bir versiyonudur Modus geçiş ücretleri, klasik bir tümdengelimli çıkarım biçimi. Anlamlılık testi basit bir şekilde ifade edilebilir, "Eğer kanıt hipotezle yeterince uyumsuzsa, hipotezi reddedin". Uygulamada deneysel verilerden bir istatistik hesaplanır, bu istatistiği aşma olasılığı belirlenir ve olasılık bir eşik ile karşılaştırılır. Eşik ("yeterince uyumsuz" ifadesinin sayısal versiyonu) keyfidir (genellikle konvansiyonla karar verilir). Yöntemin yaygın bir uygulaması, karşılaştırmalı bir deneye dayalı olarak bir tedavinin raporlanabilir bir etkisinin olup olmadığına karar vermektir. İstatistiksel anlamlılık, pratik önemi olmayan bir olasılık ölçüsüdür. İstatistiksel sinyale / gürültüye yerleştirilen bir gereklilik olarak kabul edilebilir. Yöntem, boş hipoteze karşılık gelen hayali bir sonsuz popülasyonun varsayılan varlığına dayanmaktadır.

Anlamlılık testi yalnızca bir hipotez gerektirir. Testin sonucu, basit bir ikilik olan hipotezi reddetmektir (ya da reddetmektir). Test, hipotezin doğruluğu ile hipotezi çürütecek kanıt yetersizliği arasında ayrım yapar; bu nedenle sanığın suçunun değerlendirildiği bir ceza davası gibidir (sanık suçlu olduğu kanıtlanana kadar masum kabul edilen bir ceza davası gibi).

Hipotez testi

Neyman & Pearson Sadece deneysel kanıta dayalı olarak rekabet halindeki hipotezler arasından seçim yaparak farklı, ancak ilişkili bir problem üzerinde işbirliği yaptı. Ortak gazetelerinden en çok alıntı 1933 yılına aittir.[11] Bu makalenin meşhur sonucu, Neyman-Pearson lemma. Lemma, bir olasılık oranının bir hipotez seçmek için mükemmel bir kriter olduğunu söyler (karşılaştırma eşiği keyfidir). Makale, aşağıdakilerin optimal olduğunu kanıtladı Öğrencinin t testi (anlamlılık testlerinden biri). Neyman, hipotez testinin anlamlılık testinin bir genellemesi ve üzerinde bir gelişme olduğu görüşünü dile getirdi. Yöntemlerinin gerekçesi ortak makalelerinde bulunur.[12]

Hipotez testi, birden fazla hipotez gerektirir. Bir hipotez her zaman seçilir, çoktan seçmeli. Kanıt eksikliği acil bir değerlendirme değildir. Yöntem, aynı popülasyondan tekrarlanan bir örnekleme varsayımına dayanmaktadır (klasik sıklık varsayımı), ancak bu varsayım Fisher tarafından eleştirilmiştir (Rubin, 2020).[13]

Anlaşmazlık gerekçeleri

Anlaşmazlığın uzunluğu, istatistiğin temelini oluşturduğu düşünülen çok çeşitli meselelerin tartışılmasına izin verdi.

1955-1956 arasında örnek bir değişim
Fisher'in saldırısı[14]Neyman'ın çürütücü[15]Tartışma
Aynı popülasyonun tekrar tekrar örneklenmesiFisher'ın güvene dayalı çıkarım teorisi kusurlu
  • Paradokslar yaygındır
Fisher'in sıklık olasılığına dayalı saldırısı başarısız oldu, ancak sonuçsuz değildi. İki test okulunun farklı sonuçlara ulaştığı özel bir durum (2 × 2 tablo) belirledi. Bu vaka, hala rahatsız edici olan birkaç vakadan biridir. Yorumcular, "doğru" cevabın içeriğe bağlı olduğuna inanıyor.[16] Fiducial olasılık, neredeyse savunuculardan yoksun olduğu için pek iyi sayılmazken, sıklıkçı olasılık ana akım bir yorum olarak kalır.
Tip II hataları
  • Alternatif bir hipotezin sonucu olan
Tamamen olasılıksal bir test teorisi, alternatif bir hipotez gerektirirFisher'in tip II hatalara saldırısı zamanla azaldı. Aradan geçen yıllarda istatistikler, araştırmacıyı doğrulayıcıdan ayırmıştır. Mevcut ortamda, tip II hata kavramı, doğrulayıcı hipotez testi için güç hesaplamalarında kullanılmaktadır. numune büyüklüğünün belirlenmesi.
Endüktif davranışFisher'in tümevarımsal davranışa saldırısı, savaş alanını seçmesi nedeniyle büyük ölçüde başarılı oldu. Süre operasyonel kararlar rutin olarak çeşitli kriterlere göre yapılır (maliyet gibi), bilimsel sonuçlar deneyden, tipik olarak yalnızca olasılık temelinde yapılır.

Bu görüşmede Fisher, hatalı kararları cezalandıran maliyet fonksiyonlarının özel eleştirisiyle birlikte tümevarımsal çıkarımın gerekliliklerini tartıştı. Neyman, Gauss ve Laplace'ın onları kullandığını söyledi. Bu argüman alışverişi 15 yıl oldu sonra ders kitapları hibrit bir istatistiksel test teorisi öğretmeye başladı.

Fisher ve Neyman istatistiğin temelleri konusunda anlaşmazlık içindeydiler (Bayesçi görüşe şiddetli bir muhalefet içinde birleşmiş olsalar da)[16]):

  • Olasılığın yorumlanması
    • Fisher'ın tümevarımlı akıl yürütmesine karşı Neyman'ın tümevarımlı davranışına ilişkin anlaşmazlık, Bayesçi / Sıklık yanlısı ayrımın unsurlarını içeriyordu. Fisher, hesaplanan bir olasılık temelinde fikrini değiştirmeye (geçici bir sonuca varma) istekliyken, Neyman hesaplanan maliyet temelinde gözlemlenebilir davranışını (karar verme) değiştirmeye daha istekliydi.
  • Modelleme için özel ilgi ile bilimsel soruların doğru formülasyonu[7][17]
  • Düşük olasılığa dayalı bir hipotezi, alternatifin olasılığını bilmeden reddetmenin makul olup olmadığı
  • Veriler temelinde bir hipotezin kabul edilip edilemeyeceği
    • Matematikte kesinti kanıtlıyor, karşı örnekler çürütüyor
    • Popperci bilim felsefesinde, teoriler çürütüldüğünde ilerlemeler yapılır.
  • Öznellik: Fisher ve Neyman öznelliği asgariye indirmek için mücadele ederken, ikisi de "iyi muhakeme" nin önemini kabul ettiler. Her biri diğerini öznellikle suçladı.
    • Fisher Öznel boş hipotezi seçti.
    • Neyman-Pearson Öznel seçim için kriter seçti (bir olasılıkla sınırlı değildi).
    • Her ikisi de Öznel belirlenen sayısal eşikler.

Fisher ve Neyman tavırlar ve belki de dil ile ayrıldılar. Fisher bir bilim adamı ve sezgisel bir matematikçiydi. Tümevarımsal akıl yürütme doğaldı. Neyman titiz bir matematikçiydi. Bir deneye dayalı olasılık hesaplaması yerine tümdengelimli akıl yürütme ile ikna olmuştu.[5] Dolayısıyla, uygulamalı ve teorik, bilim ve matematik arasında temelde bir çatışma vardı.

İlgili tarih

İngiltere'de Fisher'la aynı binada bulunan Neyman, 1938'de Amerika Birleşik Devletleri'nin batı kıyısında bir pozisyonu kabul etti. Onun bu hareketi Pearson ile işbirliğini ve hipotez testlerinin geliştirilmesini etkili bir şekilde sona erdirdi.[5] Daha fazla gelişme başkaları tarafından sürdürüldü.

Ders kitapları, 1940'a kadar anlam ve hipotez testinin melez bir versiyonunu sağladı.[18] Müdürlerin hiçbiri, bugün giriş istatistiklerinde öğretilen melezin daha da geliştirilmesinde bilinen herhangi bir kişisel ilgiye sahip değildi.[6]

İstatistikler daha sonra karar teorisi (ve muhtemelen oyun teorisi), Bayes istatistikleri, keşifsel veri analizi, sağlam istatistikler ve parametrik olmayan istatistikler dahil olmak üzere farklı yönlerde geliştirildi. Neyman-Pearson hipotez testi, çok yoğun bir şekilde kullanılan (örneğin istatistiksel kalite kontrolünde) karar teorisine güçlü bir şekilde katkıda bulunmuştur. Hipotez testi, ona Bayesçi bir hava veren önceki olasılıkları kabul etmek için kolayca genelleştirildi. Neyman-Pearson hipotez testi, lisansüstü istatistikte öğretilen soyut bir matematiksel konu haline geldi,[19] alt mezunlara öğretilen ve hipotez testi başlığı altında kullanılanların çoğu Fisher'dan.

Çağdaş görüş

İki klasik sınav okulu arasında onlarca yıldır büyük bir savaş patlak vermedi, ancak keskin nişancılık devam ediyor (belki de diğer tartışmaların taraftarları tarafından teşvik ediliyor). Nesiller boyu süren tartışmalardan sonra, her iki istatistiksel test teorisinin de öngörülebilir gelecekte diğerinin yerini alma şansı neredeyse hiç yoktur.

İki rakip test okulunun melezi çok farklı bir şekilde görülebilir - matematiksel olarak birbirini tamamlayan iki fikrin kusurlu birleşimi olarak[16] ya da felsefi olarak uyumsuz fikirlerin temelde kusurlu birliği olarak.[20] Fisher bazı felsefi avantajlardan yararlanırken, Neyman ve Pearson daha titiz matematiği kullandı. Hipotez testi kontrollü bazı kullanıcılar arasında, ancak en popüler alternatif (güven aralıkları) aynı matematiğe dayanmaktadır.

Geliştirmenin geçmişi, ortak istatistiksel uygulamayı yansıtan hibrit teori için tek bir atıfta bulunulabilir yetkili kaynak olmadan test bıraktı. Birleştirilmiş terminoloji de bir şekilde tutarsızdır. Bir giriş istatistik sınıfının mezunlarının (ve eğitmenlerinin) hipotez testinin anlamı hakkında zayıf bir anlayışa sahip olduğuna dair güçlü ampirik kanıtlar vardır.[21]

Özet

  • Olasılığın yorumlanması çözülmedi (ancak güvene dayalı olasılık bir öksüzdür).
  • Hiçbir test yöntemi reddedilmedi. Her ikisi de farklı amaçlar için yoğun bir şekilde kullanılmaktadır.
  • Metinler, hipotez testi terimi altında iki test yöntemini birleştirmiştir.
    • Matematikçiler (bazı istisnalar dışında) anlamlılık testlerinin hipotez testlerinin özel bir durumu olduğunu iddia ederler.
    • Diğerleri sorunları ve yöntemleri ayrı (veya uyumsuz) olarak ele alır.
  • Anlaşmazlık istatistiksel eğitimi olumsuz etkiledi.

Bayesci çıkarım ve sıklıkçı çıkarım

Olasılığın iki farklı yorumu (nesnel kanıtlara ve öznel inanç derecelerine dayalı olarak) uzun zamandır mevcuttur. Gauss ve Laplace, alternatifleri 200 yıldan daha uzun bir süre önce tartışabilirdi. Sonuç olarak iki rakip istatistik okulu gelişti. Klasik çıkarımsal istatistikler büyük ölçüde 20. yüzyılın ikinci çeyreğinde geliştirildi,[6] çoğu tartışmalı zamanı kullanan zamanın (Bayesçi) olasılığına tepki olarak ilgisizlik ilkesi önceki olasılıkları belirlemek için. Bayesci çıkarımın rehabilitasyonu, sıklık olasılığının sınırlamalarına bir tepkiydi. Daha fazla tepki geldi. Felsefi yorumlar eski olsa da istatistiksel terminoloji eski değildir. Mevcut istatistik terimleri "Bayesçi" ve "sıklıkçı" 20. yüzyılın ikinci yarısında istikrar kazandı.[22] (Felsefi, matematiksel, bilimsel, istatistiksel) terminoloji kafa karıştırıcıdır: Olasılığın "klasik" yorumu Bayesci iken, "klasik" istatistik sıklıktır. "Sıklık" ın farklı yorumları da vardır - felsefede fizikte olduğundan farklıdır.

Felsefi nüansları olasılık yorumları başka yerde tartışılıyor. İstatistiklerde alternatif yorumlar etkinleştirme biraz farklı hedeflere ulaşmak için farklı modellere dayalı farklı yöntemler kullanılarak farklı verilerin analizi. Rakip okulların herhangi bir istatistiksel karşılaştırması, felsefi olmanın ötesinde pragmatik kriterleri dikkate alır.

Başlıca katkıda bulunanlar

Sıklık yanlısı (klasik) yöntemlere iki büyük katkıda bulunanlar: Fisher ve Neyman.[5] Fisher'in olasılık yorumu kendine özgü idi (ama kesinlikle Bayes olmayan). Neyman'ın görüşleri katı bir şekilde sıklıktaydı. 20. yüzyıl Bayesçi istatistik felsefesine, matematiğine ve yöntemlerine üç büyük katkıda bulunanlar de Finetti,[23] Jeffreys[24] ve Savage.[25] Savage, de Finetti'nin fikirlerini İngilizce konuşulan dünyada popüler hale getirdi ve Bayes matematiğini titiz hale getirdi. 1965 yılında, Dennis Lindley'in 2 ciltlik çalışması "Olasılık ve İstatistiğe Bayesçi Bir Bakış Açısından Giriş", Bayes yöntemlerini geniş bir izleyici kitlesine ulaştırdı. İstatistikler son üç kuşakta ilerledi; İlk katkıda bulunanların "otoriter" görüşlerinin hepsi güncel değil.

Zıt yaklaşımlar

Sık görüşlü çıkarım

Sık görüşlü çıkarım, yukarıda (Fisher'in "anlamlılık testi" ve Neyman-Pearson "hipotez testi") bölümünde kısmen ve kısaca açıklanmıştır. Sık görüşlü çıkarım, birkaç farklı görüşü birleştirir. Sonuç, bilimsel sonuçları destekleme, operasyonel kararlar alma ve parametreleri tahmin etme, güvenilirlik aralığı. Sık görüşlü çıkarım, yalnızca (bir dizi) kanıta dayanır.

Bayesci çıkarım

Klasik bir frekans dağılımı, verilerin olasılığını tanımlar. Kullanımı Bayes teoremi daha soyut bir konsepte izin verir - verilere verilen bir hipotez olasılığı (bir teoriye karşılık gelir). Kavram bir zamanlar "ters olasılık" olarak biliniyordu. Bayesci çıkarım, ek kanıtlar elde edildikçe bir hipotez için olasılık tahminini günceller. Bayesci çıkarım, açıkça kanıta ve ön görüşe dayanır ve bu da birden çok kanıta dayanmasına izin verir.

Özelliklerin karşılaştırılması

Sıkcılar ve Bayesliler farklı olasılık modelleri kullanırlar. Bayesliler benzer parametrelere olasılık dağılımlarını atarken, sık sık parametrelerin sabit ancak bilinmediğini düşünürler. Sonuç olarak, Bayesliler, sık sık karşılaşanlar için var olmayan olasılıklardan bahseder; Bir Bayesçi bir teorinin olasılığından söz ederken, gerçek bir müdavim yalnızca kanıtın teori ile tutarlılığından söz edebilir. Örnek: Bir sık ​​görevli, bir parametrenin gerçek değerinin bir güven aralığı içinde olma olasılığının% 95 olduğunu söylemez, bunun yerine güven aralıklarının% 95'inin gerçek değeri içerdiğini söyler.

Efron's[26] karşılaştırmalı sıfatlar
BayesSık görüşen
  • Temel
  • Ortaya Çıkan Karakteristik
  • _
  • İdeal Uygulama
  • Hedef kitle
  • Modelleme Karakteristiği
  • İnanç (önceki)
  • İlkeli Felsefe
  • Tek dağıtım
  • Dinamik (tekrarlanan örnekleme)
  • Bireysel (öznel)
  • Agresif
  • Davranış (yöntem)
  • Fırsatçı Yöntemler
  • Birçok dağıtım (bootstrap?)
  • Statik (bir örnek)
  • Topluluk (hedef)
  • Defansif
Alternatif karşılaştırma[27][28]
BayesSık görüşen
Güçlü
  • Tamamlayınız
  • Tutarlı
  • Kuralcı
  • _
  • _
  • _
  • _
  • _
  • Modelden güçlü çıkarım
  • Çıkarımlar iyi kalibre edildi
  • Önceki dağıtımları belirtmeye gerek yok
  • Esnek prosedür yelpazesi
    • Kararsızlık, yeterlilik, yardımcı olma ...
    • Yaygın olarak uygulanabilir ve güvenilir
    • Asimptotik teori
    • Yorumlaması kolay
    • Elle hesaplanabilir
  • Güçlü model formülasyonu ve değerlendirmesi
Zayıf yönler
  • Bilimsel çıkarım için çok öznel
  • Tasarım için randomizasyonun rolünü reddediyor
  • Bir modelin tüm özelliklerini gerektirir ve buna dayanır (olasılık ve önceki)
  • _
  • _
  • _
  • Zayıf model formülasyonu ve değerlendirmesi
  • Eksik
  • Belirsiz
  • Tutarsız
  • Kuralcı değil
  • Birleşik teori yok
  • Asimptotik özelliklere (fazla?) Vurgu
  • Modelden zayıf çıkarım

Matematiksel sonuçlar

Her iki okul da matematiksel eleştiriden muaf değildir ve onu mücadele etmeden kabul etmez. Stein paradoksu (örneğin) yüksek boyutlarda "düz" veya "bilgisiz" bir önceki olasılık dağılımının ince olduğunu gösterdi.[1] Bayesçiler, sıklığı tutarsızlıklar, paradokslar ve kötü matematiksel davranışlarla dolu bulurken, bunu felsefelerinin özünün periferisi olarak görürler. En sık sık görüşenler açıklayabilir. "Kötü" örneklerden bazıları aşırı durumlardır - örneğin, bir fil sürüsünün ağırlığının bir ("Basu filleri") ağırlığının ölçülmesinden tahmin edilmesi gibi, ağırlıkların değişkenliğine ilişkin istatistiksel bir tahmine izin vermez. olasılık ilkesi bir savaş alanı oldu.

İstatistiksel sonuçlar

Her iki okul da gerçek dünyadaki sorunları çözmede etkileyici sonuçlar elde etti. Mekanik hesap makineleri ve özel istatistiksel fonksiyonların basılı tabloları ile çok sayıda sonuç elde edildiğinden, klasik istatistikler etkili bir şekilde daha uzun bir geçmişe sahiptir. Bayesci yöntemler, doğal olarak sıralı olarak örneklenen bilgilerin (radar ve sonar) analizinde oldukça başarılı olmuştur. Birçok Bayesçi yöntem ve bazı yeni sık kullanılan yöntemler (önyükleme gibi), yalnızca son birkaç on yılda yaygın olarak bulunan hesaplama gücünü gerektirir. Bayesçi ve sıklıkçı yöntemleri birleştirmek hakkında aktif tartışma var,[29][27] ancak sonuçların anlamı ve yaklaşım çeşitliliğinin azaltılması konusunda çekinceler ifade edilmektedir.

Felsefi sonuçlar

Bayesçiler, sıklığın sınırlamalarına karşı birleşmişlerdir, ancak felsefi olarak, her biri farklı bir vurguya sahip çok sayıda kampa (deneysel, hiyerarşik, nesnel, kişisel, öznel) bölünmüştür. Bir (sıklıkçı) istatistik filozofu, istatistiksel alandan felsefi alana bir gerileme kaydetti. olasılık yorumları son iki kuşakta.[30] Bayesçi uygulamalardaki başarıların destekleyici felsefeyi haklı çıkarmadığına dair bir algı var.[31] Bayesci yöntemler genellikle geleneksel çıkarım için kullanılmayan ve felsefeye çok az şey borçlu olan faydalı modeller yaratır.[32] Olasılığın felsefi yorumlarının hiçbiri (sıklık ya da Bayesçi) sağlam görünmüyor. Sık görüşlü görüş çok katı ve sınırlayıcıyken, Bayesçi görüş aynı anda nesnel ve öznel olabilir, vb.

Açıklayıcı alıntılar

  • "dikkatlice kullanıldığında, sıklık yanlısı yaklaşım, bazen beceriksiz yanıtlar olsa da geniş ölçüde uygulanabilir"[33]
  • "Tarafsız [sıklıkçı] tekniklerde ısrar etmek, bir varyansın negatif (ancak tarafsız) tahminlerine yol açabilir; çoklu testlerde p değerlerinin kullanılması bariz çelişkilere yol açabilir; geleneksel 0.95 güven bölgeleri aslında tüm gerçek çizgiden oluşabilir. Matematikçilerin geleneksel istatistiksel yöntemlerin matematiğin bir dalı olduğuna inanmakta zorlanmalarına şaşmamalı. "[34]
  • "Bayesçilik, temiz ve tamamen ilkeli bir felsefe iken, sıklık, fırsatçı, bireysel olarak optimal yöntemlerin bir çantasını kapmaktır."[26]
  • "çok parametreli problemlerde düz öncelikler çok kötü yanıtlar verebilir"[33]
  • "[Bayes kuralı], ne kadarının bilindiğini belirtmek için mevcut bilgileri önceki deneyimlerle birleştirmenin basit ve zarif bir yolu olduğunu söylüyor. Yeterince iyi verilerin daha önce farklı gözlemcileri anlaşmaya getireceğini ima ediyor. Mevcut olanı tam olarak kullanıyor en az hata oranına sahip kararlar üretir. "[35]
  • "Bayes istatistiği olasılık açıklamaları yapmakla ilgilidir, sıklık istatistikleri olasılık ifadelerini değerlendirmekle ilgilidir."[36]
  • "[S] tatistçiler genellikle Arrow'un paradoksunu anımsatan bir ortama yerleştirilir; burada bilgilendirici ve tarafsız tahminler ve veriler ve ayrıca temelde yatan gerçek parametreye ilişkin doğru koşullu güven ifadeleri sağlamamız istenir."[36] (Bunlar birbiriyle çelişen gereksinimlerdir.)
  • "resmi çıkarımsal yönler genellikle istatistiksel analizin nispeten küçük bir parçasıdır"[33]
  • "İki felsefe, Bayesçi ve sıklıkçı, karşıt olmaktan çok ortogonaldir."[26]
  • "Gerçek olabilecek bir hipotez reddedildi çünkü gerçekleşmemiş gözlemlenebilir sonuçları tahmin edemedi. Bu dikkate değer bir prosedür gibi görünüyor."[24]

Özet

  • Bayes teorisinin matematiksel bir avantajı vardır
    • Sıklık olasılığının varoluş ve tutarlılık sorunları vardır
    • Ancak, Bayesci teoriyi uygulamak için iyi öncüller bulmak (çok?) Zor.
  • Her iki teori de etkileyici başarılı uygulama kayıtlarına sahiptir
  • Olasılığın felsefi yorumunu destekleyen hiçbir şey sağlam değildir
  • Uygulama ve felsefe arasındaki bağlantı konusunda artan bir şüphe var.
  • Bazı istatistikçiler aktif işbirliğini tavsiye ediyor (ateşkesin ötesinde)

Olasılık ilkesi

Olabilirlik, ortak kullanımda olasılığın eşanlamlısıdır. İstatistiklerde bu doğru değil. Bir olasılık, sabit bir hipotez için değişken verileri ifade ederken, bir olasılık, sabit bir veri kümesi için değişken hipotezleri ifade eder. Bir cetvelle sabit uzunlukta tekrarlanan ölçümler, bir dizi gözlem oluşturur. Her sabit gözlemsel koşul seti bir olasılık dağılımıyla ilişkilendirilir ve her gözlem seti bu dağılımdan bir örnek olarak yorumlanabilir - olasılığın sık görüşlü görüşü. Alternatif olarak bir dizi gözlem, bir dizi dağılımın herhangi birinin (her biri bir dizi gözlemsel koşuldan kaynaklanan) örneklenmesinden kaynaklanabilir. Sabit bir örneklem ile değişken dağılım arasındaki olasılık ilişkisi (değişken bir hipotezden kaynaklanan) olasılık olarak adlandırılır - Bayesçi bir olasılık görüşü. Bir dizi uzunluk ölçümü, dikkatli, ölçülü, dinlenmiş, motive olmuş gözlemciler tarafından iyi ışıklandırmada alınan okumaları ima edebilir.

Olasılık, sınırlı sıklıklı olasılık tanımından dolayı var olan başka bir adla bir olasılıktır (veya değildir). Olabilirlik, Fisher 40 yıldan fazla bir süredir (konsepte önceden atıfta bulunulmasına ve Fisher'in desteğinin gönülsüz olmasına rağmen).[37] Kavram kabul edildi ve önemli ölçüde değiştirildi Jeffreys.[38] 1962'de Birnbaum çoğu istatistikçi için kabul edilebilir öncüllerden olasılık ilkesini "kanıtladı".[39] "Kanıt", istatistikçiler ve filozoflar tarafından tartışıldı. İlke, bir örnekteki tüm bilgilerin olasılık işlevi Bayesliler tarafından geçerli bir olasılık dağılımı olarak kabul edilen (ancak sıklık yanlıları tarafından değil).

Bazı (sıklık) anlamlılık testleri olasılık ilkesiyle tutarlı değildir. Bayesliler, felsefeleriyle tutarlı olan ilkeyi kabul ederler (belki de müdavimlerin hoşnutsuzluğuyla teşvik edilir). "Olabilirlik yaklaşımı, Bayes Teoremi ile bir parametrenin arka Bayes dağılımının, önceki dağılımın olasılık fonksiyonu ile çarpılmasıyla bulunması anlamında Bayesçi istatistiksel çıkarımla uyumludur."[37] Sıklık yanlıları bu prensibi Bayesçilere ters bir şekilde, kanıtların güvenilirliği konusunda hiçbir endişeye işaret etmediği şeklinde yorumlamaktadır. "Bayes istatistiklerinin olasılık ilkesi, kanıtların toplandığı deneysel tasarım hakkındaki bilgilerin verilerin istatistiksel analizine girmediğini ima eder."[40] Birçok Bayesli (örneğin Savage)[41] bu çıkarımı bir güvenlik açığı olarak kabul edin.

Olabilirlik ilkesi, her iki büyük felsefi istatistik okulu için de utanç verici hale geldi; Her ikisini de kayırmaktan çok zayıflattı. En güçlü destekçileri, istatistik için iki okuldan herhangi birine göre daha iyi bir temel sunduğunu iddia ediyor. "Bu [Bayesçi ve sıklıkçı] alternatiflerle karşılaştırıldığında [L] iklimi gerçekten çok iyi görünüyor."[42] Bu destekçiler arasında istatistikçiler ve bilim filozofları bulunmaktadır.[43] Bayesliler hesaplama olasılığının önemini kabul ederken, arka olasılık dağılımının çıkarım için uygun temel olduğuna inanırlar.[44]

Modelleme

Çıkarımsal istatistikler, istatistiksel modeller. Örneğin, klasik hipotez testlerinin çoğu, verilerin varsayılan normalliğine dayanıyordu. Bu varsayıma bağımlılığı azaltmak için sağlam ve parametrik olmayan istatistikler geliştirilmiştir. Bayes istatistiği, yeni gözlemleri önceki bilgi perspektifinden yorumlar - geçmiş ve şimdiki zaman arasında modellenmiş bir devamlılık varsayarak. Deneylerin tasarımı, kontrol edilecek, çeşitlendirilecek, randomize edilecek ve gözlemlenecek bu faktörlere ilişkin bazı bilgiler olduğunu varsayar. İstatistikçiler nedenselliğin kanıtlanmasındaki zorlukların (matematiksel bir sınırlamadan çok bir modelleme sınırlaması) çok iyi farkındalar: "Bağlılık nedenselliği ifade etmez ".

Daha karmaşık istatistikler, genellikle bir dizi değişkenin altında yatan gizli bir yapı bulma amacıyla daha karmaşık modeller kullanır. Modeller ve veri kümeleri karmaşıklık içinde büyüdükçe,[a][b] Modellerin gerekçelendirilmesi ve bunlardan çıkarılan çıkarımların geçerliliği hakkında temel sorular ortaya atılmıştır. Modelleme hakkında ifade edilen çelişkili görüş yelpazesi geniştir.

  • Modeller, bilimsel teoriye veya geçici veri analizine dayalı olabilir. Yaklaşımlar farklı yöntemler kullanır. Her birinin savunucusu var.[46]
  • Model karmaşıklığı bir uzlaşmadır. Akaikean bilgi kriteri ve Bayesçi bilgi kriteri, bu uzlaşmaya ulaşmak için daha az öznel olan iki yaklaşımdır.[47]
  • Basit bile olsa temel çekinceler ifade edildi. regresyon modelleri sosyal bilimlerde kullanılır. Bir modelin geçerliliğine özgü uzun bir varsayım listesi tipik olarak ne bahsedilir ne de kontrol edilir. Gözlemler ve model arasında olumlu bir karşılaştırma genellikle yeterli kabul edilir.[48]
  • Bayes istatistiği, son olasılığa o kadar sıkı odaklanır ki, gözlemlerin ve modelin temel karşılaştırmasını göz ardı eder.[32]
  • Geleneksel gözlem temelli modeller birçok önemli sorunu çözmek için yetersizdir. Algoritmik modeller de dahil olmak üzere çok daha geniş bir model yelpazesi kullanılmalıdır. "Model kötü bir doğa öykünmesi ise, sonuçlar yanlış olabilir."[49]
  • Modelleme genellikle kötü yapılır (yanlış yöntemler kullanılır) ve yetersiz rapor edilir.[50]

İstatistiksel modellemenin güçlü bir felsefi fikir birliği incelemesinin yokluğunda, birçok istatistikçi istatistikçinin uyarıcı sözlerini kabul eder. George Kutusu: "Tüm modeller yanlış ama bazıları kullanışlıdır."

Diğer okuma

İstatistiğin temellerine kısa bir giriş için bkz. Stuart, A .; Ord, J.K. (1994). "Bölüm 8 - Olasılık ve istatistiksel çıkarım". Kendall'ın İleri İstatistik Teorisi. Cilt I: Dağıtım Teorisi (6. baskı). Edward Arnold.

Kitabında İlkeli Argüman Olarak İstatistik, Robert P. Abelson İstatistiğin, aksi takdirde her biri kendi konumlarının esasını tartışabilecek bilim adamları arasındaki anlaşmazlıkları çözmek için standart bir araç olarak hizmet ettiği konumunu ifade eder. sonsuza dek. Bu açıdan bakıldığında, istatistik bir retorik biçimidir; Anlaşmazlıkları çözmenin herhangi bir yolu gibi, istatistiksel yöntemler ancak tüm taraflar kullanılan yaklaşım üzerinde mutabık kaldığı sürece başarılı olabilir.[51]

Ayrıca bakınız

Dipnotlar

  1. ^ Bazı büyük modeller, Amerika Birleşik Devletleri'ndeki seçmenlerin davranışlarını tahmin etmeye çalışır. Nüfus 300 milyon civarındadır. Her seçmen birçok faktörden etkilenebilir. Seçmen davranışının bazı komplikasyonları için (en kolay şekilde yerliler tarafından anlaşılır) bkz: Gelman[45]
  2. ^ Efron (2013), bilimsel çalışmalardan milyonlarca veri noktasından ve binlerce parametreden bahsetmektedir.[26]

Alıntılar

  1. ^ a b Efron 1978.
  2. ^ Bandyopadhyay ve Forster 2011.
  3. ^ "Savage'dan alıntılar (1972)". Google Scholar.
  4. ^ Savage 1972.
  5. ^ a b c d Lehmann 2011.
  6. ^ a b c Gigerenzer vd. 1989.
  7. ^ a b Louçã 1993.
  8. ^ Fisher 1925.
  9. ^ Fisher 1935.
  10. ^ Fisher 1956.
  11. ^ Neyman ve Pearson 1933.
  12. ^ Neyman ve Pearson 1967.
  13. ^ Rubin, M (2020). ""Aynı popülasyondan tekrarlanan örnekleme? "Neyman ve Pearson'un Fisher'a verdiği tepkilerin bir eleştirisi". Avrupa Bilim Felsefesi Dergisi. 10 (42): 1–15. doi:10.1007 / s13194-020-00309-6.
  14. ^ Fisher 1955.
  15. ^ Neyman 1956.
  16. ^ a b c Lehmann 1993.
  17. ^ Lenhard 2006.
  18. ^ Halpin ve Stam 2006.
  19. ^ Lehmann ve Romano 2005.
  20. ^ Hubbard ve Bayarri c. 2003.
  21. ^ Sotos vd. 2007.
  22. ^ Fienberg 2006.
  23. ^ de Finetti 1964.
  24. ^ a b Jeffreys 1939.
  25. ^ Savage 1954.
  26. ^ a b c d Efron 2013.
  27. ^ a b Küçük 2005.
  28. ^ Yu 2009.
  29. ^ Berger 2003.
  30. ^ Mayo 2013.
  31. ^ Senn 2011.
  32. ^ a b Gelman & Shalizi 2012.
  33. ^ a b c Cox 2005.
  34. ^ Bernardo 2008.
  35. ^ Kass c. 2012.
  36. ^ a b Gelman 2008.
  37. ^ a b Edwards 1999.
  38. ^ Aldrich 2002.
  39. ^ Birnbaum 1962.
  40. ^ Backe 1999.
  41. ^ Savage 1960, s. 585.
  42. ^ Forster ve Sober 2001.
  43. ^ Royall 1997.
  44. ^ Lindley 2000.
  45. ^ Gelman. "Kırmızı-mavi konuşma UBC" (PDF). İstatistik. Columbia U.
  46. ^ Tabachnick ve Fidell 1996.
  47. ^ Forster ve Sober 1994.
  48. ^ Freedman 1995.
  49. ^ Breiman 2001.
  50. ^ Çene.
  51. ^ Abelson, Robert P. (1995). İlkeli Argüman Olarak İstatistik. Lawrence Erlbaum Associates. ISBN  978-0-8058-0528-4. ... istatistiğin amacı, ilkeli bir retorik biçimi kullanarak, nicel kanıtlardan faydalı bir argüman düzenlemektir.

Referanslar

daha fazla okuma

Dış bağlantılar