Yüksek boyutlu istatistikler - High-dimensional statistics

İçinde istatistiksel teori, alanı yüksek boyutlu istatistikler verileri inceleyen boyut klasik olarak düşünülen boyutlardan daha büyüktür çok değişkenli analiz. Yüksek boyutlu istatistikler, teori nın-nin rastgele vektörler. Birçok uygulamada, veri vektörlerinin boyutu, örnek boyut.[1]

Tarih

Geleneksel olarak, istatiksel sonuç bir popülasyon için bir olasılık modelini düşünür ve popülasyondan bir örneklem olarak ortaya çıkan verileri dikkate alır. Pek çok problem için, popülasyon özelliklerinin ("parametreler") tahminleri, numune boyutu sonsuza doğru artarken (teoride) önemli ölçüde iyileştirilebilir. Tahmincilerin geleneksel bir gereksinimi tutarlılık yani parametrenin bilinmeyen gerçek değerine yakınsama.

1968'de, Andrey Kolmogorov başka bir istatistiksel problem ortamı ve asimptotikler için değişkenlerin boyutunun olduğu başka bir ortam önerdi. p örneklem büyüklüğü ile birlikte artar n böylece oran p/n sabit olma eğilimindedir. "Artan boyut asimptotikleri" veya "Kolmogorov asimptotikleri" olarak adlandırıldı.[2] Kolmogorov'un yaklaşımı, birçok temel hata olasılığı terimini ve tahmin edicilerin (kalite fonksiyonları) kalitesinin standart ölçümlerini büyük ölçüde izole etmeyi mümkün kılar. p ve n.

Son zamanlarda, araştırmacılar daha büyük boyutlu vakalarla daha çok ilgileniyorlar, ör. , nerede . Bu vakalar, birçok farklı alandan anlamlı bilgilerin çıkarılması ihtiyacından kaynaklanmaktadır. Bu durumlarda, bazı ilginç sonuçlar bulunmuştur. Örneğin, Öğrenci t testi boyut olduğunda kalibrasyon geçersiz olabilir .[3] Ayrıntılar için ayrıca bakınız T-testi için Šidák düzeltmesi.

Matematiksel teori

Çok değişkenli istatistiksel prosedürlerin geliştirilmiş ve asimptotik olarak iyileştirilemeyen versiyonları için sistematik teorinin yaratılmasıyla sonuçlanan kapsamlı matematiksel araştırmalar yapıldı.[4] Özel bir parametre G yani değişkenlerin dördüncü momentlerinin bir fonksiyonu olan küçük bir değer olan G bir dizi özellikle çok parametrik fenomen üretir. Artırmak için p ve n Böylece p/n sabit olma eğilimindedir ve G → 0, istatistiklerde yer alan dönmeyle değişmeyen fonksiyonların temel terimleri, değişkenlerin yalnızca ilk iki momentine bağlı olduklarını kanıtlamaktadır. Altında n ve p sonsuzluğa eğilimli, p/ny > 0 ve G → 0, bu fonksiyoneller kaybolan varyansa sahiptir ve ampirik ortalamaların ve varyansların sınır değerini temsil eden sabitlere yakınsar. Sonuç olarak, parametrelerin fonksiyonları ile gözlemlenebilir değişkenlerin fonksiyonları arasında bazı kararlı integral ilişkiler üretilir. Bunlara "stokastik kanonik denklemler" veya "dağılım denklemleri" deniyordu.[5] Bunları kullanarak, düzenlenmiş çok değişkenli istatistiksel prosedürlerin standart kalite fonksiyonlarının temel kısımları, sadece gözlemlenen değişkenlerin fonksiyonları olarak ifade edilebilir. Bu, daha iyi prosedürler seçme ve asimptotik olarak iyileştirilemeyen çözümler bulma olasılığını sağlar.

Güncel gelişmeler

Yüksek boyutlu istatistikler, birçok seminer ve çalıştayın odak noktası olmuştur.[6][7][8][9]

Notlar

  1. ^ Marozzi, Marco (2015). "Yüksek boyutlu, düşük örneklem büyüklüğüne sahip vaka kontrol çalışmaları için çok değişkenli çok mesafeli testler". Tıpta İstatistik. 34 (9): 1511–1526. doi:10.1002 / sim.6418. PMID  25630579.
  2. ^ S. A. Aivasian, V. M. Buchstaber, I. S. Yenyukov, L. D. Meshalkin. Uygulanmış istatistikler. Boyutların Sınıflandırılması ve Azaltılması. Moskova, 1989 (Rusça).
  3. ^ Fan, Jianqing; Hall, Peter; Yao, Qiwei (2007). "Kaç Eşzamanlı Hipotez Testi Normal Olabilir, Student t veya Bootstrap Kalibrasyonu Uygulanabilir". Amerikan İstatistik Derneği Dergisi. 102 (480): 1282–1288. arXiv:matematik / 0701003. doi:10.1198/016214507000000969.CS1 bakimi: ref = harv (bağlantı)
  4. ^ http://hd-stat.narod.ru 'YÜKSEK BOYUTLU (HD-) İSTATİSTİKLER'.
  5. ^ V.L.Girko. Kanonik Stokastik Denklemler, cilt. 1,2, Kluwer Academic Publishers, Dordrecht, 2000.
  6. ^ 2006-2007 Yüksek Boyutlu Çıkarım Programı. SAMSI, ABD.
  7. ^ Yüksek Boyutlu Veri Analizi Çalıştayı, National University of Singapore. Şubat, 2008.
  8. ^ Çalıştaylar biyolojide HD-istatistik, Isaac Newton Inst. Matematik için. Sci., Cambridge. 31.03-27.06 2008.
  9. ^ Genç Avrupa İstatistik Çalıştayı (YES-2), Eindhoven, Hollanda. Haziran, 2008.

Referanslar

  • Christophe Giraud (2015). Yüksek Boyutlu İstatistiklere Giriş. Philadelphia: Chapman ve Hall / CRC.CS1 bakimi: ref = harv (bağlantı)
  • T. Tony Cai, Xiaotong Shen, ed. (2011). Yüksek boyutlu veri analizi. İstatistik Sınırları. Singapur: World Scientific.CS1 bakimi: ref = harv (bağlantı)
  • Peter Bühlmann ve Sara van de Geer (2011). Yüksek boyutlu veriler için istatistik: yöntemler, teori ve uygulamalar. Heidelberg; New York: Springer.CS1 bakimi: ref = harv (bağlantı)
  • Martin J.Wainwright (2019). Yüksek Boyutlu İstatistikler: Asimptotik olmayan bir bakış açısı. Cambridge, İngiltere: Cambridge University Press.CS1 bakimi: ref = harv (bağlantı)