Sağlam ölçek ölçüleri - Robust measures of scale

İçinde İstatistik, bir sağlam ölçek ölçüsü bir sağlam istatistik nicelleştiren istatistiksel dağılım bir dizi sayısal veri. En yaygın bu tür istatistikler çeyrekler arası aralık (IQR) ve medyan mutlak sapma (DELİ). Bunlar, örneklem gibi geleneksel ölçek ölçüleriyle karşılaştırılır. varyans veya örnek standart sapma sağlam olmayan, yani büyük ölçüde etkilenen aykırı değerler.

Bu sağlam istatistikler özellikle şu şekilde kullanılır: tahmin ediciler bir ölçek parametresi ve normal dağılım gibi dağıtımlardan gelen temiz veriler üzerinde düşük verimlilik pahasına, kontamine veriler üzerinde hem sağlamlık hem de üstün verimlilik avantajlarına sahiptir. Sağlamlığı göstermek için, standart sapma, tam olarak bir gözlemi artırarak isteğe bağlı olarak büyük yapılabilir (bir kırılma noktası 0, tek bir nokta ile kirlenebileceğinden), sağlam istatistiklerle paylaşılmayan bir kusur.

IQR ve MAD

En yaygın sağlam ölçek ölçülerinden biri, çeyrekler arası aralık (IQR), 75. yüzdelik ve 25'i yüzdelik bir numunenin; bu% 25 kırpılmış Aralık bir örnek L-tahmincisi. Diğer kırpılmış aralıklar, örneğin interdecile aralığı (% 10 kırpılmış aralık) da kullanılabilir.

Bilinen bir başka sağlam ölçek ölçüsü, medyan mutlak sapma (MAD), medyan veri değerleri ile veri setinin genel medyanı arasındaki farkların mutlak değerleri; Gauss dağılımı için MAD, gibi (türetme bulunabilir İşte ).

Tahmin

Sağlam ölçek ölçüleri şu şekilde kullanılabilir: tahmin ediciler nüfusun özelliklerinin parametre tahmini veya kendi tahmin edicileri olarak beklenen değer.

Örneğin, güçlü ölçek tahmin edicileri, nüfus değişimi veya nüfus standart sapma, genellikle a ile çarpılarak Ölçek faktörü yapmak için tarafsız tutarlı tahminci; görmek ölçek parametresi: tahmin. Örneğin, IQR'yi 2'ye bölmek2 erf−1(1/2) (yaklaşık 1.349), eğer veriler aşağıdakileri takip ederse, popülasyon standart sapması için tarafsız, tutarlı bir tahminciyi yapar. normal dağılım.

Diğer durumlarda, kendi başına bir tahmin aracı olarak sağlam bir ölçek ölçüsü düşünmek daha mantıklıdır. beklenen değer, bir ölçek ölçüsü olarak popülasyon varyansına veya standart sapmaya alternatif olarak yorumlanır. Örneğin, bir standarttan bir numunenin MAD'si Cauchy dağılımı bu durumda 1 olan MAD popülasyonunun bir tahmin edicisidir, oysa popülasyon varyansı yoktur.

Verimlilik

Bu güçlü tahmin ediciler tipik olarak daha düşük istatistiksel verimlilik Aykırı değerler olmaksızın (normal dağılım gibi) bir dağılımdan alınan veriler için geleneksel tahmin edicilerle karşılaştırıldığında, ancak bir karışım dağılımı veya bir ağır kuyruklu dağılım, bunun için standart sapma gibi sağlam olmayan önlemler kullanılmamalıdır.

Örneğin, normal dağılımdan alınan veriler için, MAD, örnek standart sapma kadar% 37 verimlidir, Rousseeuw-Croux tahmincisi ise Qn örnek standart sapması kadar% 88 verimlidir.

Mutlak ikili farklılıklar

Rousseeuw ve Croux[1] ÇH'ye iki zayıf yönüyle motive edilen alternatifler önerin:

  1. Bu yetersiz (% 37 verimlilik) Gauss dağılımları.
  2. bir konum tahmini hakkında simetrik bir istatistik hesaplar, bu nedenle çarpıklık.

İkili farklılıklara dayalı olarak iki alternatif istatistik önerirler: Sn ve Qn, şu şekilde tanımlanır:

nerede bağlı olarak sabittir .

Bunlar hesaplanabilir Ö(n günlük n) zaman ve Ö(n) Uzay.

Bunların hiçbiri gerektirmez yer tahmin, çünkü bunlar yalnızca değerler arasındaki farklara dayalıdır. Her ikisi de Gauss dağıtımı altında MAD'den daha verimlidir: Sn % 58 verimli iken Qn % 82 verimlidir.

Normal dağılımdan bir numune için, Sn çok mütevazı örneklem boyutlarına kadar bile popülasyon standart sapması için yaklaşık olarak tarafsızdır (<% 1 sapma için n = 10). Normal bir dağılımdan büyük bir örnek için, 2.219144465985075864722Qn popülasyon standart sapması için yaklaşık olarak tarafsızdır. Küçük veya orta dereceli numuneler için beklenen değer Qn normal dağılımın altında örneklem büyüklüğüne önemli ölçüde bağlıdır, bu nedenle sonlu örnek düzeltme faktörleri (bir tablodan veya simülasyonlardan elde edilen) ölçeğini kalibre etmek için kullanılır. Qn.

Biweight orta varyans

Sevmek Sn ve Qn, biweight orta varyans, çok fazla verimlilikten ödün vermeden sağlam olmayı hedefler. Olarak tanımlanır

nerede ben ... gösterge işlevi, Q örnek medyan Xben, ve

Karekökü, medyandan uzaklıkları arttıkça veri noktalarının ağırlığı azaldığından ve medyandan 9 MAD biriminden fazla noktaların hiçbir etkisi olmadığı için, sağlam bir ölçek tahmincisidir.

Uzantılar

Mizera ve Müller (2004) Eşzamanlı olarak konum ve ölçek için sağlam bir derinliğe dayalı tahminci önerin.[2]

Ayrıca bakınız

Referanslar

  1. ^ Rousseeuw, Peter J.; Croux, Christophe (Aralık 1993), "Medyan Mutlak Sapmaya Alternatifler", Amerikan İstatistik Derneği Dergisi, Amerikan İstatistik Kurumu, 88 (424): 1273–1283, doi:10.2307/2291267, JSTOR  2291267
  2. ^ Mizera, I .; Müller, C. H. (2004), "Yer ölçeği derinliği", Amerikan İstatistik Derneği Dergisi, 99 (468): 949–966, doi:10.1198/016214504000001312.