Ağırlıklı en küçük kareler - Weighted least squares

Ağırlıklı en küçük kareler (WLS), Ayrıca şöyle bilinir ağırlıklı doğrusal regresyon,[1][2] bir genellemedir Sıradan en küçük kareler ve doğrusal regresyon hataların olduğu kovaryans matrisi farklı olmasına izin verilir kimlik matrisi.WLS ayrıca bir uzmanlık alanıdır. genelleştirilmiş en küçük kareler yukarıdaki matrisin olduğu diyagonal.

Giriş

Özel bir durum genelleştirilmiş en küçük kareler aranan ağırlıklı en küçük kareler tüm çaprazdan çapraz girişler olduğunda oluşur Ω (artıkların korelasyon matrisi) boştur; varyanslar gözlemlerin% 'si (kovaryans matrisi boyunca) hala eşit olmayabilir (farklı varyans ).

Bir modelin bir veri noktasına uyumu, artık, , bağımlı değişkenin ölçülen değeri arasındaki fark olarak tanımlanır, ve modelin tahmin ettiği değer, :

Hatalar ilintisiz ise ve eşit varyansa sahipse, fonksiyonun minimum değeri

,

ne zaman bulunur (tanımlayan ).

Gauss-Markov teoremi bu böyle olduğunda bir en iyi doğrusal yansız tahminci (MAVİ ). Bununla birlikte, ölçümler ilintisizse ancak farklı belirsizliklere sahipse, değiştirilmiş bir yaklaşım benimsenebilir. Aitken Kalanların ağırlıklı bir toplamı en aza indirildiğinde, ... MAVİ her ağırlık, ölçüm varyansının tersine eşitse

Bu kareler toplamı için gradyan denklemleri

Doğrusal bir en küçük kareler sisteminde değiştirilmiş normal denklemleri veren,

Gözlemsel hatalar ilintisiz ve ağırlık matrisi olduğunda, W, köşegendir, bunlar şu şekilde yazılabilir:

Hatalar ilişkilendirilirse, ortaya çıkan tahminci MAVİ ağırlık matrisi, şunun tersine eşitse varyans kovaryans matrisi gözlemlerin.

Hatalar ilintisiz olduğunda, ağırlık matrisini şu şekilde çarpanlarına ayırmak için hesaplamaları basitleştirmek uygundur: Normal denklemler daha sonra sıradan en küçük karelerle aynı biçimde yazılabilir:

Aşağıdaki ölçeklenmiş matrisi ve vektörü tanımladığımız yer:

Bu bir tür beyazlatma dönüşümü; son ifade bir giriş yönü bölümü.

İçin doğrusal olmayan en küçük kareler sistemler benzer bir argüman, normal denklemlerin aşağıdaki gibi değiştirilmesi gerektiğini gösterir.

Ampirik testler için uygun olanın W kesin olarak bilinmiyor ve tahmin edilmesi gerekiyor. Bunun için uygulanabilir genelleştirilmiş en küçük kareler (FGLS) teknikleri kullanılabilir; bu durumda, köşegen kovaryans matrisi için özelleşir, böylece uygulanabilir bir ağırlıklı en küçük kareler çözümü sağlar.

Gözlemlerin belirsizliği dış kaynaklardan bilinmiyorsa, o zaman ağırlıklar verilen gözlemlerden tahmin edilebilir. Bu, örneğin aykırı değerleri belirlemek için yararlı olabilir. Aykırı değerler veri setinden çıkarıldıktan sonra, ağırlıklar bire sıfırlanmalıdır.[3]

Motivasyon

Bazı durumlarda gözlemler ağırlıklandırılabilir - örneğin, eşit derecede güvenilir olmayabilirler. Bu durumda, ağırlıklı kareler toplamı en aza indirilebilir:

nerede wben > 0, bengözlem ve W ... Diyagonal matris bu tür ağırlıkların.

Ağırlıklar ideal olarak şuna eşit olmalıdır: karşılıklı of varyans ölçümün. (Bu, gözlemlerin ilintisiz olduğu anlamına gelir. Gözlemler bağlantılı, ifade geçerlidir. Bu durumda ağırlık matrisi ideal olarak şunun tersine eşit olmalıdır varyans kovaryans matrisi gözlemlerin).[3]Normal denklemler:

Bu yöntem, yinelemeli olarak yeniden ağırlıklandırılmış en küçük kareler.

Parametre hataları ve korelasyon

Tahmini parametre değerleri, gözlemlenen değerlerin doğrusal kombinasyonlarıdır

Bu nedenle, tahmini için bir ifade varyans kovaryans matrisi Parametre tahminlerinin% 50'si ile elde edilebilir hata yayılımı gözlemlerdeki hatalardan. Gözlemler için varyans-kovaryans matrisinin şu şekilde gösterilmesine izin verin: M ve tahmin edilen parametrelerinki Mβ. Sonra

Ne zaman W = M−1, bu basitleştirir

Birim ağırlıkları kullanıldığında (W = ben, kimlik matrisi ), deneysel hataların ilintisiz ve tümünün eşit olduğu ima edilir: M = σ2ben, nerede σ2 ... Önsel bir gözlemin varyansı. her durumda, σ2 yaklaşık olarak azaltılmış ki-kare :

nerede S (ağırlıklı) minimum değeridir amaç fonksiyonu:

Payda, , sayısı özgürlük derecesi; görmek etkili serbestlik dereceleri ilişkili gözlemler durumunda genellemeler için.

Her durumda, varyans parametre tahmininin tarafından verilir ve kovaryans parametre tahminleri arasında ve tarafından verilir . standart sapma varyansın kareköküdür, ve korelasyon katsayısı ile verilir . Bu hata tahminleri yalnızca rastgele hatalar ölçümlerde. Parametrelerdeki gerçek belirsizlik, varlığından dolayı daha büyüktür. sistematik hatalar, tanım gereği nicelleştirilemez. Gözlemler ilintisiz olsa bile, parametrelerin tipik olarak bağlantılı.

Parametre güven sınırları

Sıklıkla varsayıldı, herhangi bir somut delil istemekle birlikte, genellikle Merkezi Limit Teoremi -görmek Normal dağılım # Oluşum —Her gözlemdeki hatanın bir normal dağılım ortalama sıfır ve standart sapma ile . Bu varsayım altında, tahmin edilen standart hatası açısından tek bir skaler parametre tahmini için aşağıdaki olasılıklar türetilebilir. (verilen İşte ):

% 68 aralığın gerçek katsayı değerini kapsar
% 95 aralığın gerçek katsayı değerini kapsar
% 99 aralığın gerçek katsayı değerini kapsar

Varsayım mantıksız değildir m >> n. Deneysel hatalar normal olarak dağıtılırsa, parametreler bir Student t dağılımı ile m − n özgürlük derecesi. Ne zaman m >> n Student t-dağılımı normal bir dağılıma yaklaşmaktadır. Ancak, bu güven sınırlarının sistematik hatayı hesaba katamayacağını unutmayın. Ayrıca, parametre hataları, tabi oldukları tek bir önemli rakama aktarılmalıdır. örnekleme hatası.[4]

Gözlem sayısı nispeten az olduğunda, Chebychev eşitsizliği Deneysel hataların dağılımına ilişkin varsayımlara bakılmaksızın olasılıklar üzerinde bir üst sınır için kullanılabilir: bir parametrenin beklenti değerinden 1, 2 veya 3 standart sapmadan daha fazla olması için maksimum olasılıklar% 100,% 25 ve Sırasıyla% 11.

Artık değerler ve korelasyon

kalıntılar tarafından gözlemlerle ilgilidir

nerede H ... idempotent matris olarak bilinir şapka matrisi:

ve ben ... kimlik matrisi. Kalıntıların varyans-kovaryans matrisi, M r tarafından verilir

Böylece, gözlemler olmasa bile kalıntılar ilişkilendirilir.

Ne zaman ,

Ağırlıklı artık değerlerin toplamı, model işlevi sabit bir terim içerdiğinde sıfıra eşittir. Kalıntıların ifadesini sol ile çarpın: X ^ T WT:

Örneğin, modelin ilk teriminin sabit olduğunu söyleyin, böylece hepsi için ben. Bu durumda şunu takip eder:

Bu nedenle, yukarıdaki motivasyonel örnekte, artık değerlerin toplamının sıfıra eşit olması tesadüfi olmayıp, modeldeki α sabit teriminin varlığının bir sonucudur.

Deneysel hata bir normal dağılım, sonra, kalıntılar ve gözlemler arasındaki doğrusal ilişki nedeniyle, kalıntılar da[5] ancak gözlemler, tüm olası gözlemlerin popülasyonunun yalnızca bir örneği olduğundan, kalıntılar bir Student t dağılımı. Studentized kalıntılar için istatistiksel bir test yapmakta kullanışlıdır. aykırı belirli bir kalıntı aşırı derecede büyük göründüğünde.

Ayrıca bakınız

Referanslar

  1. ^ [1]
  2. ^ [2]
  3. ^ a b Strutz, T. (2016). Veri Uydurma ve Belirsizlik (Ağırlıklı en küçük kareler ve ötesine pratik bir giriş). Springer Görüntüleyici. ISBN  978-3-658-11455-8., Bölüm 3
  4. ^ Mandel, John (1964). Deneysel Verilerin İstatistiksel Analizi. New York: Interscience.
  5. ^ Mardia, K. V .; Kent, J. T .; Bibby, J.M. (1979). Çok değişkenli analiz. New York: Akademik Basın. ISBN  0-12-471250-9.