Parçalı regresyon - Segmented regression

Parçalı regresyon, Ayrıca şöyle bilinir parçalı regresyon veya kırık çubuk gerilemesi, bir yöntemdir regresyon analizi içinde bağımsız değişken aralıklara bölünür ve her aralığa ayrı bir çizgi parçası sığdırılır. Bölümlere ayrılmış regresyon analizi, çeşitli bağımsız değişkenleri bölümlere ayırarak çok değişkenli veriler üzerinde de gerçekleştirilebilir. Segmentli regresyon, farklı gruplar halinde kümelenmiş bağımsız değişkenler, bu bölgelerdeki değişkenler arasında farklı ilişkiler sergilediğinde yararlıdır. Segmentler arasındaki sınırlar kesme noktaları.

Parçalı doğrusal regresyon aralıklardaki ilişkilerin şu şekilde elde edildiği parçalı regresyondur doğrusal regresyon.

Parçalı doğrusal regresyon, iki parça

1. ekstremite yatay
1. uzuv eğimli
1. uzuv aşağı eğimli

Bir ile ayrılmış iki segmente sahip segmentli doğrusal regresyon kesme noktası değişen bir etkili faktörün (Yr) yanıt fonksiyonundaki ani bir değişikliğin miktarını belirlemek için yararlı olabilir (x). Kesme noktası şu şekilde yorumlanabilir: kritik, kasaveya eşik ötesinde veya altında, arzu edilen (istenmeyen) etkilerin meydana geldiği değer. Kesme noktası karar vermede önemli olabilir [1]

Şekiller, elde edilebilen bazı sonuçları ve regresyon türlerini göstermektedir.

Bölümlere ayrılmış bir regresyon analizi, bir dizi ( y, x ) veriler, içinde y ... bağımlı değişken ve x bağımsız değişken.

en küçük kareler Her bir segmente ayrı ayrı uygulanan yöntem, iki regresyon çizgisinin veri setine mümkün olduğunca yakın sığdırırken, farkların karelerinin toplamı (SSD) arasında gözlemlenen (y) ve bağımlı değişkenin hesaplanan (Yr) değerleri, aşağıdaki iki denklemle sonuçlanır:

  • Yr = A1.x + K1 için x
  • Yr = A2.x + K2 için x > BP (kesme noktası)

nerede:

Yr, beklenen (tahmin edilen) değeridir y belli bir değer için x;
Bir1 ve A2 vardır regresyon katsayıları (çizgi parçalarının eğimini gösterir);
K1 ve K2 vardır regresyon sabitleri (kesişme noktasını gösterir) yeksen).

Veriler birçok türü veya eğilimi gösterebilir,[2] rakamlara bakın.

Yöntem ayrıca iki verir korelasyon katsayıları (R):

  • için x

ve

  • için x > BP (kesme noktası)

nerede:

segment başına en aza indirilmiş SSD

ve

Ya1 ve Ya2 ortalama değerleridir y ilgili segmentlerde.

En uygun trendin belirlenmesinde, istatistiksel testler bu eğilimin güvenilir (önemli) olmasını sağlamak için gerçekleştirilmelidir.

Önemli bir kesme noktası tespit edilemediğinde, kesme noktası olmayan bir regresyona geri dönmek gerekir.

Misal

Parçalı doğrusal regresyon, tip 3b

Hardal verimi arasındaki ilişkiyi veren sağdaki mavi şekil için (Yr = Ym, t / ha) ve toprak tuzluluğu (x = Ss, toprak çözeltisinin elektrik iletkenliği olarak ifade edilir EC, dS / m cinsinden ifade edilir.[3]

BP = 4,93, A1 = 0, K1 = 1.74, A2 = −0,129, K2 = 2.38, R12 = 0,0035 (önemsiz), R22 = 0,395 (anlamlı) ve:

  • Ym = 1,74 t / ha, Ss <4,93 (kırılma noktası)
  • Ym = −0,129 Ss + 2,38 t / ha Ss> 4,93 (kırılma noktası)

toprak tuzluluğunun <4,93 dS / m güvenli olduğunu ve toprak tuzluluklarının> 4,93 dS / m'nin, toprak tuzluluğundaki birim artış başına 0,129 t / ha verimi düşürdüğünü gösterir.

Şekil, aşağıda ayrıntılı olarak açıklandığı gibi güven aralıklarını ve belirsizliği de gösterir.

Test prosedürleri

Örnek zaman serisi, tip 5
Bir ANOVA tablosu örneği: bu durumda, bir kırılma noktasının tanıtımı oldukça önemlidir.

Aşağıdaki istatistiksel testler eğilim türünü belirlemek için kullanılır:

  1. BP'nin bir fonksiyonu olarak ifade edilmesiyle kesme noktasının (BP) önemi regresyon katsayıları Bir1 ve A2 ve anlamı Y1 ve Y2 of y-veri ve araçlar X1 ve X2 of x verileri (BP'nin solu ve sağı), yasalarını kullanarak hataların yayılması hesaplamak için ek ve çarpmalar standart hata BP (SE) ve başvuru Öğrencinin t testi
  2. A'nın önemi1 ve A2 Student t dağılımını ve standart hata SE / A1 ve A2
  3. A farkının önemi1 ve A2 Student t-dağılımını kendi farklarının SE'sini kullanarak uygulamak.
  4. Y farkının önemi1 ve Y2 Student t-dağılımını kendi farklarının SE'sini kullanarak uygulamak.
  5. Bir kırılma noktasının varlığını test etmek için daha resmi bir istatistiksel yaklaşım, bölümlere ayrılmış çizginin tahminini gerektirmeyen sözde puan testidir.[4].

Ek olarak, korelasyon katsayısı tüm verilerden (Ra), determinasyon katsayısı veya açıklama katsayısı, güvenilirlik aralığı regresyon fonksiyonları ve ANOVA analizi.[5]

Anlamlılık testleri ile belirlenen koşullar altında maksimize edilecek olan tüm veriler (Cd) için belirleme katsayısı aşağıdakilerden bulunur:

Yr, beklenen (tahmin edilen) değerdir y önceki regresyon denklemlerine göre ve Ya hepsinin ortalamasıdır y değerler.

Cd katsayısı 0 (hiç açıklama yok) ile 1 (tam açıklama, tam eşleşme) arasında değişir.
Saf, bölümlenmemiş, doğrusal bir regresyonda, Cd ve Ra değerleri2 eşittir. Bölümlere ayrılmış bir regresyonda, Cd'nin Ra'dan önemli ölçüde daha büyük olması gerekir2 segmentasyonu doğrulamak için.

en uygun kırılma noktasının değeri, Cd katsayısı şu şekilde bulunabilir: maksimum.

Etkisiz aralık

X = 0 ile X = 7.1 arasında hiçbir etkisi olmayan bir aralığın çizimi.

Bölümlere ayrılmış regresyon genellikle bir açıklayıcı değişkenin (X) bağımlı değişken (Y) üzerinde hangi aralıkta etkisinin olmadığını saptamak için kullanılırken, erişimin ötesinde olumlu veya olumsuz net bir yanıt vardır. X alanının ilk kısmında veya tersine son kısmında bulunur. "Etkisiz" analizi için, en küçük kareler parçalı regresyon analizi için yöntem [6] en uygun teknik olmayabilir, çünkü amaç daha çok YX ilişkisinin sıfır eğime sahip olduğu kabul edilebilecek en uzun gerilimi bulmak iken, erişimin ötesinde eğim sıfırdan önemli ölçüde farklıdır, ancak bu eğimin en iyi değeri hakkında bilgi maddi değil. Etkisiz aralığı bulma yöntemi, aşamalı kısmi gerilemedir [7] aralık üzerinde, regresyon katsayısı sıfırdan önemli ölçüde farklı olana kadar aralığı küçük adımlarla genişletir.

Bir sonraki şekilde kırılma noktası X = 7,9'da bulunurken, aynı veriler için (hardal verimi için yukarıdaki mavi şekle bakın), en küçük kareler yöntemi yalnızca X = 4,9'da bir kırılma noktası verir. İkinci değer daha düşüktür, ancak verilerin kırılma noktasının ötesine sığması daha iyidir. Bu nedenle, hangi yöntemin kullanılması gerektiğine ilişkin analizin amacına bağlı olacaktır.

Ayrıca bakınız

Referanslar

  1. ^ Frekans ve Regresyon Analizi. Bölüm 6: H.P. Ritzema (ed., 1994), Drenaj Prensipleri ve Uygulamaları, Publ. 16, s. 175-224, Uluslararası Arazi Islahı ve İyileştirme Enstitüsü (ILRI), Wageningen, Hollanda. ISBN  90-70754-33-9 . Web sayfasından ücretsiz indirme [1] , nr altında. 20 veya doğrudan PDF olarak: [2]
  2. ^ Çiftçi tarlalarında drenaj araştırması: verilerin analizi. Uluslararası Arazi Islahı ve İyileştirme Enstitüsü'nün (ILRI) "Sıvı Altın" projesinin bir parçası, Wageningen, Hollanda. PDF olarak indirin: [3]
  3. ^ R.J. Oosterbaan, D.P.Sharma, K.N.Singh ve K.V.G.K.Rao, 1990, Mahsul üretimi ve toprak tuzluluğu: Hindistan'dan alınan tarla verilerinin segmentli doğrusal regresyon ile değerlendirilmesi. Kurak ve Yarı-Kurak Bölgelerde Tuzluluk Kontrolü için Arazi Drenajı Sempozyumu Bildirileri, 25 Şubat - 2 Mart 1990, Kahire, Mısır, Cilt. 3, Oturum V, s. 373 - 383.
  4. ^ Muggeo, VMR (2016). "Rahatsız edici bir parametre ile test etme, yalnızca alternatif kapsamında mevcuttur: bölümlere ayrılmış modelleme uygulamasıyla puan temelli bir yaklaşım". İstatistiksel Hesaplama ve Simülasyon Dergisi. 86 (15): 3059–3067. doi:10.1080/00949655.2016.1149855.
  5. ^ Varyans analizi ve F testleri kullanılarak kırılma noktalı segmentli doğrusal regresyonun istatistiksel önemi. İndirme [4] nr altında. 13 veya doğrudan PDF olarak: [5]
  6. ^ Bölümlere ayrılmış regresyon analizi, Uluslararası Arazi Islahı ve İyileştirme Enstitüsü (ILRI), Wageningen, Hollanda. Web sayfasından ücretsiz indirme [6]
  7. ^ Kısmi Regresyon Analizi, Uluslararası Arazi Islahı ve İyileştirme Enstitüsü (ILRI), Wageningen, Hollanda. Web sayfasından ücretsiz indirme [7]