Kendall sıra korelasyon katsayısı - Kendall rank correlation coefficient

İçinde İstatistik, Kendall sıra korelasyon katsayısı, genellikle şu şekilde anılır Kendall'ın τ katsayısı (Yunanca harften sonra τ, tau), bir istatistik ölçmek için kullanılır sıra ilişkisi ölçülen iki büyüklük arasında. Bir τ testi bir parametrik olmayan hipotez testi τ katsayısına dayalı istatistiksel bağımlılık için.

Bir ölçüsüdür sıra korelasyonu: verilerin sıralamalarının benzerliği sıralı miktarların her biri tarafından. Adını almıştır Maurice Kendall, bunu 1938'de geliştiren,^[1] rağmen Gustav Fechner bağlamında benzer bir önlem önermişti Zaman serisi 1897'de.^[2]

Sezgisel olarak, gözlemler benzer (veya 1 korelasyonu için özdeş) olduğunda iki değişken arasındaki Kendall korelasyonu yüksek olacaktır. sıra (yani, değişken içindeki gözlemlerin göreceli konum etiketi: 1., 2., 3., vb.) iki değişken arasında ve gözlemler iki değişken arasında benzer olmayan (veya −1 korelasyonu için tamamen farklı) bir sıraya sahip olduğunda düşük.

İkisi de Kendall ${displaystyle au}$ ve Mızrakçı ${displaystyle ho}$ daha özel durumlar olarak formüle edilebilir genel korelasyon katsayısı.

Tanım

İzin Vermek ${displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ ortak rastgele değişkenlerin bir dizi gözlemi olabilir X ve Y, öyle ki ( ${displaystyle x_ {i}}$ ) ve ( ${displaystyle y_ {i}}$ ) benzersizdir (basitlik için bağlar ihmal edilir). Herhangi bir gözlem çifti ${görüntü stili (x_ {i}, y_ {i})}$ ve ${görüntü stili (x_ {j}, y_ {j})}$ , nerede ${displaystyle i$ , Olduğu söyleniyor uyumlu eğer sıralama düzeni ${görüntü stili (x_ {i}, x_ {j})}$ ve ${displaystyle (y_ {i}, y_ {j})}$ kabul eder: yani her ikisi de ${displaystyle x_ {i}> x_ {j}}$ ve ${displaystyle y_ {i}> y_ {j}}$ tutar veya her ikisi ${displaystyle x_ {i}$ ve ${displaystyle y_ {i}$ ; aksi takdirde oldukları söylenir uyumsuz.

Kendall τ katsayısı şu şekilde tanımlanır:

{displaystyle au = {frac {({ext {uyumlu çiftlerin sayısı}}) - ({ext {uyumsuz çiftlerin sayısı}})} {n seç 2}}.}

^[3]

Nerede ${displaystyle {n select 2} = {n (n-1) over 2}}$ ... binom katsayısı n öğeden iki öğe seçmenin yollarının sayısı için.

Özellikleri

payda çift kombinasyonlarının toplam sayısıdır, bu nedenle katsayı −1 ≤ aralığında olmalıdırτ ≤ 1.

İki sıralama arasındaki anlaşma mükemmelse (yani, iki sıralama aynı ise), katsayı 1 değerine sahiptir.
İki sıralama arasındaki uyuşmazlık mükemmelse (yani, bir sıralama diğerinin tersi ise), katsayı −1 değerine sahiptir.
Eğer X ve Y vardır bağımsız, o zaman katsayının yaklaşık olarak sıfır olmasını bekleriz.
Kendall'ın sıra katsayısı için açık bir ifade şudur: ${displaystyle au = {frac {2} {n (n-1)}} toplam _ {i$ .

Hipotez testi

Kendall sıra katsayısı genellikle bir test istatistiği içinde istatistiksel hipotez testi iki değişkenin istatistiksel olarak bağımlı kabul edilip edilemeyeceğini belirlemek için. Bu test parametrik olmayan dağıtımlarına ilişkin herhangi bir varsayıma dayanmadığından X veya Y veya dağılımı (X,Y).

Altında sıfır hipotezi bağımsızlık X ve Y, örnekleme dağılımı nın-nin τ var beklenen değer sıfır. Kesin dağılım, genel dağılımlar açısından karakterize edilemez, ancak tam olarak küçük numuneler için hesaplanabilir; daha büyük örnekler için, bir yaklaşımın kullanılması yaygındır. normal dağılım, ortalama sıfır ve varyans ile

{displaystyle {frac {2 (2n + 5)} {9n (n-1)}}}

.^[4]

Bağlar için muhasebe

Bir çift ${görüntü stili {(x_ {i}, y_ {i}), (x_ {j}, y_ {j})}}$ olduğu söyleniyor bağlı Eğer ${displaystyle x_ {i} = x_ {j}}$ veya ${displaystyle y_ {i} = y_ {j}}$ ; bağlı bir çift ne uyumlu ne de uyumsuzdur. Verilerde bağlı çiftler ortaya çıktığında, katsayı [−1, 1] aralığında tutmak için çeşitli yollarla değiştirilebilir:

Tau-a

Tau-a istatistiği, birlikteliğin gücü of çapraz tablolar. Her iki değişken de olmalı sıra. Tau-a bağlar için herhangi bir ayarlama yapmayacak. Şu şekilde tanımlanır:

{displaystyle au _ {A} = {frac {n_ {c} -n_ {d}} {n_ {0}}}}

nerede n_c, n_d ve n₀ sonraki bölümde olduğu gibi tanımlanmıştır.

Tau-b

Tau-a istatistiği, Tau-a'nın aksine, bağlar için ayarlamalar yapar.^[5] Tau-b değerleri -1 (% 100 negatif ilişki veya mükemmel ters çevirme) ile +1 (% 100 pozitif ilişki veya mükemmel uyum) arasında değişir. Sıfır değeri, ilişkinin olmadığını gösterir.

Kendall Tau-b katsayısı şu şekilde tanımlanır:

{displaystyle au _ {B} = {frac {n_ {c} -n_ {d}} {sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2})}}}}

nerede

{displaystyle {egin {hizalı} n_ {0} & = n (n-1) / 2 n_ {1} & = toplam _ {i} t_ {i} (t_ {i} -1) / 2 n_ { 2} & = sum _ {j} u_ {j} (u_ {j} -1) / 2 n_ {c} & = {ext {Uyumlu çiftlerin sayısı}} n_ {d} & = {ext {Sayı uyumsuz çift sayısı}} t_ {i} & = {ext {}} i ^ {ext {th}} {ext {ilk miktar için bağ grubu}} u_ {j} & = içindeki bağlı değerlerin sayısı {ext {içinde bağlı değerlerin sayısı}} j ^ {ext {th}} {ext {ikinci miktar için bağ grubu}} uç {hizalı}}}

Bazı istatistiksel paketlerin, ör. SPSS, 'normal' sayıda uyumlu ve uyumsuz çiftlerle hesaplama verimliliği için alternatif formüller kullanın.^[6]

Tau-c

Tau-c (aynı zamanda Stuart-Kendall Tau-c olarak da bilinir)^[7] kare olmayanlara (yani dikdörtgen) dayalı verilerin analizi için Tau-b'den daha uygundur Ihtimal tabloları.^[7]^[8] Dolayısıyla, her iki değişkenin temel ölçeği aynı sayıda olası değere sahipse (sıralamadan önce) Tau-b'yi ve farklılarsa Tau-c'yi kullanın. Örneğin, bir değişken 5 puanlık bir ölçekte (çok iyi, iyi, ortalama, kötü, çok kötü) puanlanabilirken, diğeri daha ince 10 puanlık bir ölçeğe dayalı olabilir.

Kendall Tau-c katsayısı şu şekilde tanımlanır:^[8]

{displaystyle au _ {C} = {frac {2 (n_ {c} -n_ {d})} {n ^ {2} {frac {(m-1)} {m}}}}}

nerede

{displaystyle {egin {hizalı} n_ {c} & = {ext {Uyumlu çiftlerin sayısı}} n_ {d} & = {ext {Uyumsuz çiftlerin sayısı}} r & = {ext {Satır sayısı}} c & = {ext {Sütun sayısı}} m & = min (r, c) end {hizalı}}}

Önem testleri

İki miktar istatistiksel olarak bağımsız olduğunda, dağılımı ${displaystyle au}$ bilinen dağılımlar açısından kolayca karakterize edilemez. Ancak ${displaystyle au _ {A}}$ aşağıdaki istatistik, ${displaystyle z_ {A}}$ , değişkenler istatistiksel olarak bağımsız olduğunda yaklaşık olarak standart bir normal olarak dağıtılır:

{displaystyle z_ {A} = {3 (n_ {c} -n_ {d}) over {sqrt {n (n-1) (2n + 5) / 2}}}}

Bu nedenle, iki değişkenin istatistiksel olarak bağımlı olup olmadığını test etmek için biri ${displaystyle z_ {A}}$ ve standart normal dağılım için kümülatif olasılığı bulur ${ekran stili - | z_ {A} |}$ . 2 kuyruklu bir test için, bu sayıyı ikiyle çarparak p-değer. Eğer p-değer belirli bir anlamlılık seviyesinin altındaysa, niceliklerin istatistiksel olarak bağımsız olduğu şeklindeki boş hipotez (bu anlamlılık düzeyinde) reddedilir.

Çok sayıda düzenleme eklenmelidir ${displaystyle z_ {A}}$ bağları hesaplarken. Aşağıdaki istatistik, ${displaystyle z_ {B}}$ , ile aynı dağılıma sahiptir ${displaystyle au _ {B}}$ dağılımdır ve miktarlar istatistiksel olarak bağımsız olduğunda yine standart bir normal dağılıma yaklaşık olarak eşittir:

{displaystyle z_ {B} = {n_ {c} -n_ {d} over {sqrt {v}}}}

nerede

{displaystyle {egin {dizi} {ccl} v & = & (v_ {0} -v_ {t} -v_ {u}) / 18 + v_ {1} + v_ {2} v_ {0} & = & n ( n-1) (2n + 5) v_ {t} & = & toplam _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) v_ {u} & = & toplam _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) v_ {1} & = & toplam _ {i} t_ {i} (t_ {i} -1) toplam _ { j} u_ {j} (u_ {j} -1) / (2n (n-1)) v_ {2} & = & toplam _ {i} t_ {i} (t_ {i} -1) (t_ { i} -2) toplam _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2) / (9n (n-1) (n-2)) end {dizi}}}

Bu bazen Mann-Kendall testi olarak adlandırılır.^[9]

Algoritmalar

Payın doğrudan hesaplanması ${displaystyle n_ {c} -n_ {d}}$ , aşağıdaki sözde kodla karakterize edilen iki iç içe yineleme içerir:

sayı: = 0için i: = 2..N yapmak    için j: = 1 .. (i - 1) yapmak        sayı: = sayı + işaret (x [i] - x [j]) × işaret (y [i] - y [j])dönüş sayı

Uygulaması hızlı olmasına rağmen, bu algoritma ${displaystyle O (n ^ {2})}$ karmaşıktır ve büyük örneklerde çok yavaş hale gelir. Daha karmaşık bir algoritma^[10] üzerine inşa edilmiş Sıralamayı Birleştir algoritması içindeki payı hesaplamak için kullanılabilir ${displaystyle O (ncdot günlüğü {n})}$ zaman.

Veri noktalarınızı ilk miktara göre sıralayarak başlayın, ${displaystyle x}$ ve ikincil olarak (bağlar arasında ${displaystyle x}$ ) ikinci miktara göre, ${displaystyle y}$ . Bu ilk siparişle, ${displaystyle y}$ sıralanmamıştır ve algoritmanın özü, bir Kabarcık Sıralama bu baştaki sıralamak gerekir ${displaystyle y}$ . Gelişmiş Sıralamayı Birleştir algoritma ile ${displaystyle O (nlog n)}$ karmaşıklık, takas sayısını hesaplamak için uygulanabilir, ${görüntü stili S (y)}$ , bu bir Kabarcık Sıralama sıralamak ${displaystyle y_ {i}}$ . Sonra pay ${displaystyle au}$ şu şekilde hesaplanır:

{displaystyle n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2} + n_ {3} -2S (y),}

nerede ${displaystyle n_ {3}}$ gibi hesaplanır ${displaystyle n_ {1}}$ ve ${displaystyle n_ {2}}$ , ancak içindeki ortak bağlarla ilgili olarak ${displaystyle x}$ ve ${displaystyle y}$ .

Bir Sıralamayı Birleştir sıralanacak verileri bölümler, ${displaystyle y}$ kabaca eşit iki yarıya, ${displaystyle y_ {mathrm {sol}}}$ ve ${displaystyle y_ {mathrm {sağ}}}$ , sonra her bir yarıyı özyinelemeli olarak sıralar ve sonra sıralanmış iki yarıyı tam olarak sıralanmış bir vektörde birleştirir. Sayısı Kabarcık Sıralama swaps şuna eşittir:

{displaystyle S (y) = S (y_ {mathrm {sol}}) + S (y_ {mathrm {sağ}}) + M (Y_ {mathrm {sol}}, Y_ {mathrm {sağ}})}

nerede ${displaystyle Y_ {mathrm {sol}}}$ ve ${displaystyle Y_ {mathrm {sağ}}}$ sıralı versiyonları ${displaystyle y_ {mathrm {sol}}}$ ve ${displaystyle y_ {mathrm {sağ}}}$ , ve ${displaystyle M (cdot, cdot)}$ karakterize eder Kabarcık Sıralama bir birleştirme işlemi için takas eşdeğeri. ${displaystyle M (cdot, cdot)}$ aşağıdaki sözde kodda gösterildiği gibi hesaplanır:

işlevi M (L [1..n], Sağ [1..m]) dır-dir    i: = 1 j: = 1 n Değişme: = 0 süre ben ≤ n ve j ≤ m yapmak        Eğer R [j] sonra            nSwaps: = nSwaps + n - i + 1 j: = j + 1 Başka            i: = i + 1 dönüş nSwaps

Yukarıdaki adımların bir yan etkisi, sonuçta hem sıralı bir sürümle sonuçlanmanızdır. ${displaystyle x}$ ve sıralı bir versiyonu ${displaystyle y}$ . Bunlarla faktörler ${displaystyle t_ {i}}$ ve ${displaystyle u_ {j}}$ hesaplamak için kullanılır ${displaystyle au _ {B}}$ sıralanan dizilerden tek bir doğrusal zaman geçişinde kolayca elde edilir.

Yazılım Uygulamaları

R İstatistik temel paketi testi uygular cor.test (x, y, yöntem = "kendall") "istatistik" paketinde (ayrıca cor (x, y, yöntem = "kendall") çalışacaktır, ancak p değerini döndürmeden).
İçin Python, SciPy kütüphane hesaplamasını uygular ${displaystyle au}$ içinde scipy.stats.kendalltau

Ayrıca bakınız

Korelasyon
Kendall tau mesafesi
Kendall'ın W
Spearman sıra korelasyon katsayısı
Goodman ve Kruskal'ın gama
Theil – Sen tahmincisi
Mann-Whitney U testi - değişkenlerden biri ikili ise, Kendall'ın tau korelasyon katsayısına eşdeğerdir.

Referanslar

^ Kendall, M. (1938). "Sıra Korelasyonunun Yeni Ölçüsü". Biometrika. 30 (1–2): 81–89. doi:10.1093 / biomet / 30.1-2.81. JSTOR 2332226.
^ Kruskal, W.H. (1958). "Ordinal Measures of Association". Amerikan İstatistik Derneği Dergisi. 53 (284): 814–861. doi:10.2307/2281954. JSTOR 2281954. BAY 0100941.
^ Nelsen, R.B. (2001) [1994], "Kendall tau metriği", Matematik Ansiklopedisi, EMS Basın
^ Prokhorov, A.V. (2001) [1994], "Kendall sıra korelasyon katsayısı", Matematik Ansiklopedisi, EMS Basın
^ Agresti, A. (2010). Sıralı Kategorik Verilerin Analizi (İkinci baskı). New York: John Wiley & Sons. ISBN 978-0-470-08289-8.
^ IBM (2016). IBM SPSS Statistics 24 Algoritmalar. IBM. s. 168. Alındı 31 Ağustos 2017.
^ ^a ^b Berry, K. J .; Johnston, J. E .; Zahran, S .; Mielke, P.W. (2009). "Sıralı değişkenler için Stuart'ın tau etki büyüklüğü ölçüsü: Bazı metodolojik hususlar". Davranış Araştırma Yöntemleri. 41 (4): 1144–1148. doi:10.3758 / brm.41.4.1144. PMID 19897822.
^ ^a ^b Stuart, A. (1953). "Olasılık Tablolarında Birleşmenin Güçlü Yönlerinin Tahmini ve Karşılaştırılması". Biometrika. 40 (1–2): 105–110. doi:10.2307/2333101. JSTOR 2333101.
^ Glen_b. "Mann-Kendall ve Kendall Tau-b arasındaki ilişki".
^ Şövalye, W. (1966). "Gruplanmamış Verilerle Kendall'ın Tau'unu Hesaplamak İçin Bir Bilgisayar Yöntemi". Amerikan İstatistik Derneği Dergisi. 61 (314): 436–439. doi:10.2307/2282833. JSTOR 2282833.

daha fazla okuma

Abdi, H. (2007). "Kendall sıra korelasyonu" (PDF). Salkind, N.J. (ed.). Ansiklopedisi Ölçme ve İstatistik. Bin Meşe (CA): Adaçayı.
Daniel, Wayne W. (1990). "Kendall'ın tau". Uygulanan Parametrik Olmayan İstatistikler (2. baskı). Boston: PWS-Kent. s. 365–377. ISBN 978-0-534-91976-4.
Kendall, Maurice; Gibbons, Jean Dickinson (1990) [İlk yayın tarihi 1948]. Sıra Korelasyon Yöntemleri. Charles Griffin Kitap Serisi (5. baskı). Oxford: Oxford University Press. ISBN 978-0195208375.
Bonett, Douglas G .; Wright, Thomas A. (2000). "Pearson, Kendall ve Spearman korelasyonlarını tahmin etmek için örneklem büyüklüğü gereksinimleri". Psychometrika. 65 (1): 23–28. doi:10.1007 / BF02294183.

Dış bağlantılar

[1] Kendall, M. (1938). "Sıra Korelasyonunun Yeni Ölçüsü". Biometrika. 30 (1–2): 81–89. doi:10.1093 / biomet / 30.1-2.81. JSTOR 2332226.

[2] Kruskal, W.H. (1958). "Ordinal Measures of Association". Amerikan İstatistik Derneği Dergisi. 53 (284): 814–861. doi:10.2307/2281954. JSTOR 2281954. BAY 0100941.

[3] Nelsen, R.B. (2001) [1994], "Kendall tau metriği", Matematik Ansiklopedisi, EMS Basın

[4] Prokhorov, A.V. (2001) [1994], "Kendall sıra korelasyon katsayısı", Matematik Ansiklopedisi, EMS Basın

[5] Agresti, A. (2010). Sıralı Kategorik Verilerin Analizi (İkinci baskı). New York: John Wiley & Sons. ISBN 978-0-470-08289-8.

[IBM-6] IBM (2016). IBM SPSS Statistics 24 Algoritmalar. IBM. s. 168. Alındı 31 Ağustos 2017.

[Berry-7] Berry, K. J .; Johnston, J. E .; Zahran, S .; Mielke, P.W. (2009). "Sıralı değişkenler için Stuart'ın tau etki büyüklüğü ölçüsü: Bazı metodolojik hususlar". Davranış Araştırma Yöntemleri. 41 (4): 1144–1148. doi:10.3758 / brm.41.4.1144. PMID 19897822.

[Stuart-8] Stuart, A. (1953). "Olasılık Tablolarında Birleşmenin Güçlü Yönlerinin Tahmini ve Karşılaştırılması". Biometrika. 40 (1–2): 105–110. doi:10.2307/2333101. JSTOR 2333101.

[9] Glen_b. "Mann-Kendall ve Kendall Tau-b arasındaki ilişki".

[10] Şövalye, W. (1966). "Gruplanmamış Verilerle Kendall'ın Tau'unu Hesaplamak İçin Bir Bilgisayar Yöntemi". Amerikan İstatistik Derneği Dergisi. 61 (314): 436–439. doi:10.2307/2282833. JSTOR 2282833.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]