K-en yakın komşular algoritması - K-nearest neighbors algorithm

İçinde İstatistik, k-en yakın komşular algoritması (k-NN) bir parametrik olmayan tarafından önerilen yöntem Thomas Kapak için kullanılır sınıflandırma ve gerileme.^[1] Her iki durumda da, girdi aşağıdakilerden oluşur: k en yakın eğitim örnekleri özellik alanı. Çıktı, k-NN, sınıflandırma veya regresyon için kullanılır:

İçinde k-NN sınıflandırmasıçıktı bir sınıf üyeliğidir. Bir nesne, komşularının birden fazla oyuyla sınıflandırılır ve nesne, nesnesi arasında en yaygın olan sınıfa atanır. k en yakın komşular (k olumlu tamsayı, genellikle küçük). Eğer k = 1 ise, nesne basitçe o en yakın komşunun sınıfına atanır.

İçinde k-NN regresyonuçıktı, nesnenin özellik değeridir. Bu değer, değerlerinin ortalamasıdır k en yakın komşular.

k-NN bir tür örnek tabanlı öğrenme veya tembel öğrenme, burada işlev yalnızca yerel olarak yaklaştırılır ve tüm hesaplama işlev değerlendirmesine kadar ertelenir. Bu algoritma, sınıflandırma için mesafeye dayandığından, normalleştirme eğitim verileri, doğruluğunu önemli ölçüde artırabilir.^[2]^[3]

Hem sınıflandırma hem de regresyon için, yararlı bir teknik, komşuların katkılarına ağırlık atamak olabilir, böylece daha yakın komşular ortalamaya daha uzak olanlardan daha fazla katkıda bulunur. Örneğin, yaygın bir ağırlıklandırma şeması, her bir komşuya 1 /d, nerede d komşuya olan mesafedir.^[4]

Komşular, sınıfın (için) olduğu bir dizi nesneden alınır. k-NN sınıflandırması) veya nesne özelliği değeri ( k-NN regresyon) bilinmektedir. Bu, algoritma için eğitim seti olarak düşünülebilir, ancak açık bir eğitim adımı gerekli değildir.

Bir tuhaflık k-NN algoritması, verilerin yerel yapısına duyarlı olmasıdır.

İstatistiksel ayar

Diyelim ki çiftlerimiz var ${ displaystyle (X_ {1}, Y_ {1}), (X_ {2}, Y_ {2}), noktalar, (X_ {n}, Y_ {n})}$ değer almak ${ displaystyle mathbb {R} ^ {d} times {1,2 }}$ , nerede $Y$ sınıf etiketi $X$ , Böylece ${ displaystyle X | Y = r sim P_ {r}}$ için ${ displaystyle r = 1,2}$ (ve olasılık dağılımları ${ displaystyle P_ {r}}$ ). Biraz norm verildi ${ displaystyle | cdot |}$ açık ${ displaystyle mathbb {R} ^ {d}}$ ve bir nokta ${ displaystyle x in mathbb {R} ^ {d}}$ , İzin Vermek ${ displaystyle (X _ {(1)}, Y _ {(1)}), noktalar, (X _ {(n)}, Y _ {(n)})}$ eğitim verilerinin yeniden düzenlenmesi ${ displaystyle | X _ {(1)} - x | leq noktalar leq | X _ {(n)} - x |}$

Algoritma

Nın bir örneği k-NN sınıflandırması. Test numunesi (yeşil nokta) mavi kareler veya kırmızı üçgenler olarak sınıflandırılmalıdır. Eğer k = 3 (düz çizgi çember) kırmızı üçgenlere atanmıştır çünkü iç çemberin içinde 2 üçgen ve sadece 1 kare vardır. Eğer k = 5 (kesik çizgili daire) mavi karelere atanır (dış çemberin içinde 3 kareye karşılık 2 üçgen).

Eğitim örnekleri, her biri bir sınıf etiketine sahip çok boyutlu bir özellik uzayındaki vektörlerdir. Algoritmanın eğitim aşaması yalnızca özellik vektörleri ve eğitim örneklerinin sınıf etiketleri.

Sınıflandırma aşamasında, k kullanıcı tanımlı bir sabittir ve etiketlenmemiş bir vektör (bir sorgu veya test noktası), en sık kullanılan etiket atanarak sınıflandırılır. k o sorgu noktasına en yakın eğitim örnekleri.

Şunlar için yaygın olarak kullanılan bir mesafe ölçüsü: Sürekli değişkenler dır-dir Öklid mesafesi. Metin sınıflandırması gibi ayrı değişkenler için, başka bir metrik kullanılabilir, örneğin örtüşme ölçüsü (veya Hamming mesafesi ). Örneğin, gen ekspresyonu mikrodizi verileri bağlamında, k-NN, bir metrik olarak Pearson ve Spearman gibi korelasyon katsayılarıyla kullanılmıştır.^[5] Genellikle, sınıflandırma doğruluğu k-NN, mesafe metriği aşağıdaki gibi özel algoritmalarla öğrenilirse önemli ölçüde iyileştirilebilir: Büyük Marj En Yakın Komşu veya Mahalle bileşenleri analizi.

Temel "çoğunluk oylaması" sınıflandırmasının bir dezavantajı, sınıf dağılımı çarpık olduğunda ortaya çıkar. Yani, daha sık bir sınıfın örnekleri, yeni örneğin öngörüsüne hakim olma eğilimindedir, çünkü bunlar, k çok sayıları nedeniyle en yakın komşular.^[6] Bu sorunun üstesinden gelmenin bir yolu, test noktasından her birine olan mesafeyi hesaba katarak sınıflandırmayı ağırlıklandırmaktır. k en yakın komşular. Her birinin sınıfı (veya regresyon problemlerinde değeri) k en yakın noktalar, o noktadan test noktasına olan mesafenin tersi ile orantılı bir ağırlık ile çarpılır. Eğriliğin üstesinden gelmenin başka bir yolu, veri sunumunda soyutlamadır. Örneğin, bir kendi kendini organize eden harita (SOM), her düğüm, orijinal eğitim verilerindeki yoğunluklarına bakılmaksızın, benzer noktaların bir kümesinin temsilcisidir (merkez). K-NN daha sonra SOM'a uygulanabilir.

Parametre seçimi

En iyi seçim k verilere bağlıdır; genellikle daha büyük değerler k Gürültünün sınıflandırmaya etkisini azaltır,^[7] ancak sınıflar arasındaki sınırları daha az belirgin hale getirin. İyi k çeşitli tarafından seçilebilir sezgisel teknikler (bkz. hiperparametre optimizasyonu ). Sınıfın en yakın eğitim örnekleminin sınıfı olmasının öngörüldüğü özel durum (ör. k = 1) en yakın komşu algoritması olarak adlandırılır.

Doğruluğu k-NN algoritması, gürültülü veya ilgisiz özelliklerin varlığı veya özellik ölçekleri önemleriyle tutarlı olmadığında ciddi şekilde bozulabilir. Çok fazla araştırma çabası sarf edildi seçme veya ölçekleme sınıflandırmayı iyileştirmek için özellikler. Özellikle popüler^{[kaynak belirtilmeli ]} yaklaşım kullanımıdır evrimsel algoritmalar özellik ölçeklemeyi optimize etmek için.^[8] Diğer bir popüler yaklaşım, özellikleri karşılıklı bilgi eğitim verilerinin eğitim sınıfları ile birlikte.^{[kaynak belirtilmeli ]}

İkili (iki sınıflı) sınıflandırma problemlerinde, seçim yapmak yararlıdır k tek sayı olması, oyların bağlanmasını önler. Ampirik olarak optimal olanı seçmenin popüler bir yolu k bu ayarda bootstrap yöntemidir.^[9]

$1$ -en yakın komşu sınıflandırıcı

En sezgisel en yakın komşu türü sınıflandırıcı, bir nokta atayan en yakın komşu sınıflandırıcıdır. $x$ özellik uzayındaki en yakın komşusunun sınıfına, yani ${ displaystyle C_ {n} ^ {1nn} (x) = Y _ {(1)}}$ .

Eğitim veri setinin boyutu sonsuza yaklaştıkça, en yakın komşu sınıflandırıcı, iki katından daha kötü olmayan bir hata oranını garanti eder. Bayes hata oranı (verilerin dağılımı göz önüne alındığında ulaşılabilen minimum hata oranı).

Ağırlıklı en yakın komşu sınıflandırıcı

$k$ -en yakın komşu sınıflandırıcı, $k$ en yakın komşular ağırlık ${ displaystyle 1 / k}$ ve diğerleri $0$ ağırlık. Bu, ağırlıklı en yakın komşu sınıflandırıcılara genelleştirilebilir. Yani, nerede $ben$ en yakın komşuya bir ağırlık atanır ${ displaystyle w_ {ni}}$ , ile ${ displaystyle toplamı _ {i = 1} ^ {n} w_ {ni} = 1}$ . Ağırlıklı en yakın komşu sınıflandırıcıların güçlü tutarlılığına ilişkin benzer bir sonuç da geçerlidir.^[10]

İzin Vermek ${ displaystyle C_ {n} ^ {wnn}}$ ağırlıklarla ağırlıklı en yakın sınıflandırıcıyı belirtir ${ displaystyle {w_ {ni} } _ {i = 1} ^ {n}}$ . Düzenlilik koşullarına tabi^{[daha fazla açıklama gerekli ]} sınıf dağılımlarında aşırı risk aşağıdaki asimptotik genişlemeye sahiptir^[11]

{ displaystyle { mathcal {R}} _ { mathcal {R}} (C_ {n} ^ {wnn}) - { mathcal {R}} _ { mathcal {R}} (C ^ {Bayes} ) = left (B_ {1} s_ {n} ^ {2} + B_ {2} t_ {n} ^ {2} sağ) {1 + o (1) },}

sabitler için ${ displaystyle B_ {1}}$ ve ${ displaystyle B_ {2}}$ nerede ${ displaystyle s_ {n} ^ {2} = toplam _ {i = 1} ^ {n} w_ {ni} ^ {2}}$ ve ${ displaystyle t_ {n} = n ^ {- 2 / d} toplamı _ {i = 1} ^ {n} w_ {ni} {i ^ {1 + 2 / d} - (i-1) ^ {1 + 2 / d} }}$ .

Optimum ağırlık şeması ${ displaystyle {w_ {ni} ^ {*} } _ {i = 1} ^ {n}}$ , yukarıdaki ekrandaki iki terimi dengeleyen şu şekilde verilir: set ${ displaystyle k ^ {*} = lfloor Bn ^ { frac {4} {d + 4}} rfloor}$ ,

{ displaystyle w_ {ni} ^ {*} = { frac {1} {k ^ {*}}} left [1 + { frac {d} {2}} - { frac {d} {2 {k ^ {*}} ^ {2 / d}}} {i ^ {1 + 2 / d} - (i-1) ^ {1 + 2 / d} } sağ]}

için

{ displaystyle i = 1,2, noktalar, k ^ {*}}

ve

{ displaystyle w_ {ni} ^ {*} = 0}

için

{ displaystyle i = k ^ {*} + 1, noktalar, n}

.

Optimal ağırlıklarla, aşırı riskin asimptotik genişlemesindeki baskın terim, ${ displaystyle { mathcal {O}} (n ^ {- { frac {4} {d + 4}}})}$ . Kullanırken benzer sonuçlar doğrudur Torbalı en yakın komşu sınıflandırıcı.

Özellikleri

k-NN özel bir durumdur değişken bant genişliği, çekirdek yoğunluğu "balon" tahmincisi üniforma ile çekirdek.^[12]^[13]

Algoritmanın saf versiyonu, test örneğinden tüm depolanmış örneklere olan mesafeleri hesaplayarak uygulamak kolaydır, ancak büyük eğitim setleri için hesaplama açısından yoğundur. Yaklaşık bir en yakın komşu araması algoritma yapar k-Büyük veri kümeleri için bile hesaplamalı olarak izlenebilir NN. Yıllar içinde birçok en yakın komşu arama algoritması önerilmiştir; bunlar genellikle fiilen gerçekleştirilen mesafe değerlendirmelerinin sayısını azaltmaya çalışır.

k-NN'nin biraz güçlü tutarlılık Sonuçlar. Veri miktarı sonsuza yaklaştıkça, iki sınıf k-NN algoritmasının iki katından daha kötü olmayan bir hata oranı vermesi garanti edilir. Bayes hata oranı (verilerin dağılımı göz önüne alındığında ulaşılabilen minimum hata oranı).^[14] İçin çeşitli iyileştirmeler kYakınlık grafikleri kullanılarak -NN hızı mümkündür.^[15]

Çok sınıf için k-NN sınıflandırması, Örtmek ve Hart (1967) bir üst sınır hata oranını kanıtladı

{ displaystyle R ^ {*} leq R_ {k mathrm {NN}} leq R ^ {*} sol (2 - { frac {MR ^ {*}} {M-1} }sağ)}

nerede ${ displaystyle R ^ {*}}$ Bayes hata oranıdır (mümkün olan en düşük hata oranıdır), ${ displaystyle R_ {kNN}}$ ... k-NN hata oranı ve $M$ problemdeki sınıfların sayısıdır. İçin ${ displaystyle M = 2}$ ve Bayes hata oranı olarak ${ displaystyle R ^ {*}}$ sıfıra yaklaştığında, bu sınır "Bayes hata oranının iki katından fazla olmayacak şekilde" azalır.

Hata oranları

Hata oranıyla ilgili birçok sonuç var. $k$ en yakın komşu sınıflandırıcılar.^[16] $k$ -en yakın komşu sınıflandırıcı güçlüdür (bu, ${ displaystyle (X, Y)}$ ) tutarlı sağlanan ${ displaystyle k: = k_ {n}}$ farklılaşır ve ${ displaystyle k_ {n} / n}$ olarak sıfıra yakınsar ${ displaystyle n ila infty}$ .

İzin Vermek ${ displaystyle C_ {n} ^ {knn}}$ belirtmek $k$ bir eğitim setine göre en yakın komşu sınıflandırıcı $n$ . Belirli düzenlilik koşulları altında, aşırı risk aşağıdaki asimptotik genişlemeyi verir^[11]

{ displaystyle { mathcal {R}} _ { mathcal {R}} (C_ {n} ^ {knn}) - { mathcal {R}} _ { mathcal {R}} (C ^ {Bayes} ) = left {B_ {1} { frac {1} {k}} + B_ {2} left ({ frac {k} {n}} sağ) ^ {4 / d} sağ } {1 + o (1) },}

bazı sabitler için ${ displaystyle B_ {1}}$ ve ${ displaystyle B_ {2}}$ .

Seçim ${ displaystyle k ^ {*} = lfloor Bn ^ { frac {4} {d + 4}} rfloor}$ yukarıdaki ekrandaki iki terim arasında bir değiş tokuş sunar; ${ displaystyle k ^ {*}}$ -En yakın komşu hatası, optimumda Bayes hatasına yakınlaşır (minimax ) oranı ${ displaystyle { mathcal {O}} (n ^ {- { frac {4} {d + 4}}})}$ .

Metrik öğrenme

K-en yakın komşu sınıflandırma performansı, genellikle (denetimli) metrik öğrenme yoluyla önemli ölçüde iyileştirilebilir. Popüler algoritmalar mahalle bileşenleri analizi ve büyük marj en yakın komşu. Denetlenen metrik öğrenme algoritmaları, yeni bir metrik veya sözde metrik.

Özellik çıkarma

Bir algoritmaya giriş verileri işlenemeyecek kadar büyükse ve gereksiz olduğundan şüpheleniliyorsa (örneğin, hem fit hem de metrede aynı ölçüm), bu durumda giriş verileri azaltılmış bir özellik setine dönüştürülecektir (aynı zamanda özellikler vektör olarak adlandırılır) ). Girdi verilerinin bir dizi özelliğe dönüştürülmesi denir özellik çıkarma. Çıkarılan özellikler dikkatlice seçilirse, tam boyutlu girdi yerine bu azaltılmış gösterimi kullanarak istenen görevi gerçekleştirmek için özellik setinin ilgili bilgileri girdi verilerinden çıkarması beklenir. Özellik çıkarma, uygulamadan önce ham veriler üzerinde gerçekleştirilir k-İçinde dönüştürülen verilerde NN algoritması özellik alanı.

Tipik bir örnek Bilgisayar görüşü hesaplama hattı yüz tanıma kullanma k-NN, özellik çıkarma ve boyut küçültme ön işleme adımlarını içeren (genellikle OpenCV ):

Haar yüz tanıma
Ortalama kayma izleme analizi
PCA veya Fisher LDA özellik alanına projeksiyon, ardından k-NN sınıflandırması

Boyut küçültme

Yüksek boyutlu veriler için (ör. Boyut sayısı 10'dan fazla olan) boyut küçültme genellikle uygulamadan önce yapılır k-NN algoritmasının etkilerini önlemek için boyutluluk laneti.^[17]

boyutluluk laneti içinde k-NN bağlamı temelde şu anlama gelir: Öklid mesafesi yüksek boyutlarda faydasızdır çünkü tüm vektörler arama sorgusu vektörüne neredeyse eşit uzaklıktadır (merkezde sorgu noktası olan bir daire üzerinde aşağı yukarı birden çok noktanın uzandığını düşünün; sorgudan arama alanındaki tüm veri noktalarına olan mesafe neredeyse aynısı).

Özellik çıkarma ve boyut küçültme, kullanılarak tek adımda birleştirilebilir temel bileşenler Analizi (PCA), doğrusal ayırıcı analizi (LDA) veya kanonik korelasyon analizi (CCA) teknikleri bir ön işleme adımı olarak, ardından kümeleme k-NN açık özellik vektörleri küçültülmüş boyutlu alanda. İçinde makine öğrenme bu sürece düşük boyutlu da denir gömme.^[18]

Çok yüksek boyutlu veri kümeleri için (ör. Canlı video akışlarında, DNA verilerinde veya yüksek boyutlu bir benzerlik araması yaparken) Zaman serisi ) hızlı koşmak yaklaşık k-NN arama kullanarak yerellik duyarlı hashing, "rastgele tahminler",^[19] "çizimler" ^[20] veya diğer yüksek boyutlu benzerlik arama teknikleri VLDB araç kutusu tek uygun seçenek olabilir.

Karar sınırı

En yakın komşu kuralları örtük olarak hesaplar karar sınırı. Karar sınırını açık bir şekilde hesaplamak ve bunu verimli bir şekilde yapmak da mümkündür, böylece hesaplama karmaşıklığı sınır karmaşıklığının bir fonksiyonu olur.^[21]

Veri azaltma

Veri azaltma büyük veri kümeleriyle çalışmak için en önemli sorunlardan biridir. Genellikle, doğru sınıflandırma için veri noktalarının yalnızca bir kısmına ihtiyaç vardır. Bu verilere prototipler ve aşağıdaki gibi bulunabilir:

Seçin sınıf dışı değerleryani yanlış sınıflandırılan eğitim verileri k-NN (verilen k)
Verilerin geri kalanını iki kümeye ayırın: (i) sınıflandırma kararları için kullanılan prototipler ve (ii) emilen noktalar doğru bir şekilde sınıflandırılabilir k-NN prototip kullanarak. Emilen noktalar daha sonra eğitim setinden çıkarılabilir.

Sınıf dışı değerlerin seçimi

Diğer sınıfların örnekleriyle çevrili bir eğitim örneğine sınıf aykırı değeri denir. Sınıf aykırı değerlerinin nedenleri şunları içerir:

rastgele hata
bu sınıfın yetersiz eğitim örnekleri (küme yerine izole bir örnek görünüyor)
önemli özellikleri eksik (sınıflar bilmediğimiz diğer boyutlarda ayrılmıştır)
verilen küçük sınıf için "düşmanca" bir arka plan oluşturan diğer sınıfların (dengesiz sınıflar) çok fazla eğitim örneği

İle sınıf aykırı değerleri k-NN gürültü üretir. Gelecekteki analizler için tespit edilebilir ve ayrılabilirler. İki doğal sayı verildiğinde, k> r> 0bir eğitim örneğine (k, r)NN sınıfı aykırı değeri k en yakın komşular şunlardan fazlasını içerir: r diğer sınıfların örnekleri.

Veri azaltma için CNN

Yoğun en yakın komşu (CNN, the Hart algoritma) veri setini azaltmak için tasarlanmış bir algoritmadır. k-NN sınıflandırması.^[22] Prototip setini seçer U eğitim verilerinden, öyle ki 1NN ile U Örnekleri neredeyse 1NN'nin tüm veri setiyle yaptığı kadar doğru bir şekilde sınıflandırabilir.

Sınır oranının hesaplanması.

Üç tür nokta: prototipler, sınıf dışı değerler ve emilen noktalar.

Bir eğitim seti verildi XCNN yinelemeli olarak çalışır:

Tüm öğelerini tara X, bir eleman arıyor x kimin en yakın prototipi U şundan farklı bir etiketi var: x.
Kaldırmak x itibaren X ve ekle U
Daha fazla prototip eklenmeyene kadar taramayı tekrarlayın. U.

Kullanım U onun yerine X sınıflandırma için. Prototip olmayan örnekler "soğurulmuş" noktalar olarak adlandırılır.

Eğitim örneklerini azalan bordür oranına göre taramak etkilidir.^[23] Bir eğitim örneğinin sınır oranı x olarak tanımlanır

a (x) = | | x'-y | | / | | x-y | |

Sınır oranı [0,1] aralığında çünkü $| | x'-y | |$ asla aşmaz $| | x-y | |$ . Bu sıralama, prototip kümesine dahil edilmek üzere sınıfların sınırlarına öncelik verir. U. Şundan farklı bir etiket noktası x harici olarak adlandırılır x. Sınır oranının hesaplanması, sağdaki şekilde gösterilmiştir. Veri noktaları renklerle etiketlenmiştir: başlangıç noktası x ve etiketi kırmızıdır. Dış noktalar mavi ve yeşildir. En yakın x dış nokta y. En yakın y kırmızı nokta x ' . Sınır oranı $a (x) = | | x'-y | | / | | x-y | |$ başlangıç noktasının niteliğidir x.

Aşağıda, bir dizi şekilde CNN'in bir resmi bulunmaktadır. Üç sınıf vardır (kırmızı, yeşil ve mavi). Şekil 1: Başlangıçta her sınıfta 60 puan vardır. Şekil 2, 1NN sınıflandırma haritasını gösterir: her piksel, tüm veriler kullanılarak 1NN tarafından sınıflandırılır. Şekil 3, 5NN sınıflandırma haritasını gösterir. Beyaz alanlar, 5NN oylamasının bağlı olduğu sınıflandırılmamış bölgelere karşılık gelir (örneğin, en yakın 5 komşu arasında iki yeşil, iki kırmızı ve bir mavi nokta varsa). Şekil 4, azaltılmış veri setini göstermektedir. Haçlar, (3,2) NN kuralı tarafından seçilen sınıf aykırı değerleridir (bu vakaların en yakın üç komşusu diğer sınıflara aittir); kareler prototiplerdir ve boş daireler emilen noktalardır. Sol alt köşede, üç sınıfın tümü için sınıf dışı değerlerin, prototiplerin ve emilen puanların sayısı gösterilir. Bu örnekteki farklı sınıflar için prototip sayısı% 15 ile% 20 arasında değişmektedir. Şekil 5, prototiplerle 1NN sınıflandırma haritasının ilk veri setine çok benzer olduğunu göstermektedir. Rakamlar Mirkes uygulaması kullanılarak oluşturulmuştur.^[23]

K-NN sınıflandırıcılar için CNN model indirgemesi
Şekil 1. Veri kümesi.
Şekil 2. 1NN sınıflandırma haritası.
Şekil 3. 5NN sınıflandırma haritası.
Şekil 4. CNN azaltılmış veri kümesi.
Şekil 5. CNN'den çıkarılan prototiplere dayalı 1NN sınıflandırma haritası.

k-NN regresyonu

İçinde k-NN regresyonu, k-NN algoritması^{[kaynak belirtilmeli ]} sürekli değişkenleri tahmin etmek için kullanılır. Böyle bir algoritma, ağırlıklı ortalamasını kullanır. k en yakın komşular, mesafelerinin tersi ile ağırlıklandırılmıştır. Bu algoritma şu şekilde çalışır:

Öklid hesaplayın veya Mahalanobis mesafesi sorgu örneğinden etiketli örneklere.
Mesafeyi artırarak etiketli örnekleri sıralayın.
Sezgisel olarak optimal bir sayı bulun k göre en yakın komşular RMSE. Bu, çapraz doğrulama kullanılarak yapılır.
Ters mesafe ağırlıklı ortalamayı hesaplayın. k-en yakın çok değişkenli komşular.

k-NN aykırı değeri

Uzaklığı kEn yakın komşu yerel yoğunluk tahmini olarak da görülebilir ve bu nedenle aynı zamanda popüler bir aykırı değer skorudur. anomali tespiti. Daha büyük mesafe k-NN, yerel yoğunluk ne kadar düşükse, sorgu noktası o kadar büyük olasılıkla aykırı değerdir.^[24] Oldukça basit olmasına rağmen, bu aykırı model, başka bir klasik veri madenciliği yöntemiyle birlikte, yerel aykırı değer faktörü, büyük ölçekli deneysel bir analize göre, daha yeni ve daha karmaşık yaklaşımlara kıyasla oldukça iyi çalışıyor.^[25]

Sonuçların doğrulanması

Bir karışıklık matrisi veya "eşleşen matris", genellikle aşağıdakilerin doğruluğunu onaylamak için bir araç olarak kullanılır. k-NN sınıflandırması. Daha sağlam istatistiksel yöntemler olabilirlik-oran testi ayrıca uygulanabilir.^{[Nasıl? ]}

Ayrıca bakınız

Referanslar

^ Altman, Naomi S. (1992). "Çekirdek ve en yakın komşu parametrik olmayan regresyona giriş" (PDF). Amerikan İstatistikçi. 46 (3): 175–185. doi:10.1080/00031305.1992.10475879. hdl:1813/31637.
^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "Altyapı Varlık Yönetiminde Veri Analitiğinin Rolü: Veri Boyutu ve Kalite Sorunlarının Üstesinden Gelmek". Ulaştırma Mühendisliği Dergisi, Bölüm B: Kaldırımlar. 146 (2): 04020022. doi:10.1061 / JPEODX.0000175.
^ Hastie, Trevor. (2001). İstatistiksel öğrenmenin unsurları: veri madenciliği, çıkarım ve tahmin: 200 tam renkli resimle. Tibshirani, Robert., Friedman, J.H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.
^ Bu şema, doğrusal enterpolasyonun bir genellemesidir.
^ Jaskowiak, Pablo A .; Campello, Ricardo J. G. B. "Gen İfade Verilerinde Kanser Sınıflandırması için Farklılık Ölçüleri Olarak Korelasyon Katsayılarının Karşılaştırılması". Brezilya Biyoinformatik Sempozyumu (BSB 2011): 1–8. CiteSeerX 10.1.1.208.993.
^ Coomans, Danny; Massart, Desire L. (1982). "Denetimli örüntü tanımada alternatif k-en yakın komşu kuralları: Bölüm 1. k-Alternatif oylama kurallarını kullanarak en yakın komşu sınıflandırması". Analytica Chimica Açta. 136: 15–27. doi:10.1016 / S0003-2670 (01) 95359-0.
^ Everitt, Brian S .; Landau, Sabine; Leese, Morven; ve Stahl, Daniel (2011) "Çeşitli Kümeleme Yöntemleri", Küme analizi, 5th Edition, John Wiley & Sons, Ltd., Chichester, İngiltere
^ Nigsch, Florian; Bender, Andreas; van Buuren, Bernd; Tissen, Jos; Nigsch, Eduard; Mitchell, John B. O. (2006). "K-en yakın komşu algoritmalarını ve genetik parametre optimizasyonunu kullanan erime noktası tahmini". Journal of Chemical Information and Modeling. 46 (6): 2412–2422. doi:10.1021 / ci060149f. PMID 17125183.
^ Hall, Peter; Park, Byeong U .; Samworth Richard J. (2008). "En yakın komşu sınıflandırmasında komşu düzen seçimi". İstatistik Yıllıkları. 36 (5): 2135–2152. arXiv:0810.5276. Bibcode:2008arXiv0810.5276H. doi:10.1214 / 07-AOS537. S2CID 14059866.
^ Taş, Charles J. (1977). "Tutarlı parametrik olmayan regresyon". İstatistik Yıllıkları. 5 (4): 595–620. doi:10.1214 / aos / 1176343886.
^ ^a ^b Samworth Richard J. (2012). "Optimal ağırlıklı en yakın komşu sınıflandırıcılar". İstatistik Yıllıkları. 40 (5): 2733–2763. arXiv:1101.5783. doi:10.1214 / 12-AOS1049. S2CID 88511688.
^ Terrell, George R .; Scott, David W. (1992). "Değişken çekirdek yoğunluğu tahmini". İstatistik Yıllıkları. 20 (3): 1236–1265. doi:10.1214 / aos / 1176348768.
^ Mills, Peter (2012-08-09). "Uydu ölçümlerinin verimli istatistiksel sınıflandırması". Uluslararası Uzaktan Algılama Dergisi.
^ Kapak, Thomas M.; Hart, Peter E. (1967). "En yakın komşu kalıp sınıflandırması" (PDF). Bilgi Teorisi Üzerine IEEE İşlemleri. 13 (1): 21–27. CiteSeerX 10.1.1.68.2616. doi:10.1109 / TIT.1967.1053964.
^ Toussaint, Godfried T. (Nisan 2005). "Örnek tabanlı öğrenme ve veri madenciliğinde en yakın komşu yöntemlerini iyileştirmek için geometrik yakınlık grafikleri". International Journal of Computational Geometry and Applications. 15 (2): 101–150. doi:10.1142 / S0218195905001622.
^ Devroye, Luc; Gyorfi, Laszlo; Lugosi, Gabor (1996). Bir olasılıksal örüntü tanıma teorisi. Springer. ISBN 978-0-3879-4618-4.
^ Beyer, Kevin; et al. "En yakın komşu" ne zaman anlamlıdır? " (PDF). Veritabanı Teorisi — ICDT'99. 1999: 217–235.
^ Shaw, Blake; ve Jebara, Tony; "Yerleştirmeyi koruyan yapı", içinde 26. Uluslararası Makine Öğrenimi Konferansı Bildirileri, ACM, 2009
^ Bingham, Ella; ve Mannila, Heikki; "Boyut azaltmada rastgele projeksiyon: görüntü ve metin verilerine uygulamalar", içinde Bilgi keşfi ve veri madenciliği üzerine yedinci ACM SIGKDD uluslararası konferansı bildirileri, ACM, 2001
^ Ryan, Donna (editör); Zaman Serilerinde Yüksek Performanslı Keşif, Berlin: Springer, 2004, ISBN 0-387-00857-8
^ Bremner, David; Demaine, Erik; Erickson, Jeff; Iacono, John; Langerman, Stefan; Morin, Pat; Toussaint, Godfried T. (2005). "En yakın komşu karar sınırlarını hesaplamak için çıktıya duyarlı algoritmalar". Ayrık ve Hesaplamalı Geometri. 33 (4): 593–604. doi:10.1007 / s00454-004-1152-0.
^ Hart, Peter E. (1968). "Yoğun En Yakın Komşu Kuralı". Bilgi Teorisi Üzerine IEEE İşlemleri. 18: 515–516. doi:10.1109 / TIT.1968.1054155.
^ ^a ^b Mirkes, Evgeny M .; KNN ve Potansiyel Enerji: uygulama, Leicester Üniversitesi, 2011
^ Ramaswamy, Sridhar; Rastogi, Rajeev; Shim, Kyuseok (2000). Büyük veri kümelerinden aykırı değerlerin madenciliği için verimli algoritmalar. 2000 ACM SIGMOD Uluslararası Veri Yönetimi Konferansı Bildirileri - SIGMOD '00. s. 427. doi:10.1145/342009.335437. ISBN 1-58113-217-4.
^ Campos, Guilherme O .; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B .; Micenková, Barbora; Schubert, Erich; Onay, Ira; Houle, Michael E. (2016). "Denetimsiz aykırı değer tespitinin değerlendirilmesi hakkında: önlemler, veri kümeleri ve ampirik bir çalışma". Veri Madenciliği ve Bilgi Keşfi. 30 (4): 891–927. doi:10.1007 / s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.

daha fazla okuma

Dasarathy, Belur V., ed. (1991). En Yakın Komşu (NN) Normları: NN Örüntü Sınıflandırma Teknikleri. ISBN 978-0-8186-8930-7.
Shakhnarovich, Gregory; Darrell, Trevor; Indyk, Piotr, eds. (2005). Öğrenme ve Görmede En Yakın Komşu Yöntemleri. MIT Basın. ISBN 978-0-262-19547-8.

[1] Altman, Naomi S. (1992). "Çekirdek ve en yakın komşu parametrik olmayan regresyona giriş" (PDF). Amerikan İstatistikçi. 46 (3): 175–185. doi:10.1080/00031305.1992.10475879. hdl:1813/31637.

[:0-2] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "Altyapı Varlık Yönetiminde Veri Analitiğinin Rolü: Veri Boyutu ve Kalite Sorunlarının Üstesinden Gelmek". Ulaştırma Mühendisliği Dergisi, Bölüm B: Kaldırımlar. 146 (2): 04020022. doi:10.1061 / JPEODX.0000175.

[3] Hastie, Trevor. (2001). İstatistiksel öğrenmenin unsurları: veri madenciliği, çıkarım ve tahmin: 200 tam renkli resimle. Tibshirani, Robert., Friedman, J.H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.

[4] Bu şema, doğrusal enterpolasyonun bir genellemesidir.

[5] Jaskowiak, Pablo A .; Campello, Ricardo J. G. B. "Gen İfade Verilerinde Kanser Sınıflandırması için Farklılık Ölçüleri Olarak Korelasyon Katsayılarının Karşılaştırılması". Brezilya Biyoinformatik Sempozyumu (BSB 2011): 1–8. CiteSeerX 10.1.1.208.993.

[Coomans_Massart1982-6] Coomans, Danny; Massart, Desire L. (1982). "Denetimli örüntü tanımada alternatif k-en yakın komşu kuralları: Bölüm 1. k-Alternatif oylama kurallarını kullanarak en yakın komşu sınıflandırması". Analytica Chimica Açta. 136: 15–27. doi:10.1016 / S0003-2670 (01) 95359-0.

[7] Everitt, Brian S .; Landau, Sabine; Leese, Morven; ve Stahl, Daniel (2011) "Çeşitli Kümeleme Yöntemleri", Küme analizi, 5th Edition, John Wiley & Sons, Ltd., Chichester, İngiltere

[8] Nigsch, Florian; Bender, Andreas; van Buuren, Bernd; Tissen, Jos; Nigsch, Eduard; Mitchell, John B. O. (2006). "K-en yakın komşu algoritmalarını ve genetik parametre optimizasyonunu kullanan erime noktası tahmini". Journal of Chemical Information and Modeling. 46 (6): 2412–2422. doi:10.1021 / ci060149f. PMID 17125183.

[HPS2008-9] Hall, Peter; Park, Byeong U .; Samworth Richard J. (2008). "En yakın komşu sınıflandırmasında komşu düzen seçimi". İstatistik Yıllıkları. 36 (5): 2135–2152. arXiv:0810.5276. Bibcode:2008arXiv0810.5276H. doi:10.1214 / 07-AOS537. S2CID 14059866.

[Stone-10] Taş, Charles J. (1977). "Tutarlı parametrik olmayan regresyon". İstatistik Yıllıkları. 5 (4): 595–620. doi:10.1214 / aos / 1176343886.

[Samworth12-11] Samworth Richard J. (2012). "Optimal ağırlıklı en yakın komşu sınıflandırıcılar". İstatistik Yıllıkları. 40 (5): 2733–2763. arXiv:1101.5783. doi:10.1214 / 12-AOS1049. S2CID 88511688.

[Terrell_Scott1992-12] Terrell, George R .; Scott, David W. (1992). "Değişken çekirdek yoğunluğu tahmini". İstatistik Yıllıkları. 20 (3): 1236–1265. doi:10.1214 / aos / 1176348768.

[Mills2010-13] Mills, Peter (2012-08-09). "Uydu ölçümlerinin verimli istatistiksel sınıflandırması". Uluslararası Uzaktan Algılama Dergisi.

[14] Kapak, Thomas M.; Hart, Peter E. (1967). "En yakın komşu kalıp sınıflandırması" (PDF). Bilgi Teorisi Üzerine IEEE İşlemleri. 13 (1): 21–27. CiteSeerX 10.1.1.68.2616. doi:10.1109 / TIT.1967.1053964.

[15] Toussaint, Godfried T. (Nisan 2005). "Örnek tabanlı öğrenme ve veri madenciliğinde en yakın komşu yöntemlerini iyileştirmek için geometrik yakınlık grafikleri". International Journal of Computational Geometry and Applications. 15 (2): 101–150. doi:10.1142 / S0218195905001622.

[PTPR-16] Devroye, Luc; Gyorfi, Laszlo; Lugosi, Gabor (1996). Bir olasılıksal örüntü tanıma teorisi. Springer. ISBN 978-0-3879-4618-4.

[17] Beyer, Kevin; et al. "En yakın komşu" ne zaman anlamlıdır? " (PDF). Veritabanı Teorisi — ICDT'99. 1999: 217–235.

[18] Shaw, Blake; ve Jebara, Tony; "Yerleştirmeyi koruyan yapı", içinde 26. Uluslararası Makine Öğrenimi Konferansı Bildirileri, ACM, 2009

[19] Bingham, Ella; ve Mannila, Heikki; "Boyut azaltmada rastgele projeksiyon: görüntü ve metin verilerine uygulamalar", içinde Bilgi keşfi ve veri madenciliği üzerine yedinci ACM SIGKDD uluslararası konferansı bildirileri, ACM, 2001

[20] Ryan, Donna (editör); Zaman Serilerinde Yüksek Performanslı Keşif, Berlin: Springer, 2004, ISBN 0-387-00857-8

[21] Bremner, David; Demaine, Erik; Erickson, Jeff; Iacono, John; Langerman, Stefan; Morin, Pat; Toussaint, Godfried T. (2005). "En yakın komşu karar sınırlarını hesaplamak için çıktıya duyarlı algoritmalar". Ayrık ve Hesaplamalı Geometri. 33 (4): 593–604. doi:10.1007 / s00454-004-1152-0.

[22] Hart, Peter E. (1968). "Yoğun En Yakın Komşu Kuralı". Bilgi Teorisi Üzerine IEEE İşlemleri. 18: 515–516. doi:10.1109 / TIT.1968.1054155.

[MirkesKnn-23] Mirkes, Evgeny M .; KNN ve Potansiyel Enerji: uygulama, Leicester Üniversitesi, 2011

[24] Ramaswamy, Sridhar; Rastogi, Rajeev; Shim, Kyuseok (2000). Büyük veri kümelerinden aykırı değerlerin madenciliği için verimli algoritmalar. 2000 ACM SIGMOD Uluslararası Veri Yönetimi Konferansı Bildirileri - SIGMOD '00. s. 427. doi:10.1145/342009.335437. ISBN 1-58113-217-4.

[CamposZimek2016-25] Campos, Guilherme O .; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B .; Micenková, Barbora; Schubert, Erich; Onay, Ira; Houle, Michael E. (2016). "Denetimsiz aykırı değer tespitinin değerlendirilmesi hakkında: önlemler, veri kümeleri ve ampirik bir çalışma". Veri Madenciliği ve Bilgi Keşfi. 30 (4): 891–927. doi:10.1007 / s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]