Denetimli öğrenme - Supervised learning

Denetimli öğrenme ... makine öğrenme Örnek girdi-çıktı çiftlerine dayalı olarak bir girdiyi bir çıktıya eşleyen bir işlevi öğrenme görevi.^[1] Şundan bir işlev çıkarır: etiketli Eğitim verileri bir dizi oluşur eğitim örnekleri.^[2] Denetimli öğrenmede, her örnek bir çift bir girdi nesnesinden (tipik olarak bir vektör) ve istenen bir çıktı değerinden (aynı zamanda denetim sinyali). Denetimli bir öğrenme algoritması, eğitim verilerini analiz eder ve yeni örneklerin haritalanması için kullanılabilecek bir çıkarsama işlevi üretir. Optimal bir senaryo, algoritmanın görünmeyen örnekler için sınıf etiketlerini doğru şekilde belirlemesine izin verecektir. Bu, öğrenme algoritmasının eğitim verilerinden görünmeyen durumlara "makul" bir şekilde genellemesini gerektirir (bkz. endüktif önyargı ).

İnsan ve hayvan psikolojisindeki paralel görev genellikle şu şekilde anılır: kavram öğrenme.

Adımlar

Belirli bir denetimli öğrenme problemini çözmek için, aşağıdaki adımların gerçekleştirilmesi gerekir:

Eğitim örneklerinin türünü belirleyin. Başka bir şey yapmadan önce, kullanıcı eğitim seti olarak ne tür verilerin kullanılacağına karar vermelidir. Bu durumuda elyazısı analizi örneğin, bu tek bir el yazısı karakter, el yazısının tamamı veya bir el yazısı satırı olabilir.
Bir eğitim seti toplayın. Eğitim setinin, işlevin gerçek dünyadaki kullanımını temsil etmesi gerekir. Böylece, bir dizi girdi nesnesi toplanır ve bunlara karşılık gelen çıktılar da ya insan uzmanlardan ya da ölçümlerden toplanır.
Öğrenilen işlevin giriş özelliği temsilini belirleyin. Öğrenilen işlevin doğruluğu, büyük ölçüde girdi nesnesinin nasıl temsil edildiğine bağlıdır. Tipik olarak, girdi nesnesi bir özellik vektörü, nesneyi tanımlayan bir dizi özellik içeren. Özelliklerin sayısı çok fazla olmamalıdır, çünkü boyutluluk laneti; ancak çıktıyı doğru bir şekilde tahmin etmek için yeterli bilgi içermelidir.
Öğrenilen işlevin yapısını ve ilgili öğrenme algoritmasını belirleyin. Örneğin, mühendis kullanmayı seçebilir Vektör makineleri desteklemek veya Karar ağaçları.
Tasarımı tamamlayın. Öğrenme algoritmasını toplanan eğitim setinde çalıştırın. Bazı denetimli öğrenme algoritmaları, kullanıcının belirli kontrol parametrelerini belirlemesini gerektirir. Bu parametreler, bir alt kümedeki performansı optimize ederek ayarlanabilir (a doğrulama set) eğitim setinin veya çapraz doğrulama.
Öğrenilen işlevin doğruluğunu değerlendirin. Parametre ayarlaması ve öğrenmeden sonra, ortaya çıkan fonksiyonun performansı eğitim setinden ayrı bir test seti üzerinde ölçülmelidir.

Algoritma seçimi

Her biri güçlü ve zayıf yönlerine sahip çok çeşitli denetimli öğrenme algoritmaları mevcuttur. Tüm denetimli öğrenme problemlerinde en iyi şekilde çalışan tek bir öğrenme algoritması yoktur (bkz. Bedava öğle yemeği teoremi yok ).

Denetimli öğrenmede dikkate alınması gereken dört ana konu vardır:

Önyargılı varyans dengeleme

İlk sorun, arasındaki ödünleşmedir önyargı ve varyans.^[3] Birkaç farklı, ancak eşit derecede iyi eğitim veri setimiz olduğunu hayal edin. Bir öğrenme algoritması belirli bir girdi için önyargılıdır ${ displaystyle x}$ bu veri setlerinin her biri üzerinde eğitildiğinde, sistematik olarak yanlış çıktı için doğru çıktıyı tahmin ederseniz ${ displaystyle x}$ . Bir öğrenme algoritmasının belirli bir girdi için yüksek varyansı vardır ${ displaystyle x}$ farklı eğitim setlerinde eğitildiğinde farklı çıktı değerlerini tahmin ederse. Öğrenilmiş bir sınıflandırıcının tahmin hatası, öğrenme algoritmasının sapmasının ve sapmanın toplamı ile ilgilidir.^[4] Genel olarak, önyargı ve varyans arasında bir ödünleşim vardır. Düşük önyargıya sahip bir öğrenme algoritması, verilere iyi uyması için "esnek" olmalıdır. Ancak öğrenme algoritması çok esnekse, her eğitim veri setine farklı şekilde uyacak ve dolayısıyla yüksek varyansa sahip olacaktır. Pek çok denetimli öğrenme yönteminin önemli bir yönü, önyargı ve varyans arasındaki bu ödünleşmeyi (otomatik olarak veya kullanıcının ayarlayabileceği bir önyargı / varyans parametresi sağlayarak) ayarlayabilmeleridir.

İşlev karmaşıklığı ve eğitim verilerinin miktarı

İkinci konu, "gerçek" işlevin (sınıflandırıcı veya regresyon işlevi) karmaşıklığına göre mevcut eğitim verilerinin miktarıdır. Gerçek işlev basitse, yüksek önyargı ve düşük varyansa sahip "esnek olmayan" bir öğrenme algoritması, onu az miktarda veriden öğrenebilir. Ancak, gerçek işlev oldukça karmaşıksa (örneğin, birçok farklı girdi özelliği arasında karmaşık etkileşimler içerdiğinden ve girdi alanının farklı bölümlerinde farklı davrandığından), işlev yalnızca çok büyük miktarda eğitim verisinden öğrenebilir. ve düşük önyargı ve yüksek varyansa sahip "esnek" bir öğrenme algoritması kullanmak. Giriş ve istenen çıktı arasında net bir sınır vardır.

Girdi uzayının boyutluluğu

Üçüncü bir sorun, girdi uzayının boyutluluğudur. Girdi özelliği vektörleri çok yüksek boyuta sahipse, gerçek işlev bu özelliklerin yalnızca küçük bir kısmına bağlı olsa bile öğrenme problemi zor olabilir. Bunun nedeni, birçok "ekstra" boyutun öğrenme algoritmasını karıştırması ve yüksek varyansa sahip olmasıdır. Bu nedenle, yüksek girdi boyutu, tipik olarak sınıflandırıcının düşük varyansa ve yüksek önyargıya sahip olmasını gerektirir. Uygulamada, mühendis giriş verilerinden ilgisiz özellikleri manuel olarak kaldırabilirse, bu muhtemelen öğrenilen işlevin doğruluğunu artıracaktır. Ek olarak, birçok algoritma vardır. Öznitelik Seçimi ilgili özellikleri belirlemeye ve ilgisiz olanları atmaya çalışan. Bu, daha genel stratejinin bir örneğidir. Boyutsal küçülme, denetimli öğrenme algoritmasını çalıştırmadan önce giriş verilerini daha düşük boyutlu bir alana eşlemeyi amaçlayan.

Çıkış değerlerinde gürültü

Dördüncü bir konu, istenen çıktı değerlerindeki gürültünün derecesidir (denetim hedef değişkenler ). İstenilen çıktı değerleri genellikle yanlışsa (insan hatası veya sensör hataları nedeniyle), o zaman öğrenme algoritması eğitim örnekleriyle tam olarak eşleşen bir işlev bulmaya çalışmamalıdır. Verileri çok dikkatli bir şekilde sığdırmaya çalışmak, aşırı uyum gösterme. Öğrenmeye çalıştığınız işlev, öğrenme modeliniz için çok karmaşıksa, hiçbir ölçüm hatası (stokastik gürültü) olmasa bile fazla takabilirsiniz. Böyle bir durumda, hedef fonksiyonun modellenemeyen kısmı egzersiz verilerinizi "bozar" - bu fenomen olarak adlandırılmıştır deterministik gürültü. Her iki tip gürültü mevcut olduğunda, daha yüksek önyargı, daha düşük varyans tahmincisi ile gitmek daha iyidir.

Uygulamada, çıktı değerlerinde gürültüyü azaltmak için birkaç yaklaşım vardır. erken durma önlemek aşırı uyum gösterme Hem de tespit ve denetimli öğrenme algoritmasının eğitilmesinden önce gürültülü eğitim örneklerinin kaldırılması. Gürültülü eğitim örneklerini tanımlayan ve eğitimden önce şüpheli gürültülü eğitim örneklerini kaldıran çeşitli algoritmalar vardır. genelleme hatası ile İstatistiksel anlamlılık.^[5]^[6]

Dikkate alınacak diğer faktörler

Bir öğrenme algoritması seçerken ve uygularken dikkate alınması gereken diğer faktörler şunları içerir:

Verilerin heterojenliği. Özellik vektörleri birçok farklı türde (ayrık, ayrık sıralı, sayımlar, sürekli değerler) özellikler içeriyorsa, bazı algoritmaların uygulanması diğerlerinden daha kolaydır. Dahil olmak üzere birçok algoritma Vektör makineleri desteklemek, doğrusal regresyon, lojistik regresyon, nöral ağlar, ve en yakın komşu yöntemleri, giriş özelliklerinin sayısal olmasını ve benzer aralıklara (örneğin [-1,1] aralığına) ölçeklenmesini gerektirir. Mesafe işlevi kullanan yöntemler, örneğin en yakın komşu yöntemleri ve Gauss çekirdekli vektör makinelerini destekleyin, buna özellikle duyarlıdır. Bir avantajı Karar ağaçları heterojen verileri kolayca ele almalarıdır.
Verilerdeki fazlalık. Giriş özellikleri fazladan bilgi içeriyorsa (ör. Yüksek düzeyde ilişkili özellikler), bazı öğrenme algoritmaları (ör. doğrusal regresyon, lojistik regresyon, ve mesafeye dayalı yöntemler ) sayısal kararsızlıklar nedeniyle kötü performans gösterir. Bu problemler genellikle bir tür uygulama empoze edilerek çözülebilir. düzenleme.
Etkileşimlerin ve doğrusal olmayanlıkların varlığı. Özelliklerin her biri çıktıya bağımsız bir katkı yaparsa, doğrusal işlevlere dayalı algoritmalar (ör. doğrusal regresyon, lojistik regresyon, Vektör makineleri desteklemek, naif bayanlar ) ve mesafe fonksiyonları (örn. en yakın komşu yöntemleri, Gauss çekirdekli vektör makinelerini destekleyin ) genellikle iyi performans gösterir. Bununla birlikte, özellikler arasında karmaşık etkileşimler varsa, aşağıdaki gibi algoritmalar Karar ağaçları ve nöral ağlar daha iyi çalışır, çünkü bu etkileşimleri keşfetmek için özel olarak tasarlanmıştır. Doğrusal yöntemler de uygulanabilir, ancak mühendis bunları kullanırken etkileşimleri manuel olarak belirtmelidir.

Yeni bir uygulamayı düşünürken, mühendis birden fazla öğrenme algoritmasını karşılaştırabilir ve eldeki problemde hangisinin en iyi sonuç verdiğini deneysel olarak belirleyebilir (bkz. çapraz doğrulama ). Bir öğrenme algoritmasının performansını ayarlamak çok zaman alabilir. Sabit kaynaklar verildiğinde, ek eğitim verilerini ve daha bilgilendirici özellikleri toplamak için daha fazla zaman harcamak, öğrenme algoritmalarını ayarlamak için fazladan zaman harcamaktan daha iyidir.

Algoritmalar

En yaygın kullanılan öğrenme algoritmaları şunlardır:

Denetimli öğrenme algoritmaları nasıl çalışır?

Bir dizi verildiğinde ${ displaystyle N}$ formun eğitim örnekleri ${ displaystyle {(x_ {1}, y_ {1}), ..., (x_ {N}, ; y_ {N}) }}$ öyle ki ${ displaystyle x_ {i}}$ ... özellik vektörü i-inci örneğin ve ${ displaystyle y_ {i}}$ etiketidir (yani sınıf), bir öğrenme algoritması bir işlev arar ${ displaystyle g: X - Y}$ , nerede ${ displaystyle X}$ giriş alanı ve ${ displaystyle Y}$ çıktı alanıdır. İşlev ${ displaystyle g}$ olası işlevlerin bazı alanlarının bir öğesidir ${ displaystyle G}$ , genellikle denir hipotez alanı. Bazen temsil etmek uygundur ${ displaystyle g}$ bir puanlama işlevi kullanmak ${ displaystyle f: X times Y - mathbb {R}}$ öyle ki ${ displaystyle g}$ döndürmek olarak tanımlanır ${ displaystyle y}$ en yüksek puanı veren değer: ${ displaystyle g (x) = { underet {y} { arg max}} ; f (x, y)}$ . İzin Vermek ${ displaystyle F}$ puanlama fonksiyonlarının alanını belirtir.

olmasına rağmen ${ displaystyle G}$ ve ${ displaystyle F}$ herhangi bir işlev alanı olabilir, birçok öğrenme algoritması olasılıksal modellerdir. ${ displaystyle g}$ şeklini alır şartlı olasılık model ${ displaystyle g (x) = P (y | x)}$ veya ${ displaystyle f}$ şeklini alır bileşik olasılık model ${ displaystyle f (x, y) = P (x, y)}$ . Örneğin, naif bayanlar ve doğrusal ayırıcı analizi ortak olasılık modelleriyken lojistik regresyon koşullu olasılık modelidir.

Seçmek için iki temel yaklaşım vardır ${ displaystyle f}$ veya ${ displaystyle g}$ : ampirik risk minimizasyonu ve yapısal risk minimizasyonu.^[7] Ampirik risk minimizasyonu, eğitim verilerine en iyi uyan işlevi arar. Yapısal risk minimizasyonu şunları içerir: ceza fonksiyonu önyargı / varyans dengesini kontrol eden.

Her iki durumda da, eğitim setinin bir örneklemden oluştuğu varsayılır. bağımsız ve aynı şekilde dağıtılmış çiftler, ${ displaystyle (x_ {i}, ; y_ {i})}$ . Bir fonksiyonun eğitim verilerine ne kadar iyi uyduğunu ölçmek için, bir kayıp fonksiyonu ${ displaystyle L: Y times Y to mathbb {R} ^ { geq 0}}$ tanımlanmış. Eğitim örneği için ${ displaystyle (x_ {i}, ; y_ {i})}$ değeri tahmin etme kaybı ${ displaystyle { hat {y}}}$ dır-dir ${ displaystyle L (y_ {i}, { hat {y}})}$ .

risk ${ displaystyle R (g)}$ fonksiyon ${ displaystyle g}$ beklenen kayıp olarak tanımlanır ${ displaystyle g}$ . Bu, eğitim verilerinden şu şekilde tahmin edilebilir:

{ displaystyle R_ {emp} (g) = { frac {1} {N}} toplamı _ {i} L (y_ {i}, g (x_ {i}))}

.

Ampirik risk minimizasyonu

Ampirik risk minimizasyonunda, denetimli öğrenme algoritması işlevi arar ${ displaystyle g}$ en aza indiren ${ displaystyle R (g)}$ . Bu nedenle, denetimli bir öğrenme algoritması, bir optimizasyon algoritması bulmak ${ displaystyle g}$ .

Ne zaman ${ displaystyle g}$ koşullu olasılık dağılımı ${ displaystyle P (y | x)}$ ve kayıp işlevi, negatif günlük olasılığıdır: ${ displaystyle L (y, { şapka {y}}) = - log P (y | x)}$ ampirik risk minimizasyonu eşdeğerdir maksimum olasılık tahmini.

Ne zaman ${ displaystyle G}$ birçok aday işlevi içerir veya eğitim seti yeterince büyük değildir, ampirik risk minimizasyonu yüksek varyansa ve zayıf genellemeye yol açar. Öğrenme algoritması, eğitim örneklerini iyi genelleme yapmadan ezberleyebilir. Bu denir aşırı uyum gösterme.

Yapısal risk minimizasyonu

Yapısal risk minimizasyonu dahil ederek aşırı uyumu önlemeye çalışır düzenleme cezası optimizasyona. Düzenlileştirme cezası, bir tür uygulama olarak görülebilir. Occam'ın ustura Bu, daha karmaşık olanlara göre daha basit işlevleri tercih eder.

Farklı karmaşıklık tanımlarına karşılık gelen çok çeşitli cezalar uygulanmıştır. Örneğin, işlevin ${ displaystyle g}$ formun doğrusal bir fonksiyonudur

{ displaystyle g (x) = toplam _ {j = 1} ^ {d} beta _ {j} x_ {j}}

.

Popüler bir düzenlilik cezası ${ displaystyle toplamı _ {j} beta _ {j} ^ {2}}$ , kare olan Öklid normu olarak da bilinen ağırlıkların ${ displaystyle L_ {2}}$ norm. Diğer normlar şunları içerir: ${ displaystyle L_ {1}}$ norm, ${ displaystyle toplamı _ {j} | beta _ {j} |}$ , ve ${ displaystyle L_ {0}}$ sıfır olmayan sayı olan norm ${ displaystyle beta _ {j}}$ s. Ceza şu şekilde gösterilecektir: ${ displaystyle C (g)}$ .

Denetimli öğrenme optimizasyon problemi, işlevi bulmaktır. ${ displaystyle g}$ en aza indiren

{ displaystyle J (g) = R_ {emp} (g) + lambda C (g).}

Parametre ${ displaystyle lambda}$ önyargı-varyans ticaretini kontrol eder. Ne zaman ${ displaystyle lambda = 0}$ bu, düşük önyargı ve yüksek varyans ile ampirik risk minimizasyonu sağlar. Ne zaman ${ displaystyle lambda}$ büyükse, öğrenme algoritması yüksek önyargıya ve düşük varyansa sahip olacaktır. Değeri ${ displaystyle lambda}$ deneysel olarak seçilebilir çapraz doğrulama.

Karmaşıklık cezası, negatif günlük önceki olasılık olarak Bayes yorumuna sahiptir. ${ displaystyle g}$ , ${ displaystyle - log P (g)}$ , bu durumda ${ displaystyle J (g)}$ ... arka olasılık nın-nin ${ displaystyle g}$ .

Üretken eğitim

Yukarıda açıklanan eğitim yöntemleri ayrımcı eğitim yöntemler, çünkü bir işlev bulmaya çalışıyorlar ${ displaystyle g}$ farklı çıktı değerleri arasında iyi bir ayrım yapan (bkz. ayrımcı model ). Özel durum için ${ displaystyle f (x, y) = P (x, y)}$ bir ortak olasılık dağılımı ve kayıp işlevi, negatif günlük olasılığıdır ${ displaystyle - toplam _ {i} log P (x_ {i}, y_ {i}),}$ bir risk minimizasyon algoritmasının gerçekleştirdiği söyleniyor üretken eğitim, Çünkü ${ displaystyle f}$ olarak kabul edilebilir üretken model bu, verilerin nasıl oluşturulduğunu açıklar. Üretken eğitim algoritmaları, ayrımcı eğitim algoritmalarından genellikle daha basit ve hesaplama açısından daha etkilidir. Bazı durumlarda, çözüm aşağıdaki gibi kapalı biçimde hesaplanabilir naif bayanlar ve doğrusal ayırıcı analizi.

Genellemeler

Standart denetimli öğrenme probleminin genelleştirilmesinin birkaç yolu vardır:

Yarı denetimli öğrenme: Bu ayarda, istenen çıktı değerleri yalnızca eğitim verilerinin bir alt kümesi için sağlanır. Kalan veriler etiketlenmemiş.
Zayıf denetim: Bu ayarda, eğitim verilerinin etiketlenmesi için denetim sinyali sağlamak üzere gürültülü, sınırlı veya kesin olmayan kaynaklar kullanılır.
Aktif öğrenme: Tüm eğitim örneklerinin başlangıçta verildiğini varsaymak yerine, aktif öğrenme algoritmaları, tipik olarak bir insan kullanıcıya sorgular yaparak, etkileşimli olarak yeni örnekler toplar. Genellikle sorgular, yarı denetimli öğrenmeyi aktif öğrenmeyle birleştiren bir senaryo olan etiketlenmemiş verilere dayanır.
Yapılandırılmış tahmin: İstenilen çıktı değeri, ayrıştırma ağacı veya etiketli bir grafik gibi karmaşık bir nesne olduğunda, standart yöntemler genişletilmelidir.
Sıralamayı öğrenmek: Girdi bir nesne kümesi olduğunda ve istenen çıktı bu nesnelerin bir sıralaması olduğunda, yine standart yöntemler genişletilmelidir.

Yaklaşımlar ve algoritmalar

Analitik öğrenme
Yapay sinir ağı
Geri yayılım
Yükseltme (meta algoritma)
Bayes istatistikleri
Vakaya dayalı muhakeme
Karar ağacı öğrenimi
Endüktif mantık programlama
Gauss süreci regresyon
Genetik Programlama
Grup veri işleme yöntemi
Çekirdek tahmin edicileri
Öğrenme Otomatı
Sınıflandırıcı Sistemleri Öğrenmek
Minimum mesaj uzunluğu (Karar ağaçları, karar grafikleri vb.)
Çok çizgili alt uzay öğrenimi
Naive Bayes sınıflandırıcı
Maksimum entropi sınıflandırıcı
Koşullu rastgele alan
En Yakın Komşu Algoritması
Muhtemelen yaklaşık olarak doğru öğrenme (PAC) öğrenme
Dalgalanma kuralları bilgi edinme metodolojisi
Sembolik makine öğrenimi algoritmaları
Alt sembolik makine öğrenimi algoritmaları
Vektör makineleri desteklemek
Minimum Karmaşıklık Makineleri (MCM)
Rastgele Ormanlar
Sınıflandırıcı Toplulukları
Sıralı sınıflandırma
Veri Ön İşleme
Dengesiz veri kümelerini işleme
İstatistiksel ilişkisel öğrenme
Proaftn, çok kriterli bir sınıflandırma algoritması

Başvurular

Biyoinformatik
Keminformatik
- Nicel yapı-aktivite ilişkisi
Veritabanı pazarlaması
Elyazısı tanıma
Bilgi alma
- Sıralamayı öğrenmek
Bilgi çıkarma
İçinde nesne tanıma Bilgisayar görüşü
Optik karakter tanıma
Spam tespiti
Desen tanıma
Konuşma tanıma
Denetimli öğrenme, özel bir durumdur Aşağıya doğru nedensellik biyolojik sistemlerde
Arazi biçimi sınıflandırması kullanarak Uydu görüntüleri^[8]

Genel Konular

Ayrıca bakınız

Makine öğrenimi araştırması için veri kümelerinin listesi

Referanslar

^ Stuart J. Russell, Peter Norvig (2010) Yapay Zeka: Modern Bir Yaklaşım, Üçüncü baskı, Prentice Hall ISBN 9780136042594.
^ Mehryar Mohri Afshin Rostamizadeh, Ameet Talwalkar (2012) Makine Öğreniminin Temelleri, MIT Press ISBN 9780262018258.
^ S. Geman, E. Bienenstock ve R. Doursat (1992). Sinir ağları ve önyargı / varyans ikilemi. Nöral Hesaplama 4, 1–58.
^ G. James (2003) Genel Kayıp Fonksiyonları için Varyans ve Sapma, Makine Öğrenimi 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf )
^ C.E. Brodely ve M.A. Friedl (1999). Yanlış Etiketlenmiş Eğitim Örneklerinin Belirlenmesi ve Ortadan Kaldırılması, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf )
^ M.R. Smith ve T. Martinez (2011). "Yanlış Sınıflandırılması Gereken Örnekleri Tanımlayarak ve Kaldırarak Sınıflandırma Doğruluğunu İyileştirme". Uluslararası Sinir Ağları Ortak Konferansı Bildirileri (IJCNN 2011). s. 2690–2697. CiteSeerX 10.1.1.221.1371. doi:10.1109 / IJCNN.2011.6033571.
^ Vapnik, V.N. İstatistiksel öğrenme teorisinin doğası (2. Baskı), Springer Verlag, 2000.
^ A. Maity (2016). "Farklı Kara Özellikleri için RADARSAT-2 Polarimetrik Verilerinin Denetimli Sınıflandırılması". arXiv:1608.00501 [cs.CV ].

Dış bağlantılar

Makine Öğrenimi Açık Kaynak Yazılımı (MLOSS)

[1] Stuart J. Russell, Peter Norvig (2010) Yapay Zeka: Modern Bir Yaklaşım, Üçüncü baskı, Prentice Hall ISBN 9780136042594.

[2] Mehryar Mohri Afshin Rostamizadeh, Ameet Talwalkar (2012) Makine Öğreniminin Temelleri, MIT Press ISBN 9780262018258.

[3] S. Geman, E. Bienenstock ve R. Doursat (1992). Sinir ağları ve önyargı / varyans ikilemi. Nöral Hesaplama 4, 1–58.

[4] G. James (2003) Genel Kayıp Fonksiyonları için Varyans ve Sapma, Makine Öğrenimi 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf )

[5] C.E. Brodely ve M.A. Friedl (1999). Yanlış Etiketlenmiş Eğitim Örneklerinin Belirlenmesi ve Ortadan Kaldırılması, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf )

[6] M.R. Smith ve T. Martinez (2011). "Yanlış Sınıflandırılması Gereken Örnekleri Tanımlayarak ve Kaldırarak Sınıflandırma Doğruluğunu İyileştirme". Uluslararası Sinir Ağları Ortak Konferansı Bildirileri (IJCNN 2011). s. 2690–2697. CiteSeerX 10.1.1.221.1371. doi:10.1109 / IJCNN.2011.6033571.

[7] Vapnik, V.N. İstatistiksel öğrenme teorisinin doğası (2. Baskı), Springer Verlag, 2000.

[8] A. Maity (2016). "Farklı Kara Özellikleri için RADARSAT-2 Polarimetrik Verilerinin Denetimli Sınıflandırılması". arXiv:1608.00501 [cs.CV ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]