Denetimli öğrenme - Supervised learning

Denetimli öğrenme ... makine öğrenme Örnek girdi-çıktı çiftlerine dayalı olarak bir girdiyi bir çıktıya eşleyen bir işlevi öğrenme görevi.[1] Şundan bir işlev çıkarır: etiketli Eğitim verileri bir dizi oluşur eğitim örnekleri.[2] Denetimli öğrenmede, her örnek bir çift bir girdi nesnesinden (tipik olarak bir vektör) ve istenen bir çıktı değerinden (aynı zamanda denetim sinyali). Denetimli bir öğrenme algoritması, eğitim verilerini analiz eder ve yeni örneklerin haritalanması için kullanılabilecek bir çıkarsama işlevi üretir. Optimal bir senaryo, algoritmanın görünmeyen örnekler için sınıf etiketlerini doğru şekilde belirlemesine izin verecektir. Bu, öğrenme algoritmasının eğitim verilerinden görünmeyen durumlara "makul" bir şekilde genellemesini gerektirir (bkz. endüktif önyargı ).

İnsan ve hayvan psikolojisindeki paralel görev genellikle şu şekilde anılır: kavram öğrenme.

Adımlar

Belirli bir denetimli öğrenme problemini çözmek için, aşağıdaki adımların gerçekleştirilmesi gerekir:

  1. Eğitim örneklerinin türünü belirleyin. Başka bir şey yapmadan önce, kullanıcı eğitim seti olarak ne tür verilerin kullanılacağına karar vermelidir. Bu durumuda elyazısı analizi örneğin, bu tek bir el yazısı karakter, el yazısının tamamı veya bir el yazısı satırı olabilir.
  2. Bir eğitim seti toplayın. Eğitim setinin, işlevin gerçek dünyadaki kullanımını temsil etmesi gerekir. Böylece, bir dizi girdi nesnesi toplanır ve bunlara karşılık gelen çıktılar da ya insan uzmanlardan ya da ölçümlerden toplanır.
  3. Öğrenilen işlevin giriş özelliği temsilini belirleyin. Öğrenilen işlevin doğruluğu, büyük ölçüde girdi nesnesinin nasıl temsil edildiğine bağlıdır. Tipik olarak, girdi nesnesi bir özellik vektörü, nesneyi tanımlayan bir dizi özellik içeren. Özelliklerin sayısı çok fazla olmamalıdır, çünkü boyutluluk laneti; ancak çıktıyı doğru bir şekilde tahmin etmek için yeterli bilgi içermelidir.
  4. Öğrenilen işlevin yapısını ve ilgili öğrenme algoritmasını belirleyin. Örneğin, mühendis kullanmayı seçebilir Vektör makineleri desteklemek veya Karar ağaçları.
  5. Tasarımı tamamlayın. Öğrenme algoritmasını toplanan eğitim setinde çalıştırın. Bazı denetimli öğrenme algoritmaları, kullanıcının belirli kontrol parametrelerini belirlemesini gerektirir. Bu parametreler, bir alt kümedeki performansı optimize ederek ayarlanabilir (a doğrulama set) eğitim setinin veya çapraz doğrulama.
  6. Öğrenilen işlevin doğruluğunu değerlendirin. Parametre ayarlaması ve öğrenmeden sonra, ortaya çıkan fonksiyonun performansı eğitim setinden ayrı bir test seti üzerinde ölçülmelidir.

Algoritma seçimi

Her biri güçlü ve zayıf yönlerine sahip çok çeşitli denetimli öğrenme algoritmaları mevcuttur. Tüm denetimli öğrenme problemlerinde en iyi şekilde çalışan tek bir öğrenme algoritması yoktur (bkz. Bedava öğle yemeği teoremi yok ).

Denetimli öğrenmede dikkate alınması gereken dört ana konu vardır:

Önyargılı varyans dengeleme

İlk sorun, arasındaki ödünleşmedir önyargı ve varyans.[3] Birkaç farklı, ancak eşit derecede iyi eğitim veri setimiz olduğunu hayal edin. Bir öğrenme algoritması belirli bir girdi için önyargılıdır bu veri setlerinin her biri üzerinde eğitildiğinde, sistematik olarak yanlış çıktı için doğru çıktıyı tahmin ederseniz . Bir öğrenme algoritmasının belirli bir girdi için yüksek varyansı vardır farklı eğitim setlerinde eğitildiğinde farklı çıktı değerlerini tahmin ederse. Öğrenilmiş bir sınıflandırıcının tahmin hatası, öğrenme algoritmasının sapmasının ve sapmanın toplamı ile ilgilidir.[4] Genel olarak, önyargı ve varyans arasında bir ödünleşim vardır. Düşük önyargıya sahip bir öğrenme algoritması, verilere iyi uyması için "esnek" olmalıdır. Ancak öğrenme algoritması çok esnekse, her eğitim veri setine farklı şekilde uyacak ve dolayısıyla yüksek varyansa sahip olacaktır. Pek çok denetimli öğrenme yönteminin önemli bir yönü, önyargı ve varyans arasındaki bu ödünleşmeyi (otomatik olarak veya kullanıcının ayarlayabileceği bir önyargı / varyans parametresi sağlayarak) ayarlayabilmeleridir.

İşlev karmaşıklığı ve eğitim verilerinin miktarı

İkinci konu, "gerçek" işlevin (sınıflandırıcı veya regresyon işlevi) karmaşıklığına göre mevcut eğitim verilerinin miktarıdır. Gerçek işlev basitse, yüksek önyargı ve düşük varyansa sahip "esnek olmayan" bir öğrenme algoritması, onu az miktarda veriden öğrenebilir. Ancak, gerçek işlev oldukça karmaşıksa (örneğin, birçok farklı girdi özelliği arasında karmaşık etkileşimler içerdiğinden ve girdi alanının farklı bölümlerinde farklı davrandığından), işlev yalnızca çok büyük miktarda eğitim verisinden öğrenebilir. ve düşük önyargı ve yüksek varyansa sahip "esnek" bir öğrenme algoritması kullanmak. Giriş ve istenen çıktı arasında net bir sınır vardır.

Girdi uzayının boyutluluğu

Üçüncü bir sorun, girdi uzayının boyutluluğudur. Girdi özelliği vektörleri çok yüksek boyuta sahipse, gerçek işlev bu özelliklerin yalnızca küçük bir kısmına bağlı olsa bile öğrenme problemi zor olabilir. Bunun nedeni, birçok "ekstra" boyutun öğrenme algoritmasını karıştırması ve yüksek varyansa sahip olmasıdır. Bu nedenle, yüksek girdi boyutu, tipik olarak sınıflandırıcının düşük varyansa ve yüksek önyargıya sahip olmasını gerektirir. Uygulamada, mühendis giriş verilerinden ilgisiz özellikleri manuel olarak kaldırabilirse, bu muhtemelen öğrenilen işlevin doğruluğunu artıracaktır. Ek olarak, birçok algoritma vardır. Öznitelik Seçimi ilgili özellikleri belirlemeye ve ilgisiz olanları atmaya çalışan. Bu, daha genel stratejinin bir örneğidir. Boyutsal küçülme, denetimli öğrenme algoritmasını çalıştırmadan önce giriş verilerini daha düşük boyutlu bir alana eşlemeyi amaçlayan.

Çıkış değerlerinde gürültü

Dördüncü bir konu, istenen çıktı değerlerindeki gürültünün derecesidir (denetim hedef değişkenler ). İstenilen çıktı değerleri genellikle yanlışsa (insan hatası veya sensör hataları nedeniyle), o zaman öğrenme algoritması eğitim örnekleriyle tam olarak eşleşen bir işlev bulmaya çalışmamalıdır. Verileri çok dikkatli bir şekilde sığdırmaya çalışmak, aşırı uyum gösterme. Öğrenmeye çalıştığınız işlev, öğrenme modeliniz için çok karmaşıksa, hiçbir ölçüm hatası (stokastik gürültü) olmasa bile fazla takabilirsiniz. Böyle bir durumda, hedef fonksiyonun modellenemeyen kısmı egzersiz verilerinizi "bozar" - bu fenomen olarak adlandırılmıştır deterministik gürültü. Her iki tip gürültü mevcut olduğunda, daha yüksek önyargı, daha düşük varyans tahmincisi ile gitmek daha iyidir.

Uygulamada, çıktı değerlerinde gürültüyü azaltmak için birkaç yaklaşım vardır. erken durma önlemek aşırı uyum gösterme Hem de tespit ve denetimli öğrenme algoritmasının eğitilmesinden önce gürültülü eğitim örneklerinin kaldırılması. Gürültülü eğitim örneklerini tanımlayan ve eğitimden önce şüpheli gürültülü eğitim örneklerini kaldıran çeşitli algoritmalar vardır. genelleme hatası ile İstatistiksel anlamlılık.[5][6]

Dikkate alınacak diğer faktörler

Bir öğrenme algoritması seçerken ve uygularken dikkate alınması gereken diğer faktörler şunları içerir:

Yeni bir uygulamayı düşünürken, mühendis birden fazla öğrenme algoritmasını karşılaştırabilir ve eldeki problemde hangisinin en iyi sonuç verdiğini deneysel olarak belirleyebilir (bkz. çapraz doğrulama ). Bir öğrenme algoritmasının performansını ayarlamak çok zaman alabilir. Sabit kaynaklar verildiğinde, ek eğitim verilerini ve daha bilgilendirici özellikleri toplamak için daha fazla zaman harcamak, öğrenme algoritmalarını ayarlamak için fazladan zaman harcamaktan daha iyidir.

Algoritmalar

En yaygın kullanılan öğrenme algoritmaları şunlardır:

Denetimli öğrenme algoritmaları nasıl çalışır?

Bir dizi verildiğinde formun eğitim örnekleri öyle ki ... özellik vektörü i-inci örneğin ve etiketidir (yani sınıf), bir öğrenme algoritması bir işlev arar , nerede giriş alanı ve çıktı alanıdır. İşlev olası işlevlerin bazı alanlarının bir öğesidir , genellikle denir hipotez alanı. Bazen temsil etmek uygundur bir puanlama işlevi kullanmak öyle ki döndürmek olarak tanımlanır en yüksek puanı veren değer: . İzin Vermek puanlama fonksiyonlarının alanını belirtir.

olmasına rağmen ve herhangi bir işlev alanı olabilir, birçok öğrenme algoritması olasılıksal modellerdir. şeklini alır şartlı olasılık model veya şeklini alır bileşik olasılık model . Örneğin, naif bayanlar ve doğrusal ayırıcı analizi ortak olasılık modelleriyken lojistik regresyon koşullu olasılık modelidir.

Seçmek için iki temel yaklaşım vardır veya : ampirik risk minimizasyonu ve yapısal risk minimizasyonu.[7] Ampirik risk minimizasyonu, eğitim verilerine en iyi uyan işlevi arar. Yapısal risk minimizasyonu şunları içerir: ceza fonksiyonu önyargı / varyans dengesini kontrol eden.

Her iki durumda da, eğitim setinin bir örneklemden oluştuğu varsayılır. bağımsız ve aynı şekilde dağıtılmış çiftler, . Bir fonksiyonun eğitim verilerine ne kadar iyi uyduğunu ölçmek için, bir kayıp fonksiyonu tanımlanmış. Eğitim örneği için değeri tahmin etme kaybı dır-dir .

risk fonksiyon beklenen kayıp olarak tanımlanır . Bu, eğitim verilerinden şu şekilde tahmin edilebilir:

.

Ampirik risk minimizasyonu

Ampirik risk minimizasyonunda, denetimli öğrenme algoritması işlevi arar en aza indiren . Bu nedenle, denetimli bir öğrenme algoritması, bir optimizasyon algoritması bulmak .

Ne zaman koşullu olasılık dağılımı ve kayıp işlevi, negatif günlük olasılığıdır: ampirik risk minimizasyonu eşdeğerdir maksimum olasılık tahmini.

Ne zaman birçok aday işlevi içerir veya eğitim seti yeterince büyük değildir, ampirik risk minimizasyonu yüksek varyansa ve zayıf genellemeye yol açar. Öğrenme algoritması, eğitim örneklerini iyi genelleme yapmadan ezberleyebilir. Bu denir aşırı uyum gösterme.

Yapısal risk minimizasyonu

Yapısal risk minimizasyonu dahil ederek aşırı uyumu önlemeye çalışır düzenleme cezası optimizasyona. Düzenlileştirme cezası, bir tür uygulama olarak görülebilir. Occam'ın ustura Bu, daha karmaşık olanlara göre daha basit işlevleri tercih eder.

Farklı karmaşıklık tanımlarına karşılık gelen çok çeşitli cezalar uygulanmıştır. Örneğin, işlevin formun doğrusal bir fonksiyonudur

.

Popüler bir düzenlilik cezası , kare olan Öklid normu olarak da bilinen ağırlıkların norm. Diğer normlar şunları içerir: norm, , ve sıfır olmayan sayı olan norm s. Ceza şu şekilde gösterilecektir: .

Denetimli öğrenme optimizasyon problemi, işlevi bulmaktır. en aza indiren

Parametre önyargı-varyans ticaretini kontrol eder. Ne zaman bu, düşük önyargı ve yüksek varyans ile ampirik risk minimizasyonu sağlar. Ne zaman büyükse, öğrenme algoritması yüksek önyargıya ve düşük varyansa sahip olacaktır. Değeri deneysel olarak seçilebilir çapraz doğrulama.

Karmaşıklık cezası, negatif günlük önceki olasılık olarak Bayes yorumuna sahiptir. , , bu durumda ... arka olasılık nın-nin .

Üretken eğitim

Yukarıda açıklanan eğitim yöntemleri ayrımcı eğitim yöntemler, çünkü bir işlev bulmaya çalışıyorlar farklı çıktı değerleri arasında iyi bir ayrım yapan (bkz. ayrımcı model ). Özel durum için bir ortak olasılık dağılımı ve kayıp işlevi, negatif günlük olasılığıdır bir risk minimizasyon algoritmasının gerçekleştirdiği söyleniyor üretken eğitim, Çünkü olarak kabul edilebilir üretken model bu, verilerin nasıl oluşturulduğunu açıklar. Üretken eğitim algoritmaları, ayrımcı eğitim algoritmalarından genellikle daha basit ve hesaplama açısından daha etkilidir. Bazı durumlarda, çözüm aşağıdaki gibi kapalı biçimde hesaplanabilir naif bayanlar ve doğrusal ayırıcı analizi.

Genellemeler

Standart denetimli öğrenme probleminin genelleştirilmesinin birkaç yolu vardır:

  • Yarı denetimli öğrenme: Bu ayarda, istenen çıktı değerleri yalnızca eğitim verilerinin bir alt kümesi için sağlanır. Kalan veriler etiketlenmemiş.
  • Zayıf denetim: Bu ayarda, eğitim verilerinin etiketlenmesi için denetim sinyali sağlamak üzere gürültülü, sınırlı veya kesin olmayan kaynaklar kullanılır.
  • Aktif öğrenme: Tüm eğitim örneklerinin başlangıçta verildiğini varsaymak yerine, aktif öğrenme algoritmaları, tipik olarak bir insan kullanıcıya sorgular yaparak, etkileşimli olarak yeni örnekler toplar. Genellikle sorgular, yarı denetimli öğrenmeyi aktif öğrenmeyle birleştiren bir senaryo olan etiketlenmemiş verilere dayanır.
  • Yapılandırılmış tahmin: İstenilen çıktı değeri, ayrıştırma ağacı veya etiketli bir grafik gibi karmaşık bir nesne olduğunda, standart yöntemler genişletilmelidir.
  • Sıralamayı öğrenmek: Girdi bir nesne kümesi olduğunda ve istenen çıktı bu nesnelerin bir sıralaması olduğunda, yine standart yöntemler genişletilmelidir.

Yaklaşımlar ve algoritmalar

Başvurular

Genel Konular

Ayrıca bakınız

Referanslar

  1. ^ Stuart J. Russell, Peter Norvig (2010) Yapay Zeka: Modern Bir Yaklaşım, Üçüncü baskı, Prentice Hall ISBN  9780136042594.
  2. ^ Mehryar Mohri Afshin Rostamizadeh, Ameet Talwalkar (2012) Makine Öğreniminin Temelleri, MIT Press ISBN  9780262018258.
  3. ^ S. Geman, E. Bienenstock ve R. Doursat (1992). Sinir ağları ve önyargı / varyans ikilemi. Nöral Hesaplama 4, 1–58.
  4. ^ G. James (2003) Genel Kayıp Fonksiyonları için Varyans ve Sapma, Makine Öğrenimi 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf )
  5. ^ C.E. Brodely ve M.A. Friedl (1999). Yanlış Etiketlenmiş Eğitim Örneklerinin Belirlenmesi ve Ortadan Kaldırılması, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf )
  6. ^ M.R. Smith ve T. Martinez (2011). "Yanlış Sınıflandırılması Gereken Örnekleri Tanımlayarak ve Kaldırarak Sınıflandırma Doğruluğunu İyileştirme". Uluslararası Sinir Ağları Ortak Konferansı Bildirileri (IJCNN 2011). s. 2690–2697. CiteSeerX  10.1.1.221.1371. doi:10.1109 / IJCNN.2011.6033571.
  7. ^ Vapnik, V.N. İstatistiksel öğrenme teorisinin doğası (2. Baskı), Springer Verlag, 2000.
  8. ^ A. Maity (2016). "Farklı Kara Özellikleri için RADARSAT-2 Polarimetrik Verilerinin Denetimli Sınıflandırılması". arXiv:1608.00501 [cs.CV ].

Dış bağlantılar