İstatistiksel öğrenme teorisi - Statistical learning theory

İstatistiksel öğrenme teorisi için bir çerçevedir makine öğrenme alanlarından çizim İstatistik ve fonksiyonel Analiz.[1][2] İstatistiksel öğrenme teorisi, verilere dayalı bir tahmine dayalı fonksiyon bulma problemiyle ilgilenir. İstatistiksel öğrenme teorisi, aşağıdaki alanlarda başarılı uygulamalara yol açmıştır. Bilgisayar görüşü, Konuşma tanıma, ve biyoinformatik.

Giriş

Öğrenmenin hedefleri anlamak ve tahmin etmektir. Öğrenme, aşağıdakiler dahil birçok kategoriye ayrılır: denetimli öğrenme, denetimsiz öğrenme, çevrimiçi öğrenme, ve pekiştirmeli öğrenme. İstatistiksel öğrenme teorisi perspektifinden, denetimli öğrenme en iyi anlaşılır.[3] Denetimli öğrenme, bir Eğitim Seti veri. Eğitimdeki her nokta, girdinin bir çıktıyla eşleştiği bir girdi-çıktı çiftidir. Öğrenme problemi, öğrenilen işlevin gelecekteki girdiden çıktıyı tahmin etmek için kullanılabileceği şekilde girdi ve çıktı arasında eşleştiren işlevin çıkarımından oluşur.

Çıktının türüne bağlı olarak, denetimli öğrenme problemleri, gerileme veya sorunları sınıflandırma. Çıktı sürekli bir değer aralığı alıyorsa, bu bir regresyon problemidir. Kullanma Ohm Yasası Örnek olarak, giriş olarak voltaj ve çıkış olarak akım ile bir regresyon gerçekleştirilebilir. Regresyon, gerilim ve akım arasındaki fonksiyonel ilişkiyi bulacaktır. , öyle ki

Sınıflandırma problemleri, çıktının ayrı bir etiket kümesinden bir öğe olacağı sorunlardır. Makine öğrenimi uygulamaları için sınıflandırma çok yaygındır. İçinde yüz tanıma örneğin, bir kişinin yüzünün bir resmi girdi olabilir ve çıktı etiketi o kişinin adı olacaktır. Giriş, öğeleri resimdeki pikselleri temsil eden büyük bir çok boyutlu vektör ile temsil edilecektir.

Eğitim seti verilerine dayalı bir işlevi öğrendikten sonra, bu işlev, eğitim setinde görünmeyen veriler olan bir test veri setinde doğrulanır.

Resmi açıklama

Al olmak vektör alanı olası tüm girdilerden ve tüm olası çıktıların vektör uzayı olmak. İstatistiksel öğrenme teorisi, bazı bilinmeyenlerin olduğu perspektifini alır. olasılık dağılımı ürün alanı üzerinde yani bilinmeyen bazı şeyler var . Eğitim seti şunlardan oluşur: bu olasılık dağılımından örnekler ve not edilmiştir

Her eğitim verilerinden bir giriş vektörüdür ve ona karşılık gelen çıktıdır.

Bu formalizmde, çıkarım problemi bir fonksiyon bulmaktan ibarettir öyle ki . İzin Vermek işlev alanı olmak hipotez uzayı denir. Hipotez alanı, algoritmanın arayacağı işlevlerin alanıdır. İzin Vermek ol kayıp fonksiyonu, tahmin edilen değer arasındaki fark için bir metrik ve gerçek değer . beklenen risk olarak tanımlandı

Hedef işlev, mümkün olan en iyi işlev seçilebilir, tarafından verilir bu tatmin edici

Çünkü olasılık dağılımı bilinmiyorsa, beklenen risk için bir aproksi önlemi kullanılmalıdır. Bu ölçü, bu bilinmeyen olasılık dağılımından bir örnek olan eğitim setine dayanmaktadır. Denir ampirik risk

İşlevi seçen bir öğrenme algoritması Ampirik riski en aza indiren ampirik risk minimizasyonu.

Kayıp fonksiyonları

Kayıp fonksiyonunun seçimi, fonksiyon üzerinde belirleyici bir faktördür öğrenme algoritması tarafından seçilecektir. Kayıp işlevselliği aynı zamanda bir algoritma için yakınsama oranını da etkiler. Kayıp fonksiyonunun dışbükey olması önemlidir.[4]

Sorunun bir regresyon mu yoksa bir sınıflandırma mı olduğuna bağlı olarak farklı kayıp fonksiyonları kullanılır.

Regresyon

Regresyon için en yaygın kayıp işlevi, kare kaybı işlevidir (aynı zamanda L2 normu ). Bu tanıdık kayıp işlevi, Sıradan En Küçük Kareler regresyonu. Form şu şekildedir:

Mutlak değer kaybı (aynı zamanda L1 normu ) ayrıca bazen kullanılır:

Sınıflandırma

Bir anlamda 0-1 gösterge işlevi sınıflandırma için en doğal kayıp fonksiyonudur. Öngörülen çıktı gerçek çıktıyla aynıysa 0 değerini alır ve tahmin edilen çıktı gerçek çıktıdan farklıysa 1 değerini alır. İle ikili sınıflandırma için , bu:

nerede ... Heaviside adım işlevi.

Düzenlilik

Bu görüntü, makine öğreniminde aşırı uyum sağlamanın bir örneğini temsil ediyor. Kırmızı noktalar, eğitim seti verilerini temsil eder. Yeşil çizgi, gerçek işlevsel ilişkiyi temsil ederken, mavi çizgi aşırı uyuma kurban giden öğrenilmiş işlevi gösterir.

Makine öğrenimi problemlerinde, ortaya çıkan önemli bir problem, aşırı uyum gösterme. Öğrenme bir tahmin problemi olduğu için, amaç (daha önce gözlemlenen) verilere en çok uyan bir fonksiyon bulmak değil, gelecekteki girdilerden en doğru çıktıyı tahmin edecek olanı bulmaktır. Ampirik risk minimizasyonu bu aşırı uyum riskini taşır: verilere tam olarak uyan ancak gelecekteki çıktıyı iyi tahmin etmeyen bir işlev bulmak.

Aşırı uyum, kararsız çözümlerin belirtisidir; eğitim seti verilerindeki küçük bir karışıklık, öğrenilen işlevde büyük bir varyasyona neden olacaktır. Çözüm için istikrar garanti edilebilirse, genelleme ve tutarlılığın da garanti edildiği gösterilebilir.[5][6] Düzenlilik Aşırı uyum sorununu çözebilir ve soruna istikrar kazandırabilir.

Hipotez alanı kısıtlanarak düzenlenebilirlik sağlanabilir . Yaygın bir örnek kısıtlayıcı olabilir doğrusal fonksiyonlara: bu, standart problemin bir indirgemesi olarak görülebilir. doğrusal regresyon. ayrıca polinom derecesi ile sınırlandırılabilir , üstel veya sınırlı fonksiyonlar L1. Hipotez uzayının kısıtlanması, potansiyel işlevlerin biçimi sınırlı olduğu için aşırı uydurmayı önler ve bu nedenle, keyfi olarak sıfıra yakın deneysel risk veren bir işlevin seçimine izin vermez.

Düzenlemeye bir örnek Tikhonov düzenlenmesi. Bu,

nerede sabit ve pozitif bir parametredir, düzenleme parametresidir. Tikhonov düzenlenmesi, çözümün varlığını, benzersizliğini ve istikrarını sağlar.[7]

Ayrıca bakınız

Referanslar

  1. ^ Trevor Hastie Robert Tibshirani, Jerome Friedman (2009) İstatistiksel Öğrenmenin Unsurları, Springer-Verlag ISBN  978-0-387-84857-0.
  2. ^ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar Ameet (2012). Makine Öğreniminin Temelleri. ABD, Massachusetts: MIT Press. ISBN  9780262018258.
  3. ^ Tomaso Poggio, Lorenzo Rosasco, vd. İstatistiksel Öğrenme Teorisi ve Uygulamaları, 2012, 1. sınıf
  4. ^ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M. ve Verri A. 2004. Sinirsel hesaplama Cilt 16, s. 1063-1076
  5. ^ Vapnik, V.N. ve Chervonenkis, A.Y. 1971. Olayların göreli frekanslarının olasılıklarına tekdüze yakınsaması üzerine. Olasılık Teorisi ve Uygulamaları Cilt 16, s. 264-280.
  6. ^ Mukherjee, S., Niyogi, P. Poggio, T. ve Rifkin, R. 2006. Öğrenme teorisi: istikrar genelleme için yeterlidir ve ampirik risk minimizasyonunun tutarlılığı için gerekli ve yeterlidir. Hesaplamalı Matematikteki Gelişmeler. Cilt 25, s. 161-193.
  7. ^ Tomaso Poggio, Lorenzo Rosasco, vd. İstatistiksel Öğrenme Teorisi ve Uygulamaları, 2012, Sınıf 2