Kernel regülasyonunun Bayes yorumu - Bayesian interpretation of kernel regularization

İçinde makine öğrenme, çekirdek yöntemleri girdiler üzerindeki bir iç çarpım alanı veya benzerlik yapısının varsayılmasından kaynaklanır. Gibi bazı bu tür yöntemler için Vektör makineleri desteklemek (SVM'ler), orijinal formülasyon ve düzenleme doğada Bayesçi değildi. Bunları bir Bayes perspektif. Çekirdekler mutlaka pozitif yarı kesin olmadığından, temel yapı iç çarpım uzayları değil, daha genel olabilir. çekirdek Hilbert uzaylarını yeniden üretmek. Bayesçi olasılıkta çekirdek yöntemleri, aşağıdakilerin önemli bir bileşenidir: Gauss süreçleri, çekirdek işlevi kovaryans işlevi olarak bilinir. Çekirdek yöntemleri geleneksel olarak denetimli öğrenme nerede sorunlar giriş alanı genellikle bir vektörler alanı iken çıktı alanı bir skaler uzay. Daha yakın zamanlarda bu yöntemler, ilgili sorunlara genişletilmiştir. çoklu çıktılar olduğu gibi çok görevli öğrenme.[1]

Düzenlileştirme ile Bayesci bakış açısı arasındaki matematiksel bir eşdeğerlik, yeniden üreten çekirdek Hilbert uzayının olduğu durumlarda kolayca kanıtlanabilir. sonlu boyutlu. Sonsuz boyutlu durum, ince matematiksel sorunları ortaya çıkarır; burada sonlu boyutlu durumu ele alacağız. Skaler öğrenme için çekirdek yöntemlerinin altında yatan ana fikirlerin kısa bir incelemesiyle başlıyoruz ve kısaca düzenlileştirme ve Gauss süreçleri kavramlarını tanıtıyoruz. Daha sonra, her iki bakış açısının da nasıl temelde eşdeğerde olduğunu gösteriyoruz tahmin ediciler ve onları birbirine bağlayan bağlantıyı gösterin.

Denetimli öğrenme problemi

Klasik denetimli öğrenme problem, bazı yeni giriş noktaları için çıktının tahmin edilmesini gerektirir skaler değerli bir tahminciyi öğrenerek bir eğitim seti temelinde oluşan giriş-çıkış çiftleri, .[2] Simetrik ve pozitif iki değişkenli bir fonksiyon verildiğinde deniliyor çekirdekmakine öğrenimindeki en popüler tahmin edicilerden biri,

 

 

 

 

(1)

nerede ... çekirdek matrisi girişlerle , , ve . Bu tahmincinin hem regülerleştirme hem de Bayes perspektifinden nasıl türetilebileceğini göreceğiz.

Bir düzenlilik perspektifi

Düzenlileştirme perspektifindeki ana varsayım, işlevler kümesinin üreyen çekirdek Hilbert uzayına ait olduğu varsayılır .[2][3][4][5]

Çekirdek Hilbert uzayını çoğaltma

Bir çekirdek Hilbert uzayını yeniden üretmek (RKHS) bir Hilbert uzayı ile tanımlanan fonksiyonların simetrik, pozitif tanımlı işlev aradı üretilen çekirdek öyle ki işlev ait olmak hepsi için .[6][7][8] Bir RKHS'yi çekici kılan üç ana özellik vardır:

1. The yeniden üretim özelliğiboşluğa isim veren,

nerede iç çarpım .

2. Bir RKHS'deki fonksiyonlar, belirli noktalarda çekirdeğin doğrusal kombinasyonunun kapanmasıdır,

.

Bu, hem doğrusal hem de genelleştirilmiş doğrusal modellerin birleşik bir çerçevesinde inşa edilmesine izin verir.

3. Bir RKHS'deki kare norm şu şekilde yazılabilir:

ve ölçüm olarak görülebilir karmaşıklık işlevin.

Düzenlenmiş işlevsel

Tahminci, düzenlenmiş işlevselliğin en aza indiricisi olarak türetilir.

 

 

 

 

(2)

nerede ve norm mu . Bu fonksiyondaki ilk terim, arasındaki hataların karelerinin ortalamasını ölçer. ve , denir ampirik risk ve tahmin ederek ödediğimiz maliyeti temsil eder gerçek değer için . Fonksiyoneldeki ikinci terim, bir RKHS'deki kare normunun bir ağırlık ile çarpılmasıdır. ve sorunu stabilize etme amacına hizmet eder[3][5] ve tahmin edicinin uydurma ve karmaşıklığı arasında bir denge eklemenin yanı sıra.[2] Ağırlık , aradı düzenleyici, tahmin edicinin kararsızlığının ve karmaşıklığının ne ölçüde cezalandırılması gerektiğini belirler (değerin artırılması için daha yüksek ceza ).

Tahmincinin türetilmesi

Denklemdeki tahmin edicinin açık formu (1) iki aşamada türetilir. İlk olarak, temsilci teoremi[9][10][11] işlevin küçültücü olduğunu belirtir (2) her zaman eğitim-ayar noktalarında merkezlenmiş çekirdeklerin doğrusal bir kombinasyonu olarak yazılabilir,

 

 

 

 

(3)

bazı . Katsayıların açık formu yerine koyarak bulunabilir işlevsel olarak (2). Denklemdeki formun bir işlevi için (3), bizde var

İşlevi yeniden yazabiliriz (2) gibi

Bu işlevsel, dışbükeydir ve bu nedenle degradeyi şuna göre ayarlayarak minimum değerini bulabiliriz sıfıra

Bu ifadeyi denklemdeki katsayılar ile ikame ederek (3), daha önce denklemde belirtilen tahmin ediciyi elde ederiz (1),

Bayesçi bir bakış açısı

Çekirdek kavramı, Bayes olasılığında çok önemli bir rol oynar, çünkü stokastik bir sürecin kovaryans işlevi olarak adlandırılır. Gauss süreci.

Bayes olasılığının bir incelemesi

Bayesci çerçevenin bir parçası olarak Gauss süreci, önceki dağıtım modellenen fonksiyonun özellikleri hakkındaki önceki inançları açıklar. Bu inançlar, gözlemsel veriler dikkate alınarak bir olasılık işlevi önceki inançları gözlemlerle ilişkilendiren. Birlikte ele alındığında, önceki ve olasılık, adı verilen güncellenmiş bir dağıtıma yol açar. arka dağıtım test senaryolarını tahmin etmek için geleneksel olarak kullanılır.

Gauss süreci

Bir Gauss süreci (GP), örneklenen herhangi bir sonlu sayıdaki rastgele değişkenin bir eklemi takip ettiği stokastik bir süreçtir. Normal dağılım.[12] Gauss dağılımının ortalama vektörü ve kovaryans matrisi, GP'yi tamamen belirtir. GP'ler genellikle fonksiyonlar için bir öncelik dağılımı olarak kullanılır ve bu nedenle ortalama vektör ve kovaryans matrisi, kovaryans fonksiyonunun da adı verilen fonksiyonlar olarak görülebilir. çekirdek GP'nin. Let a function ortalama işlevi olan bir Gauss sürecini takip edin ve çekirdek işlevi ,

Altta yatan Gauss dağılımı açısından, herhangi bir sonlu küme için buna sahibiz izin verirsek sonra

nerede ortalama vektör ve çok değişkenli Gauss dağılımının kovaryans matrisidir.

Tahmincinin türetilmesi

Bir regresyon bağlamında, olasılık fonksiyonunun genellikle bir Gauss dağılımı olduğu varsayılır ve gözlemlerin bağımsız ve aynı şekilde dağıtılmış olduğu varsayılır (iid),

Bu varsayım, gözlemlerin varyanslı sıfır ortalamalı Gauss gürültüsüyle bozulmasına karşılık gelir. . İid varsayımı, girdi seti verilen veri noktaları üzerinden olabilirlik fonksiyonunu çarpanlara ayırmayı mümkün kılar ve gürültünün varyansı ve böylece arka dağılım analitik olarak hesaplanabilir. Bir test giriş vektörü için , eğitim verileri göz önüne alındığında posterior dağılım şu şekilde verilir:

nerede gürültünün varyansını içeren bir dizi parametreyi belirtir ve kovaryans işlevinden herhangi bir parametre ve nerede

Düzenleme ve Bayes arasındaki bağlantı

Düzenlileştirme teorisi ile Bayes teorisi arasında bir bağlantı ancak şu durumda sağlanabilir: sonlu boyutlu RKHS. Bu varsayım altında, düzenlileştirme teorisi ve Bayes teorisi, Gauss süreci tahmini yoluyla birbirine bağlanır.[3][12]

Sonlu boyutlu durumda, her RKHS bir özellik haritası açısından tanımlanabilir öyle ki[2]

Çekirdekli RKHS'deki işlevler daha sonra şöyle yazılabilir

ve bizde de var

Artık bir Gauss süreci oluşturabiliriz. sıfır ortalama ve kimlik kovaryans matrisi ile çok değişkenli Gauss dağılımına göre dağıtılacak,

Bir Gauss olasılığını varsayarsak,

nerede . Ortaya çıkan arka dağılım şu şekilde verilir:

Bunu görebiliriz a maksimum arka (MAP) tahmin, minimizasyon problemini tanımlamaya eşdeğerdir Tikhonov düzenlenmesi Bayes durumunda, düzenlileştirme parametresi gürültü varyansı ile ilişkilidir.

Felsefi bir bakış açısıyla, bir düzenlileştirme ortamındaki kayıp işlevi, Bayesçi ortamdaki olasılık işlevinden farklı bir rol oynar. Kayıp fonksiyonu, tahmin edilirken oluşan hatayı ölçer. yerine Olabilirlik fonksiyonu, gözlemlerin üretici süreçte doğru olduğu varsayılan modelden ne kadar muhtemel olduğunu ölçer. Bununla birlikte, matematiksel bir perspektiften, düzenlileştirme ve Bayes çerçevelerinin formülasyonları, kayıp işlevini ve olasılık işlevini, işlevlerin çıkarımını teşvik etmede aynı matematiksel role sahip olmasını sağlar. etiketlere yakın mümkün olduğu kadar.

Ayrıca bakınız

Referanslar

  1. ^ Álvarez, Mauricio A .; Rosasco, Lorenzo; Lawrence, Neil D. (Haziran 2011). "Vektör Değerli Fonksiyonlar için Çekirdekler: Bir Gözden Geçirme". arXiv:1106.6251 [stat.ML ].
  2. ^ a b c d Vapnik, Vladimir (1998). İstatistiksel öğrenme teorisi. Wiley. ISBN  9780471030034.
  3. ^ a b c Wahba Grace (1990). Gözlemsel veriler için spline modelleri. SIAM.
  4. ^ Schölkopf, Bernhard; Smola, Alexander J. (2002). Çekirdeklerle Öğrenme: Vektör Makinelerini, Düzenlemeyi, Optimizasyonu ve Ötesini Destekleyin. MIT Basın. ISBN  9780262194754.
  5. ^ a b Girosi, F .; Poggio, T. (1990). "Ağlar ve en iyi yaklaşım özelliği" (PDF). Biyolojik Sibernetik. Springer. 63 (3): 169–176. doi:10.1007 / bf00195855. hdl:1721.1/6017.
  6. ^ Aronszajn, N (Mayıs 1950). "Çekirdek Çoğaltma Teorisi". Amerikan Matematik Derneği İşlemleri. 68 (3): 337–404. doi:10.2307/1990404. JSTOR  1990404.
  7. ^ Schwartz, Laurent (1964). "Sous-espaces hilbertiens d'espace vektörleri topologları ve noyaux ilişkileri (noyaux reproduisants)". Journal d'Analyse Mathématique. Springer. 13 (1): 115–256. doi:10.1007 / bf02786620.
  8. ^ Cucker, Felipe; Smale Steve (5 Ekim 2001). "Öğrenmenin matematiksel temelleri hakkında". Amerikan Matematik Derneği Bülteni. 39 (1): 1–49. doi:10.1090 / s0273-0979-01-00923-5.
  9. ^ Kimeldorf, George S .; Wahba Grace (1970). "Stokastik süreçler üzerine Bayes kestirimi ile spline'lar tarafından yumuşatma arasında bir yazışma". Matematiksel İstatistik Yıllıkları. 41 (2): 495–502. doi:10.1214 / aoms / 1177697089.
  10. ^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). "Genelleştirilmiş Bir Temsilci Teoremi". COLT / EuroCOLT 2001, LNCS. Bilgisayar Bilimlerinde Ders Notları. 2111/2001: 416–426. doi:10.1007/3-540-44581-1_27. ISBN  978-3-540-42343-0.
  11. ^ De Vito, Ernesto; Rosasco, Lorenzo; Caponnetto, Andrea; Piana, Michele; Verri Alessandro (Ekim 2004). "Düzenli Çekirdek Yöntemlerinin Bazı Özellikleri". Makine Öğrenimi Araştırmaları Dergisi. 5: 1363–1390.
  12. ^ a b Rasmussen, Carl Edward; Williams, Christopher K. I. (2006). Makine Öğrenimi için Gauss Süreçleri. MIT Basın. ISBN  0-262-18253-X.