Erken durma - Early stopping

İçinde makine öğrenme, erken durma bir biçimdir düzenleme kaçınmak için kullanılır aşırı uyum gösterme bir öğrenciyi yinelemeli bir yöntemle eğitirken, örneğin dereceli alçalma. Bu tür yöntemler, öğrenciyi her yinelemede eğitim verilerine daha iyi uyacak şekilde günceller. Bir noktaya kadar bu, öğrencinin eğitim seti dışındaki veriler üzerindeki performansını iyileştirir. Ancak bu noktayı geçtikten sonra, öğrencinin eğitim verilerine uyumunu iyileştirmek, artan genelleme hatası. Erken durdurma kuralları, öğrenci aşırı sığmaya başlamadan önce kaç tane yinelemenin çalıştırılabileceği konusunda rehberlik sağlar. Erken durdurma kuralları, değişen miktarlarda teorik temele sahip birçok farklı makine öğrenimi yönteminde kullanılmıştır.

Arka fon

Bu bölümde, erken durdurma yöntemlerinin bir açıklaması için gerekli olan bazı temel makine öğrenimi kavramları sunulmaktadır.

Aşırı uyum gösterme

Bu görüntü, makine öğreniminde aşırı uyum sorununu temsil ediyor. Kırmızı noktalar, eğitim seti verilerini temsil eder. Yeşil çizgi, gerçek işlevsel ilişkiyi temsil ederken, mavi çizgi aşırı uyuma kurban giden öğrenilmiş işlevi gösterir.

Makine öğrenme algoritmalar, sınırlı bir eğitim verileri kümesine dayalı bir model eğitir. Bu eğitim sırasında model, eğitim setinde yer alan gözlemleri ne kadar iyi tahmin ettiğine göre değerlendirilir. Bununla birlikte, genel olarak, bir makine öğrenimi şemasının amacı, genelleştiren, yani daha önce görülmemiş gözlemleri öngören bir model üretmektir. Aşırı uyum, bir model eğitim setindeki verilere iyi uyduğunda ve daha büyük boyutta olduğunda meydana gelir. genelleme hatası.

Düzenlilik

Düzenli hale getirme, makine öğrenimi bağlamında, aşırı uyumu önlemek için bir öğrenme algoritmasını değiştirme sürecini ifade eder. Bu genellikle öğrenilen modele bir tür pürüzsüzlük kısıtlaması getirmeyi içerir.^[1]Bu pürüzsüzlük, modeldeki parametrelerin sayısı sabitlenerek veya maliyet fonksiyonunu aşağıdaki gibi artırarak açıkça uygulanabilir. Tikhonov düzenlenmesi. Tikhonov düzenlileştirme ile birlikte temel bileşen regresyonu ve diğer pek çok düzenlileştirme şeması, spektral düzenlileştirme, bir filtrenin uygulanmasıyla karakterize edilen düzenlileştirme şemsiyesi altına girer. Erken durdurma da bu yöntem sınıfına aittir.

Gradyan iniş yöntemleri

Gradyan iniş yöntemleri birinci dereceden, yinelemeli, optimizasyon yöntemleridir. Her yineleme, amaç fonksiyonunun gradyanının negatifi yönünde bir adım atarak optimizasyon problemine yaklaşık bir çözüm günceller. Adım büyüklüğünü uygun şekilde seçerek, böyle bir yöntem, hedef fonksiyonun yerel bir minimumuna yakınsamak için yapılabilir. Gradyan inişi, makine öğreniminde bir kayıp fonksiyonu bu, öğrencinin eğitim setindeki hatasını yansıtır ve ardından bu işlevi en aza indirir.

Analitik sonuçlara göre erken durdurma

Erken durma istatistiksel öğrenme teorisi

Düzenlemek için erken durdurma kullanılabilir parametrik olmayan regresyon karşılaşılan sorunlar makine öğrenme. Belirli bir giriş alanı için, ${ displaystyle X}$ çıktı alanı ${ displaystyle Y}$ ve bilinmeyen bir olasılık ölçüsünden alınan numuneler, ${ displaystyle rho}$ , üzerinde ${ displaystyle Z = X times Y}$ , bu tür sorunların amacı bir regresyon fonksiyonu, ${ displaystyle f _ { rho}}$ , veren

{ displaystyle f _ { rho} (x) = int _ {Y} yd rho (y | x), x X içinde}

,

nerede ${ displaystyle rho (y | x)}$ koşullu dağılım ${ displaystyle x}$ neden oldu ${ displaystyle rho}$ .^[2]Regresyon fonksiyonuna yaklaşmak için yaygın bir seçenek, fonksiyonları bir çekirdek Hilbert uzayını yeniden üretmek.^[2] Bu alanlar, rastgele boyuttaki eğitim setlerine uyan çözümler sağlayabilecekleri sonsuz boyutlu olabilir. Düzenlilik, bu nedenle, bu yöntemler için özellikle önemlidir. Parametrik olmayan regresyon problemlerini düzenli hale getirmenin bir yolu, gradyan inişi gibi yinelemeli bir prosedüre erken bir durdurma kuralı uygulamaktır.

Bu problemler için önerilen erken durdurma kuralları, yineleme sayısının bir fonksiyonu olarak genelleme hatasına ilişkin üst sınırların analizine dayanmaktadır. Çözüm sürecine başlamadan önce hesaplanabilen çalıştırılacak yineleme sayısı için reçeteler verirler.^[3]^[4]

Örnek: En küçük kareler kaybı

(Yao, Rosasco ve Caponnetto'dan uyarlanmıştır, 2007^[3])

İzin Vermek ${ displaystyle X subseteq mathbb {R} ^ {n}}$ ve ${ displaystyle Y = mathbb {R}}$ . Bir dizi örnek verildiğinde

{ displaystyle mathbf {z} = sol {(x_ {i}, y_ {i}) X times Y'de: i = 1, noktalar, m sağ } Z ^ {m} }

,

bağımsız olarak çizilmiş ${ displaystyle rho}$ , işlevselliği en aza indirin

{ displaystyle { mathcal {E}} (f) = int _ {X times Y} sol (f (x) -y sağ) ^ {2} d rho}

nerede, ${ displaystyle f}$ yeniden üreten çekirdek Hilbert uzayının bir üyesidir ${ displaystyle { mathcal {H}}}$ . Diğer bir deyişle, En küçük kareler kaybı işlevi için beklenen riski en aza indirin. Dan beri ${ displaystyle { mathcal {E}}}$ bilinmeyen olasılık ölçüsüne bağlıdır ${ displaystyle rho}$ , hesaplama için kullanılamaz. Bunun yerine, aşağıdaki ampirik riski göz önünde bulundurun

{ displaystyle { mathcal {E}} _ { mathbf {z}} (f) = { frac {1} {m}} toplamı _ {i = 1} ^ {m} sol (f (x_ {i}) - y_ {i} sağ) ^ {2}.}

İzin Vermek ${ displaystyle f_ {t}}$ ve ${ displaystyle f_ {t} ^ { mathbf {z}}}$ ol t- sırasıyla beklenen ve ampirik risklere uygulanan gradyan iniş yinelemeleri, burada her iki yineleme de başlangıçta başlatılır ve her ikisi de adım boyutunu kullanır ${ displaystyle gamma _ {t}}$ . ${ displaystyle f_ {t}}$ Biçimlendirmek nüfus yinelemesiyakınsayan ${ displaystyle f _ { rho}}$ , ancak hesaplamada kullanılamaz. ${ displaystyle f_ {t} ^ { mathbf {z}}}$ Biçimlendirmek örnek yineleme bu genellikle aşırı uygun bir çözüme yaklaşır.

Örnek yinelemesinin beklenen riski ile minimum beklenen risk, yani regresyon işlevinin beklenen riski arasındaki farkı kontrol etmek istiyoruz:

{ displaystyle { mathcal {E}} (f_ {t} ^ { mathbf {z}}) - { mathcal {E}} (f _ { rho})}

Bu fark iki terimin toplamı olarak yeniden yazılabilir: örneklem ve popülasyon yinelemeleri arasındaki beklenen risk farkı ve popülasyon yinelemesi ile regresyon işlevi arasındaki fark:

{ displaystyle { mathcal {E}} (f_ {t} ^ { mathbf {z}}) - { mathcal {E}} (f _ { rho}) = sol [{ mathcal {E}} (f_ {t} ^ { mathbf {z}}) - { mathcal {E}} (f_ {t}) sağ] + left [{ mathcal {E}} (f_ {t}) - { mathcal {E}} (f _ { rho}) doğru]}

Bu denklem bir sapma-sapma ödünleşimi, daha sonra bilinmeyen olasılık dağılımına bağlı olabilecek optimal bir durdurma kuralı verecek şekilde çözülür. Bu kural, genelleme hatasıyla ilgili olasılıksal sınırlara sahiptir. Erken durdurma kuralı ve sınırlarına götüren analiz için okuyucu orijinal makaleye yönlendirilir.^[3] Uygulamada, veriye dayalı yöntemler, ör. Çapraz doğrulama, uyarlanabilir bir durdurma kuralı elde etmek için kullanılabilir.

Güçlendirmede erken durma

Artırma bir algoritma ailesini ifade eder. zayıf öğrenciler (gerçek süreçle yalnızca biraz ilişkili olan öğrenciler) bir güçlü öğrenci. Birkaç yükseltme algoritması için gösterilmiştir (dahil AdaBoost ), erken durdurma yoluyla düzenleme, aşağıdakilerin garantilerini sağlayabilir: tutarlılık yani, algoritmanın sonucu, örnek sayısı sonsuza giderken doğru çözüme yaklaşır.^[5]^[6]^[7]

L₂artırma

Güçlendirme yöntemleri, açıklanan gradyan iniş yöntemleriyle yakın bağlara sahiptir yukarıda dayalı bir destekleme yöntemi olarak kabul edilebilir. ${ displaystyle L_ {2}}$ kayıp: L₂Boost.^[3]

Doğrulamaya dayalı erken durdurma

Bu erken durdurma kuralları, orijinal eğitim setini yeni bir eğitim setine ve bir doğrulama seti. Doğrulama kümesindeki hata, genelleme hatası aşırı uydurmanın ne zaman başladığını belirlemede. Bu yöntemler en yaygın olarak eğitiminde kullanılır. nöral ağlar. Prechelt, saf bir uygulamasının aşağıdaki özetini verir: uzatma -bazlı erken durdurma aşağıdaki gibidir:^[8]

Eğitim verilerini bir eğitim setine ve bir doğrulama setine bölün, ör. 2'ye 1 oranında.
Yalnızca eğitim seti üzerinde çalışın ve ara sıra doğrulama setindeki örnek başına hatayı değerlendirin, örn. her beşinci çağdan sonra.
Doğrulama setindeki hata, en son kontrol edildiğinden daha yüksek olduğunda eğitimi durdurun.
Eğitim çalıştırmasının sonucu olarak ağın önceki adımda sahip olduğu ağırlıkları kullanın.
— Lutz Prechelt, Erken Durma - Ama Ne Zaman?

Daha karmaşık formlar kullanır çapraz doğrulama - tek bir bölüm yerine bir eğitim seti ve doğrulama seti yerine verilerin eğitim seti ve doğrulama setine birden çok bölümü. Bu basit prosedür bile, doğrulama hatasının eğitim sırasında dalgalanması ve birden fazla yerel minimuma neden olması nedeniyle pratikte karmaşıktır. Bu karmaşıklık, aşırı uydurmanın gerçekten ne zaman başladığına karar vermek için birçok geçici kuralın oluşturulmasına yol açtı.^[8]

Ayrıca bakınız

Aşırı uyum gösterme erken durdurma, aşırı oturmayı önlemek için kullanılan yöntemlerden biridir
Genelleme hatası
Düzenlenme (matematik)
İstatistiksel öğrenme teorisi
Güçlendirme (makine öğrenimi)
Çapraz doğrulama özellikle bir "doğrulama kümesi" kullanarak
Nöral ağlar

Referanslar

^ Girosi, Federico; Michael Jones; Tomaso Poggio (1995-03-01). "Düzenlilik Teorisi ve Sinir Ağları Mimarileri". Sinirsel Hesaplama. 7 (2): 219–269. CiteSeerX 10.1.1.48.9258. doi:10.1162 / neco.1995.7.2.219. ISSN 0899-7667.
^ ^a ^b Smale, Steve; Ding-Xuan Zhou (2007-08-01). "İntegral Operatörlerle Öğrenme Teorisi Tahminleri ve Yaklaşımları". Yapıcı Yaklaşım. 26 (2): 153–172. CiteSeerX 10.1.1.210.722. doi:10.1007 / s00365-006-0659-y. ISSN 0176-4276.
^ ^a ^b ^c ^d Yao, Yuan; Lorenzo Rosasco; Andrea Caponnetto (2007-08-01). "Gradyan İniş Öğrenmede Erken Durdurma Üzerine". Yapıcı Yaklaşım. 26 (2): 289–315. CiteSeerX 10.1.1.329.2482. doi:10.1007 / s00365-006-0663-2. ISSN 0176-4276.
^ Raskutti, G .; M.J. Wainwright; Bin Yu (2011). "Parametrik olmayan regresyon için erken durdurma: Optimum veriye bağlı durdurma kuralı". 2011 49. Yıllık Allerton İletişim, Kontrol ve Hesaplama Konferansı (Allerton). 2011 49. İletişim, Kontrol ve Hesaplama üzerine Allerton Konferansı (Allerton). sayfa 1318–1325. doi:10.1109 / Allerton.2011.6120320.
^ Wenxin Jiang (Şubat 2004). "AdaBoost için süreç tutarlılığı". İstatistik Yıllıkları. 32 (1): 13–29. doi:10.1214 / aos / 1079120128. ISSN 0090-5364.
^ Bühlmann, Peter; Bin Yu (2003-06-01). "Kayıpla Artma: Gerileme ve Sınıflandırma". Amerikan İstatistik Derneği Dergisi. 98 (462): 324–339. doi:10.1198/016214503000125. ISSN 0162-1459. JSTOR 30045243.
^ Tong Zhang; Bin Yu (2005-08-01). "Erken Durdurma ile Güçlendirme: Yakınsama ve Tutarlılık". İstatistik Yıllıkları. 33 (4): 1538–1579. arXiv:matematik / 0508276. Bibcode:2005math ...... 8276Z. doi:10.1214/009053605000000255. ISSN 0090-5364. JSTOR 3448617.
^ ^a ^b Prechelt, Lutz; Geneviève B. Orr (2012-01-01). "Erken Durmak - Ama Ne Zaman?". Grégoire Montavon'da; Klaus-Robert Müller (eds.). Sinir Ağları: Ticaretin Püf Noktaları. Bilgisayar Bilimlerinde Ders Notları. Springer Berlin Heidelberg. pp.53 –67. doi:10.1007/978-3-642-35289-8_5. ISBN 978-3-642-35289-8.

[1] Girosi, Federico; Michael Jones; Tomaso Poggio (1995-03-01). "Düzenlilik Teorisi ve Sinir Ağları Mimarileri". Sinirsel Hesaplama. 7 (2): 219–269. CiteSeerX 10.1.1.48.9258. doi:10.1162 / neco.1995.7.2.219. ISSN 0899-7667.

[smale_learning_2007-2] Smale, Steve; Ding-Xuan Zhou (2007-08-01). "İntegral Operatörlerle Öğrenme Teorisi Tahminleri ve Yaklaşımları". Yapıcı Yaklaşım. 26 (2): 153–172. CiteSeerX 10.1.1.210.722. doi:10.1007 / s00365-006-0659-y. ISSN 0176-4276.

[yao_early_2007-3] Yao, Yuan; Lorenzo Rosasco; Andrea Caponnetto (2007-08-01). "Gradyan İniş Öğrenmede Erken Durdurma Üzerine". Yapıcı Yaklaşım. 26 (2): 289–315. CiteSeerX 10.1.1.329.2482. doi:10.1007 / s00365-006-0663-2. ISSN 0176-4276.

[raskutti_early_2011-4] Raskutti, G .; M.J. Wainwright; Bin Yu (2011). "Parametrik olmayan regresyon için erken durdurma: Optimum veriye bağlı durdurma kuralı". 2011 49. Yıllık Allerton İletişim, Kontrol ve Hesaplama Konferansı (Allerton). 2011 49. İletişim, Kontrol ve Hesaplama üzerine Allerton Konferansı (Allerton). sayfa 1318–1325. doi:10.1109 / Allerton.2011.6120320.

[5] Wenxin Jiang (Şubat 2004). "AdaBoost için süreç tutarlılığı". İstatistik Yıllıkları. 32 (1): 13–29. doi:10.1214 / aos / 1079120128. ISSN 0090-5364.

[6] Bühlmann, Peter; Bin Yu (2003-06-01). "Kayıpla Artma: Gerileme ve Sınıflandırma". Amerikan İstatistik Derneği Dergisi. 98 (462): 324–339. doi:10.1198/016214503000125. ISSN 0162-1459. JSTOR 30045243.

[7] Tong Zhang; Bin Yu (2005-08-01). "Erken Durdurma ile Güçlendirme: Yakınsama ve Tutarlılık". İstatistik Yıllıkları. 33 (4): 1538–1579. arXiv:matematik / 0508276. Bibcode:2005math ...... 8276Z. doi:10.1214/009053605000000255. ISSN 0090-5364. JSTOR 3448617.

[prechelt_early_2012-8] Prechelt, Lutz; Geneviève B. Orr (2012-01-01). "Erken Durmak - Ama Ne Zaman?". Grégoire Montavon'da; Klaus-Robert Müller (eds.). Sinir Ağları: Ticaretin Püf Noktaları. Bilgisayar Bilimlerinde Ders Notları. Springer Berlin Heidelberg. pp.53 –67. doi:10.1007/978-3-642-35289-8_5. ISBN 978-3-642-35289-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]