Öğrenme eğrisi (makine öğrenimi) - Learning curve (machine learning)

Eğitim puanı ve çapraz doğrulama puanını gösteren öğrenme eğrisi

İçinde makine öğrenme, bir öğrenme eğrisi (veya eğitim eğrisi) araziler en uygun bir modelin değeri kayıp fonksiyonu bu kayıp fonksiyonuna karşı bir eğitim seti için bir doğrulama Optimal işlevi üreten aynı parametrelerle veri seti. Bir makine modelinin daha fazla eğitim verisi eklemekten ne kadar fayda sağladığını ve tahmin edicinin varyans hatası mı yoksa sapma hatası mı daha fazla olduğunu bulmak için bir araçtır. Hem doğrulama puanı hem de eğitim puanı, eğitim setinin boyutu arttıkça çok düşük bir değere yaklaşırsa, daha fazla eğitim verisinden çok fazla faydalanmayacaktır.^[1]

Makine öğrenme eğrisi, farklı algoritmaları karşılaştırmak da dahil olmak üzere birçok amaç için kullanışlıdır.^[2] tasarım sırasında model parametrelerinin seçilmesi,^[3] yakınsamayı iyileştirmek için optimizasyonu ayarlama ve eğitim için kullanılan veri miktarını belirleme.^[4]

Makine öğrenimi alanında, modelin deneyiminin öğrenme için kullanılan eğitim örneklerinin sayısı veya modelin eğitiminde kullanılan yineleme sayısı olarak grafiğe dökülmesiyle, eğrilerin x ekseninde farklılık gösteren öğrenme eğrilerinin iki sonucu vardır.^[5]

Resmi tanımlama

Makine öğreniminin bir modeli, bir işlevi, $f (x)$ , bazı bilgiler verilen, $x$ , bazı değişkenleri tahmin eder, $y$ , eğitim verilerinden ${ displaystyle X _ { text {tren}}}$ ve ${ displaystyle Y _ { text {tren}}}$ . Farklıdır matematiksel optimizasyon Çünkü ${ displaystyle f}$ iyi tahmin etmeli ${ displaystyle x}$ dışında ${ displaystyle X _ { text {tren}}}$ .

Genellikle olası işlevleri bir aile ile sınırlandırıyoruz ${ displaystyle {f _ { theta} (x): theta in Theta }}$ böylece işlev genelleştirilebilir^[6] ve böylece belirli özelliklerin doğru olması için, ya iyi bir ${ displaystyle f}$ daha kolay ya da bunların doğru olduğunu düşünmek için önsel bir nedenimiz olduğu için.^[6]^:172

Verilere mükemmel uyan bir işlevin üretilmesinin mümkün olmadığı göz önüne alındığında, bir kayıp işlevi üretmek gerekir. ${ displaystyle L (f _ { theta} (X), Y ')}$ tahminimizin ne kadar iyi olduğunu ölçmek için. Daha sonra bir optimizasyon süreci tanımlarız. ${ displaystyle theta}$ en aza indiren ${ displaystyle L (f _ { theta} (X _ { text {tren}}), Y _ { text {tren}})}$ olarak anılır ${ displaystyle theta ^ {*} (X, Y)}$ .

Veri miktarı için eğitim eğrisi

O zaman eğitim verilerimiz ${ displaystyle {x_ {1}, x_ {2}, noktalar, x_ {n} }, {y_ {1}, y_ {2}, noktalar y_ {n} }}$ ve doğrulama verilerimiz ${ displaystyle {x_ {1} ', x_ {2}', noktalar x_ {m} '}, {y_ {1}', y_ {2} ', noktalar y_ {m}' } }$ bir öğrenme eğrisi, iki eğrinin grafiğidir

${ displaystyle i mapsto L (f _ { theta ^ {*} (X_ {i}, Y_ {i})} (X_ {i}), Y_ {i})}$
${ displaystyle i mapsto L (f _ { theta ^ {*} (X_ {i}, Y_ {i})} (X_ {i} '), Y_ {i}')}$

nerede ${ displaystyle X_ {i} = {x_ {1}, x_ {2}, noktalar x_ {i} }}$

Çok sayıda yineleme için eğitim eğrisi

Birçok optimizasyon süreci yinelemelidir ve sürece kadar aynı adımı tekrar eder. yakınsak optimal bir değere. Dereceli alçalma böyle bir algoritmadır. Eğer tanımlarsan ${ displaystyle theta _ {i} ^ {*}}$ optimalin yaklaşımı olarak ${ displaystyle theta}$ sonra ${ displaystyle i}$ adımlar, bir öğrenme eğrisi,