Geri yayılım - Backpropagation

İçinde makine öğrenme, geri yayılım (arka plan,^[1] BP) yaygın olarak kullanılan bir algoritma eğitim için ileri beslemeli sinir ağları. Geri yayılımın genellemeleri, diğerleri için mevcuttur. yapay sinir ağları (YSA'lar) ve genel işlevler için. Bu algoritma sınıflarının tümü genel olarak "geri yayılım" olarak adlandırılır.^[2] İçinde sinir ağı uydurma, geri yayılım, gradyan of kayıp fonksiyonu saygıyla ağırlıklar tek bir giriş-çıkış örneği için ağın verimli, her bir ağırlığa göre ayrı ayrı gradyanın saf bir doğrudan hesaplamasından farklı olarak. Bu verimlilik, kullanımını mümkün kılar gradyan yöntemleri çok katmanlı ağları eğitmek için, kayıpları en aza indirmek için ağırlıkları güncellemek; dereceli alçalma veya gibi varyantlar stokastik gradyan inişi, yaygın olarak kullanılmaktadır. Geri yayılım algoritması, her bir ağırlığa göre kayıp fonksiyonunun gradyanını hesaplayarak çalışır. zincir kuralı, her seferinde bir katman degradeyi hesaplamak, yinelenen zincir kuralında ara terimlerin gereksiz hesaplamalarından kaçınmak için son katmandan geriye doğru; bu bir örnek dinamik program.^[3]

Dönem geri yayılım kesinlikle gradyanın nasıl kullanıldığını değil, sadece gradyan hesaplama algoritmasına atıfta bulunur; ancak terim, stokastik gradyan inişi gibi gradyanın nasıl kullanıldığı da dahil olmak üzere genellikle tüm öğrenme algoritmasına atıfta bulunmak için gevşek bir şekilde kullanılır.^[4] Geri yayılım, gradyan hesaplamasını genelleştirir. delta kuralı geri yayılmanın tek katmanlı versiyonu olan ve buna karşılık olarak genelleştirilen otomatik farklılaşma, geri yayılımın özel bir durum olduğu ters birikim (veya "ters mod").^[5] Dönem geri yayılım ve sinir ağlarındaki genel kullanımı Rumelhart, Hinton ve Williams (1986a), sonra detaylandırıldı ve popüler hale geldi Rumelhart, Hinton ve Williams (1986b), ancak teknik bağımsız olarak birçok kez yeniden keşfedildi ve 1960'lara dayanan birçok öncülü vardı; görmek § Tarih.^[6] Modern bir genel bakış, derin öğrenme ders kitabı Goodfellow, Bengio ve Courville (2016).^[7]

Genel Bakış

Geri yayılım, gradyan içinde ağırlık alanı ileri beslemeli bir sinir ağının kayıp fonksiyonu. Şunu belirtin:

${ displaystyle x}$ : girdi (özelliklerin vektörü)
${ displaystyle y}$ : hedef çıktı
Sınıflandırma için çıktı, sınıf olasılıklarının bir vektörü olacaktır (ör. ${ displaystyle (0,1,0,7,0,2)}$ ve hedef çıktı, tarafından kodlanan belirli bir sınıftır. tek sıcak /geçici değişken (Örneğin., ${ displaystyle (0,1,0)}$ ).
${ displaystyle C}$ : kayıp fonksiyonu veya "maliyet işlevi"^[a]
Sınıflandırma için bu genellikle çapraz entropi (XC, günlük kaybı ), regresyon için ise genellikle kare hata kaybı (SEL).
${ displaystyle L}$ : katman sayısı
${ displaystyle W ^ {l} = (w_ {jk} ^ {l})}$ : katman arasındaki ağırlıklar ${ displaystyle l-1}$ ve ${ displaystyle l}$ , nerede ${ displaystyle w_ {jk} ^ {l}}$ arasındaki ağırlık ${ displaystyle k}$ katmandaki -th düğüm ${ displaystyle l-1}$ ve ${ displaystyle j}$ katmandaki -th düğüm ${ displaystyle l}$ ^[b]
${ displaystyle f ^ {l}}$ : aktivasyon fonksiyonları katmanda ${ displaystyle l}$
Sınıflandırma için son katman genellikle lojistik fonksiyon ikili sınıflandırma için ve softmax (softargmax) çok sınıflı sınıflandırma için iken, gizli katmanlar için bu geleneksel olarak bir sigmoid işlevi (lojistik fonksiyon veya diğerleri) her düğümde (koordinat), ancak bugün daha çeşitlidir, doğrultucu (rampa, ReLU ) yaygın olmak.

Geri yayılımın türetilmesinde, diğer ara miktarlar kullanılır; aşağıda gerektiği gibi tanıtılmıştır. Sapma terimleri, sabit girdisi 1 olan bir ağırlığa karşılık geldiklerinden özel olarak ele alınmazlar. Geri yayılım amacıyla, spesifik kayıp fonksiyonu ve aktivasyon fonksiyonları, kendileri ve türevleri verimli bir şekilde değerlendirilebildiği sürece önemli değildir.

Genel ağ, aşağıdakilerin bir kombinasyonudur: işlev bileşimi ve matris çarpımı:

{ displaystyle g (x): = f ^ {L} (W ^ {L} f ^ {L-1} (W ^ {L-1} cdots f ^ {1} (W ^ {1} x) cdots))}

Bir eğitim seti için bir dizi giriş-çıkış çifti olacaktır, ${ displaystyle sol {(x_ {i}, y_ {i}) sağ }}$ . Her bir giriş-çıkış çifti için ${ displaystyle (x_ {i}, y_ {i})}$ eğitim setinde, bu çift üzerindeki modelin kaybı, tahmin edilen çıktı arasındaki farkın maliyetidir. ${ displaystyle g (x_ {i})}$ ve hedef çıktı ${ displaystyle y_ {i}}$ :

{ displaystyle C (y_ {i}, g (x_ {i}))}

Ayrıma dikkat edin: Model değerlendirmesi sırasında, girişler değişirken ağırlıklar sabittir (ve hedef çıktı bilinmeyebilir) ve ağ çıktı katmanı ile biter (kayıp işlevini içermez). Model eğitimi sırasında, giriş-çıkış çifti sabitlenir, ağırlıklar değişir ve ağ kayıp fonksiyonu ile sona erer.

Geri yayılım, bir sabit giriş-çıkış çifti ${ displaystyle (x_ {i}, y_ {i})}$ , ağırlıklar nerede ${ displaystyle w_ {jk} ^ {l}}$ çeşitlenebilir. Degradenin her bir bileşeni, ${ displaystyle kısmi C / kısmi w_ {jk} ^ {l},}$ zincir kuralı ile hesaplanabilir; ancak bunu her ağırlık için ayrı yapmak verimsizdir. Geri yayılım, her katmanın gradyanını, özellikle de ağırlıklı olanın gradyanını hesaplayarak, çift hesaplamalardan kaçınarak ve gereksiz ara değerleri hesaplamayarak gradyanı verimli bir şekilde hesaplar. giriş her katmanın ${ displaystyle delta ^ {l}}$ - arkadan öne.

Gayriresmi olarak, kilit nokta, bir kilo vermenin tek yoludur. ${ displaystyle W ^ {l}}$ zararı etkiler üzerindeki etkisi Sonraki katman ve öyle yapar doğrusal olarak, ${ displaystyle delta ^ {l}}$ Katmandaki ağırlıkların gradyanlarını hesaplamak için ihtiyacınız olan tek veri ${ displaystyle l}$ ve sonra önceki katmanı hesaplayabilirsiniz ${ displaystyle delta ^ {l-1}}$ ve yinelemeli olarak tekrarlayın. Bu, verimsizliği iki şekilde önler. Birincisi, katmandaki gradyanı hesaplarken çoğaltmayı önler ${ displaystyle l}$ , tüm türevleri sonraki katmanlarda yeniden hesaplamanıza gerek yoktur ${ displaystyle l + 1, l + 2, ldots}$ her seferinde. İkincisi, gereksiz ara hesaplamalardan kaçınır çünkü her aşamada, ağırlık değişimlerine göre gizli katmanların değerlerinin türevlerini gereksiz yere hesaplamak yerine, nihai çıktıya (kayıp) göre ağırlıkların gradyanını doğrudan hesaplar. ${ displaystyle kısmi a_ {j '} ^ {l'} / kısmi w_ {jk} ^ {l}}$ .

Geri yayılım, basit ileri beslemeli ağlar için şu şekilde ifade edilebilir: matris çarpımı veya daha genel olarak ek grafik.

Matris çarpımı

Her katmandaki düğümlerin yalnızca hemen sonraki katmandaki düğümlere bağlandığı (herhangi bir katmanı atlamadan) ve son çıktı için bir skaler kaybı hesaplayan bir kayıp işlevinin olduğu, ileri beslemeli bir ağın temel durumu için geri yayılım yapılabilir. basitçe matris çarpımı ile anlaşılır.^[c] Esas olarak, geri yayılım, maliyet fonksiyonunun türevi için ifadeyi her katman arasındaki türevlerin bir ürünü olarak değerlendirir. soldan sağa - "geriye doğru" - her katman arasındaki ağırlıkların gradyanı, kısmi ürünlerin basit bir modifikasyonudur ("geriye doğru yayılan hata").

Bir giriş-çıkış çifti verildiğinde ${ displaystyle (x, y)}$ , kayıp:

{ displaystyle C (y, f ^ {L} (W ^ {L} f ^ {L-1} (W ^ {L-1} cdots f ^ {2} (W ^ {2} f ^ {1 } (W ^ {1} x)) cdots)))}

Bunu hesaplamak için girişle başlar ${ displaystyle x}$ ve ileriye dönük çalışır; her katmanın ağırlıklı girdisini şu şekilde ifade edin: ${ displaystyle z ^ {l}}$ ve katmanın çıktısı ${ displaystyle l}$ aktivasyon olarak ${ displaystyle a ^ {l}}$ . Geri yayılım için aktivasyon ${ displaystyle a ^ {l}}$ yanı sıra türevler ${ displaystyle (f ^ {l}) '}$ (değerlendirildi ${ displaystyle z ^ {l}}$ ) geriye doğru geçiş sırasında kullanım için önbelleğe alınmalıdır.

Girdilere göre kaybın türevi zincir kuralı ile verilir; her terimin bir toplam türev, girişteki ağın değerinde (her düğümde) değerlendirilir ${ displaystyle x}$ :

{ displaystyle { frac {dC} {da ^ {L}}} cdot { frac {da ^ {L}} {dz ^ {L}}} cdot { frac {dz ^ {L}} { da ^ {L-1}}} cdot { frac {da ^ {L-1}} {dz ^ {L-1}}} cdot { frac {dz ^ {L-1}} {da ^ {L-2}}} cdots { frac {da ^ {1}} {dz ^ {1}}} cdot { frac { kısmi z ^ {1}} { kısmi x}}.}

Bu terimler şunlardır: kayıp fonksiyonunun türevi;^[d] aktivasyon fonksiyonlarının türevleri;^[e] ve ağırlıkların matrisleri:^[f]

{ displaystyle { frac {dC} {da ^ {L}}} cdot (f ^ {L}) ' cdot W ^ {L} cdot (f ^ {L-1})' cdot W ^ {L-1} cdots (f ^ {1}) ' cdot W ^ {1}.}

Gradyan ${ displaystyle nabla}$ ... değiştirmek Çıktının türevinin girdiye göre, dolayısıyla matrislerin yeri değiştirilir ve çarpma sırası tersine çevrilir, ancak girdiler aynıdır:

{ displaystyle nabla _ {x} C = (W ^ {1}) ^ {T} cdot (f ^ {1}) ' cdots cdot (W ^ {L-1}) ^ {T} cdot (f ^ {L-1}) ' cdot (W ^ {L}) ^ {T} cdot (f ^ {L})' cdot nabla _ {a ^ {L}} C.}

Geri yayılım daha sonra esasen bu ifadeyi sağdan sola değerlendirmekten (eşdeğer olarak, türev için önceki ifadeyi soldan sağa doğru çarparak), yol üzerindeki her katmandaki gradyanı hesaplamaktan oluşur; ek bir adım vardır, çünkü ağırlıkların gradyanı sadece bir alt ifade değildir: fazladan bir çarpma vardır.

Yardımcı miktarın tanıtılması ${ displaystyle delta ^ {l}}$ kısmi ürünler için (sağdan sola çarparak), "düzeydeki hata" olarak yorumlanır ${ displaystyle l}$ "ve düzeydeki girdi değerlerinin eğimi olarak tanımlanır ${ displaystyle l}$ :

{ displaystyle delta ^ {l}: = (f ^ {l}) ' cdot (W ^ {l + 1}) ^ {T} cdots cdot (W ^ {L-1}) ^ {T } cdot (f ^ {L-1}) ' cdot (W ^ {L}) ^ {T} cdot (f ^ {L})' cdot nabla _ {a ^ {L}} C. }

Bunu not et ${ displaystyle delta ^ {l}}$ düzeydeki düğüm sayısına eşit uzunlukta bir vektördür ${ displaystyle l}$ ; her bir terim, "o düğüme (değeri) atfedilebilen maliyet" olarak yorumlanır.

Katmandaki ağırlıkların gradyanı ${ displaystyle l}$ o zaman:

{ displaystyle nabla _ {W ^ {l}} C = delta ^ {l} (a ^ {l-1}) ^ {T}.}

Faktörü ${ displaystyle a ^ {l-1}}$ çünkü ağırlıklar ${ displaystyle W ^ {l}}$ seviye arası ${ displaystyle l-1}$ ve ${ displaystyle l}$ etki seviyesi ${ displaystyle l}$ girişlerle orantılı olarak (etkinleştirmeler): girişler sabittir, ağırlıklar değişir.

${ displaystyle delta ^ {l}}$ aşağıdaki gibi yinelemeli olarak kolayca hesaplanabilir:

{ displaystyle delta ^ {l-1}: = (f ^ {l-1}) ' cdot (W ^ {l}) ^ {T} cdot delta ^ {l}.}

Böylece ağırlıkların gradyanları, her seviye için birkaç matris çarpımı kullanılarak hesaplanabilir; bu geri yayılımdır.

Saf bir şekilde ileriye dönük bilgi işlemle karşılaştırıldığında ( ${ displaystyle delta ^ {l}}$ örnek için):

{ displaystyle { başlar {hizalı} delta ^ {1} & = (f ^ {1}) ' cdot (W ^ {2}) ^ {T} cdot (f ^ {2})' cdots cdot (W ^ {L-1}) ^ {T} cdot (f ^ {L-1}) ' cdot (W ^ {L}) ^ {T} cdot (f ^ {L})' cdot nabla _ {a ^ {L}} C delta ^ {2} & = (f ^ {2}) ' cdots cdot (W ^ {L-1}) ^ {T} cdot (f ^ {L-1}) ' cdot (W ^ {L}) ^ {T} cdot (f ^ {L})' cdot nabla _ {a ^ {L}} C & vdots delta ^ {L-1} & = (f ^ {L-1}) ' cdot (W ^ {L}) ^ {T} cdot (f ^ {L})' cdot nabla _ {a ^ {L}} C delta ^ {L} & = (f ^ {L}) ' cdot nabla _ {a ^ {L}} C, end {hizalı}}}

geri yayılımla ilgili iki temel fark vardır:

Bilgi işlem ${ displaystyle delta ^ {l-1}}$ açısından ${ displaystyle delta ^ {l}}$ Katmanların bariz yinelenen çoğalmasını önler ${ displaystyle l}$ ve ötesinde.
Şundan başlayarak çarpma ${ displaystyle nabla _ {a ^ {L}} C}$ - hatayı yaymak geriye doğru - her adımın basitçe bir vektörü çarptığı anlamına gelir ( ${ displaystyle delta ^ {l}}$ ) ağırlık matrislerine göre ${ displaystyle (W ^ {l}) ^ {T}}$ ve aktivasyon türevleri ${ displaystyle (f ^ {l-1}) '}$ . Buna karşılık, daha önceki bir katmandaki değişikliklerden başlayarak ileriye doğru çarpmak, her çarpmanın bir matris tarafından matris. Bu çok daha pahalıdır ve tek bir katmandaki bir değişikliğin olası her yolunu izlemeye karşılık gelir ${ displaystyle l}$ katmandaki değişikliklere ilet ${ displaystyle l + 2}$ (çarpmak için ${ displaystyle W ^ {l + 1}}$ tarafından ${ displaystyle W ^ {l + 2}}$ , ağırlık değişimlerinin gizli düğümlerin değerlerini nasıl etkilediğinin ara miktarlarını gereksiz yere hesaplayan, aktivasyonların türevleri için ek çarpımlarla).

Bitişik grafik

Daha genel grafikler ve diğer gelişmiş varyasyonlar için, geri yayılım şu şekilde anlaşılabilir: otomatik farklılaşma, geri yayılımın özel bir durum olduğu ters birikim (veya "ters mod").^[5]

Sezgi

Motivasyon

Herhangi birinin hedefi denetimli öğrenme algoritması, bir dizi girdiyi doğru çıktılarına en iyi şekilde eşleyen bir işlev bulmaktır. Geri yayılımın motivasyonu, çok katmanlı bir sinir ağını, girdinin çıktıya herhangi bir keyfi eşlemesini öğrenmesine izin verecek uygun iç gösterimleri öğrenebilecek şekilde eğitmektir.^[8]

Optimizasyon problemi olarak öğrenme

Geri yayılım algoritmasının matematiksel olarak türetilmesini anlamak için, öncelikle bir nöronun gerçek çıkışı ile belirli bir eğitim örneği için doğru çıktı arasındaki ilişki hakkında bir sezginin geliştirilmesine yardımcı olur. İki giriş birimi olan, bir çıkış birimi olan ve hiçbir gizli birimi olmayan ve her nöronun bir doğrusal çıktı (girdilerden çıktılara eşlemenin doğrusal olmadığı sinir ağları üzerindeki çoğu çalışmanın aksine)^[g] bu, girdisinin ağırlıklı toplamıdır.

İki giriş ünitesi (her biri tek girişli) ve bir çıkış ünitesi (iki girişli) içeren basit bir sinir ağı

Başlangıçta, antrenmandan önce ağırlıklar rastgele ayarlanacaktır. Sonra nöron, eğitim örnekleri, bu durumda bir dizi demetler ${ displaystyle (x_ {1}, x_ {2}, t)}$ nerede ${ displaystyle x_ {1}}$ ve ${ displaystyle x_ {2}}$ ağın girdileridir ve $t$ doğru çıktıdır (ağın eğitildiğinde bu girdilere göre üretmesi gereken çıktı). Verilen ilk ağ ${ displaystyle x_ {1}}$ ve ${ displaystyle x_ {2}}$ , bir çıktı hesaplayacak $y$ muhtemelen farklıdır $t$ (rastgele ağırlıklar verildiğinde). Bir kayıp fonksiyonu ${ displaystyle L (t, y)}$ hedef çıktı arasındaki tutarsızlığı ölçmek için kullanılır $t$ ve hesaplanan çıktı $y$ . İçin regresyon analizi sorunlar karesi alınan hatanın kayıp fonksiyonu olarak kullanılabilir, çünkü sınıflandırma kategorik çaprazentropi kullanılabilir.

Örnek olarak kare hatasını kayıp olarak kullanan bir regresyon problemini düşünün:

{ displaystyle L (t, y) = (t-y) ^ {2} = E,}

nerede $E$ tutarsızlık veya hatadır.

Ağı tek bir eğitim vakasında düşünün: ${ displaystyle (1,1,0)}$ . Böylece girdi ${ displaystyle x_ {1}}$ ve ${ displaystyle x_ {2}}$ sırasıyla 1 ve 1'dir ve doğru çıktı, $t$ Şimdi 0, eğer ağın çıkışı arasındaki ilişki çizilirse $y$ yatay eksende ve hata $E$ dikey eksende sonuç bir paraboldür. minimum of parabol çıktıya karşılık gelir $y$ hatayı en aza indiren $E$ . Tek bir eğitim vakası için minimum, yatay eksene de temas eder, bu da hatanın sıfır olacağı ve ağın bir çıktı üretebileceği anlamına gelir. $y$ hedef çıktıyla tam olarak eşleşen $t$ . Bu nedenle, girdilerin çıktılarla eşleştirilmesi sorunu bir optimizasyon sorunu minimum hata üretecek bir işlev bulma.

Tek bir eğitim vakası için doğrusal bir nöronun hata yüzeyi

Bununla birlikte, bir nöronun çıktısı, tüm girdilerinin ağırlıklı toplamına bağlıdır:

{ displaystyle y = x_ {1} w_ {1} + x_ {2} w_ {2},}

nerede ${ displaystyle w_ {1}}$ ve ${ displaystyle w_ {2}}$ giriş ünitelerinden çıkış ünitesine olan bağlantıdaki ağırlıklardır. Bu nedenle, hata aynı zamanda nörona gelen ağırlıklara da bağlıdır, bu da nihayetinde öğrenmeyi sağlamak için ağda değiştirilmesi gereken şeydir. Her ağırlık ayrı bir yatay eksende çizilirse ve dikey eksende hata varsa, sonuç bir parabolik çanak. Bir nöron için $k$ ağırlıklar, aynı arsa bir eliptik paraboloit nın-nin ${ displaystyle k + 1}$ boyutları.

İki giriş ağırlığına sahip doğrusal bir nöronun hata yüzeyi

Hatayı en aza indiren ağırlık kümesini bulmak için yaygın olarak kullanılan bir algoritma dereceli alçalma. Daha sonra, en dik iniş yönünü verimli bir şekilde hesaplamak için geri yayılım kullanılır.

Türetme

Gradyan iniş yöntemi, ağın ağırlıklarına göre kayıp fonksiyonunun türevinin hesaplanmasını içerir. Bu normalde geri yayılım kullanılarak yapılır. Bir çıkış nöronu varsayarsak,^[h] kare hata işlevi

{ displaystyle E = L (t, y)}

nerede

{ displaystyle E}

çıktı için kayıp

{ displaystyle y}

ve hedef değer

{ displaystyle t}

,

{ displaystyle t}

bir eğitim örneği için hedef çıktıdır ve

{ displaystyle y}

çıktı nöronun gerçek çıktısıdır.

Her nöron için ${ displaystyle j}$ , çıktısı ${ displaystyle o_ {j}}$ olarak tanımlanır

{ displaystyle o_ {j} = varphi ({ text {net}} _ {j}) = varphi left ( toplamı _ {k = 1} ^ {n} w_ {kj} o_ {k} sağ),}

nerede aktivasyon fonksiyonu ${ displaystyle varphi}$ dır-dir doğrusal olmayan ve ayırt edilebilir (ReLU bir noktada olmasa bile). Tarihsel olarak kullanılan bir aktivasyon işlevi, lojistik fonksiyon:

{ displaystyle varphi (z) = { frac {1} {1 + e ^ {- z}}}}

uygun bir türevi olan:

{ displaystyle { frac {d varphi (z)} {dz}} = varphi (z) (1- varphi (z))}

Girdi ${ displaystyle { text {net}} _ {j}}$ bir nörona, çıktıların ağırlıklı toplamı ${ displaystyle o_ {k}}$ önceki nöronların. Nöron, giriş katmanından sonraki ilk katmandaysa, ${ displaystyle o_ {k}}$ giriş katmanının yalnızca girdiler ${ displaystyle x_ {k}}$ ağa. Nörona giriş birimlerinin sayısı ${ displaystyle n}$ . Değişken ${ displaystyle w_ {kj}}$ nöron arasındaki ağırlığı gösterir ${ displaystyle k}$ önceki katmanın ve nöronun ${ displaystyle j}$ mevcut katmanın.

Hatanın türevini bulmak

Burada kullanılan gösterimi göstermek için yapay bir sinir ağının diyagramı.

Hesaplanıyor kısmi türev bir ağırlığa göre hatanın ${ displaystyle w_ {ij}}$ kullanılarak yapılır zincir kuralı iki defa:

{ displaystyle { frac { kısmi E} { kısmi w_ {ij}}} = { frac { kısmi E} { kısmi o_ {j}}} { frac { kısmi o_ {j}} { kısmi w_ {ij}}} = { frac { kısmi E} { kısmi o_ {j}}} { frac { kısmi o_ {j}} { kısmi { text {net}} _ {j }}} { frac { bölümlü { text {net}} _ {j}} { kısmi w_ {ij}}}}

(Eq. 1)

Yukarıdakinin sağ tarafının son faktöründe, toplamda sadece bir terim ${ displaystyle { text {net}} _ {j}}$ bağlıdır ${ displaystyle w_ {ij}}$ , Böylece

{ displaystyle { frac { kısmi { text {net}} _ {j}} { kısmi w_ {ij}}} = { frac { kısmi} { kısmi w_ {ij}}} sol ( toplam _ {k = 1} ^ {n} w_ {kj} o_ {k} sağ) = { frac { kısmi} { kısmi w_ {ij}}} w_ {ij} o_ {i} = o_ {ben}.}

(Eq. 2)

Nöron giriş katmanından sonraki ilk katmandaysa, ${ displaystyle o_ {i}}$ sadece ${ displaystyle x_ {i}}$ .

Nöron çıktısının türevi ${ displaystyle j}$ girdisine göre, basitçe aktivasyon fonksiyonunun kısmi türevidir:

{ displaystyle { frac { kısmi o_ {j}} { kısmi { metin {net}} _ {j}}} = { frac { kısmi varphi ({ text {net}} _ {j })} { kısmi { text {net}} _ {j}}}}

(Eq. 3)

hangisi için lojistik aktivasyon fonksiyonu durum:

{ displaystyle { frac { kısmi o_ {j}} { kısmi { metin {net}} _ {j}}} = { frac { kısmi} { bölümlü { metin {net}} _ { j}}} varphi ({ text {net}} _ {j}) = varphi ({ text {net}} _ {j}) (1- varphi ({ text {net}} _ { j})) = o_ {j} (1-o_ {j})}

Geri yayının etkinleştirme işlevinin olmasını gerektirmesinin nedeni budur. ayırt edilebilir. (Bununla birlikte, ReLU 0'da türevlenemeyen aktivasyon işlevi oldukça popüler hale geldi, ör. içinde AlexNet )

İlk faktör, nöronun çıktı katmanında olup olmadığını değerlendirmek için basittir, çünkü o zaman ${ displaystyle o_ {j} = y}$ ve

{ displaystyle { frac { kısmi E} { kısmi o_ {j}}} = { frac { kısmi E} { kısmi y}}}

(Eq. 4)

Kare hatasının yarısı kayıp fonksiyonu olarak kullanılırsa, onu şu şekilde yeniden yazabiliriz:

{ displaystyle { frac { kısmi E} { kısmi o_ {j}}} = { frac { kısmi E} { kısmi y}} = { frac { kısmi} { kısmi y}} { frac {1} {2}} (ty) ^ {2} = yt}

Ancak, eğer ${ displaystyle j}$ ağın keyfi bir iç katmanında, türevi buluyor ${ displaystyle E}$ göre ${ displaystyle o_ {j}}$ daha az belirgindir.

Düşünen ${ displaystyle E}$ girdilerin tüm nöronlar olduğu bir işlev olarak ${ displaystyle L = {u, v, noktalar, w }}$ nörondan girdi almak ${ displaystyle j}$ ,

{ displaystyle { frac { kısmi E (o_ {j})} { kısmi o_ {j}}} = { frac { kısmi E ( mathrm {net} _ {u}, { text {net }} _ {v}, dots, mathrm {net} _ {w})} { kısmi o_ {j}}}}

ve almak toplam türev göre ${ displaystyle o_ {j}}$ türev için yinelemeli bir ifade elde edilir:

{ displaystyle { frac { kısmi E} { kısmi o_ {j}}} = toplam _ { ell L} solda ({ frac { kısmi E} { kısmi { text {net) }} _ { ell}}} { frac { partial { text {net}} _ { ell}} { kısmi o_ {j}}} right) = sum _ { ell L cinsinden } left ({ frac { kısmi E} { kısmi o _ { ell}}} { frac { kısmi o _ { ell}} { bölümlü { text {net}} _ { ell}} } { frac { kısmi { text {net}} _ { ell}} { kısmi o_ {j}}} sağ) = toplam _ { ell in L} left ({ frac { kısmi E} { kısmi o _ { ell}}} { frac { kısmi o _ { ell}} { kısmi { text {net}} _ { ell}}} w_ {j ell} sağ)}

(Eq. 5)

Bu nedenle, göre türev ${ displaystyle o_ {j}}$ çıktılara göre tüm türevler hesaplanabilir ${ displaystyle o _ { ell}}$ sonraki katmanın - çıkış nöronuna daha yakın olanlar - biliniyor. [Setteki nöronlardan herhangi biri ${ displaystyle L}$ nörona bağlı değildi ${ displaystyle j}$ bağımsız olacaklardı ${ displaystyle w_ {ij}}$ ve toplamın altındaki karşılık gelen kısmi türev 0'a kaybolur.]

İkame Eq. 2, Eq. 3 Denklem.4 ve Eq. 5 içinde Eq. 1 elde ederiz:

{ displaystyle { frac { kısmi E} { kısmi w_ {ij}}} = { frac { kısmi E} { kısmi o_ {j}}} { frac { kısmi o_ {j}} { kısmi { text {net}} _ {j}}} { frac { bölümlü { text {net}} _ {j}} { kısmi w_ {ij}}} = { frac { kısmi E } { kısmi o_ {j}}} { frac { kısmi o_ {j}} { kısmi { metin {net}} _ {j}}} o_ {i}}

{ displaystyle { frac { kısmi E} { kısmi w_ {ij}}} = o_ {i} delta _ {j}}

ile

{ displaystyle delta _ {j} = { frac { kısmi E} { kısmi o_ {j}}} { frac { kısmi o_ {j}} { kısmi { metin {net}} _ { j}}} = { başla {vakalar} { frac { kısmi L (o_ {j}, t)} { kısmi o_ {j}}} { frac {d varphi ({ text {net} } _ {j})} {d { text {net}} _ {j}}} & { text {if}} j { text {bir çıkış nörondur,}} ( sum _ { ell in L} w_ {j ell} delta _ { ell}) { frac {d varphi ({ text {net}} _ {j})} {d { text {net}} _ {j}}} & { text {if}} j { text {bir iç nörondur.}} end {vakalar}}}

Eğer ${ displaystyle varphi}$ lojistik fonksiyondur ve hata kare hatasıdır:

{ displaystyle delta _ {j} = { frac { kısmi E} { kısmi o_ {j}}} { frac { kısmi o_ {j}} { kısmi { metin {net}} _ { j}}} = { başla {vakalar} (o_ {j} -t_ {j}) o_ {j} (1-o_ {j}) & { text {if}} j { text {bir çıktıdır nöron,}} ( toplam _ { ell içinde L} w_ {j ell} delta _ { ell}) o_ {j} (1-o_ {j}) & { text {if} } j { text {bir iç nörondur.}} end {vakalar}}}

Ağırlığı güncellemek için ${ displaystyle w_ {ij}}$ gradyan inişi kullanarak, bir öğrenme oranı seçmeli, ${ displaystyle eta> 0}$ . Kilodaki değişikliğin etkiyi yansıtması gerekir. ${ displaystyle E}$ artış veya azalma ${ displaystyle w_ {ij}}$ . Eğer ${ displaystyle { frac { kısmi E} { kısmi w_ {ij}}}> 0}$ , artış ${ displaystyle w_ {ij}}$ artışlar ${ displaystyle E}$ ; tersine, eğer ${ displaystyle { frac { kısmi E} { kısmi w_ {ij}}} <0}$ , artış ${ displaystyle w_ {ij}}$ azalır ${ displaystyle E}$ . Yeni ${ displaystyle Delta w_ {ij}}$ eski ağırlığa ve öğrenme oranı ile gradyanın çarpımına eklenir. ${ displaystyle -1}$ garanti eder ${ displaystyle w_ {ij}}$ her zaman azalan bir şekilde değişir ${ displaystyle E}$ . Başka bir deyişle, hemen aşağıdaki denklemde, ${ displaystyle - eta { frac { kısmi E} { kısmi w_ {ij}}}}$ her zaman değişir ${ displaystyle w_ {ij}}$ öyle bir şekilde ${ displaystyle E}$ azalır:

{ displaystyle Delta w_ {ij} = - eta { frac { kısmi E} { kısmi w_ {ij}}} = - eta o_ {i} delta _ {j}}

Kayıp işlevi

Kayıp işlevi, bir veya daha fazla değişkenin değerlerini bir gerçek Numara bu değerlerle ilişkili bazı "maliyeti" sezgisel olarak temsil eder. Geri yayılım için, kayıp işlevi, bir eğitim örneği ağda yayıldıktan sonra ağ çıktısı ile beklenen çıktı arasındaki farkı hesaplar.

Varsayımlar

Kayıp işlevinin matematiksel ifadesi, muhtemelen geri yayılımda kullanılabilmesi için iki koşulu karşılamalıdır.^[9] Birincisi, ortalama olarak yazılabilmesidir. ${ textstyle E = { frac {1} {n}} toplamı _ {x} E_ {x}}$ aşırı hata fonksiyonları ${ textstyle E_ {x}}$ , için ${ textstyle n}$ bireysel eğitim örnekleri, ${ textstyle x}$ . Bu varsayımın nedeni, geri yayılım algoritmasının, genel hata fonksiyonuna genelleştirilmesi gereken tek bir eğitim örneği için hata fonksiyonunun gradyanını hesaplamasıdır. İkinci varsayım, sinir ağından gelen çıktıların bir fonksiyonu olarak yazılabileceğidir.

Örnek kayıp işlevi

İzin Vermek ${ displaystyle y, y '}$ vektör olmak ${ displaystyle mathbb {R} ^ {n}}$ .

Bir hata işlevi seçin ${ displaystyle E (y, y ')}$ iki çıktı arasındaki farkı ölçmek. Standart seçim şunun karesidir: Öklid mesafesi vektörler arasında ${ displaystyle y}$ ve ${ displaystyle y '}$ :

{ displaystyle E (y, y ') = { tfrac {1} {2}} lVert y-y' rVert ^ {2}}

Hata fonksiyonu bitti

{ textstyle n}

eğitim örnekleri, bireysel örneklere göre ortalama kayıp olarak yazılabilir:

{ displaystyle E = { frac {1} {2n}} toplamı _ {x} lVert (y (x) -y '(x)) rVert ^ {2}}

Sınırlamalar

Gradyan inişi, genel minimum yerine yerel bir minimum bulabilir.

Geri yayılımlı gradyan inişin küresel minimum hata işlevi, ancak yalnızca yerel minimum; ayrıca, geçmekte zorlanıyor yaylalar hata fonksiyonu manzarasında. Bu sorun, dışbükey olmama Sinir ağlarındaki hata fonksiyonlarının uzun süredir büyük bir dezavantaj olduğu düşünülüyordu, ancak Yann LeCun et al. birçok pratik problemde bunun olmadığını iddia edin.^[10]
Geri yayılım öğrenimi, girdi vektörlerinin normalleştirilmesini gerektirmez; ancak normalleştirme performansı artırabilir.^[11]
Geri yayılım, aktivasyon fonksiyonlarının türevlerinin ağ tasarım zamanında bilinmesini gerektirir.

Tarih

Dönem geri yayılım ve sinir ağlarındaki genel kullanımı Rumelhart, Hinton ve Williams (1986a), sonra detaylandırıldı ve popüler hale geldi Rumelhart, Hinton ve Williams (1986b), ancak teknik bağımsız olarak birçok kez yeniden keşfedildi ve 1960'lara dayanan birçok öncülü vardı.^[6]^[12]

Sürekli geri yayılımın temelleri şu bağlamda türetilmiştir: kontrol teorisi tarafından Henry J. Kelley 1960 yılında^[13] ve tarafından Arthur E. Bryson 1961'de.^[14]^[15]^[16]^[17]^[18] Prensiplerini kullandılar dinamik program. 1962'de, Stuart Dreyfus yalnızca temel alınarak daha basit bir türetme yayınladı zincir kuralı.^[19] Bryson ve Ho 1969'da çok aşamalı dinamik sistem optimizasyon yöntemi olarak tanımladı.^[20]^[21] Geri yayılım, 60'lı yılların başlarında birçok araştırmacı tarafından türetilmiştir.^[17] ve 1970'lerin başlarında bilgisayarlarda çalışmak üzere uygulandı. Seppo Linnainmaa.^[22]^[23]^[24] Paul Werbos 1974 tarihli tezinde derinlemesine analiz ettikten sonra sinir ağları için kullanılabileceğini ilk kez ABD'de önerdi.^[25] Sinir ağlarına uygulanmamış olsa da, 1970 yılında Linnainmaa için genel yöntemi yayınladı. otomatik farklılaşma (AD).^[23]^[24] Çok tartışmalı olmasına rağmen, bazı bilim adamları bunun aslında bir geri yayılma algoritması geliştirmeye yönelik ilk adım olduğuna inanıyor.^[17]^[18]^[22]^[26] 1973'te Dreyfus adapte oldu parametreleri hata gradyanlarıyla orantılı olarak kontrolörlerin sayısı.^[27] 1974'te Werbos, bu prensibi yapay sinir ağlarına uygulama olasılığından bahsetti,^[25] ve 1982'de Linnainmaa'nın AD yöntemini doğrusal olmayan fonksiyonlara uyguladı.^[18]^[28]

Daha sonra Werbos yöntemi yeniden keşfedildi ve 1985'te Parker tarafından açıklandı,^[29]^[30] ve 1986'da Rumelhart, Hinton ve Williams.^[12]^[30]^[31] Rumelhart, Hinton ve Williams deneysel olarak bu yöntemin sinir ağlarının gizli katmanlarında gelen verilerin yararlı dahili temsillerini oluşturabileceğini gösterdiler.^[8]^[32]^[33] Yann LeCun, Evrişimli Sinir Ağı mimarisinin mucidi, 1987'deki doktora tezinde sinir ağları için geri yayılım öğrenme algoritmasının modern formunu önerdi. 1993'te Eric Wan, geri yayılım yoluyla uluslararası bir örüntü tanıma yarışmasını kazandı.^[17]^[34]

2000'li yıllarda gözden düştü, ancak 2010'larda geri döndü ve ucuz, güçlü GPU tabanlı bilgi işlem sistemleri. Bu özellikle Konuşma tanıma, makine vizyonu, doğal dil işleme ve dil yapısı öğrenme araştırması (burada ilkiyle ilgili çeşitli fenomenleri açıklamak için kullanılmıştır.^[35] ve ikinci dil öğrenimi.^[36]).

İnsan beynini açıklamak için hata geri yayılımı önerildi ERP gibi bileşenler N400 ve P600.^[37]

Ayrıca bakınız

Notlar

^ Kullanım ${ displaystyle C}$ kayıp fonksiyonunun izin vermesi için ${ displaystyle L}$ katman sayısı için kullanılacak
^ Bu takip eder Nielsen (2015) ve matrisle (solda) çarpma anlamına gelir ${ displaystyle W ^ {l}}$ katmanın çıktı değerlerini dönüştürmeye karşılık gelir ${ displaystyle l-1}$ katman değerlerini girmek için ${ displaystyle l}$ : sütunlar giriş koordinatlarına karşılık gelir, satırlar çıktı koordinatlarına karşılık gelir.
^ Bu bölüm büyük ölçüde takip eder ve özetler Nielsen (2015).
^ Kayıp fonksiyonunun türevi bir açıcı kayıp işlevi bir skaler değerli işlev birkaç değişken.
^ Aktivasyon işlevi her düğüme ayrı ayrı uygulanır, dolayısıyla türev yalnızca Diyagonal matris her düğümde türevin. Bu genellikle şu şekilde temsil edilir: Hadamard ürünü ile gösterilen türev vektörü ile ${ displaystyle (f ^ {l}) ' odot}$ , matematiksel olarak aynı olan ancak çapraz matris yerine türevlerin bir vektör olarak iç gösterimiyle daha iyi eşleşen
^ Matris çarpımı doğrusal olduğundan, bir matrisle çarpmanın türevi yalnızca matristir: ${ displaystyle (Wx) '= W}$ .
^ Çok katmanlı sinir ağlarının doğrusal olmayan aktivasyon işlevleri kullandığı fark edilebilir, bu nedenle doğrusal nöronlarla ilgili bir örnek belirsiz görünebilir. Bununla birlikte, çok katmanlı ağların hata yüzeyi çok daha karmaşık olsa da, yerel olarak bir paraboloit ile yaklaşık olarak tahmin edilebilir. Bu nedenle, doğrusal nöronlar basitlik ve daha kolay anlaşılması için kullanılır.
^ Birden fazla çıkış nöronu olabilir, bu durumda hata, fark vektörünün kare normudur.

Referanslar

^ Goodfellow, Bengio ve Courville 2016, s.200, " geri yayılma algoritması (Rumelhart et al., 1986a), genellikle basitçe arka plan, ..."
^ Goodfellow, Bengio ve Courville 2016, s.200, "Ayrıca, geri yayılma genellikle çok katmanlı sinir ağlarına özgü olarak yanlış anlaşılır, ancak prensipte herhangi bir işlevin türevlerini hesaplayabilir"
^ Goodfellow, Bengio ve Courville 2016, s.214, "Bu tablo doldurma stratejisine bazen dinamik program."
^ Goodfellow, Bengio ve Courville 2016, s.200, "Geri yayılma terimi genellikle çok katmanlı sinir ağları için tüm öğrenme algoritması anlamına geldiği için yanlış anlaşılır. Geri yayılım yalnızca gradyanı hesaplama yöntemini ifade ederken, stokastik gradyan inişi gibi diğer algoritmalar bu gradyanı kullanarak öğrenmeyi gerçekleştirmek için kullanılır. . "
^ ^a ^b Goodfellow, Bengio ve Courville (2016), s.217 –218), "Burada açıklanan geri yayılma algoritması, otomatik farklılaştırmaya yönelik yalnızca bir yaklaşımdır. Bu, adı verilen daha geniş bir teknik sınıfının özel bir durumudur. ters mod birikimi."
^ ^a ^b Goodfellow, Bengio ve Courville (2016), s.221 ), "Dinamik programlamaya dayalı zincir kuralının verimli uygulamaları 1960'larda ve 1970'lerde, çoğunlukla kontrol uygulamaları için ortaya çıkmaya başladı (Kelley, 1960; Bryson ve Denham, 1961; Dreyfus, 1962; Bryson ve Ho, 1969; Dreyfus, 1973 ) ama aynı zamanda duyarlılık analizi için (Linnainmaa, 1976). ... Fikir nihayet pratikte farklı şekillerde bağımsız olarak yeniden keşfedildikten sonra geliştirildi (LeCun, 1985; Parker, 1985; Rumelhart et al., 1986a). Kitap Paralel Dağıtılmış İşleme Bir bölümde geri yayılma ile ilk başarılı deneylerin bazılarının sonuçlarını sundu (Rumelhart et al., 1986b) geri yayılmanın popülerleşmesine büyük katkıda bulundu ve çok katmanlı sinir ağlarında çok aktif bir araştırma dönemi başlattı. "
^ Goodfellow, Bengio ve Courville (2016), 6.5 Geri Yayılma ve Diğer Türev Algoritmaları, s. 200–220)
^ ^a ^b Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). "Hataların geri yayılmasıyla temsilleri öğrenme". Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038 / 323533a0. S2CID 205001834.
^ Nielsen (2015), "Geri yayılımın uygulanabilmesi için ... maliyet fonksiyonumuz hakkında ne tür varsayımlar yapmamız gerekiyor? İhtiyacımız olan ilk varsayım, maliyet fonksiyonunun bir ortalama ... maliyet fonksiyonları üzerinden yazılabileceğidir. .. bireysel eğitim örnekleri için ... Maliyet hakkında yaptığımız ikinci varsayım, sinir ağından elde edilen çıktıların bir fonksiyonu olarak yazılabileceğidir ... "
^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Doğa. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
^ Buckland, Matt; Collins, Mark (2002). AI Techniques for Game Programming. Boston: Premier Press. ISBN 1-931841-08-X.
^ ^a ^b Rumelhart; Hinton; Williams (1986). "Learning representations by back-propagating errors" (PDF). Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
^ Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
^ Bryson, Arthur E. (1962). "A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications, 3–6 April 1961. Cambridge: Harvard Üniversitesi Yayınları. OCLC 498866871.
^ Dreyfus, Stuart E. (1990). "Artificial Neural Networks, Back Propagation, and the Kelley-Bryson Gradient Procedure". Journal of Guidance, Control, and Dynamics. 13 (5): 926–928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422.
^ Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July 2000). "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application" (PDF). Proceedings of the IEEE International Joint Conference on Neural Networks.
^ ^a ^b ^c ^d Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Nöral ağlar. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ ^a ^b ^c Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
^ Dreyfus, Stuart (1962). "The numerical solution of variational problems". Journal of Mathematical Analysis and Applications. 5 (1): 30–45. doi:10.1016/0022-247x(62)90004-5.
^ Russell, Stuart; Norvig, Peter (1995). Artificial Intelligence : A Modern Approach. Englewood Cliffs: Prentice Hall. s. 578. ISBN 0-13-103805-2. The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was more or less ignored until the mid-1980s.
^ Bryson, Arthur Earl; Ho, Yu-Chi (1969). Applied optimal control: optimization, estimation, and control. Waltham: Blaisdell. OCLC 3801.
^ ^a ^b Griewank, Andreas (2012). "Who Invented the Reverse Mode of Differentiation?". Optimization Stories. Documenta Matematica, Extra Volume ISMP. pp. 389–400. S2CID 15568746.
^ ^a ^b Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6–7.
^ ^a ^b Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
^ ^a ^b The thesis, and some supplementary information, can be found in his book, Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6.
^ Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN 978-0-89871-776-1.
^ Dreyfus, Stuart (1973). "The computational solution of optimal control problems with time lag". Otomatik Kontrolde IEEE İşlemleri. 18 (4): 383–385. doi:10.1109/tac.1973.1100330.
^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770.
^ Parker, D.B. (1985). "Learning Logic". Center for Computational Research in Economics and Management Science. Cambridge MA: Massachusetts Institute of Technology. Alıntı dergisi gerektirir | günlük = (Yardım Edin)
^ ^a ^b Hertz, John. (1991). Sinirsel hesaplama teorisine giriş. Krogh, Anders., Palmer, Richard G. Redwood City, Calif.: Addison-Wesley Pub. Polis. 8. ISBN 0-201-50395-6. OCLC 21522159.
^ Anderson, James Arthur, (1939- ...)., ed. Rosenfeld, Edward, ed. (1988). Neurocomputing Foundations of research. MIT Basın. ISBN 0-262-01097-6. OCLC 489622044.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı) CS1 bakimi: ek metin: yazarlar listesi (bağlantı)
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986b). "8. Learning Internal Representations by Error Propagation". İçinde Rumelhart, David E.; McClelland, James L. (eds.). Parallel Distributed Processing : Explorations in the Microstructure of Cognition. Volume 1 : Foundations. Cambridge: MIT Press. ISBN 0-262-18120-7.
^ Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Basın. ISBN 978-0-262-01243-0.
^ Wan, Eric A. (1994). "Time Series Prediction by Using a Connectionist Network with Internal Delay Lines". İçinde Weigend, Andreas S.; Gershenfeld, Neil A. (eds.). Time Series Prediction : Forecasting the Future and Understanding the Past. Proceedings of the NATO Advanced Research Workshop on Comparative Time Series Analysis. Volume 15. Reading: Addison-Wesley. pp. 195–217. ISBN 0-201-62601-2. S2CID 12652643.
^ Chang, Franklin; Dell, Gary S.; Bock, Kathryn (2006). "Becoming syntactic". Psikolojik İnceleme. 113 (2): 234–272. doi:10.1037/0033-295x.113.2.234. PMID 16637761.
^ Janciauskas, Marius; Chang, Franklin (2018). "Input and Age-Dependent Variation in Second Language Learning: A Connectionist Account". Bilişsel bilim. 42: 519–554. doi:10.1111/cogs.12519. PMC 6001481. PMID 28744901.
^ Fitz, Hartmut; Chang, Franklin (2019). "Language ERPs reflect learning through prediction error propagation". Kavramsal psikoloji. 111: 15–52. doi:10.1016/j.cogpsych.2019.03.002. hdl:21.11116/0000-0003-474D-8. PMID 30921626. S2CID 85501792.

daha fazla okuma

Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "6.5 Back-Propagation and Other Differentiation Algorithms". Deep Learning. MIT Basın. pp. 200–220. ISBN 9780262035613.
Nielsen, Michael A. (2015). "How the backpropagation algorithm works". Neural Networks and Deep Learning. Determination Press.
McCaffrey, James (October 2012). "Neural Network Back-Propagation for Programmers". MSDN Magazine.
Rojas, Raúl (1996). "The Backpropagation Algorithm" (PDF). Neural Networks : A Systematic Introduction. Berlin: Springer. ISBN 3-540-60505-3.

Dış bağlantılar

Backpropagation neural network tutorial at the Wikiversity
Bernacki, Mariusz; Włodarczyk, Przemysław (2004). "Principles of training multi-layer neural network using backpropagation".
Karpathy, Andrej (2016). "Lecture 4: Backpropagation, Neural Networks 1". CS231n. Stanford University – via Youtube.
"What is Backpropagation Really Doing?". 3 Mavi 1 Kahverengi. November 3, 2017 – via Youtube.

[8] Kullanım ${ displaystyle C}$ kayıp fonksiyonunun izin vermesi için ${ displaystyle L}$ katman sayısı için kullanılacak

[9] Bu takip eder Nielsen (2015) ve matrisle (solda) çarpma anlamına gelir ${ displaystyle W ^ {l}}$ katmanın çıktı değerlerini dönüştürmeye karşılık gelir ${ displaystyle l-1}$ katman değerlerini girmek için ${ displaystyle l}$ : sütunlar giriş koordinatlarına karşılık gelir, satırlar çıktı koordinatlarına karşılık gelir.

[10] Bu bölüm büyük ölçüde takip eder ve özetler Nielsen (2015).

[11] Kayıp fonksiyonunun türevi bir açıcı kayıp işlevi bir skaler değerli işlev birkaç değişken.

[12] Aktivasyon işlevi her düğüme ayrı ayrı uygulanır, dolayısıyla türev yalnızca Diyagonal matris her düğümde türevin. Bu genellikle şu şekilde temsil edilir: Hadamard ürünü ile gösterilen türev vektörü ile ${ displaystyle (f ^ {l}) ' odot}$ , matematiksel olarak aynı olan ancak çapraz matris yerine türevlerin bir vektör olarak iç gösterimiyle daha iyi eşleşen

[13] Matris çarpımı doğrusal olduğundan, bir matrisle çarpmanın türevi yalnızca matristir: ${ displaystyle (Wx) '= W}$ .

[15] Çok katmanlı sinir ağlarının doğrusal olmayan aktivasyon işlevleri kullandığı fark edilebilir, bu nedenle doğrusal nöronlarla ilgili bir örnek belirsiz görünebilir. Bununla birlikte, çok katmanlı ağların hata yüzeyi çok daha karmaşık olsa da, yerel olarak bir paraboloit ile yaklaşık olarak tahmin edilebilir. Bu nedenle, doğrusal nöronlar basitlik ve daha kolay anlaşılması için kullanılır.

[16] Birden fazla çıkış nöronu olabilir, bu durumda hata, fark vektörünün kare normudur.

[1] Goodfellow, Bengio ve Courville 2016, s.200, " geri yayılma algoritması (Rumelhart et al., 1986a), genellikle basitçe arka plan, ..."

[2] Goodfellow, Bengio ve Courville 2016, s.200, "Ayrıca, geri yayılma genellikle çok katmanlı sinir ağlarına özgü olarak yanlış anlaşılır, ancak prensipte herhangi bir işlevin türevlerini hesaplayabilir"

[FOOTNOTEGoodfellowBengioCourville2016[httpswwwdeeplearningbookorgcontentsmlphtmlpf33_214]-3] Goodfellow, Bengio ve Courville 2016, s.214, "Bu tablo doldurma stratejisine bazen dinamik program."

[4] Goodfellow, Bengio ve Courville 2016, s.200, "Geri yayılma terimi genellikle çok katmanlı sinir ağları için tüm öğrenme algoritması anlamına geldiği için yanlış anlaşılır. Geri yayılım yalnızca gradyanı hesaplama yöntemini ifade ederken, stokastik gradyan inişi gibi diğer algoritmalar bu gradyanı kullanarak öğrenmeyi gerçekleştirmek için kullanılır. . "

[DL-reverse-mode-5] Goodfellow, Bengio ve Courville (2016), s.217 –218), "Burada açıklanan geri yayılma algoritması, otomatik farklılaştırmaya yönelik yalnızca bir yaklaşımdır. Bu, adı verilen daha geniş bir teknik sınıfının özel bir durumudur. ters mod birikimi."

[DL-history-6] Goodfellow, Bengio ve Courville (2016), s.221 ), "Dinamik programlamaya dayalı zincir kuralının verimli uygulamaları 1960'larda ve 1970'lerde, çoğunlukla kontrol uygulamaları için ortaya çıkmaya başladı (Kelley, 1960; Bryson ve Denham, 1961; Dreyfus, 1962; Bryson ve Ho, 1969; Dreyfus, 1973 ) ama aynı zamanda duyarlılık analizi için (Linnainmaa, 1976). ... Fikir nihayet pratikte farklı şekillerde bağımsız olarak yeniden keşfedildikten sonra geliştirildi (LeCun, 1985; Parker, 1985; Rumelhart et al., 1986a). Kitap Paralel Dağıtılmış İşleme Bir bölümde geri yayılma ile ilk başarılı deneylerin bazılarının sonuçlarını sundu (Rumelhart et al., 1986b) geri yayılmanın popülerleşmesine büyük katkıda bulundu ve çok katmanlı sinir ağlarında çok aktif bir araştırma dönemi başlattı. "

[7] Goodfellow, Bengio ve Courville (2016), 6.5 Geri Yayılma ve Diğer Türev Algoritmaları, s. 200–220)

[RumelhartHintonWilliams1986a-14] Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). "Hataların geri yayılmasıyla temsilleri öğrenme". Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038 / 323533a0. S2CID 205001834.

[17] Nielsen (2015), "Geri yayılımın uygulanabilmesi için ... maliyet fonksiyonumuz hakkında ne tür varsayımlar yapmamız gerekiyor? İhtiyacımız olan ilk varsayım, maliyet fonksiyonunun bir ortalama ... maliyet fonksiyonları üzerinden yazılabileceğidir. .. bireysel eğitim örnekleri için ... Maliyet hakkında yaptığımız ikinci varsayım, sinir ağından elde edilen çıktıların bir fonksiyonu olarak yazılabileceğidir ... "

[18] LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Doğa. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.

[19] Buckland, Matt; Collins, Mark (2002). AI Techniques for Game Programming. Boston: Premier Press. ISBN 1-931841-08-X.

[learning-representations-20] Rumelhart; Hinton; Williams (1986). "Learning representations by back-propagating errors" (PDF). Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.

[kelley1960-21] Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.

[bryson1961-22] Bryson, Arthur E. (1962). "A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications, 3–6 April 1961. Cambridge: Harvard Üniversitesi Yayınları. OCLC 498866871.

[dreyfus1990-23] Dreyfus, Stuart E. (1990). "Artificial Neural Networks, Back Propagation, and the Kelley-Bryson Gradient Procedure". Journal of Guidance, Control, and Dynamics. 13 (5): 926–928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422.

[24] Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July 2000). "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application" (PDF). Proceedings of the IEEE International Joint Conference on Neural Networks.

[schmidhuber2015-25] Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Nöral ağlar. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.

[scholarpedia2015-26] Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.

[27] Dreyfus, Stuart (1962). "The numerical solution of variational problems". Journal of Mathematical Analysis and Applications. 5 (1): 30–45. doi:10.1016/0022-247x(62)90004-5.

[28] Russell, Stuart; Norvig, Peter (1995). Artificial Intelligence : A Modern Approach. Englewood Cliffs: Prentice Hall. s. 578. ISBN 0-13-103805-2. The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was more or less ignored until the mid-1980s.

[29] Bryson, Arthur Earl; Ho, Yu-Chi (1969). Applied optimal control: optimization, estimation, and control. Waltham: Blaisdell. OCLC 3801.

[grie2012-30] Griewank, Andreas (2012). "Who Invented the Reverse Mode of Differentiation?". Optimization Stories. Documenta Matematica, Extra Volume ISMP. pp. 389–400. S2CID 15568746.

[lin1970-31] Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6–7.

[lin1976-32] Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.

[werbos1974-33] The thesis, and some supplementary information, can be found in his book, Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6.

[grie2008-34] Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN 978-0-89871-776-1.

[dreyfus1973-35] Dreyfus, Stuart (1973). "The computational solution of optimal control problems with time lag". Otomatik Kontrolde IEEE İşlemleri. 18 (4): 383–385. doi:10.1109/tac.1973.1100330.

[werbos1982-36] Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770.

[37] Parker, D.B. (1985). "Learning Logic". Center for Computational Research in Economics and Management Science. Cambridge MA: Massachusetts Institute of Technology. Alıntı dergisi gerektirir | günlük = (Yardım Edin)

[:0-38] Hertz, John. (1991). Sinirsel hesaplama teorisine giriş. Krogh, Anders., Palmer, Richard G. Redwood City, Calif.: Addison-Wesley Pub. Polis. 8. ISBN 0-201-50395-6. OCLC 21522159.

[39] Anderson, James Arthur, (1939- ...)., ed. Rosenfeld, Edward, ed. (1988). Neurocomputing Foundations of research. MIT Basın. ISBN 0-262-01097-6. OCLC 489622044.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı) CS1 bakimi: ek metin: yazarlar listesi (bağlantı)

[RumelhartHintonWilliams1986b-40] Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986b). "8. Learning Internal Representations by Error Propagation". İçinde Rumelhart, David E.; McClelland, James L. (eds.). Parallel Distributed Processing : Explorations in the Microstructure of Cognition. Volume 1 : Foundations. Cambridge: MIT Press. ISBN 0-262-18120-7.

[41] Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Basın. ISBN 978-0-262-01243-0.

[42] Wan, Eric A. (1994). "Time Series Prediction by Using a Connectionist Network with Internal Delay Lines". İçinde Weigend, Andreas S.; Gershenfeld, Neil A. (eds.). Time Series Prediction : Forecasting the Future and Understanding the Past. Proceedings of the NATO Advanced Research Workshop on Comparative Time Series Analysis. Volume 15. Reading: Addison-Wesley. pp. 195–217. ISBN 0-201-62601-2. S2CID 12652643.

[43] Chang, Franklin; Dell, Gary S.; Bock, Kathryn (2006). "Becoming syntactic". Psikolojik İnceleme. 113 (2): 234–272. doi:10.1037/0033-295x.113.2.234. PMID 16637761.

[44] Janciauskas, Marius; Chang, Franklin (2018). "Input and Age-Dependent Variation in Second Language Learning: A Connectionist Account". Bilişsel bilim. 42: 519–554. doi:10.1111/cogs.12519. PMC 6001481. PMID 28744901.

[45] Fitz, Hartmut; Chang, Franklin (2019). "Language ERPs reflect learning through prediction error propagation". Kavramsal psikoloji. 111: 15–52. doi:10.1016/j.cogpsych.2019.03.002. hdl:21.11116/0000-0003-474D-8. PMID 30921626. S2CID 85501792.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[a]

[b]

[c]

[d]

[e]

[f]

[8]

[g]

[h]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]