Geri yayılım - Backpropagation

İçinde makine öğrenme, geri yayılım (arka plan,[1] BP) yaygın olarak kullanılan bir algoritma eğitim için ileri beslemeli sinir ağları. Geri yayılımın genellemeleri, diğerleri için mevcuttur. yapay sinir ağları (YSA'lar) ve genel işlevler için. Bu algoritma sınıflarının tümü genel olarak "geri yayılım" olarak adlandırılır.[2] İçinde sinir ağı uydurma, geri yayılım, gradyan of kayıp fonksiyonu saygıyla ağırlıklar tek bir giriş-çıkış örneği için ağın verimli, her bir ağırlığa göre ayrı ayrı gradyanın saf bir doğrudan hesaplamasından farklı olarak. Bu verimlilik, kullanımını mümkün kılar gradyan yöntemleri çok katmanlı ağları eğitmek için, kayıpları en aza indirmek için ağırlıkları güncellemek; dereceli alçalma veya gibi varyantlar stokastik gradyan inişi, yaygın olarak kullanılmaktadır. Geri yayılım algoritması, her bir ağırlığa göre kayıp fonksiyonunun gradyanını hesaplayarak çalışır. zincir kuralı, her seferinde bir katman degradeyi hesaplamak, yinelenen zincir kuralında ara terimlerin gereksiz hesaplamalarından kaçınmak için son katmandan geriye doğru; bu bir örnek dinamik program.[3]

Dönem geri yayılım kesinlikle gradyanın nasıl kullanıldığını değil, sadece gradyan hesaplama algoritmasına atıfta bulunur; ancak terim, stokastik gradyan inişi gibi gradyanın nasıl kullanıldığı da dahil olmak üzere genellikle tüm öğrenme algoritmasına atıfta bulunmak için gevşek bir şekilde kullanılır.[4] Geri yayılım, gradyan hesaplamasını genelleştirir. delta kuralı geri yayılmanın tek katmanlı versiyonu olan ve buna karşılık olarak genelleştirilen otomatik farklılaşma, geri yayılımın özel bir durum olduğu ters birikim (veya "ters mod").[5] Dönem geri yayılım ve sinir ağlarındaki genel kullanımı Rumelhart, Hinton ve Williams (1986a), sonra detaylandırıldı ve popüler hale geldi Rumelhart, Hinton ve Williams (1986b), ancak teknik bağımsız olarak birçok kez yeniden keşfedildi ve 1960'lara dayanan birçok öncülü vardı; görmek § Tarih.[6] Modern bir genel bakış, derin öğrenme ders kitabı Goodfellow, Bengio ve Courville (2016).[7]

Genel Bakış

Geri yayılım, gradyan içinde ağırlık alanı ileri beslemeli bir sinir ağının kayıp fonksiyonu. Şunu belirtin:

  • : girdi (özelliklerin vektörü)
  • : hedef çıktı
    Sınıflandırma için çıktı, sınıf olasılıklarının bir vektörü olacaktır (ör. ve hedef çıktı, tarafından kodlanan belirli bir sınıftır. tek sıcak /geçici değişken (Örneğin., ).
  • : kayıp fonksiyonu veya "maliyet işlevi"[a]
    Sınıflandırma için bu genellikle çapraz entropi (XC, günlük kaybı ), regresyon için ise genellikle kare hata kaybı (SEL).
  • : katman sayısı
  • : katman arasındaki ağırlıklar ve , nerede arasındaki ağırlık katmandaki -th düğüm ve katmandaki -th düğüm [b]
  • : aktivasyon fonksiyonları katmanda
    Sınıflandırma için son katman genellikle lojistik fonksiyon ikili sınıflandırma için ve softmax (softargmax) çok sınıflı sınıflandırma için iken, gizli katmanlar için bu geleneksel olarak bir sigmoid işlevi (lojistik fonksiyon veya diğerleri) her düğümde (koordinat), ancak bugün daha çeşitlidir, doğrultucu (rampa, ReLU ) yaygın olmak.

Geri yayılımın türetilmesinde, diğer ara miktarlar kullanılır; aşağıda gerektiği gibi tanıtılmıştır. Sapma terimleri, sabit girdisi 1 olan bir ağırlığa karşılık geldiklerinden özel olarak ele alınmazlar. Geri yayılım amacıyla, spesifik kayıp fonksiyonu ve aktivasyon fonksiyonları, kendileri ve türevleri verimli bir şekilde değerlendirilebildiği sürece önemli değildir.

Genel ağ, aşağıdakilerin bir kombinasyonudur: işlev bileşimi ve matris çarpımı:

Bir eğitim seti için bir dizi giriş-çıkış çifti olacaktır, . Her bir giriş-çıkış çifti için eğitim setinde, bu çift üzerindeki modelin kaybı, tahmin edilen çıktı arasındaki farkın maliyetidir. ve hedef çıktı :

Ayrıma dikkat edin: Model değerlendirmesi sırasında, girişler değişirken ağırlıklar sabittir (ve hedef çıktı bilinmeyebilir) ve ağ çıktı katmanı ile biter (kayıp işlevini içermez). Model eğitimi sırasında, giriş-çıkış çifti sabitlenir, ağırlıklar değişir ve ağ kayıp fonksiyonu ile sona erer.

Geri yayılım, bir sabit giriş-çıkış çifti , ağırlıklar nerede çeşitlenebilir. Degradenin her bir bileşeni, zincir kuralı ile hesaplanabilir; ancak bunu her ağırlık için ayrı yapmak verimsizdir. Geri yayılım, her katmanın gradyanını, özellikle de ağırlıklı olanın gradyanını hesaplayarak, çift hesaplamalardan kaçınarak ve gereksiz ara değerleri hesaplamayarak gradyanı verimli bir şekilde hesaplar. giriş her katmanın - arkadan öne.

Gayriresmi olarak, kilit nokta, bir kilo vermenin tek yoludur. zararı etkiler üzerindeki etkisi Sonraki katman ve öyle yapar doğrusal olarak, Katmandaki ağırlıkların gradyanlarını hesaplamak için ihtiyacınız olan tek veri ve sonra önceki katmanı hesaplayabilirsiniz ve yinelemeli olarak tekrarlayın. Bu, verimsizliği iki şekilde önler. Birincisi, katmandaki gradyanı hesaplarken çoğaltmayı önler , tüm türevleri sonraki katmanlarda yeniden hesaplamanıza gerek yoktur her seferinde. İkincisi, gereksiz ara hesaplamalardan kaçınır çünkü her aşamada, ağırlık değişimlerine göre gizli katmanların değerlerinin türevlerini gereksiz yere hesaplamak yerine, nihai çıktıya (kayıp) göre ağırlıkların gradyanını doğrudan hesaplar. .

Geri yayılım, basit ileri beslemeli ağlar için şu şekilde ifade edilebilir: matris çarpımı veya daha genel olarak ek grafik.

Matris çarpımı

Her katmandaki düğümlerin yalnızca hemen sonraki katmandaki düğümlere bağlandığı (herhangi bir katmanı atlamadan) ve son çıktı için bir skaler kaybı hesaplayan bir kayıp işlevinin olduğu, ileri beslemeli bir ağın temel durumu için geri yayılım yapılabilir. basitçe matris çarpımı ile anlaşılır.[c] Esas olarak, geri yayılım, maliyet fonksiyonunun türevi için ifadeyi her katman arasındaki türevlerin bir ürünü olarak değerlendirir. soldan sağa - "geriye doğru" - her katman arasındaki ağırlıkların gradyanı, kısmi ürünlerin basit bir modifikasyonudur ("geriye doğru yayılan hata").

Bir giriş-çıkış çifti verildiğinde , kayıp:

Bunu hesaplamak için girişle başlar ve ileriye dönük çalışır; her katmanın ağırlıklı girdisini şu şekilde ifade edin: ve katmanın çıktısı aktivasyon olarak . Geri yayılım için aktivasyon yanı sıra türevler (değerlendirildi ) geriye doğru geçiş sırasında kullanım için önbelleğe alınmalıdır.

Girdilere göre kaybın türevi zincir kuralı ile verilir; her terimin bir toplam türev, girişteki ağın değerinde (her düğümde) değerlendirilir :

Bu terimler şunlardır: kayıp fonksiyonunun türevi;[d] aktivasyon fonksiyonlarının türevleri;[e] ve ağırlıkların matrisleri:[f]

Gradyan ... değiştirmek Çıktının türevinin girdiye göre, dolayısıyla matrislerin yeri değiştirilir ve çarpma sırası tersine çevrilir, ancak girdiler aynıdır:

Geri yayılım daha sonra esasen bu ifadeyi sağdan sola değerlendirmekten (eşdeğer olarak, türev için önceki ifadeyi soldan sağa doğru çarparak), yol üzerindeki her katmandaki gradyanı hesaplamaktan oluşur; ek bir adım vardır, çünkü ağırlıkların gradyanı sadece bir alt ifade değildir: fazladan bir çarpma vardır.

Yardımcı miktarın tanıtılması kısmi ürünler için (sağdan sola çarparak), "düzeydeki hata" olarak yorumlanır "ve düzeydeki girdi değerlerinin eğimi olarak tanımlanır :

Bunu not et düzeydeki düğüm sayısına eşit uzunlukta bir vektördür ; her bir terim, "o düğüme (değeri) atfedilebilen maliyet" olarak yorumlanır.

Katmandaki ağırlıkların gradyanı o zaman:

Faktörü çünkü ağırlıklar seviye arası ve etki seviyesi girişlerle orantılı olarak (etkinleştirmeler): girişler sabittir, ağırlıklar değişir.

aşağıdaki gibi yinelemeli olarak kolayca hesaplanabilir:

Böylece ağırlıkların gradyanları, her seviye için birkaç matris çarpımı kullanılarak hesaplanabilir; bu geri yayılımdır.

Saf bir şekilde ileriye dönük bilgi işlemle karşılaştırıldığında ( örnek için):

geri yayılımla ilgili iki temel fark vardır:

  1. Bilgi işlem açısından Katmanların bariz yinelenen çoğalmasını önler ve ötesinde.
  2. Şundan başlayarak çarpma - hatayı yaymak geriye doğru - her adımın basitçe bir vektörü çarptığı anlamına gelir () ağırlık matrislerine göre ve aktivasyon türevleri . Buna karşılık, daha önceki bir katmandaki değişikliklerden başlayarak ileriye doğru çarpmak, her çarpmanın bir matris tarafından matris. Bu çok daha pahalıdır ve tek bir katmandaki bir değişikliğin olası her yolunu izlemeye karşılık gelir katmandaki değişikliklere ilet (çarpmak için tarafından , ağırlık değişimlerinin gizli düğümlerin değerlerini nasıl etkilediğinin ara miktarlarını gereksiz yere hesaplayan, aktivasyonların türevleri için ek çarpımlarla).

Bitişik grafik

Daha genel grafikler ve diğer gelişmiş varyasyonlar için, geri yayılım şu şekilde anlaşılabilir: otomatik farklılaşma, geri yayılımın özel bir durum olduğu ters birikim (veya "ters mod").[5]

Sezgi

Motivasyon

Herhangi birinin hedefi denetimli öğrenme algoritması, bir dizi girdiyi doğru çıktılarına en iyi şekilde eşleyen bir işlev bulmaktır. Geri yayılımın motivasyonu, çok katmanlı bir sinir ağını, girdinin çıktıya herhangi bir keyfi eşlemesini öğrenmesine izin verecek uygun iç gösterimleri öğrenebilecek şekilde eğitmektir.[8]

Optimizasyon problemi olarak öğrenme

Geri yayılım algoritmasının matematiksel olarak türetilmesini anlamak için, öncelikle bir nöronun gerçek çıkışı ile belirli bir eğitim örneği için doğru çıktı arasındaki ilişki hakkında bir sezginin geliştirilmesine yardımcı olur. İki giriş birimi olan, bir çıkış birimi olan ve hiçbir gizli birimi olmayan ve her nöronun bir doğrusal çıktı (girdilerden çıktılara eşlemenin doğrusal olmadığı sinir ağları üzerindeki çoğu çalışmanın aksine)[g] bu, girdisinin ağırlıklı toplamıdır.

İki giriş ünitesi (her biri tek girişli) ve bir çıkış ünitesi (iki girişli) içeren basit bir sinir ağı

Başlangıçta, antrenmandan önce ağırlıklar rastgele ayarlanacaktır. Sonra nöron, eğitim örnekleri, bu durumda bir dizi demetler nerede ve ağın girdileridir ve t doğru çıktıdır (ağın eğitildiğinde bu girdilere göre üretmesi gereken çıktı). Verilen ilk ağ ve , bir çıktı hesaplayacak y muhtemelen farklıdır t (rastgele ağırlıklar verildiğinde). Bir kayıp fonksiyonu hedef çıktı arasındaki tutarsızlığı ölçmek için kullanılır t ve hesaplanan çıktı y. İçin regresyon analizi sorunlar karesi alınan hatanın kayıp fonksiyonu olarak kullanılabilir, çünkü sınıflandırma kategorik çaprazentropi kullanılabilir.

Örnek olarak kare hatasını kayıp olarak kullanan bir regresyon problemini düşünün:

nerede E tutarsızlık veya hatadır.

Ağı tek bir eğitim vakasında düşünün: . Böylece girdi ve sırasıyla 1 ve 1'dir ve doğru çıktı, t Şimdi 0, eğer ağın çıkışı arasındaki ilişki çizilirse y yatay eksende ve hata E dikey eksende sonuç bir paraboldür. minimum of parabol çıktıya karşılık gelir y hatayı en aza indiren E. Tek bir eğitim vakası için minimum, yatay eksene de temas eder, bu da hatanın sıfır olacağı ve ağın bir çıktı üretebileceği anlamına gelir. y hedef çıktıyla tam olarak eşleşen t. Bu nedenle, girdilerin çıktılarla eşleştirilmesi sorunu bir optimizasyon sorunu minimum hata üretecek bir işlev bulma.

Tek bir eğitim vakası için doğrusal bir nöronun hata yüzeyi

Bununla birlikte, bir nöronun çıktısı, tüm girdilerinin ağırlıklı toplamına bağlıdır:

nerede ve giriş ünitelerinden çıkış ünitesine olan bağlantıdaki ağırlıklardır. Bu nedenle, hata aynı zamanda nörona gelen ağırlıklara da bağlıdır, bu da nihayetinde öğrenmeyi sağlamak için ağda değiştirilmesi gereken şeydir. Her ağırlık ayrı bir yatay eksende çizilirse ve dikey eksende hata varsa, sonuç bir parabolik çanak. Bir nöron için k ağırlıklar, aynı arsa bir eliptik paraboloit nın-nin boyutları.

İki giriş ağırlığına sahip doğrusal bir nöronun hata yüzeyi

Hatayı en aza indiren ağırlık kümesini bulmak için yaygın olarak kullanılan bir algoritma dereceli alçalma. Daha sonra, en dik iniş yönünü verimli bir şekilde hesaplamak için geri yayılım kullanılır.

Türetme

Gradyan iniş yöntemi, ağın ağırlıklarına göre kayıp fonksiyonunun türevinin hesaplanmasını içerir. Bu normalde geri yayılım kullanılarak yapılır. Bir çıkış nöronu varsayarsak,[h] kare hata işlevi

nerede

çıktı için kayıp ve hedef değer ,
bir eğitim örneği için hedef çıktıdır ve
çıktı nöronun gerçek çıktısıdır.

Her nöron için , çıktısı olarak tanımlanır

nerede aktivasyon fonksiyonu dır-dir doğrusal olmayan ve ayırt edilebilir (ReLU bir noktada olmasa bile). Tarihsel olarak kullanılan bir aktivasyon işlevi, lojistik fonksiyon:

uygun bir türevi olan:

Girdi bir nörona, çıktıların ağırlıklı toplamı önceki nöronların. Nöron, giriş katmanından sonraki ilk katmandaysa, giriş katmanının yalnızca girdiler ağa. Nörona giriş birimlerinin sayısı . Değişken nöron arasındaki ağırlığı gösterir önceki katmanın ve nöronun mevcut katmanın.

Hatanın türevini bulmak

Burada kullanılan gösterimi göstermek için yapay bir sinir ağının diyagramı.

Hesaplanıyor kısmi türev bir ağırlığa göre hatanın kullanılarak yapılır zincir kuralı iki defa:

 

 

 

 

(Eq. 1)

Yukarıdakinin sağ tarafının son faktöründe, toplamda sadece bir terim bağlıdır , Böylece

 

 

 

 

(Eq. 2)

Nöron giriş katmanından sonraki ilk katmandaysa, sadece .

Nöron çıktısının türevi girdisine göre, basitçe aktivasyon fonksiyonunun kısmi türevidir:

 

 

 

 

(Eq. 3)

hangisi için lojistik aktivasyon fonksiyonu durum:

Geri yayının etkinleştirme işlevinin olmasını gerektirmesinin nedeni budur. ayırt edilebilir. (Bununla birlikte, ReLU 0'da türevlenemeyen aktivasyon işlevi oldukça popüler hale geldi, ör. içinde AlexNet )

İlk faktör, nöronun çıktı katmanında olup olmadığını değerlendirmek için basittir, çünkü o zaman ve

 

 

 

 

(Eq. 4)

Kare hatasının yarısı kayıp fonksiyonu olarak kullanılırsa, onu şu şekilde yeniden yazabiliriz:

Ancak, eğer ağın keyfi bir iç katmanında, türevi buluyor göre daha az belirgindir.

Düşünen girdilerin tüm nöronlar olduğu bir işlev olarak nörondan girdi almak ,

ve almak toplam türev göre türev için yinelemeli bir ifade elde edilir:

 

 

 

 

(Eq. 5)

Bu nedenle, göre türev çıktılara göre tüm türevler hesaplanabilir sonraki katmanın - çıkış nöronuna daha yakın olanlar - biliniyor. [Setteki nöronlardan herhangi biri nörona bağlı değildi bağımsız olacaklardı ve toplamın altındaki karşılık gelen kısmi türev 0'a kaybolur.]

İkame Eq. 2, Eq. 3 Denklem.4 ve Eq. 5 içinde Eq. 1 elde ederiz:

ile

Eğer lojistik fonksiyondur ve hata kare hatasıdır:

Ağırlığı güncellemek için gradyan inişi kullanarak, bir öğrenme oranı seçmeli, . Kilodaki değişikliğin etkiyi yansıtması gerekir. artış veya azalma . Eğer , artış artışlar ; tersine, eğer , artış azalır . Yeni eski ağırlığa ve öğrenme oranı ile gradyanın çarpımına eklenir. garanti eder her zaman azalan bir şekilde değişir . Başka bir deyişle, hemen aşağıdaki denklemde, her zaman değişir öyle bir şekilde azalır:

Kayıp işlevi

Kayıp işlevi, bir veya daha fazla değişkenin değerlerini bir gerçek Numara bu değerlerle ilişkili bazı "maliyeti" sezgisel olarak temsil eder. Geri yayılım için, kayıp işlevi, bir eğitim örneği ağda yayıldıktan sonra ağ çıktısı ile beklenen çıktı arasındaki farkı hesaplar.

Varsayımlar

Kayıp işlevinin matematiksel ifadesi, muhtemelen geri yayılımda kullanılabilmesi için iki koşulu karşılamalıdır.[9] Birincisi, ortalama olarak yazılabilmesidir. aşırı hata fonksiyonları , için bireysel eğitim örnekleri, . Bu varsayımın nedeni, geri yayılım algoritmasının, genel hata fonksiyonuna genelleştirilmesi gereken tek bir eğitim örneği için hata fonksiyonunun gradyanını hesaplamasıdır. İkinci varsayım, sinir ağından gelen çıktıların bir fonksiyonu olarak yazılabileceğidir.

Örnek kayıp işlevi

İzin Vermek vektör olmak .

Bir hata işlevi seçin iki çıktı arasındaki farkı ölçmek. Standart seçim şunun karesidir: Öklid mesafesi vektörler arasında ve :

Hata fonksiyonu bitti eğitim örnekleri, bireysel örneklere göre ortalama kayıp olarak yazılabilir:

Sınırlamalar

Gradyan inişi, genel minimum yerine yerel bir minimum bulabilir.
  • Geri yayılımlı gradyan inişin küresel minimum hata işlevi, ancak yalnızca yerel minimum; ayrıca, geçmekte zorlanıyor yaylalar hata fonksiyonu manzarasında. Bu sorun, dışbükey olmama Sinir ağlarındaki hata fonksiyonlarının uzun süredir büyük bir dezavantaj olduğu düşünülüyordu, ancak Yann LeCun et al. birçok pratik problemde bunun olmadığını iddia edin.[10]
  • Geri yayılım öğrenimi, girdi vektörlerinin normalleştirilmesini gerektirmez; ancak normalleştirme performansı artırabilir.[11]
  • Geri yayılım, aktivasyon fonksiyonlarının türevlerinin ağ tasarım zamanında bilinmesini gerektirir.

Tarih

Dönem geri yayılım ve sinir ağlarındaki genel kullanımı Rumelhart, Hinton ve Williams (1986a), sonra detaylandırıldı ve popüler hale geldi Rumelhart, Hinton ve Williams (1986b), ancak teknik bağımsız olarak birçok kez yeniden keşfedildi ve 1960'lara dayanan birçok öncülü vardı.[6][12]

Sürekli geri yayılımın temelleri şu bağlamda türetilmiştir: kontrol teorisi tarafından Henry J. Kelley 1960 yılında[13] ve tarafından Arthur E. Bryson 1961'de.[14][15][16][17][18] Prensiplerini kullandılar dinamik program. 1962'de, Stuart Dreyfus yalnızca temel alınarak daha basit bir türetme yayınladı zincir kuralı.[19] Bryson ve Ho 1969'da çok aşamalı dinamik sistem optimizasyon yöntemi olarak tanımladı.[20][21] Geri yayılım, 60'lı yılların başlarında birçok araştırmacı tarafından türetilmiştir.[17] ve 1970'lerin başlarında bilgisayarlarda çalışmak üzere uygulandı. Seppo Linnainmaa.[22][23][24] Paul Werbos 1974 tarihli tezinde derinlemesine analiz ettikten sonra sinir ağları için kullanılabileceğini ilk kez ABD'de önerdi.[25] Sinir ağlarına uygulanmamış olsa da, 1970 yılında Linnainmaa için genel yöntemi yayınladı. otomatik farklılaşma (AD).[23][24] Çok tartışmalı olmasına rağmen, bazı bilim adamları bunun aslında bir geri yayılma algoritması geliştirmeye yönelik ilk adım olduğuna inanıyor.[17][18][22][26] 1973'te Dreyfus adapte oldu parametreleri hata gradyanlarıyla orantılı olarak kontrolörlerin sayısı.[27] 1974'te Werbos, bu prensibi yapay sinir ağlarına uygulama olasılığından bahsetti,[25] ve 1982'de Linnainmaa'nın AD yöntemini doğrusal olmayan fonksiyonlara uyguladı.[18][28]

Daha sonra Werbos yöntemi yeniden keşfedildi ve 1985'te Parker tarafından açıklandı,[29][30] ve 1986'da Rumelhart, Hinton ve Williams.[12][30][31] Rumelhart, Hinton ve Williams deneysel olarak bu yöntemin sinir ağlarının gizli katmanlarında gelen verilerin yararlı dahili temsillerini oluşturabileceğini gösterdiler.[8][32][33] Yann LeCun, Evrişimli Sinir Ağı mimarisinin mucidi, 1987'deki doktora tezinde sinir ağları için geri yayılım öğrenme algoritmasının modern formunu önerdi. 1993'te Eric Wan, geri yayılım yoluyla uluslararası bir örüntü tanıma yarışmasını kazandı.[17][34]

2000'li yıllarda gözden düştü, ancak 2010'larda geri döndü ve ucuz, güçlü GPU tabanlı bilgi işlem sistemleri. Bu özellikle Konuşma tanıma, makine vizyonu, doğal dil işleme ve dil yapısı öğrenme araştırması (burada ilkiyle ilgili çeşitli fenomenleri açıklamak için kullanılmıştır.[35] ve ikinci dil öğrenimi.[36]).

İnsan beynini açıklamak için hata geri yayılımı önerildi ERP gibi bileşenler N400 ve P600.[37]

Ayrıca bakınız

Notlar

  1. ^ Kullanım kayıp fonksiyonunun izin vermesi için katman sayısı için kullanılacak
  2. ^ Bu takip eder Nielsen (2015) ve matrisle (solda) çarpma anlamına gelir katmanın çıktı değerlerini dönüştürmeye karşılık gelir katman değerlerini girmek için : sütunlar giriş koordinatlarına karşılık gelir, satırlar çıktı koordinatlarına karşılık gelir.
  3. ^ Bu bölüm büyük ölçüde takip eder ve özetler Nielsen (2015).
  4. ^ Kayıp fonksiyonunun türevi bir açıcı kayıp işlevi bir skaler değerli işlev birkaç değişken.
  5. ^ Aktivasyon işlevi her düğüme ayrı ayrı uygulanır, dolayısıyla türev yalnızca Diyagonal matris her düğümde türevin. Bu genellikle şu şekilde temsil edilir: Hadamard ürünü ile gösterilen türev vektörü ile , matematiksel olarak aynı olan ancak çapraz matris yerine türevlerin bir vektör olarak iç gösterimiyle daha iyi eşleşen
  6. ^ Matris çarpımı doğrusal olduğundan, bir matrisle çarpmanın türevi yalnızca matristir: .
  7. ^ Çok katmanlı sinir ağlarının doğrusal olmayan aktivasyon işlevleri kullandığı fark edilebilir, bu nedenle doğrusal nöronlarla ilgili bir örnek belirsiz görünebilir. Bununla birlikte, çok katmanlı ağların hata yüzeyi çok daha karmaşık olsa da, yerel olarak bir paraboloit ile yaklaşık olarak tahmin edilebilir. Bu nedenle, doğrusal nöronlar basitlik ve daha kolay anlaşılması için kullanılır.
  8. ^ Birden fazla çıkış nöronu olabilir, bu durumda hata, fark vektörünün kare normudur.

Referanslar

  1. ^ Goodfellow, Bengio ve Courville 2016, s.200, " geri yayılma algoritması (Rumelhart et al., 1986a), genellikle basitçe arka plan, ..."
  2. ^ Goodfellow, Bengio ve Courville 2016, s.200, "Ayrıca, geri yayılma genellikle çok katmanlı sinir ağlarına özgü olarak yanlış anlaşılır, ancak prensipte herhangi bir işlevin türevlerini hesaplayabilir"
  3. ^ Goodfellow, Bengio ve Courville 2016, s.214, "Bu tablo doldurma stratejisine bazen dinamik program."
  4. ^ Goodfellow, Bengio ve Courville 2016, s.200, "Geri yayılma terimi genellikle çok katmanlı sinir ağları için tüm öğrenme algoritması anlamına geldiği için yanlış anlaşılır. Geri yayılım yalnızca gradyanı hesaplama yöntemini ifade ederken, stokastik gradyan inişi gibi diğer algoritmalar bu gradyanı kullanarak öğrenmeyi gerçekleştirmek için kullanılır. . "
  5. ^ a b Goodfellow, Bengio ve Courville (2016), s.217 –218), "Burada açıklanan geri yayılma algoritması, otomatik farklılaştırmaya yönelik yalnızca bir yaklaşımdır. Bu, adı verilen daha geniş bir teknik sınıfının özel bir durumudur. ters mod birikimi."
  6. ^ a b Goodfellow, Bengio ve Courville (2016), s.221 ), "Dinamik programlamaya dayalı zincir kuralının verimli uygulamaları 1960'larda ve 1970'lerde, çoğunlukla kontrol uygulamaları için ortaya çıkmaya başladı (Kelley, 1960; Bryson ve Denham, 1961; Dreyfus, 1962; Bryson ve Ho, 1969; Dreyfus, 1973 ) ama aynı zamanda duyarlılık analizi için (Linnainmaa, 1976). ... Fikir nihayet pratikte farklı şekillerde bağımsız olarak yeniden keşfedildikten sonra geliştirildi (LeCun, 1985; Parker, 1985; Rumelhart et al., 1986a). Kitap Paralel Dağıtılmış İşleme Bir bölümde geri yayılma ile ilk başarılı deneylerin bazılarının sonuçlarını sundu (Rumelhart et al., 1986b) geri yayılmanın popülerleşmesine büyük katkıda bulundu ve çok katmanlı sinir ağlarında çok aktif bir araştırma dönemi başlattı. "
  7. ^ Goodfellow, Bengio ve Courville (2016), 6.5 Geri Yayılma ve Diğer Türev Algoritmaları, s. 200–220)
  8. ^ a b Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). "Hataların geri yayılmasıyla temsilleri öğrenme". Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038 / 323533a0. S2CID  205001834.
  9. ^ Nielsen (2015), "Geri yayılımın uygulanabilmesi için ... maliyet fonksiyonumuz hakkında ne tür varsayımlar yapmamız gerekiyor? İhtiyacımız olan ilk varsayım, maliyet fonksiyonunun bir ortalama ... maliyet fonksiyonları üzerinden yazılabileceğidir. .. bireysel eğitim örnekleri için ... Maliyet hakkında yaptığımız ikinci varsayım, sinir ağından elde edilen çıktıların bir fonksiyonu olarak yazılabileceğidir ... "
  10. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Doğa. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID  26017442. S2CID  3074096.
  11. ^ Buckland, Matt; Collins, Mark (2002). AI Techniques for Game Programming. Boston: Premier Press. ISBN  1-931841-08-X.
  12. ^ a b Rumelhart; Hinton; Williams (1986). "Learning representations by back-propagating errors" (PDF). Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID  205001834.
  13. ^ Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  14. ^ Bryson, Arthur E. (1962). "A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications, 3–6 April 1961. Cambridge: Harvard Üniversitesi Yayınları. OCLC  498866871.
  15. ^ Dreyfus, Stuart E. (1990). "Artificial Neural Networks, Back Propagation, and the Kelley-Bryson Gradient Procedure". Journal of Guidance, Control, and Dynamics. 13 (5): 926–928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422.
  16. ^ Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July 2000). "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application" (PDF). Proceedings of the IEEE International Joint Conference on Neural Networks.
  17. ^ a b c d Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Nöral ağlar. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID  25462637. S2CID  11715509.
  18. ^ a b c Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
  19. ^ Dreyfus, Stuart (1962). "The numerical solution of variational problems". Journal of Mathematical Analysis and Applications. 5 (1): 30–45. doi:10.1016/0022-247x(62)90004-5.
  20. ^ Russell, Stuart; Norvig, Peter (1995). Artificial Intelligence : A Modern Approach. Englewood Cliffs: Prentice Hall. s. 578. ISBN  0-13-103805-2. The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was more or less ignored until the mid-1980s.
  21. ^ Bryson, Arthur Earl; Ho, Yu-Chi (1969). Applied optimal control: optimization, estimation, and control. Waltham: Blaisdell. OCLC  3801.
  22. ^ a b Griewank, Andreas (2012). "Who Invented the Reverse Mode of Differentiation?". Optimization Stories. Documenta Matematica, Extra Volume ISMP. pp. 389–400. S2CID  15568746.
  23. ^ a b Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6–7.
  24. ^ a b Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID  122357351.
  25. ^ a b The thesis, and some supplementary information, can be found in his book, Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN  0-471-59897-6.
  26. ^ Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN  978-0-89871-776-1.
  27. ^ Dreyfus, Stuart (1973). "The computational solution of optimal control problems with time lag". Otomatik Kontrolde IEEE İşlemleri. 18 (4): 383–385. doi:10.1109/tac.1973.1100330.
  28. ^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770.
  29. ^ Parker, D.B. (1985). "Learning Logic". Center for Computational Research in Economics and Management Science. Cambridge MA: Massachusetts Institute of Technology. Alıntı dergisi gerektirir | günlük = (Yardım Edin)
  30. ^ a b Hertz, John. (1991). Sinirsel hesaplama teorisine giriş. Krogh, Anders., Palmer, Richard G. Redwood City, Calif.: Addison-Wesley Pub. Polis. 8. ISBN  0-201-50395-6. OCLC  21522159.
  31. ^ Anderson, James Arthur, (1939- ...)., ed. Rosenfeld, Edward, ed. (1988). Neurocomputing Foundations of research. MIT Basın. ISBN  0-262-01097-6. OCLC  489622044.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı) CS1 bakimi: ek metin: yazarlar listesi (bağlantı)
  32. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986b). "8. Learning Internal Representations by Error Propagation". İçinde Rumelhart, David E.; McClelland, James L. (eds.). Parallel Distributed Processing : Explorations in the Microstructure of Cognition. Volume 1 : Foundations. Cambridge: MIT Press. ISBN  0-262-18120-7.
  33. ^ Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Basın. ISBN  978-0-262-01243-0.
  34. ^ Wan, Eric A. (1994). "Time Series Prediction by Using a Connectionist Network with Internal Delay Lines". İçinde Weigend, Andreas S.; Gershenfeld, Neil A. (eds.). Time Series Prediction : Forecasting the Future and Understanding the Past. Proceedings of the NATO Advanced Research Workshop on Comparative Time Series Analysis. Volume 15. Reading: Addison-Wesley. pp. 195–217. ISBN  0-201-62601-2. S2CID  12652643.
  35. ^ Chang, Franklin; Dell, Gary S.; Bock, Kathryn (2006). "Becoming syntactic". Psikolojik İnceleme. 113 (2): 234–272. doi:10.1037/0033-295x.113.2.234. PMID  16637761.
  36. ^ Janciauskas, Marius; Chang, Franklin (2018). "Input and Age-Dependent Variation in Second Language Learning: A Connectionist Account". Bilişsel bilim. 42: 519–554. doi:10.1111/cogs.12519. PMC  6001481. PMID  28744901.
  37. ^ Fitz, Hartmut; Chang, Franklin (2019). "Language ERPs reflect learning through prediction error propagation". Kavramsal psikoloji. 111: 15–52. doi:10.1016/j.cogpsych.2019.03.002. hdl:21.11116/0000-0003-474D-8. PMID  30921626. S2CID  85501792.

daha fazla okuma

Dış bağlantılar