Stokastik gradyan inişi - Stochastic gradient descent

Stokastik gradyan inişi (genellikle kısaltılır SGD) bir yinelemeli yöntem için optimize etme bir amaç fonksiyonu uygun pürüzsüzlük özellikler (ör. ayırt edilebilir veya alt farklılaşabilir ). Olarak kabul edilebilir stokastik yaklaşım nın-nin dereceli alçalma optimizasyon, çünkü gerçek gradyanın yerini aldığından (tüm veri seti ) bunun bir tahmini ile (verilerin rastgele seçilen bir alt kümesinden hesaplanır). Özellikle yüksek boyutlu optimizasyon sorunları bu, hesaplama yükü, daha düşük bir yakınsama oranı için ticarette daha hızlı yinelemeler elde etmek.[1]

Stokastik yaklaşımın arkasındaki temel fikir, Robbins – Monro algoritması 1950'lerin, stokastik gradyan inişi önemli bir optimizasyon yöntemi haline geldi. makine öğrenme.[2]

Arka fon

Her ikisi de istatistiksel tahmin ve makine öğrenme sorununu düşün küçültme bir amaç fonksiyonu toplam şeklinde olan:

nerede parametre en aza indiren olmak tahmini. Her bir özet işlevi tipik olarak ile ilişkilidir -nci gözlem içinde veri seti (eğitim için kullanılır).

Klasik istatistikte, toplamı minimizasyon problemleri, en küçük kareler ve maksimum olasılık tahmini (bağımsız gözlemler için). Toplamları en aza indirgeyenler olarak ortaya çıkan genel tahmin ediciler sınıfına denir M-tahmin ediciler. Bununla birlikte, istatistiklerde, yerel en aza indirmenin bile, maksimum olasılık tahminiyle ilgili bazı problemler için çok kısıtlayıcı olduğu uzun zamandır kabul edilmiştir.[3] Bu nedenle, çağdaş istatistik teorisyenleri genellikle sabit noktalar of olasılık işlevi (veya türevinin sıfırları, puan işlevi, ve diğeri tahmin denklemleri ).

Toplam minimizasyon problemi aynı zamanda ampirik risk minimizasyonu. Bu durumda, değeridir kayıp fonksiyonu -de -nci örnek ve ampirik risktir.

Yukarıdaki işlevi en aza indirmek için kullanıldığında, bir standart (veya "toplu iş") dereceli alçalma yöntem aşağıdaki yinelemeleri gerçekleştirir:

nerede adım boyutudur (bazen öğrenme oranı makine öğreniminde).

Çoğu durumda, özetleme işlevleri, toplam işlevinin ve toplam gradyanının pahalı olmayan değerlendirmelerine olanak sağlayan basit bir biçime sahiptir. Örneğin, istatistiklerde, tek parametreli üstel aileler ekonomik fonksiyon değerlendirmelerine ve gradyan değerlendirmelerine izin verir.

Bununla birlikte, diğer durumlarda, toplam gradyanı değerlendirmek, tüm summand fonksiyonlarından gradyanların pahalı değerlendirmelerini gerektirebilir. Eğitim seti çok büyük olduğunda ve basit bir formül bulunmadığında, gradyanların toplamını değerlendirmek çok pahalı hale gelir, çünkü gradyanı değerlendirmek, tüm summand fonksiyonlarının gradyanlarını değerlendirmeyi gerektirir. Her yinelemede hesaplama maliyetinden tasarruf etmek için, stokastik gradyan düşüşü örnekler her adımda bir summand işlevi alt kümesi. Bu, büyük ölçekli makine öğrenimi problemlerinde çok etkilidir.[4]

Yinelemeli yöntem

Mini partilere göre gradyan adımları olarak toplam amaç fonksiyonundaki dalgalanmalar alınır.

Stokastik (veya "çevrimiçi") gradyan inişinde, gerçek gradyan tek bir örnekte bir gradyan ile yaklaştırılır:

Algoritma eğitim setini tararken, her eğitim örneği için yukarıdaki güncellemeyi gerçekleştirir. Algoritma birleşene kadar eğitim seti üzerinden birkaç geçiş yapılabilir. Bu yapılırsa, döngüleri önlemek için veriler her geçişte karıştırılabilir. Tipik uygulamalar bir uyarlanabilir öğrenme oranı böylece algoritma birleşir.

Sözde kodda, stokastik gradyan inişi şu şekilde sunulabilir:

  • Bir ilk parametre vektörü seçin ve öğrenme oranı .
  • Yaklaşık bir minimum elde edilene kadar tekrarlayın:
    • Eğitim setindeki örnekleri rastgele karıştırın.
    • İçin , yapmak:

Tek bir örnekte gerçek gradyanı hesaplama ile gradyanı hesaplama arasındaki bir uzlaşma, gradyanı her adımda birden fazla eğitim örneğine ("mini parti" olarak adlandırılır) karşı hesaplamaktır. Bu, açıklanan "gerçek" stokastik gradyan inişinden önemli ölçüde daha iyi performans gösterebilir, çünkü kod şunları kullanabilir: vektörleştirme her adımı ayrı ayrı hesaplamak yerine kitaplıklar. Her adımda hesaplanan gradyan, daha fazla eğitim örneğine göre ortalaması alındığından, daha yumuşak yakınsama da sağlayabilir.

Stokastik gradyan inişinin yakınsaması aşağıdaki teoriler kullanılarak analiz edilmiştir: dışbükey küçültme ve stokastik yaklaşım. Kısaca, ne zaman öğrenme oranları uygun bir oranda düşüş ve nispeten ılımlı varsayımlara tabi olarak, stokastik gradyan iniş yakınsaması neredeyse kesin amaç işlevi olduğunda küresel bir minimuma dışbükey veya psödokonveks ve aksi takdirde neredeyse kesin olarak yerel minimuma yakınsar.[5][6]Bu aslında bir sonucudur. Robbins-Siegmund teoremi.[7]

Misal

Düz bir çizgi sığdırmak istediğimizi varsayalım gözlemler içeren bir eğitim setine ve karşılık gelen tahmini yanıtlar kullanma en küçük kareler. En aza indirilecek amaç işlevi şudur:

Bu özel problem için yukarıdaki sözde kodun son satırı şöyle olacaktır:

Her yinelemede (güncelleme olarak da adlandırılır), yalnızca renk geçişinin tek bir noktada değerlendirildiğini unutmayın. tüm numunelerin kümesinde değerlendirmek yerine.

Standart (Toplu) Gradyan İniş ile karşılaştırıldığında en önemli fark, adımı hesaplamak için veri kümesinden yalnızca bir veri parçasının kullanılması ve her adımda veri parçasının rastgele seçilmesidir.

Önemli uygulamalar

Stokastik gradyan inişi, çok çeşitli modelleri eğitmek için popüler bir algoritmadır. makine öğrenme dahil (doğrusal) Vektör makineleri desteklemek, lojistik regresyon (bkz. ör. Vowpal Wabbit ) ve grafik modeller.[8] İle birleştirildiğinde geri yayılım algoritma, bu fiili eğitim için standart algoritma yapay sinir ağları.[9] Kullanımı da rapor edilmiştir. Jeofizik topluluk, özellikle Full Waveform Inversion (FWI) uygulamaları için.[10]

Stokastik gradyan inişi, L-BFGS algoritma[kaynak belirtilmeli ] aynı zamanda yaygın olarak kullanılmaktadır. Stokastik gradyan inişi eğitim için en az 1960'tan beri kullanılmaktadır doğrusal regresyon modeller, başlangıçta adı altında ADALINE.[11]

Başka bir stokastik gradyan iniş algoritması, en küçük ortalama kareler (LMS) uyarlanabilir filtre.

Uzantılar ve varyantlar

Temel stokastik gradyan iniş algoritmasında birçok iyileştirme önerilmiş ve kullanılmıştır. Özellikle makine öğreniminde, bir öğrenme oranı (adım boyutu) sorunlu olarak kabul edildi. Bu parametrenin çok yüksek ayarlanması, algoritmanın farklılaşmasına neden olabilir; çok düşük ayarlamak yakınsamayı yavaşlatır.[12] Stokastik gradyan inişinin kavramsal olarak basit bir uzantısı, öğrenme oranını azalan bir fonksiyon haline getirir ηt yineleme numarasının t, vermek öğrenme oranı çizelgesi, böylece ilk yinelemeler parametrelerde büyük değişikliklere neden olurken, sonrakiler yalnızca ince ayar yapar. Bu tür programlar, MacQueen'in çalışmasından beri bilinmektedir. k- kümeleme anlamına gelir.[13] Çeşitli SGD varyantlarında basamak boyutunu seçme konusunda pratik rehberlik Spall tarafından verilmektedir.[14]

Örtülü güncellemeler (ISGD)

Daha önce bahsedildiği gibi, klasik stokastik gradyan inişi genellikle öğrenme oranı η. Hızlı yakınsama, büyük öğrenme oranları gerektirir, ancak bu sayısal istikrarsızlığa neden olabilir. Sorun büyük ölçüde çözülebilir[15] dikkate alarak örtük güncellemeler burada stokastik gradyan, geçerli olan yerine bir sonraki yinelemede değerlendirilir:

Bu denklem örtüktür çünkü denklemin her iki tarafında da görünür. Bu, stokastik bir proksimal gradyan yöntemi çünkü güncelleme şu şekilde de yazılabilir:

Örnek olarak, unsurları olan en küçük kareleri düşünün ve gözlemler. Çözmek istiyoruz:

nerede iç çarpımı gösterir. bir kesişim içeren ilk öğe olarak "1" olabilir. Klasik stokastik gradyan inişi şu şekilde ilerler:

nerede 1 ile 1 arasında eşit olarak örneklenir . Bu prosedürün teorik yakınsaması nispeten hafif varsayımlar altında gerçekleşmesine rağmen, pratikte prosedür oldukça istikrarsız olabilir. Özellikle ne zaman yanlış belirtildiğinden yüksek olasılıkla büyük mutlak özdeğerlere sahipse, prosedür birkaç yineleme içinde sayısal olarak farklı olabilir. Tersine, örtük stokastik gradyan inişi (ISGD olarak kısaltılmıştır) aşağıdaki gibi kapalı biçimde çözülebilir:

Bu prosedür neredeyse herkes için sayısal olarak sabit kalacaktır. olarak öğrenme oranı şimdi normalleştirildi. En küçük kareler probleminde klasik ve örtük stokastik gradyan inişi arasındaki bu tür bir karşılaştırma, arasındaki karşılaştırmaya çok benzerdir. en küçük ortalama kareler (LMS) ve normalleştirilmiş en küçük ortalama kareler filtresi (NLMS).

ISGD için kapalı form çözümü yalnızca en küçük karelerde mümkün olsa da, prosedür geniş bir model yelpazesinde verimli bir şekilde uygulanabilir. Özellikle varsayalım ki bağlıdır yalnızca özelliklerle doğrusal bir kombinasyon yoluyla , böylece yazabiliriz , nerede bağlı olabilir yanı sıra ama açık değil hariç . En küçük kareler bu kurala uyar ve lojistik regresyon, ve en genelleştirilmiş doğrusal modeller. Örneğin, en küçük karelerde, ve lojistik regresyonda , nerede ... lojistik fonksiyon. İçinde Poisson regresyonu, , ve benzeri.

Bu tür ortamlarda, ISGD basitçe aşağıdaki gibi uygulanır. İzin Vermek , nerede ISGD şuna eşdeğerdir:

Ölçekleme faktörü aracılığıyla bulunabilir ikiye bölme yöntemi çünkü yukarıda bahsedilen genelleştirilmiş doğrusal modeller gibi çoğu normal modelde fonksiyon azalıyor ve bu nedenle arama sınırları vardır .

İtme

Diğer teklifler şunları içerir: momentum yöntemi, ortaya çıkan Rumelhart, Hinton ve Williams 'geri yayılım öğrenimi üzerine kağıt.[16] Momentum ile stokastik gradyan inişi güncellemeyi hatırlıyor Δ w her yinelemede ve sonraki güncellemeyi bir doğrusal kombinasyon gradyan ve önceki güncelleme:[17][18]

bu şuna sebebiyet verir:

nerede parametre en aza indiren olmak tahmini, adım boyutudur (bazen öğrenme oranı makine öğreniminde) ve üstel bozunma faktörü Geçerli degradenin ve önceki degradelerin ağırlık değişimine göreceli katkısını belirleyen 0 ile 1 arasında.

Momentum adı bir benzetmeden kaynaklanıyor itme fizikte: ağırlık vektörü , parametre uzayında seyahat eden bir parçacık olarak düşünüldü,[16] kaybın gradyanından hızlanma meydana gelir ("güç Klasik stokastik gradyan inişinden farklı olarak, salınımları önleyerek aynı yönde hareket etmeye devam etme eğilimindedir. Momentum, bilgisayar bilimcileri tarafından eğitiminde başarıyla kullanılmıştır. yapay sinir ağları onlarca yıldır.[19]

Ortalama

Ortalama stokastik gradyan inişi, Ruppert ve Polyak tarafından 1980'lerin sonunda bağımsız olarak icat edilen, zaman içinde parametre vektörünün ortalamasını kaydeden sıradan stokastik gradyan inişidir. Yani, güncelleme sıradan stokastik gradyan inişiyle aynıdır, ancak algoritma aynı zamanda[20]

.

Optimizasyon yapıldığında, bu ortalama parametre vektörü, w.

AdaGrad

AdaGrad (uyarlanabilir gradyan algoritması) değiştirilmiş bir stokastik gradyan iniş algoritmasıdır. öğrenme oranı, ilk olarak 2011'de yayınlandı.[21] Gayri resmi olarak, bu daha seyrek parametreler için öğrenme oranını arttırır ve daha az seyrek olanlar için öğrenme oranını düşürür. Bu strateji, verilerin seyrek ve seyrek parametrelerin daha bilgilendirici olduğu ortamlarda genellikle standart stokastik gradyan inişine göre yakınsama performansını iyileştirir. Bu tür uygulamaların örnekleri arasında doğal dil işleme ve görüntü tanıma yer alır.[21] Hala temel bir öğrenme oranına sahip η, ancak bu bir vektörün öğeleriyle çarpılır {Gj,j} hangisinin köşegeni dış ürün matris

nerede , gradyan, yinelemede τ. Köşegen verilir

.

Bu vektör her yinelemeden sonra güncellenir. Bir güncellemenin formülü artık

[a]

veya parametre güncellemeleri olarak yazılır,

Her biri {G(ben,ben)} tek bir parametre için geçerli olan öğrenme oranı için bir ölçeklendirme faktörüne yol açar wben. Bu faktördeki payda olduğundan, ... 2 norm önceki türevlerin içinde, aşırı parametre güncellemeleri azalırken, az sayıda veya küçük güncelleme alan parametreler daha yüksek öğrenme oranları elde ediyor.[19]

İçin tasarlanırken dışbükey problemler AdaGrad, dışbükey olmayan optimizasyona başarıyla uygulandı.[22]

RMSProp

RMSProp (Kök Ortalama Kare Yayılımı için) aynı zamanda öğrenme oranı parametrelerin her biri için uyarlanmıştır. Buradaki fikir, bir ağırlığın öğrenme oranını, o ağırlık için son gradyanların büyüklüklerinin değişen ortalamasına bölmektir.[23]Yani, ilk olarak, ortalama kare cinsinden hesaplanır,

nerede, unutma faktörüdür.

Ve parametreler şu şekilde güncellenir:

RMSProp, farklı uygulamalarda öğrenme hızının iyi bir şekilde uyarlandığını göstermiştir. RMSProp bir genelleme olarak görülebilir. Rprop ve sadece tam partilerin aksine mini partilerle çalışabilir.[24]

Adam

Adam[25] (Uyarlanabilir Moment Tahmininin kısaltması), RMSProp optimize edici. Bu optimizasyon algoritmasında, gradyanların hem gradyanlarının hem de ikinci momentlerinin ortalamaları kullanılır. Verilen parametreler ve bir kayıp işlevi , nerede mevcut eğitim yinelemesini dizine ekler ( ), Adam'ın parametre güncellemesi şu şekilde verilir:

nerede küçük bir skalerdir (ör. ) 0'a bölünmeyi önlemek için kullanılır ve (ör. 0.9) ve (ör. 0,999) sırasıyla gradyanlar ve ikinci gradyan anları için unutkan faktörlerdir. Kare alma ve karekökleme, eleman bazında yapılır.

Geri izleme hattı araması

Geri izleme hattı araması gradyan inişinin başka bir çeşididir. Aşağıdakilerin tümü, belirtilen bağlantıdan kaynaklanmaktadır. Armijo-Goldstein koşulu olarak bilinen bir duruma dayanmaktadır. Her iki yöntem de öğrenme oranlarının her yinelemede değişmesine izin verir; ancak değişimin tarzı farklıdır. Geri izleme hattı araması, Armijo'nun durumunu kontrol etmek için işlev değerlendirmelerini kullanır ve prensipte, algoritmadaki öğrenme hızlarını belirleme döngüsü önceden uzun ve bilinmeyen olabilir. Uyarlanabilir SGD, öğrenme oranlarını belirlemede bir döngüye ihtiyaç duymaz. Öte yandan, uyarlanabilir SGD, Backtracking çizgi aramasının sahip olduğu "iniş özelliğini" garanti etmez, bu da hepsi için Maliyet fonksiyonunun gradyanı, Lipschitz sabiti L ile global olarak sürekli Lipschitz ise ve öğrenme oranı 1 / L'den seçildiyse, SGD'nin standart versiyonu, geri izleme satırı aramasının özel bir durumudur.

İkinci Derece Yöntemler

Standart (deterministik) Newton-Raphson algoritmasının bir stokastik analoğu (bir "ikinci dereceden" yöntem), stokastik yaklaşımın ayarlanmasında asimptotik olarak optimal veya neredeyse optimal bir iteratif optimizasyon formu sağlar.[kaynak belirtilmeli ]. Doğrudan ölçümleri kullanan bir yöntem Hessen matrisleri Ampirik risk fonksiyonundaki zirvelerin bir kısmı Byrd, Hansen, Nocedal ve Singer tarafından geliştirilmiştir.[26] Ancak, optimizasyon için gerekli Hessian matrislerinin doğrudan belirlenmesi pratikte mümkün olmayabilir. Doğrudan Hessen bilgisi gerektirmeyen, SGD'nin ikinci dereceden sürümleri için pratik ve teorik olarak sağlam yöntemler, Spall ve diğerleri tarafından verilmektedir.[27][28][29] (Eşzamanlı karışıklıklar yerine sonlu farklılıklara dayalı daha az verimli bir yöntem Ruppert tarafından verilmiştir.[30]) Doğrudan Hessen bilgisi gerektirmeyen bu yöntemler, yukarıdaki ampirik risk fonksiyonundaki toplam değerlerin değerlerine veya toplamların gradyanlarının değerlerine (yani SGD girişleri) dayanmaktadır. Özellikle, ikinci derece optimallik, ampirik risk fonksiyonundaki summandların Hessian matrislerinin doğrudan hesaplanması olmadan asimptotik olarak elde edilebilir.

Notlar

  1. ^ ... element-wise ürün.

Ayrıca bakınız

Referanslar

  1. ^ Bottou, Léon; Bousquet, Olivier (2012). "Büyük Ölçekli Öğrenmenin Ödünleşimleri". Sra, Suvrit'te; Nowozin, Sebastian; Wright, Stephen J. (editörler). Makine Öğrenimi Optimizasyonu. Cambridge: MIT Press. s. 351–368. ISBN  978-0-262-01646-9.
  2. ^ Bottou, Léon (1998). "Çevrimiçi Algoritmalar ve Stokastik Yaklaşımlar". Çevrimiçi Öğrenme ve Sinir Ağları. Cambridge University Press. ISBN  978-0-521-65263-6.
  3. ^ Ferguson, Thomas S. (1982). "Tutarsız bir maksimum olasılık tahmini". Amerikan İstatistik Derneği Dergisi. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR  2287314.
  4. ^ Bottou, Léon; Bousquet, Olivier (2008). Büyük Ölçekli Öğrenmenin Ödünleşimleri. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler. 20. s. 161–168.
  5. ^ Bottou, Léon (1998). "Çevrimiçi Algoritmalar ve Stokastik Yaklaşımlar". Çevrimiçi Öğrenme ve Sinir Ağları. Cambridge University Press. ISBN  978-0-521-65263-6.
  6. ^ Kiwiel, Krzysztof C. (2001). "Yarı konveks minimizasyonu için alt gradyan yöntemlerinin yakınsaması ve verimliliği". Matematiksel Programlama, Seri A. 90 (1). Berlin, Heidelberg: Springer. s. 1–25. doi:10.1007 / PL00011414. ISSN  0025-5610. BAY  1819784.
  7. ^ Robbins, Herbert; Siegmund, David O. (1971). "Negatif olmayan neredeyse süperartingaller ve bazı uygulamalar için bir yakınsama teoremi". Rustagi'de, Jagdish S. (ed.). İstatistiklerde Yöntemleri Optimize Etme. Akademik Basın. ISBN  0-12-604550-X.
  8. ^ Jenny Rose Finkel, Alex Kleeman, Christopher D.Manning (2008). Verimli, Özellik Tabanlı, Koşullu Rastgele Alan Ayrıştırma. Proc. ACL Yıllık Toplantısı.
  9. ^ LeCun, Yann A., vd. "Etkili backprop." Sinir ağları: Ticaretin püf noktaları. Springer Berlin Heidelberg, 2012. 9-48
  10. ^ Díaz, Esteban ve Guitton, Antoine. "Rastgele atış katsayısı ile hızlı tam dalga formu ters çevirme". SEG Teknik Program Genişletilmiş Özetler, 2011. 2804-2808
  11. ^ Avi Pfeffer. "CS181 Ders 5 - Algılayıcılar" (PDF). Harvard Üniversitesi.[kalıcı ölü bağlantı ]
  12. ^ İyi arkadaş Ian; Bengio, Yoshua; Courville, Aaron (2016). Derin Öğrenme. MIT Basın. s. 291. ISBN  978-0262035613.
  13. ^ Alıntı yapan Darken, Christian; Moody, John (1990). Hızlı uyarlanabilir k-kümeleme anlamına gelir: bazı deneysel sonuçlar. Uluslararası Ortak Konf. Sinir Ağlarında (IJCNN). IEEE. doi:10.1109 / IJCNN.1990.137720.
  14. ^ Spall, J.C. (2003). Stokastik Arama ve Optimizasyona Giriş: Tahmin, Simülasyon ve Kontrol. Hoboken, NJ: Wiley. pp. Bölüm 4.4, 6.6 ve 7.5. ISBN  0-471-33052-3.
  15. ^ Toulis, Panos; Airoldi, Edoardo (2017). "Stokastik gradyanlara dayalı tahmin edicilerin asimptotik ve sonlu örnekleme özellikleri". İstatistik Yıllıkları. 45 (4): 1694–1727. arXiv:1408.2923. doi:10.1214 / 16-AOS1506. S2CID  10279395.
  16. ^ a b Rumelhart, David E .; Hinton, Geoffrey E .; Williams, Ronald J. (8 Ekim 1986). "Hataların geri yayılmasıyla temsilleri öğrenme". Doğa. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038 / 323533a0. S2CID  205001834.
  17. ^ Sutskever, Ilya; Martens, James; Dahl, George; Hinton, Geoffrey E. (Haziran 2013). Sanjoy Dasgupta ve David Mcallester (ed.). Derin öğrenmede başlatma ve momentumun önemi hakkında (PDF). Makine öğrenimi üzerine 30. uluslararası konferansın Bildirilerinde (ICML-13). 28. Atlanta, GA. s. 1139–1147. Alındı 14 Ocak 2016.
  18. ^ Sutskever, Ilya (2013). Tekrarlayan sinir ağlarını eğitmek (PDF) (Doktora). Toronto Üniversitesi. s. 74.
  19. ^ a b Zeiler, Matthew D. (2012). "ADADELTA: Uyarlanabilir bir öğrenme hızı yöntemi". arXiv:1212.5701 [cs.LG ].
  20. ^ Polyak, Boris T .; Juditsky, Anatoli B. (1992). "Ortalamayla stokastik yaklaşımın hızlanması" (PDF). SIAM J. Control Optim. 30 (4): 838–855. doi:10.1137/0330046.
  21. ^ a b Duchi, John; Hazan, Elad; Şarkıcı, Yoram (2011). "Çevrimiçi öğrenme ve stokastik optimizasyon için uyarlanabilir alt gradyan yöntemleri" (PDF). JMLR. 12: 2121–2159.
  22. ^ Gupta, Maya R .; Bengio, Samy; Weston, Jason (2014). "Çok sınıflı sınıflandırıcıların eğitimi" (PDF). JMLR. 15 (1): 1461–1492.
  23. ^ Hinton, Geoffrey. "Ders 6e rmsprop: Eğimi, yakın zamandaki büyüklüğünün değişen ortalamasına bölün" (PDF). s. 26. Alındı 19 Mart 2020.
  24. ^ Hinton, Geoffrey. "Ders 6e rmsprop: Eğimi, yakın zamandaki büyüklüğünün değişen ortalamasına bölün" (PDF). s. 29. Alındı 19 Mart 2020.
  25. ^ Diederik, Kingma; Ba, Jimmy (2014). "Adam: Stokastik optimizasyon için bir yöntem". arXiv:1412.6980 [cs.LG ].
  26. ^ Byrd, R. H .; Hansen, S. L .; Nocedal, J .; Şarkıcı, Y. (2016). "Büyük Ölçekli Optimizasyon için Stokastik Quasi-Newton yöntemi". SIAM Optimizasyon Dergisi. 26 (2): 1008–1031. arXiv:1401.7020. doi:10.1137/140954362. S2CID  12396034.
  27. ^ Spall, J.C. (2000). "Eşzamanlı Pertürbasyon Yöntemi ile Uyarlanabilir Stokastik Yaklaşım". Otomatik Kontrolde IEEE İşlemleri. 45 (10): 1839−1853. doi:10.1109 / TAC.2000.880982.
  28. ^ Spall, J.C. (2009). "Uyarlanabilir Eşzamanlı Pertürbasyon Algoritmasında Jakoben Tahminlerini İyileştirmek için Geri Bildirim ve Ağırlık Mekanizmaları". Otomatik Kontrolde IEEE İşlemleri. 54 (6): 1216–1229. doi:10.1109 / TAC.2009.2019793.
  29. ^ Bhatnagar, S .; Prasad, H.L .; Prashanth, L.A. (2013). Optimizasyon için Stokastik Özyineli Algoritmalar: Eşzamanlı Pertürbasyon Yöntemleri. Londra: Springer. ISBN  978-1-4471-4284-3.
  30. ^ Ruppert, D. (1985). "Çok Değişkenli Robbins-Monro Prosedürünün Newton-Raphson Versiyonu". İstatistik Yıllıkları. 13 (1): 236–245. doi:10.1214 / aos / 1176346589.

daha fazla okuma

Dış bağlantılar