Sinir ağlarının geniş genişlik sınırları - Large width limits of neural networks

Bir sinir ağının davranışı, sonsuz genişliğe ulaştıkça basitleşir. Ayrıldı: a Bayes sinir ağı iki gizli katmanla, 3 boyutlu bir girdiyi (alt) iki boyutlu çıktıya dönüştürür

{ displaystyle (y_ {1}, y_ {2})}

(üst). Sağ: çıktı olasılık yoğunluk fonksiyonu

{ displaystyle p (y_ {1}, y_ {2})}

ağın rastgele ağırlıkları tarafından tetiklenir. Video: Ağın genişliği arttıkça çıktı dağıtımı basitleşir ve sonuçta bir Sinir ağı Gauss süreci sonsuz genişlik sınırında.

Yapay sinir ağları kullanılan bir model sınıfıdır makine öğrenme ve esin kaynağı biyolojik sinir ağları. Modernin temel bileşenidirler derin öğrenme algoritmalar. Yapay sinir ağlarında hesaplama genellikle sıralı katmanları halinde düzenlenir. yapay nöronlar. Bir katmandaki nöronların sayısına katman genişliği denir. Yapay sinir ağlarının teorik analizi bazen katman genişliğinin geniş veya sonsuz olduğu sınırlayıcı durumu dikkate alır. Bu sınır, sinir ağı tahminleri, eğitim dinamikleri, genelleme ve kayıp yüzeyleri hakkında basit analitik ifadelerin yapılmasını sağlar. Bu geniş katman sınırı, sonlu genişlikteki sinir ağları genellikle katman genişliği arttıkça kesinlikle daha iyi performans gösterdiğinden pratik bir ilgi konusudur.^[1]^[2]^[3]^[4]^[5]^[6]

Büyük bir genişlik sınırına dayalı teorik yaklaşımlar

Sinir Ağı Gauss Süreci (NNGP) Bayes sinir ağlarının sonsuz genişlik sınırına ve rastgele başlatmadan sonra Bayes olmayan sinir ağları tarafından gerçekleştirilen işlevler üzerinden dağıtıma karşılık gelir.^{[kaynak belirtilmeli ]}
NNGP çekirdeğini türetmek için kullanılan aynı temel hesaplamalar da derin bilgi yayılımı derin bir ağ aracılığıyla gradyanlar ve girdiler hakkındaki bilgilerin yayılmasını karakterize etmek.^[7] Bu karakterizasyon, model eğitilebilirliğinin mimari ve başlatma hiper parametrelerine nasıl bağlı olduğunu tahmin etmek için kullanılır.
Nöral Teğet Çekirdeği Gradyan iniş eğitimi sırasında sinir ağı tahminlerinin evrimini açıklar. Sonsuz genişlik sınırında NTK genellikle sabit hale gelir ve genellikle gradyan iniş eğitimi boyunca geniş bir sinir ağı tarafından hesaplanan fonksiyon için kapalı form ifadelerine izin verir. Eğitim dinamikleri esasen doğrusallaştırılır.^[8]
Farklı bir başlangıç ağırlık ölçeklendirmesine ve uygun şekilde büyük öğrenme oranlarına sahip sonsuz genişlikteki sinir ağlarının incelenmesi, sabit sinir tanjant çekirdeği tarafından tanımlananlardan niteliksel olarak farklı doğrusal olmayan eğitim dinamiklerine yol açar.^[9]^[10]
Katapult dinamikleri, katman genişliği sonsuza götürüldüğünde günlüklerin sonsuza ayrılması durumunda sinir ağı eğitim dinamiklerini tanımlar ve erken eğitim dinamiklerinin niteliksel özelliklerini tanımlar.^[11]

Referanslar

^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sinir Ağlarında Duyarlılık ve Genelleme: Ampirik Bir Çalışma". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "Pratik Uygulamalar için Derin Sinir Ağı Modellerinin Analizi". arXiv:1605.07678. Bibcode:2016arXiv160507678C. Alıntı dergisi gerektirir | günlük = (Yardım)
^ Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Çok Kanallı Bayes Derin Evrişimli Ağlar Gauss Süreçleridir". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
^ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Sinir ağlarının genelleştirilmesinde aşırı parametreleştirmenin rolünü anlamaya doğru". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
^ Lawrence, Steve; Giles, C. Lee; Tsoi, Ah Chung (1996). "Sinir ağı hangi boyutta optimal genelleme sağlar? Geri yayılımın yakınsama özellikleri". Alıntı dergisi gerektirir | günlük = (Yardım)
^ Bartlett, P.L. (1998). "Sinir ağlarıyla örüntü sınıflandırmasının örnek karmaşıklığı: ağırlıkların boyutu ağın boyutundan daha önemlidir". Bilgi Teorisi Üzerine IEEE İşlemleri. 44 (2): 525–536. doi:10.1109/18.661502. ISSN 1557-9654.
^ Schoenholz, Samuel S .; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Derin bilgi yayılımı". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1611.01232.
^ Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018). "Sinirsel tanjant çekirdek: Sinir ağlarında yakınsama ve genelleme". Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler. arXiv:1806.07572.
^ Mei, Song Montanari, Andrea Nguyen, Phan-Minh (2018-04-18). İki Katmanlı Sinir Ağlarının Peyzajının Ortalama Alan Görünümü. OCLC 1106295873.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)
^ Nguyen, Phan-Minh; Pham Huy Tuan (2020). "Çok Katmanlı Sinir Ağlarının Ortalama Alan Sınırı için Titiz bir Çerçeve". arXiv:2001.11443 [cs.LG ].
^ Lewkowycz, Aitor; Bahri, Yasaman; Dyer, Ethan; Sohl-Dickstein, Jascha; Gur-Ari, Guy (2020). "Derin öğrenmenin büyük öğrenme hızı aşaması: mancınık mekanizması". arXiv:2003.02218 [stat.ML ].

[:7-1] Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sinir Ağlarında Duyarlılık ve Genelleme: Ampirik Bir Çalışma". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1802.08760. Bibcode:2018arXiv180208760N.

[:8-2] Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "Pratik Uygulamalar için Derin Sinir Ağı Modellerinin Analizi". arXiv:1605.07678. Bibcode:2016arXiv160507678C. Alıntı dergisi gerektirir | günlük = (Yardım)

[:1-3] Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Çok Kanallı Bayes Derin Evrişimli Ağlar Gauss Süreçleridir". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1810.05148. Bibcode:2018arXiv181005148N.

[:6-4] Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Sinir ağlarının genelleştirilmesinde aşırı parametreleştirmenin rolünü anlamaya doğru". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1805.12076. Bibcode:2018arXiv180512076N.

[5] Lawrence, Steve; Giles, C. Lee; Tsoi, Ah Chung (1996). "Sinir ağı hangi boyutta optimal genelleme sağlar? Geri yayılımın yakınsama özellikleri". Alıntı dergisi gerektirir | günlük = (Yardım)

[6] Bartlett, P.L. (1998). "Sinir ağlarıyla örüntü sınıflandırmasının örnek karmaşıklığı: ağırlıkların boyutu ağın boyutundan daha önemlidir". Bilgi Teorisi Üzerine IEEE İşlemleri. 44 (2): 525–536. doi:10.1109/18.661502. ISSN 1557-9654.

[:10-7] Schoenholz, Samuel S .; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Derin bilgi yayılımı". Uluslararası Öğrenme Temsilcileri Konferansı. arXiv:1611.01232.

[8] Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018). "Sinirsel tanjant çekirdek: Sinir ağlarında yakınsama ve genelleme". Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler. arXiv:1806.07572.

[9] Mei, Song Montanari, Andrea Nguyen, Phan-Minh (2018-04-18). İki Katmanlı Sinir Ağlarının Peyzajının Ortalama Alan Görünümü. OCLC 1106295873.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)

[10] Nguyen, Phan-Minh; Pham Huy Tuan (2020). "Çok Katmanlı Sinir Ağlarının Ortalama Alan Sınırı için Titiz bir Çerçeve". arXiv:2001.11443 [cs.LG ].

[11] Lewkowycz, Aitor; Bahri, Yasaman; Dyer, Ethan; Sohl-Dickstein, Jascha; Gur-Ari, Guy (2020). "Derin öğrenmenin büyük öğrenme hızı aşaması: mancınık mekanizması". arXiv:2003.02218 [stat.ML ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]