Artık sinir ağı - Residual neural network

Artık sinir ağının kanonik formu. Bir katman ℓ - 1 etkinleştirme üzerinden atlandı ℓ − 2.

Bir artık sinir ağı (ResNet) bir yapay sinir ağı (YSA) 'dan bilinen yapılara dayanan bir tür piramidal hücreler içinde beyin zarı. Artık sinir ağları bunu kullanarak yapar bağlantıları atlaveya kısayollar bazı katmanların üzerinden atlamak için. Tipik ResNet modeller, doğrusal olmayanlar içeren çift veya üç katmanlı atlamalarla uygulanır (ReLU ) ve toplu normalleştirme arasında.^[1]^[2] Atlama ağırlıklarını öğrenmek için ek bir ağırlık matrisi kullanılabilir; bu modeller şu şekilde bilinir Otoyol Ağları.^[3] Birkaç paralel atlama içeren modellere DenseNets.^[4]^[5] Artık sinir ağları bağlamında, artık olmayan bir ağ, bir düz ağ.

Piramidal bir hücrenin yeniden inşası. Soma ve dendritler kırmızı, akson çardak mavi ile etiketlenmiştir. (1) Soma, (2) Bazal dendrit, (3) Apikal dendrit, (4) Akson, (5) Kollateral akson.

Katmanları atlamanın bir nedeni, kaybolan gradyanlar, bitişik katman ağırlıklarını öğrenene kadar önceki bir katmandan etkinleştirmeleri yeniden kullanarak. Eğitim sırasında, ağırlıklar yukarı akış katmanını sessize almak için adapte olur^{[açıklama gerekli ]}ve önceden atlanan katmanı güçlendirin. En basit durumda, sadece bitişik tabakanın bağlantısı için ağırlıklar adapte edilir, üst tabaka için kesin ağırlıklar yoktur. Bu, en iyi, tek bir doğrusal olmayan katman üzerinden atıldığında veya ara katmanların tümü doğrusal olduğunda işe yarar. Değilse, atlanan bağlantı için açık bir ağırlık matrisi öğrenilmelidir (a HighwayNet kullanılmalıdır).

Atlama, ilk eğitim aşamalarında daha az katman kullanarak ağı etkili bir şekilde basitleştirir^{[açıklama gerekli ]}. Bu, geçecek daha az katman olduğundan, yok olan gradyanların etkisini azaltarak öğrenmeyi hızlandırır. Ağ, daha sonra atlanan katmanları yavaş yavaş geri yükler. özellik alanı. Eğitimin sonuna doğru, tüm katmanlar genişletildiğinde, manifolda daha yakın kalır.^{[açıklama gerekli ]} ve böylece daha hızlı öğrenir. Kalıntı parçaları olmayan bir sinir ağı, özellik alanının daha fazlasını keşfeder. Bu, onu manifolddan çıkmasına neden olan karışıklıklara karşı daha savunmasız hale getirir ve kurtarmak için fazladan eğitim verisi gerektirir.

Biyolojik analog

Beyin, artık ağlara benzer yapılara sahiptir. kortikal katman VI nöronları ara katmanları atlayarak katman I'den girdi alın.^[6] Şekilde bu, apikal dendritin (3) katmanları atlamasıyla karşılaştırılırken, bazal dendrit (2) önceki ve / veya aynı katmandan sinyalleri toplar.^{[not 1]}^[7] Diğer katmanlar için benzer yapılar mevcuttur.^[8] Yapay sinir ağındaki katmanlarla karşılaştırıldığında serebral korteksteki kaç katman net değildir veya beyin zarı aynı yapıyı sergiler, ancak geniş alanlarda benzer görünürler.

İleri yayılma

Tekli atlama için, katmanlar şu şekilde dizine alınabilir: ${ textstyle ell -2}$ -e ${ textstyle ell}$ veya olarak ${ textstyle ell}$ -e ${ textstyle ell +2}$ . (Senaryo ${ textstyle ell}$ netlik için kullanılır, genellikle basit olarak yazılır l.) İki indeksleme sistemi, atlamaları geri veya ileri gitmek olarak tanımlarken kullanışlıdır. Sinyal ağ üzerinden ileriye doğru akarken, atlamayı şu şekilde tanımlamak daha kolaydır: ${ textstyle ell + k}$ belirli bir katmandan, ancak bir öğrenme kuralı (geri yayılma) olarak, hangi etkinleştirme katmanını yeniden kullandığınızı tanımlamak daha kolaydır. ${ textstyle ell -k}$ , nerede ${ textstyle k-1}$ atlama numarasıdır.

Ağırlık matrisi verildiğinde ${ textstyle W ^ { ell -1, ell}}$ katmandan bağlantı ağırlıkları için ${ textstyle ell -1}$ -e ${ textstyle ell}$ ve ağırlık matrisi ${ textstyle W ^ { ell -2, ell}}$ katmandan bağlantı ağırlıkları için ${ textstyle ell -2}$ -e ${ textstyle ell}$ , sonra ileriye doğru yayılma aktivasyon işlevi aracılığıyla (aka Otoyol Ağları )

{ displaystyle { begin {align} a ^ { ell} &: = mathbf {g} (W ^ { ell -1, ell} cdot a ^ { ell -1} + b ^ { ell} + W ^ { ell -2, ell} cdot a ^ { ell -2}) &: = mathbf {g} (Z ^ { ell} + W ^ { ell -2 , ell} cdot a ^ { ell -2}) end {hizalı}}}

nerede

{ textstyle a ^ { ell}}

katmandaki nöronların aktivasyonları (çıktıları)

{ textstyle ell}

,

{ textstyle mathbf {g}}

katman için aktivasyon işlevi

{ textstyle ell}

,

{ textstyle W ^ { ell -1, ell}}

katman arasındaki nöronlar için ağırlık matrisi

{ textstyle ell -1}

ve

{ textstyle ell}

, ve

{ textstyle Z ^ { ell} = W ^ { ell -1, ell} cdot a ^ { ell -1} + b ^ { ell}}

Açık bir matrisin olmaması ${ textstyle W ^ { ell -2, ell}}$ (diğer adıyla Yeniden Ağlar), etkinleştirme işlevi aracılığıyla ileriye doğru yayılma,

{ displaystyle a ^ { ell}: = mathbf {g} (Z ^ { ell} + a ^ { ell -2})}

Bunu formüle etmenin başka bir yolu, bir kimlik matrisini ikame etmektir. ${ textstyle W ^ { ell -2, ell}}$ , ancak bu yalnızca boyutlar eşleştiğinde geçerlidir. Buna biraz kafa karıştırıcı bir şekilde kimlik bloğubu, katmandaki aktivasyonların ${ textstyle ell -2}$ katmana geçilir ${ textstyle ell}$ ağırlıklandırma olmadan.

Serebral kortekste bu tür ileri atlamalar birkaç katman için yapılır. Genellikle tüm ileri atlamalar aynı katmandan başlar ve art arda sonraki katmanlara bağlanır. Genel durumda bu (aka DenseNets )

{ displaystyle a ^ { ell}: = mathbf {g} sol (Z ^ { ell} + toplamı _ {k = 2} ^ {K} W ^ { ell -k, ell} cdot a ^ { ell -k} sağ)}

.

Geriye doğru yayılma

Sırasında geri yayılım normal yol için öğrenmek

{ displaystyle Delta w ^ { ell -1, ell}: = - eta { frac { kısmi E ^ { ell}} { kısmi w ^ { ell -1, ell}}} = - eta bir ^ { ell -1} cdot delta ^ { ell}}

ve atlama yolları için (neredeyse aynı)

{ displaystyle Delta w ^ { ell -2, ell}: = - eta { frac { kısmi E ^ { ell}} { kısmi w ^ { ell -2, ell}}} = - eta bir ^ { ell -2} cdot delta ^ { ell}}

.

Her iki durumda da

{ textstyle eta}

a öğrenme oranı (

{ textstyle eta <0)}

,

{ textstyle delta ^ { ell}}

katmandaki nöronların hata sinyali

{ textstyle ell}

, ve

{ textstyle a_ {i} ^ { ell}}

katmandaki nöronların aktivasyonu

{ textstyle ell}

.

Atlama yolunun sabit ağırlıkları varsa (örneğin, yukarıdaki gibi kimlik matrisi), o zaman güncellenmezler. Güncellenebiliyorlarsa, kural, sıradan bir geri yayılım güncelleme kuralıdır.

Genel durumda olabilir ${ textstyle K}$ yol ağırlık matrislerini atlayın, böylece

{ displaystyle Delta w ^ { ell -k, ell}: = - eta { frac { kısmi E ^ { ell}} { kısmi w ^ { ell -k, ell}}} = - eta bir ^ { ell -k} cdot delta ^ { ell}}

Öğrenme kuralları benzer olduğundan, ağırlık matrisleri aynı adımda birleştirilebilir ve öğrenilebilir.

Notlar

^ Bazı araştırmalar burada ek yapılar olduğunu gösteriyor, bu nedenle bu açıklama biraz basitleştirildi.

Referanslar

^ O, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Güneş, Jian (2015-12-10). "Görüntü Tanıma için Derin Artık Öğrenme". arXiv:1512.03385 [cs.CV ].
^ O, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Güneş, Jian (2016). "Görüntü Tanıma için Derin Artık Öğrenme" (PDF). Proc. Bilgisayarla Görme ve Örüntü Tanıma (CVPR), IEEE. Alındı 2020-04-23.
^ Srivastava, Rupesh Kumar; Greff Klaus; Schmidhuber, Jürgen (2015-05-02). "Karayolu Ağları". arXiv:1505.00387 [cs.LG ].
^ Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q .; van der Maaten, Laurens (2016-08-24). "Yoğun Bağlı Evrişimli Ağlar". arXiv:1608.06993 [cs.CV ].
^ Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q .; van der Maaten, Laurens (2017). "Yoğun Bağlı Evrişimli Ağlar" (PDF). Proc. Bilgisayarla Görme ve Örüntü Tanıma (CVPR), IEEE. Alındı 2020-04-23.
^ Thomson, AM (2010). "Neokortikal katman 6, bir inceleme". Nöroanatomide Sınırlar. 4: 13. doi:10.3389 / fnana.2010.00013. PMC 2885865. PMID 20556241.
^ Winterer, Jochen; Maier, Nikolaus; Wozny, Christian; Beed, Prateep; Breustedt, Jörg; Evangelista, Roberta; Peng, Yangfan; D’Albis, Tiziano; Kempter Richard (2017). "Medial Entorhinal Korteksin Yüzeysel Katmanları İçinde Uyarıcı Mikro Devreler". Hücre Raporları. 19 (6): 1110–1116. doi:10.1016 / j.celrep.2017.04.041. PMID 28494861.
^ Fitzpatrick, David (1996-05-01). "Görsel Korteksteki Yerel Devrelerin İşlevsel Organizasyonu: Ağaç Fareli Striate Cortex Çalışmasından İçgörüler". Beyin zarı. 6 (3): 329–341. doi:10.1093 / cercor / 6.3.329. ISSN 1047-3211. PMID 8670661.

[7] Bazı araştırmalar burada ek yapılar olduğunu gösteriyor, bu nedenle bu açıklama biraz basitleştirildi.

[1] O, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Güneş, Jian (2015-12-10). "Görüntü Tanıma için Derin Artık Öğrenme". arXiv:1512.03385 [cs.CV ].

[2] O, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Güneş, Jian (2016). "Görüntü Tanıma için Derin Artık Öğrenme" (PDF). Proc. Bilgisayarla Görme ve Örüntü Tanıma (CVPR), IEEE. Alındı 2020-04-23.

[3] Srivastava, Rupesh Kumar; Greff Klaus; Schmidhuber, Jürgen (2015-05-02). "Karayolu Ağları". arXiv:1505.00387 [cs.LG ].

[4] Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q .; van der Maaten, Laurens (2016-08-24). "Yoğun Bağlı Evrişimli Ağlar". arXiv:1608.06993 [cs.CV ].

[5] Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q .; van der Maaten, Laurens (2017). "Yoğun Bağlı Evrişimli Ağlar" (PDF). Proc. Bilgisayarla Görme ve Örüntü Tanıma (CVPR), IEEE. Alındı 2020-04-23.

[6] Thomson, AM (2010). "Neokortikal katman 6, bir inceleme". Nöroanatomide Sınırlar. 4: 13. doi:10.3389 / fnana.2010.00013. PMC 2885865. PMID 20556241.

[8] Winterer, Jochen; Maier, Nikolaus; Wozny, Christian; Beed, Prateep; Breustedt, Jörg; Evangelista, Roberta; Peng, Yangfan; D’Albis, Tiziano; Kempter Richard (2017). "Medial Entorhinal Korteksin Yüzeysel Katmanları İçinde Uyarıcı Mikro Devreler". Hücre Raporları. 19 (6): 1110–1116. doi:10.1016 / j.celrep.2017.04.041. PMID 28494861.

[9] Fitzpatrick, David (1996-05-01). "Görsel Korteksteki Yerel Devrelerin İşlevsel Organizasyonu: Ağaç Fareli Striate Cortex Çalışmasından İçgörüler". Beyin zarı. 6 (3): 329–341. doi:10.1093 / cercor / 6.3.329. ISSN 1047-3211. PMID 8670661.

[1]

[2]

[3]

[4]

[5]

[6]

[not 1]

[7]

[8]