Türevlenebilir sinir bilgisayarı - Differentiable neural computer

Yoğun ikili sayıları depolamak ve geri çağırmak için eğitilen farklılaştırılabilir bir sinir bilgisayarı. Gösterilen eğitim sırasında bir referans görevin performansı. Sol üst: giriş (kırmızı) ve hedef (mavi), 5 bit olarak kelimeler ve 1 bitlik bir kesinti sinyali. Sağ üst: modelin çıktısı.

İçinde yapay zeka, bir ayırt edilebilir sinirsel bilgisayar (DNC) bir bellek artırılmış sinir ağı mimari (MANN), tipik olarak (tanım gereği değil) uygulamasında yinelenir. Model 2016 yılında Alex Graves et al. nın-nin Derin Düşünce.^[1]

Başvurular

DNC dolaylı olarak ilham alır Von-Neumann mimarisi, temelde algoritmik olan ve bularak öğrenilemeyen görevlerde geleneksel mimarilerden daha iyi performans gösterme olasılığını sağlar. karar sınırı.

Şimdiye kadar, DNC'lerin yalnızca geleneksel programlama kullanılarak çözülebilen nispeten basit görevleri yerine getirdiği gösterilmiştir. Ancak DNC'lerin her sorun için programlanması gerekmez, bunun yerine eğitilebilir. Bu dikkat süresi, kullanıcının karmaşık veri yapıları gibi grafikler sırayla ve daha sonra kullanmak üzere geri çağırın. Ayrıca, aşağıdakilerin yönlerini öğrenebilirler: sembolik akıl yürütme ve bunu çalışma belleğine uygulayın. Yöntemi yayınlayan araştırmacılar, DNC'lerin karmaşık, yapılandırılmış görevleri yerine getirmek için eğitilebileceğine dair söz veriyor.^[1]^[2] ve video yorumları veya anlamsal metin analizi oluşturma gibi bir tür mantık gerektiren büyük veri uygulamalarını ele alın.^[3]^[4]

DNC, gezinmek için eğitilebilir hızlı geçiş sistemleri ve bu ağı farklı bir sisteme uygulayın. Belleği olmayan bir sinir ağı, tipik olarak her geçiş sistemi hakkında sıfırdan bilgi edinmek zorunda kalır. Grafik geçişinde ve dizi işleme görevlerinde denetimli öğrenme DNC'ler, aşağıdaki gibi alternatiflerden daha iyi performans gösterdi: uzun kısa süreli hafıza veya bir sinirsel turing makinesi.^[5] Birlikte pekiştirmeli öğrenme esinlenerek bir blok bulmaca problemine yaklaşım SHRDLU DNC, müfredat öğrenimi yoluyla eğitildi ve bir plan. Gelenekselden daha iyi performans gösterdi tekrarlayan sinir ağı.^[5]

Mimari

DNC sistem şeması

DNC ağları, Nöral Turing Makinesi (NTM), hafızanın nerede saklandığını kontrol eden hafıza dikkat mekanizmalarının ve olayların sırasını kaydeden zamansal dikkatin eklenmesiyle. Bu yapı, DNC'lerin bir NTM'den daha sağlam ve soyut olmasına ve yine de Uzun Kısa Süreli Bellek (Long Short Term MemoryLSTM ). Basitçe bir matris olan bellek dinamik olarak tahsis edilebilir ve sonsuza kadar erişilebilir. DNC, ayırt edilebilir uçtan uca (modelin her bir alt bileşeni farklılaştırılabilir, dolayısıyla tüm model de öyle). Bu, onları verimli bir şekilde optimize etmeyi mümkün kılar dereceli alçalma.^[3]^[6]^[7]

DNC modeli, Von Neumann mimarisi ve hafızanın yeniden boyutlandırılabilirliği nedeniyle Turing tamamlandı.^[8]

Geleneksel DNC

DNC, orijinal olarak yayınlandı^[1]

Bağımsız değişkenler
${ displaystyle mathbf {x} _ {t}}$	Giriş vektörü
${ displaystyle mathbf {z} _ {t}}$	Hedef vektör
Kontrolör
${ displaystyle { boldsymbol { chi}} _ {t} = [ mathbf {x} _ {t}; mathbf {r} _ {t-1} ^ {1}; cdots; mathbf {r } _ {t-1} ^ {R}]}$	Denetleyici giriş matrisi

Derin (katmanlı) LSTM	${ displaystyle forall ; 0 leq l leq L}$
${ displaystyle mathbf {i} _ {t} ^ {l} = sigma (W_ {i} ^ {l} [{ boldsymbol { chi}} _ {t}; mathbf {h} _ {t -1} ^ {l}; mathbf {h} _ {t} ^ {l-1}] + mathbf {b} _ {i} ^ {l})}$	Giriş kapısı vektörü
${ displaystyle mathbf {o} _ {t} ^ {l} = sigma (W_ {o} ^ {l} [{ boldsymbol { chi}} _ {t}; mathbf {h} _ {t -1} ^ {l}; mathbf {h} _ {t} ^ {l-1}] + mathbf {b} _ {o} ^ {l})}$	Çıkış kapısı vektörü
${ displaystyle mathbf {f} _ {t} ^ {l} = sigma (W_ {f} ^ {l} [{ boldsymbol { chi}} _ {t}; mathbf {h} _ {t -1} ^ {l}; mathbf {h} _ {t} ^ {l-1}] + mathbf {b} _ {f} ^ {l})}$	Kapı vektörünü unut
${ displaystyle mathbf {s} _ {t} ^ {l} = mathbf {f} _ {t} ^ {l} mathbf {s} _ {t-1} ^ {l} + mathbf {i } _ {t} ^ {l} tanh (W_ {s} ^ {l} [{ boldsymbol { chi}} _ {t}; mathbf {h} _ {t-1} ^ {l}; mathbf {h} _ {t} ^ {l-1}] + mathbf {b} _ {s} ^ {l})}$	Devlet kapısı vektörü, ${ displaystyle s_ {0} = 0}$
${ displaystyle mathbf {h} _ {t} ^ {l} = mathbf {o} _ {t} ^ {l} tanh ( mathbf {s} _ {t} ^ {l})}$	Gizli kapı vektörü, ${ displaystyle h_ {0} = 0; h_ {t} ^ {0} = 0 ; forall ; t}$

${ displaystyle mathbf {y} _ {t} = W_ {y} [ mathbf {h} _ {t} ^ {1}; cdots; mathbf {h} _ {t} ^ {L}] + W_ {r} [ mathbf {r} _ {t} ^ {1}; cdots; mathbf {r} _ {t} ^ {R}]}$	DNC çıktı vektörü
Okuma ve Yazma kafaları
${ displaystyle xi _ {t} = W _ { xi} [h_ {t} ^ {1}; cdots; h_ {t} ^ {L}]}$	Arayüz parametreleri
${ displaystyle = [ mathbf {k} _ {t} ^ {r, 1}; cdots; mathbf {k} _ {t} ^ {r, R}; { hat { beta}} _ { t} ^ {r, 1}; cdots; { hat { beta}} _ {t} ^ {r, R}; mathbf {k} _ {t} ^ {w}; { hat { beta _ {t} ^ {w}}}; mathbf { hat {e}} _ {t}; mathbf {v} _ {t}; { hat {f_ {t} ^ {1}}} ; cdots; { hat {f_ {t} ^ {R}}}; { hat {g}} _ {t} ^ {a}; { hat {g}} _ {t} ^ {w} ; { hat { boldsymbol { pi}}} _ {t} ^ {1}; cdots; { hat { boldsymbol { pi}}} _ {t} ^ {R}]}$

Kafaları okuyun	${ displaystyle forall ; 1 leq i leq R}$
${ displaystyle mathbf {k} _ {t} ^ {r, i}}$	Anahtarları oku
${ displaystyle beta _ {t} ^ {r, i} = { text {oneplus}} ({ hat { beta}} _ {t} ^ {r, i})}$	Güçlü yönleri okuyun
${ displaystyle f_ {t} ^ {i} = sigma ({ hat {f}} _ {t} ^ {i})}$	Ücretsiz kapılar
${ displaystyle { boldsymbol { pi}} _ {t} ^ {i} = { text {softmax}} ({ hat { boldsymbol { pi}}} _ {t} ^ {i})}$	Modları okuyun, ${ displaystyle { boldsymbol { pi}} _ {t} ^ {i} in mathbb {R} ^ {3}}$

Kafa yaz
${ displaystyle mathbf {k} _ {t} ^ {w}}$	Anahtar yaz
${ displaystyle beta _ {t} ^ {w} = { hat { beta}} _ {t} ^ {w}}$	Yazma gücü
${ displaystyle mathbf {e} _ {t} = sigma ( mathbf { hat {e}} _ {t})}$	Vektörü sil
${ displaystyle mathbf {v} _ {t}}$	Vektör yaz
${ displaystyle g_ {t} ^ {a} = sigma ({ hat {g}} _ {t} ^ {a})}$	Tahsis kapısı
${ displaystyle g_ {t} ^ {w} = sigma ({ hat {g}} _ {t} ^ {w})}$	Yazma kapısı
Hafıza
${ displaystyle M_ {t} = M_ {t-1} circ (E- mathbf {w} _ {t} ^ {w} mathbf {e} _ {t} ^ { intercal}) + mathbf {w} _ {t} ^ {w} mathbf {v} _ {t} ^ { intercal}}$	Bellek matrisi, Birlerin matrisi ${ displaystyle E in mathbb {R} ^ {N times W}}$
${ displaystyle mathbf {u} _ {t} = ( mathbf {u} _ {t-1} + mathbf {w} _ {t-1} ^ {w} - mathbf {u} _ {t -1} circ mathbf {w} _ {t-1} ^ {w}) circ { boldsymbol { psi}} _ {t}}$	Kullanım vektörü
${ displaystyle mathbf {p} _ {t} = sol (1- toplamı _ {i} mathbf {w} _ {t} ^ {w} [i] sağ) mathbf {p} _ { t-1} + mathbf {w} _ {t} ^ {w}}$	Öncelik ağırlıklandırma, ${ displaystyle mathbf {p} _ {0} = mathbf {0}}$
${ displaystyle L_ {t} = ( mathbf {1} - mathbf {I}) sol [(1- mathbf {w} _ {t} ^ {w} [i] - mathbf {w} _ {t} ^ {j}) L_ {t-1} [i, j] + mathbf {w} _ {t} ^ {w} [i] mathbf {p} _ {t-1} ^ {j }sağ]}$	Zamansal bağlantı matrisi, ${ displaystyle L_ {0} = mathbf {0}}$
${ displaystyle mathbf {w} _ {t} ^ {w} = g_ {t} ^ {w} [g_ {t} ^ {a} mathbf {a} _ {t} + (1-g_ {t } ^ {a}) mathbf {c} _ {t} ^ {w}]}$	Ağırlık yaz
${ displaystyle mathbf {w} _ {t} ^ {r, i} = { boldsymbol { pi}} _ {t} ^ {i} [1] mathbf {b} _ {t} ^ {i } + { boldsymbol { pi}} _ {t} ^ {i} [2] c_ {t} ^ {r, i} + { boldsymbol { pi}} _ {t} ^ {i} [3 ] f_ {t} ^ {i}}$	Ağırlıklandırmayı okuyun
${ displaystyle mathbf {r} _ {t} ^ {i} = M_ {t} ^ { intercal} mathbf {w} _ {t} ^ {r, i}}$	Vektörleri oku

${ displaystyle { mathcal {C}} (M, mathbf {k}, beta) [i] = { frac { exp {{ mathcal {D}} ( mathbf {k}, M [ i, cdot]) beta }} { sum _ {j} exp {{ mathcal {D}} ( mathbf {k}, M [j, cdot]) beta }}} }$	İçerik bazlı adresleme, Arama anahtarı ${ displaystyle mathbf {k}}$ , anahtar gücü ${ displaystyle beta}$
${ displaystyle phi _ {t}}$	Endeksleri ${ displaystyle mathbf {u} _ {t}}$ , artan kullanım sırasına göre sıralanmış
${ displaystyle mathbf {a} _ {t} [ phi _ {t} [j]] = (1- mathbf {u} _ {t} [ phi _ {t} [j]]) prod _ {i = 1} ^ {j-1} mathbf {u} _ {t} [ phi _ {t} [i]]}$	Tahsis ağırlıklandırma
${ displaystyle mathbf {c} _ {t} ^ {w} = { mathcal {C}} (M_ {t-1}, mathbf {k} _ {t} ^ {w}, beta _ { t} ^ {w})}$	İçerik ağırlıklandırması yazın
${ displaystyle mathbf {c} _ {t} ^ {r, i} = { mathcal {C}} (M_ {t-1}, mathbf {k} _ {t} ^ {r, i}, beta _ {t} ^ {r, i})}$	İçerik ağırlıklandırmasını okuyun
${ displaystyle mathbf {f} _ {t} ^ {i} = L_ {t} mathbf {w} _ {t-1} ^ {r, i}}$	İleri ağırlıklandırma
${ displaystyle mathbf {b} _ {t} ^ {i} = L_ {t} ^ { intercal} mathbf {w} _ {t-1} ^ {r, i}}$	Geriye doğru ağırlıklandırma
${ displaystyle { boldsymbol { psi}} _ {t} = prod _ {i = 1} ^ {R} sol ( mathbf {1} -f_ {t} ^ {i} mathbf {w} _ {t-1} ^ {r, i} sağ)}$	Bellek tutma vektörü
Tanımlar
${ displaystyle mathbf {W}, mathbf {b}}$	Ağırlık matrisi, önyargı vektörü
${ displaystyle mathbf {0}, mathbf {1}, mathbf {I}}$	Sıfırlar matrisi, birler matrisi, özdeşlik matrisi
${ displaystyle circ}$	Element-bilge çarpma
${ displaystyle { mathcal {D}} ( mathbf {u}, mathbf {v}) = { frac { mathbf {u} cdot mathbf {v}} { \| mathbf {u} \| \| mathbf {v} \|}}}$	Kosinüs benzerliği
${ displaystyle sigma (x) = 1 / (1 + e ^ {- x})}$	Sigmoid işlevi
${ displaystyle { text {oneplus}} (x) = 1 + log (1 + e ^ {x})}$	Oneplus işlevi
${ displaystyle { text {softmax}} ( mathbf {x}) _ {j} = { frac {e ^ {x_ {j}}} { sum _ {k = 1} ^ {K} e ^ {x_ {k}}}}}$ için j = 1, …, K.	Softmax işlevi

Uzantılar

İyileştirmeler, zaman ve alan karmaşıklığını binlerce kez azaltan seyrek bellek adreslemeyi içerir. Bu, aşağıdaki gibi yaklaşık bir en yakın komşu algoritması kullanılarak elde edilebilir. Yerellik duyarlı hashing veya rastgele k-d ağacı Yaklaşık En Yakın Komşular için Hızlı Kitaplık gibi UBC.^[9] Uyarlanabilir Hesaplama Süresi (ACT) eklemek, hesaplama süresini veri süresinden ayırır, bu da problem uzunluğunun ve problem zorluğunun her zaman aynı olmadığı gerçeğini kullanır.^[10] Sentetik gradyanlar kullanarak eğitim, Zaman içinde geri yayılım (BPTT).^[11] Sağlamlık, düzenleme olarak katman normalleştirme ve Bypass Dropout kullanımıyla iyileştirilebilir.^[12]

Referanslar

^ ^a ^b ^c Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Dinamik harici belleğe sahip bir sinir ağı kullanan hibrit bilgi işlem". Doğa. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038 / nature20101. ISSN 1476-4687. PMID 27732574.
^ "Diferansiye edilebilir sinir bilgisayarları | DeepMind". Derin Düşünce. Alındı 2016-10-19.
^ ^a ^b Burgess, Matt. "DeepMind'in yapay zekası, insan benzeri akıl ve hafızayı kullanarak Londra Metrosu'na binmeyi öğrendi". KABLOLU UK. Alındı 2016-10-19.
^ Jaeger Herbert (2016-10-12). "Yapay zeka: Derin nöral muhakeme". Doğa. 538 (7626): 467–468. Bibcode:2016Natur.538..467J. doi:10.1038 / nature19477. ISSN 1476-4687. PMID 27732576.
^ ^a ^b James, Mike. "DeepMind'ın Farklılaştırılabilir Sinir Ağı Derinlemesine Düşünüyor". www.i-programmer.info. Alındı 2016-10-20.
^ "DeepMind AI, Londra Metrosunda Gezinmeyi Öğreniyor". PCMAG. Alındı 2016-10-19.
^ Mannes, John. "DeepMind'in farklılaştırılabilir sinir bilgisayarı, hafızasıyla metroda gezinmenize yardımcı olur". TechCrunch. Alındı 2016-10-19.
^ "RNN Sempozyumu 2016: Alex Graves - Farklılaştırılabilir Sinir Bilgisayarı".
^ Jack W Rae; Jonathan J Hunt; Harley, Tim; Danihelka, Ivo; Kıdemli, Andrew; Wayne, Greg; Graves, Alex; Timothy P Lillicrap (2016). "Seyrek Okuma ve Yazma ile Bellek Artırılmış Sinir Ağlarını Ölçeklendirme". arXiv:1610.09027 [cs.LG ].
^ Mezarlar, Alex (2016). "Tekrarlayan Sinir Ağları için Uyarlanabilir Hesaplama Süresi". arXiv:1603.08983 [cs.NE ].
^ Jaderberg, Max; Wojciech Marian Czarnecki; Osindero, Simon; Vinyals, Oriol; Graves, Alex; Gümüş, David; Kavukcuoğlu, Koray (2016). "Sentetik Degradeler Kullanılarak Ayrılmış Sinir Arayüzleri". arXiv:1608.05343 [cs.LG ].
^ Franke, Jörg; Niehues, Jan; Waibel, Alex (2018). "Soru Cevaplama için Sağlam ve Ölçeklenebilir Farklılaştırılabilir Sinir Bilgisayarı". arXiv:1807.02658 [cs.CL ].

Dış bağlantılar

[DNCnature2016-1] Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Dinamik harici belleğe sahip bir sinir ağı kullanan hibrit bilgi işlem". Doğa. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038 / nature20101. ISSN 1476-4687. PMID 27732574.

[2] "Diferansiye edilebilir sinir bilgisayarları | DeepMind". Derin Düşünce. Alındı 2016-10-19.

[:0-3] Burgess, Matt. "DeepMind'in yapay zekası, insan benzeri akıl ve hafızayı kullanarak Londra Metrosu'na binmeyi öğrendi". KABLOLU UK. Alındı 2016-10-19.

[4] Jaeger Herbert (2016-10-12). "Yapay zeka: Derin nöral muhakeme". Doğa. 538 (7626): 467–468. Bibcode:2016Natur.538..467J. doi:10.1038 / nature19477. ISSN 1476-4687. PMID 27732576.

[:1-5] James, Mike. "DeepMind'ın Farklılaştırılabilir Sinir Ağı Derinlemesine Düşünüyor". www.i-programmer.info. Alındı 2016-10-20.

[6] "DeepMind AI, Londra Metrosunda Gezinmeyi Öğreniyor". PCMAG. Alındı 2016-10-19.

[7] Mannes, John. "DeepMind'in farklılaştırılabilir sinir bilgisayarı, hafızasıyla metroda gezinmenize yardımcı olur". TechCrunch. Alındı 2016-10-19.

[8] "RNN Sempozyumu 2016: Alex Graves - Farklılaştırılabilir Sinir Bilgisayarı".

[9] Jack W Rae; Jonathan J Hunt; Harley, Tim; Danihelka, Ivo; Kıdemli, Andrew; Wayne, Greg; Graves, Alex; Timothy P Lillicrap (2016). "Seyrek Okuma ve Yazma ile Bellek Artırılmış Sinir Ağlarını Ölçeklendirme". arXiv:1610.09027 [cs.LG ].

[10] Mezarlar, Alex (2016). "Tekrarlayan Sinir Ağları için Uyarlanabilir Hesaplama Süresi". arXiv:1603.08983 [cs.NE ].

[11] Jaderberg, Max; Wojciech Marian Czarnecki; Osindero, Simon; Vinyals, Oriol; Graves, Alex; Gümüş, David; Kavukcuoğlu, Koray (2016). "Sentetik Degradeler Kullanılarak Ayrılmış Sinir Arayüzleri". arXiv:1608.05343 [cs.LG ].

[12] Franke, Jörg; Niehues, Jan; Waibel, Alex (2018). "Soru Cevaplama için Sağlam ve Ölçeklenebilir Farklılaştırılabilir Sinir Bilgisayarı". arXiv:1807.02658 [cs.CL ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]