Türevlenebilir sinir bilgisayarı - Differentiable neural computer

Yoğun ikili sayıları depolamak ve geri çağırmak için eğitilen farklılaştırılabilir bir sinir bilgisayarı. Gösterilen eğitim sırasında bir referans görevin performansı. Sol üst: giriş (kırmızı) ve hedef (mavi), 5 bit olarak kelimeler ve 1 bitlik bir kesinti sinyali. Sağ üst: modelin çıktısı.

İçinde yapay zeka, bir ayırt edilebilir sinirsel bilgisayar (DNC) bir bellek artırılmış sinir ağı mimari (MANN), tipik olarak (tanım gereği değil) uygulamasında yinelenir. Model 2016 yılında Alex Graves et al. nın-nin Derin Düşünce.[1]

Başvurular

DNC dolaylı olarak ilham alır Von-Neumann mimarisi, temelde algoritmik olan ve bularak öğrenilemeyen görevlerde geleneksel mimarilerden daha iyi performans gösterme olasılığını sağlar. karar sınırı.

Şimdiye kadar, DNC'lerin yalnızca geleneksel programlama kullanılarak çözülebilen nispeten basit görevleri yerine getirdiği gösterilmiştir. Ancak DNC'lerin her sorun için programlanması gerekmez, bunun yerine eğitilebilir. Bu dikkat süresi, kullanıcının karmaşık veri yapıları gibi grafikler sırayla ve daha sonra kullanmak üzere geri çağırın. Ayrıca, aşağıdakilerin yönlerini öğrenebilirler: sembolik akıl yürütme ve bunu çalışma belleğine uygulayın. Yöntemi yayınlayan araştırmacılar, DNC'lerin karmaşık, yapılandırılmış görevleri yerine getirmek için eğitilebileceğine dair söz veriyor.[1][2] ve video yorumları veya anlamsal metin analizi oluşturma gibi bir tür mantık gerektiren büyük veri uygulamalarını ele alın.[3][4]

DNC, gezinmek için eğitilebilir hızlı geçiş sistemleri ve bu ağı farklı bir sisteme uygulayın. Belleği olmayan bir sinir ağı, tipik olarak her geçiş sistemi hakkında sıfırdan bilgi edinmek zorunda kalır. Grafik geçişinde ve dizi işleme görevlerinde denetimli öğrenme DNC'ler, aşağıdaki gibi alternatiflerden daha iyi performans gösterdi: uzun kısa süreli hafıza veya bir sinirsel turing makinesi.[5] Birlikte pekiştirmeli öğrenme esinlenerek bir blok bulmaca problemine yaklaşım SHRDLU DNC, müfredat öğrenimi yoluyla eğitildi ve bir plan. Gelenekselden daha iyi performans gösterdi tekrarlayan sinir ağı.[5]

Mimari

DNC sistem şeması

DNC ağları, Nöral Turing Makinesi (NTM), hafızanın nerede saklandığını kontrol eden hafıza dikkat mekanizmalarının ve olayların sırasını kaydeden zamansal dikkatin eklenmesiyle. Bu yapı, DNC'lerin bir NTM'den daha sağlam ve soyut olmasına ve yine de Uzun Kısa Süreli Bellek (Long Short Term MemoryLSTM ). Basitçe bir matris olan bellek dinamik olarak tahsis edilebilir ve sonsuza kadar erişilebilir. DNC, ayırt edilebilir uçtan uca (modelin her bir alt bileşeni farklılaştırılabilir, dolayısıyla tüm model de öyle). Bu, onları verimli bir şekilde optimize etmeyi mümkün kılar dereceli alçalma.[3][6][7]

DNC modeli, Von Neumann mimarisi ve hafızanın yeniden boyutlandırılabilirliği nedeniyle Turing tamamlandı.[8]

Geleneksel DNC

DNC, orijinal olarak yayınlandı[1]

Bağımsız değişkenler
Giriş vektörü
Hedef vektör
Kontrolör
Denetleyici giriş matrisi


Derin (katmanlı) LSTM
Giriş kapısı vektörü
Çıkış kapısı vektörü
Kapı vektörünü unut
Devlet kapısı vektörü,
Gizli kapı vektörü,


DNC çıktı vektörü
Okuma ve Yazma kafaları
Arayüz parametreleri


Kafaları okuyun
Anahtarları oku
Güçlü yönleri okuyun
Ücretsiz kapılar
Modları okuyun,


Kafa yaz
Anahtar yaz
Yazma gücü
Vektörü sil
Vektör yaz
Tahsis kapısı
Yazma kapısı
Hafıza
Bellek matrisi,
Birlerin matrisi
Kullanım vektörü
Öncelik ağırlıklandırma,
Zamansal bağlantı matrisi,
Ağırlık yaz
Ağırlıklandırmayı okuyun
Vektörleri oku


İçerik bazlı adresleme,
Arama anahtarı , anahtar gücü
Endeksleri ,
artan kullanım sırasına göre sıralanmış
Tahsis ağırlıklandırma
İçerik ağırlıklandırması yazın
İçerik ağırlıklandırmasını okuyun
İleri ağırlıklandırma
Geriye doğru ağırlıklandırma
Bellek tutma vektörü
Tanımlar
Ağırlık matrisi, önyargı vektörü
Sıfırlar matrisi, birler matrisi, özdeşlik matrisi
Element-bilge çarpma
Kosinüs benzerliği
Sigmoid işlevi
Oneplus işlevi
için j = 1, …, K.Softmax işlevi

Uzantılar

İyileştirmeler, zaman ve alan karmaşıklığını binlerce kez azaltan seyrek bellek adreslemeyi içerir. Bu, aşağıdaki gibi yaklaşık bir en yakın komşu algoritması kullanılarak elde edilebilir. Yerellik duyarlı hashing veya rastgele k-d ağacı Yaklaşık En Yakın Komşular için Hızlı Kitaplık gibi UBC.[9] Uyarlanabilir Hesaplama Süresi (ACT) eklemek, hesaplama süresini veri süresinden ayırır, bu da problem uzunluğunun ve problem zorluğunun her zaman aynı olmadığı gerçeğini kullanır.[10] Sentetik gradyanlar kullanarak eğitim, Zaman içinde geri yayılım (BPTT).[11] Sağlamlık, düzenleme olarak katman normalleştirme ve Bypass Dropout kullanımıyla iyileştirilebilir.[12]

Referanslar

  1. ^ a b c Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Dinamik harici belleğe sahip bir sinir ağı kullanan hibrit bilgi işlem". Doğa. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038 / nature20101. ISSN  1476-4687. PMID  27732574.
  2. ^ "Diferansiye edilebilir sinir bilgisayarları | DeepMind". Derin Düşünce. Alındı 2016-10-19.
  3. ^ a b Burgess, Matt. "DeepMind'in yapay zekası, insan benzeri akıl ve hafızayı kullanarak Londra Metrosu'na binmeyi öğrendi". KABLOLU UK. Alındı 2016-10-19.
  4. ^ Jaeger Herbert (2016-10-12). "Yapay zeka: Derin nöral muhakeme". Doğa. 538 (7626): 467–468. Bibcode:2016Natur.538..467J. doi:10.1038 / nature19477. ISSN  1476-4687. PMID  27732576.
  5. ^ a b James, Mike. "DeepMind'ın Farklılaştırılabilir Sinir Ağı Derinlemesine Düşünüyor". www.i-programmer.info. Alındı 2016-10-20.
  6. ^ "DeepMind AI, Londra Metrosunda Gezinmeyi Öğreniyor". PCMAG. Alındı 2016-10-19.
  7. ^ Mannes, John. "DeepMind'in farklılaştırılabilir sinir bilgisayarı, hafızasıyla metroda gezinmenize yardımcı olur". TechCrunch. Alındı 2016-10-19.
  8. ^ "RNN Sempozyumu 2016: Alex Graves - Farklılaştırılabilir Sinir Bilgisayarı".
  9. ^ Jack W Rae; Jonathan J Hunt; Harley, Tim; Danihelka, Ivo; Kıdemli, Andrew; Wayne, Greg; Graves, Alex; Timothy P Lillicrap (2016). "Seyrek Okuma ve Yazma ile Bellek Artırılmış Sinir Ağlarını Ölçeklendirme". arXiv:1610.09027 [cs.LG ].
  10. ^ Mezarlar, Alex (2016). "Tekrarlayan Sinir Ağları için Uyarlanabilir Hesaplama Süresi". arXiv:1603.08983 [cs.NE ].
  11. ^ Jaderberg, Max; Wojciech Marian Czarnecki; Osindero, Simon; Vinyals, Oriol; Graves, Alex; Gümüş, David; Kavukcuoğlu, Koray (2016). "Sentetik Degradeler Kullanılarak Ayrılmış Sinir Arayüzleri". arXiv:1608.05343 [cs.LG ].
  12. ^ Franke, Jörg; Niehues, Jan; Waibel, Alex (2018). "Soru Cevaplama için Sağlam ve Ölçeklenebilir Farklılaştırılabilir Sinir Bilgisayarı". arXiv:1807.02658 [cs.CL ].

Dış bağlantılar