Sıra2seq - Seq2seq

Sıra2seq bir aile makine öğrenme dil işleme için kullanılan yaklaşımlar.[1] Uygulamalar arasında dil çevirisi, resim yazısı, konuşma modelleri ve metin özetleme yer alır.[2]

Tarih

Algoritma, Google tarafından şu alanlarda kullanılmak üzere geliştirilmiştir: makine çevirisi.[2]

2019 yılında Facebook kullanımını duyurdu sembolik entegrasyon ve çözüm nın-nin diferansiyel denklemler. Şirket, karmaşık denklemleri ticari çözümlerden daha hızlı ve daha doğru çözebileceğini iddia etti. Mathematica, MATLAB ve Akçaağaç. İlk olarak, notasyonel özdeyişlerden kaçınmak için denklem bir ağaç yapısına ayrıştırılır. Bir LSTM sinir ağı daha sonra standardını uygular desen tanıma ağacı işlemek için tesisler.[3]

Google 2020'de 2,6 milyar Meena'yı piyasaya sürdü parametre seq2seq tabanlı sohbet robotu 341 GB'lık bir veri setinde eğitilmiş. Google, sohbet botunun model kapasitesine göre 1,7 kat daha fazla OpenAI'ler GPT-2,[4] Mayıs 2020 halefi olan 175 milyar parametresi GPT-3, "570 GB'a kadar filtrelenmiş ... düz metin kelimelerin (45.000 GB) 45 TB veri kümesine göre eğitildi."[5]

Teknik

Seq2seq, bir diziyi başka bir diziye dönüştürür. Bunu a kullanarak yapar tekrarlayan sinir ağı (RNN) veya daha sık LSTM veya GRU sorunundan kaçınmak için kaybolan gradyan. Her öğenin bağlamı, önceki adımın çıktısıdır. Birincil bileşenler bir kodlayıcı ve bir kod çözücü ağıdır. Kodlayıcı, her bir öğeyi, öğeyi ve bağlamını içeren karşılık gelen bir gizli vektöre dönüştürür. Kod çözücü, önceki çıktıyı girdi bağlamı olarak kullanarak vektörü bir çıktı öğesine dönüştürerek işlemi tersine çevirir.[2]

Optimizasyonlar şunları içerir:[2]

  • Dikkat: Kod çözücünün girdisi, tüm içeriği depolayan tek bir vektördür. Dikkat, kod çözücünün giriş sırasına seçici olarak bakmasına izin verir.
  • Işın Arama: Çıktı olarak tek bir çıktıyı (kelime) seçmek yerine, çok sayıda olasılıklı seçenek korunur, bir ağaç olarak yapılandırılır (bir Softmax dikkat puanları setinde[6]). Dikkat dağılımına göre ağırlıklandırılan kodlayıcı durumlarının ortalaması.[6]
  • Bölümleme: Değişken uzunluktaki diziler, hem giriş hem de çıkışa yapılabilen 0'larla doldurma nedeniyle mümkündür. Bununla birlikte, sıra uzunluğu 100 ise ve girdi sadece 3 öğe uzunluğundaysa, pahalı alan boşa harcanır. Kovalar farklı boyutlarda olabilir ve hem giriş hem de çıkış uzunluklarını belirtebilir.

Eğitim tipik olarak çapraz entropi kullanır kayıp fonksiyonu, böylece bir çıktı, sonraki çıktının olasılığının 1'den az olduğu ölçüde cezalandırılır.[6]

İlgili yazılım

Benzer yaklaşımları benimseyen yazılımlar arasında OpenNMT (Meşale ), Nöral Maymun (TensorFlow ) ve NEMATUS (Theano ).[7]

Ayrıca bakınız

Referanslar

  1. ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sinir ağları ile öğrenmeyi sıralamak için sıralama". arXiv:1409.3215 [cs.CL ].
  2. ^ a b c d Wadhwa, Mani (2018-12-05). "Makine Öğreniminde seq2seq modeli". GeeksforGeeks. Alındı 2019-12-17.
  3. ^ "Facebook'un ileri düzeyde matematik yapabilen bir sinir ağı var". MIT Technology Review. 17 Aralık 2019. Alındı 2019-12-17.
  4. ^ Mehta, Ivan (2020/01/29). "Google, yeni sohbet robotu Meena'nın dünyanın en iyisi olduğunu iddia ediyor". Sonraki Web. Alındı 2020-02-03.
  5. ^ Gage, Justin. "GPT-3 nedir?". Alındı 1 Ağustos, 2020.
  6. ^ a b c Hewitt, John; Kriz, Reno (2018). "Sıra 2 dizisi Modelleri" (PDF). Stanford Üniversitesi.
  7. ^ "Genel Bakış - seq2seq". google.github.io. Alındı 2019-12-17.

Dış bağlantılar