Hiperparametre (makine öğrenimi) - Hyperparameter (machine learning)

İçinde makine öğrenme, bir hiperparametre bir parametre değeri öğrenme sürecini kontrol etmek için kullanılır. Buna karşılık, diğer parametrelerin değerleri (tipik olarak düğüm ağırlıkları) eğitim yoluyla türetilir.

Hiperparametreler, model hiperparametreleri olarak sınıflandırılabilir; makinenin eğitim setine takılması çünkü atıfta bulunuyorlar model seçimi Prensipte modelin performansı üzerinde hiçbir etkisi olmayan ancak öğrenme sürecinin hızını ve kalitesini etkileyen görev veya algoritma hiperparametreleri. Bir model hiperparametresine bir örnek, bir sinir ağının topolojisi ve boyutudur. Algoritma hiperparametrelerine örnekler: öğrenme oranı ve miniParti boyutu.[açıklama gerekli ]

Farklı model eğitim algoritmaları farklı hiperparametreler gerektirir, bazı basit algoritmalar (örn. Sıradan en küçük kareler regresyon) hiçbirini gerektirmez. Bu hiperparametreler göz önüne alındığında, eğitim algoritması verileri verilerden öğrenir. Örneğin, KEMENT ekleyen bir algoritmadır düzenleme hiperparametre Sıradan en küçük kareler eğitim algoritması aracılığıyla parametreleri tahmin etmeden önce ayarlanması gereken regresyon.

Düşünceler

Bir modeli eğitmek ve test etmek için gereken süre, hiperparametrelerinin seçimine bağlı olabilir.[1] Bir hiperparametre genellikle sürekli veya tam sayı tipindedir ve karışık tip optimizasyon sorunlarına yol açar.[1] Bazı hiperparametrelerin varlığı, diğerlerinin değerine bağlıdır, ör. bir sinir ağındaki her bir gizli katmanın boyutu, katman sayısına bağlı olabilir.[1]

Zor öğrenilebilir parametreler

Genellikle, ancak her zaman değil, hiperparametreler, parametreleri öğrenmek için yaygın olarak kullanılan iyi bilinen gradyan tabanlı yöntemler (gradyan inişi, LBFGS gibi) kullanılarak öğrenilemez. Bu hiperparametreler, genel optimizasyon yöntemleriyle öğrenilemeyen ancak yine de kayıp fonksiyonunu etkileyen bir model sunumunu tanımlayan parametrelerdir. Destek vektör makinelerindeki hatalar için tolerans hiper parametresi bir örnek olabilir.

Eğitilemez parametreler

Bazen hiperparametreler eğitim verilerinden öğrenilemez çünkü bir modelin kapasitesini agresif bir şekilde arttırırlar ve kayıp fonksiyonunu kötü bir minimuma - verilere aşırı uyum ve gürültüyü toplayarak - zenginliklerini doğru şekilde haritalandırmanın aksine - verilerdeki yapı. Örneğin, bir regresyon modeline uyan bir polinom denkleminin derecesini bir eğitilebilir parametre - bu, model verilere tam olarak uyana kadar dereceyi yükseltir ve küçük eğitim hatası verir - ancak genelleme performansı kötüdür.

Ayarlanabilirlik

Çoğu performans varyasyonu yalnızca birkaç hiperparametre ile ilişkilendirilebilir.[2][1][3] Bir algoritmanın, hiperparametrenin veya etkileşim halindeki hiperparametrelerin ayarlanabilirliği, ayarlanarak ne kadar performans kazanılabileceğinin bir ölçüsüdür.[4] Bir ... için LSTM iken öğrenme oranı ardından ağ boyutu, en önemli hiperparametreleridir.[5] harmanlama ve momentumun performansı üzerinde önemli bir etkisi yoktur.[6]

Bazı araştırmalar binlerce mini parti boyutlarının kullanımını savunsa da, diğer çalışmalar 2 ile 32 arasındaki mini parti boyutlarında en iyi performansı buldu.[7]

Sağlamlık

Öğrenmede içsel bir stokastisite, doğrudan, ampirik hiperparametre performansının ille de gerçek performansı olmadığı anlamına gelir.[1] Hiperparametrelerdeki basit değişikliklere karşı sağlam olmayan yöntemler, rastgele tohumlar, hatta aynı algoritmanın farklı uygulamaları, önemli bir basitleştirme ve sağlamlaştırma olmadan kritik görev kontrol sistemlerine entegre edilemez.[8]

Takviye öğrenme algoritmalar, özellikle, çok sayıda rastgele tohum üzerindeki performanslarının ölçülmesini ve ayrıca hiperparametre seçimlerine duyarlılıklarının ölçülmesini gerektirir.[8] Az sayıda rastgele tohumla yapılan değerlendirmeler, yüksek varyans nedeniyle performansı yeterince yakalayamaz.[8] Bazı pekiştirmeli öğrenme yöntemleri, ör. DDPG (Derin Belirleyici Politika Gradyanı), hiperparametre seçimlerine diğerlerinden daha duyarlıdır.[8]

Optimizasyon

Hiperparametre optimizasyonu, önceden tanımlanmış bir modeli en aza indiren optimal bir model veren bir hiperparametre demeti bulur. kayıp fonksiyonu verilen test verilerine göre.[1] Amaç işlevi bir dizi hiperparametre alır ve ilişkili kaybı döndürür.[1]

Yeniden üretilebilirlik

Makine öğrenimi, hiper parametreleri ayarlamanın yanı sıra, parametreleri ve sonuçları depolamayı ve düzenlemeyi ve tekrarlanabilir olduklarından emin olmayı içerir.[9] Bu amaç için sağlam bir altyapının yokluğunda, araştırma kodu genellikle hızlı bir şekilde gelişir ve muhasebe ve muhasebe gibi temel hususlardan ödün verir. Yeniden üretilebilirlik.[10] Makine öğrenimi için çevrimiçi işbirliği platformları, bilim insanlarının deneyleri, verileri ve algoritmaları otomatik olarak paylaşmasına, düzenlemesine ve tartışmasına olanak tanıyarak daha da ileri gider.[11] Tekrarlanabilirlik, özellikle aşağıdakiler için zor olabilir: derin öğrenme modeller.[12]

Bir dizi ilgili hizmet ve açık kaynaklı yazılım mevcuttur:

Hizmetler

İsimArayüzler
Comet.ml[13]Python[14]
OpenML[15][11][16][17]REST, Python, Java, R[18]
Ağırlıklar ve Önyargılar[19]Python[20]

Yazılım

İsimArayüzlerMağaza
BelirlenenREST, PythonPostgreSQL
OpenML Docker[15][11][16][17]REST, Python, Java, R[18]MySQL
kutsal[9][10]Python[21]dosya, MongoDB, TinyDB, SQL

Ayrıca bakınız

Referanslar

  1. ^ a b c d e f g "Claesen, Marc ve Bart De Moor." Makine Öğreniminde Hiperparametre Araması. "ArXiv ön baskı arXiv: 1502.02127 (2015)". arXiv:1502.02127. Bibcode:2015arXiv150202127C.
  2. ^ Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (27 Ocak 2014). "Hiperparametrenin Önemini Değerlendirmek İçin Etkin Bir Yaklaşım": 754–762 - işlem.mlr.press aracılığıyla. Alıntı dergisi gerektirir | günlük = (Yardım)
  3. ^ "van Rijn, Jan N., ve Frank Hutter." Veri Kümelerinde Hiperparametre Önemi. "arXiv ön baskı arXiv: 1710.04725 (2017)". arXiv:1710.04725. Bibcode:2017arXiv171004725V.
  4. ^ "Probst, Philipp, Bernd Bischl ve Anne-Laure Boulesteix." Ayarlanabilirlik: Makine Öğrenimi Algoritmalarının Hiperparametrelerinin Önemi. "ArXiv preprint arXiv: 1802.09596 (2018)". arXiv:1802.09596. Bibcode:2018arXiv180209596P.
  5. ^ Greff, K .; Srivastava, R. K .; Koutník, J .; Steunebrink, B. R .; Schmidhuber, J. (23 Ekim 2017). "LSTM: Bir Arama Uzay Macerası". Sinir Ağları ve Öğrenme Sistemlerinde IEEE İşlemleri. 28 (10): 2222–2232. arXiv:1503.04069. doi:10.1109 / TNNLS.2016.2582924. PMID  27411231. S2CID  3356463.
  6. ^ "Breuel, Thomas M." LSTM ağlarının karşılaştırması. "ArXiv ön baskı arXiv: 1508.02774 (2015)". arXiv:1508.02774. Bibcode:2015arXiv150802774B.
  7. ^ "Derin Sinir Ağları için Küçük Toplu Eğitimi Yeniden Ziyaret Etme (2018)". arXiv:1804.07612. Bibcode:2018arXiv180407612M.
  8. ^ a b c d "Mania, Horia, Aurelia Guy ve Benjamin Recht." Basit rastgele arama, pekiştirmeli öğrenmeye rekabetçi bir yaklaşım sağlar. "ArXiv ön baskı arXiv: 1803.07055 (2018)". arXiv:1803.07055. Bibcode:2018arXiv180307055M.
  9. ^ a b "Greff, Klaus ve Jürgen Schmidhuber." Sacred'i Tanıtmak: Tekrarlanabilir Araştırmayı Kolaylaştırmak İçin Bir Araç."" (PDF). 2015.
  10. ^ a b "Greff, Klaus ve diğerleri." Hesaplamalı Araştırma için Kutsal Altyapı."" (PDF). 2017.
  11. ^ a b c "Vanschoren, Joaquin ve diğerleri." OpenML: makine öğreniminde ağ bağlantılı bilim. "ArXiv ön baskı arXiv: 1407.7722 (2014)". arXiv:1407.7722. Bibcode:2014arXiv1407.7722V.
  12. ^ Villa, Jennifer; Zimmerman, Yoav (25 Mayıs 2018). "Makine öğreniminde yeniden üretilebilirlik: neden önemlidir ve nasıl başarılır?". Kararlı AI Blogu. Alındı 31 Ağustos 2020.
  13. ^ "Comet.ml - Makine Öğrenimi Deney Yönetimi".
  14. ^ Inc, Comet ML. "comet-ml: Süper Yüklemeli Makine Öğrenimi" - PyPI aracılığıyla.
  15. ^ a b Van Rijn, Jan N .; Bischl, Bernd; Torgo, Luis; Gao, Bo; Umaashankar, Venkatesh; Fischer, Simon; Kış, Patrick; Wiswedel, Bernd; Berthold, Michael R .; Vanschoren, Joaquin (2013). "OpenML: İşbirliğine Dayalı Bir Bilim Platformu". Van Rijn, Jan N., vd. "OpenML: Ortak çalışmaya dayalı bir bilim platformu." Veritabanlarında Makine Öğrenimi ve Bilgi Keşfi Ortak Avrupa Konferansı. Springer, Berlin, Heidelberg, 2013. Bilgisayar Bilimlerinde Ders Notları. 7908. sayfa 645–649. doi:10.1007/978-3-642-40994-3_46. ISBN  978-3-642-38708-1.
  16. ^ a b "Vanschoren, Joaquin, Jan N. van Rijn ve Bernd Bischl." Makine öğrenimi araştırmasını OpenML ile çevrimiçi olarak alma. "4. Uluslararası Büyük Veri, Akışlar ve Heterojen Kaynak Madenciliği Konferansı Bildirileri: Algoritmalar, Sistemler, Programlama Modelleri ve Uygulamalar- Cilt 41. JMLR. Org, 2015 " (PDF).
  17. ^ a b "van Rijn, J. N. Büyük ölçüde işbirliğine dayalı makine öğrenimi. Diss. 2016". 2016-12-19.
  18. ^ a b "OpenML". GitHub.
  19. ^ "Deney Takibi ve İşbirliği için Ağırlıklar ve Önyargılar".
  20. ^ "Makine Öğrenimi modellerinizi PyEnv ile izleyin".
  21. ^ Greff Klaus (2020/01/03). "kutsal: Otomatikleştirilmiş ve tekrarlanabilir deneysel araştırmayı kolaylaştırır" - PyPI aracılığıyla.