Düzenlenme (matematik) - Regularization (mathematics)

Yeşil ve mavi işlevlerin her ikisi de verilen veri noktalarında sıfır kayba uğrar. Öğrenilmiş bir model, yeşil işlevi tercih etmeye teşvik edilebilir; bu, temelde yatan bilinmeyen dağılımdan alınan daha fazla noktaya daha iyi genelleştirebilir. , düzenlileştirme teriminin ağırlığı.

İçinde matematik, İstatistik, finans[1], bilgisayar Bilimi, Özellikle de makine öğrenme ve ters problemler, düzenleme bir sorunu çözmek için bilgi ekleme işlemidir kötü niyetli problem veya önlemek için aşırı uyum gösterme.[2]

Düzenlilik, kötü niyetli optimizasyon problemlerindeki nesnel işlevler için geçerlidir. Düzenlileştirme terimi veya ceza, optimizasyon işlevine işlevi gereğinden fazla donatmak veya en uygun çözümü bulmak için bir maliyet getirir.

Sınıflandırma

Sınıflandırıcıların deneysel olarak öğrenilmesi (sonlu bir veri kümesinden) her zaman yeterince belirlenmemiş bir sorundur, çünkü herhangi bir sadece örnekler verilmiştir .

Bir düzenleyici terim (veya düzenleyici) bir kayıp fonksiyonu:

nerede tahmin etmenin maliyetini tanımlayan temel bir kayıp fonksiyonudur etiket ne zaman , benzeri kare kaybı veya menteşe kaybı; ve düzenlileştirme teriminin önemini kontrol eden bir parametredir. tipik olarak karmaşıklığı bir ceza uygulamak için seçilir . Kullanılan somut karmaşıklık kavramları aşağıdakiler için kısıtlamaları içerir: pürüzsüzlük ve sınırlar vektör uzayı normu.[3][sayfa gerekli ]

Düzenlileştirme için teorik bir gerekçe, empoze etmeye çalışmasıdır. Occam'ın ustura çözüm üzerinde (yukarıdaki şekilde gösterildiği gibi, yeşil işlev, daha basit olanı tercih edilebilir). Bir Bayes bakış açısına göre, birçok düzenlileştirme tekniği belirli önceki model parametreleri üzerine dağılımlar.[4]

Düzenli hale getirme, daha basit modelleri öğrenmek, modellerin seyrek olmasına neden olmak ve grup yapısını tanıtmak gibi birçok amaca hizmet edebilir.[açıklama gerekli ] öğrenme problemine.

Aynı fikir birçok alanda ortaya çıktı. Bilim. Uygulanan basit bir düzenleme biçimi integral denklemler, genel olarak adlandırılır Tikhonov düzenlenmesi sonra Andrey Nikolayeviç Tikhonov, esasen verileri uydurmakla çözümün bir normunu azaltmak arasında bir değiş tokuş. Daha yakın zamanlarda, dahil olmak üzere doğrusal olmayan düzenlilik yöntemleri toplam varyasyon düzenleme popüler hale geldi.

Genelleme

Düzenlileştirme, öğrenilen bir modelin genelleştirilebilirliğini geliştirmek için bir teknik olarak motive edilebilir.

Bu öğrenme probleminin amacı, tüm olası girdiler ve etiketler üzerinde beklenen hatayı en aza indiren sonuca (etikete) uyan veya bunları öngören bir işlev bulmaktır. Bir işlevin beklenen hatası dır-dir:

nerede ve giriş verilerinin etki alanlarıdır ve etiketleri sırasıyla.

Tipik olarak öğrenme problemlerinde, biraz gürültüyle ölçülen yalnızca bir girdi verisi ve etiket alt kümesi mevcuttur. Bu nedenle, beklenen hata ölçülemezdir ve mevcut en iyi ikame ürün üzerindeki ampirik hatadır. mevcut örnekler:

İşlev uzayının karmaşıklığı sınırlanmadan (resmi olarak, çekirdek Hilbert uzayını yeniden üretmek ) mevcutsa, vekil ampirik hatada sıfır kayba neden olan bir model öğrenilecektir. Ölçümler (örn. ) gürültü ile yapıldı, bu model zarar görebilir aşırı uyum gösterme ve beklenen zayıf hatayı gösterir. Düzenli hale getirme, modeli oluşturmak için kullanılan işlev uzayının belirli bölgelerini keşfetmek için bir ceza getirir ve bu da genellemeyi geliştirebilir.

Tikhonov düzenlenmesi

Doğrusal bir işlevi öğrenirken , bilinmeyen ile karakterize vektör öyle ki , eklenebilir vektörün formu daha küçük normlara sahip çözümleri tercih etmek için kayıp ifadesine. Buna, en yaygın düzenleme biçimlerinden biri olan Tikhonov düzenlileştirme denir. Aynı zamanda sırt gerilemesi olarak da bilinir. Şu şekilde ifade edilir:

Genel bir fonksiyon durumunda, fonksiyonun normunu onun içinde alırız. çekirdek Hilbert uzayını yeniden üretmek:

Olarak norm ayırt edilebilir, Tikhonov regülasyonunu kullanarak öğrenme problemleri şu şekilde çözülebilir: dereceli alçalma.

Tikhonov'a göre düzenlenmiş en küçük kareler

İle öğrenme problemi en küçük kareler kayıp fonksiyonu ve Tikhonov düzenlileştirmesi analitik olarak çözülebilir. Matris biçiminde yazılmış, optimal kayıp fonksiyonunun gradyanının, 0'dır.

      Bu birinci dereceden koşul bu optimizasyon problemi için

Optimizasyon probleminin oluşturulmasıyla, diğer değerler kayıp işlevi için daha büyük değerler verir. Bu, ikinci türevi inceleyerek doğrulanabilir. .

Eğitim sırasında bu algoritma zaman. Terimler matrisin tersine çevrilmesi ve hesaplanması ile ilgilidir. , sırasıyla. Test sürüyor zaman.

Erken durma

Erken durdurma, zaman içinde düzenlenme olarak görülebilir. Sezgisel olarak, gradyan inişi gibi bir eğitim prosedürü, yineleme sayısı arttıkça gittikçe daha karmaşık işlevleri öğrenme eğiliminde olacaktır. Zamanında düzenleyerek, modelin karmaşıklığı kontrol edilebilir ve genelleme geliştirilebilir.

Uygulamada, erken durdurma, bir eğitim seti üzerinde eğitim ve istatistiksel olarak bağımsız bir doğrulama setinde doğruluğu ölçerek uygulanır. Model, doğrulama kümesindeki performans artık iyileşmeyene kadar eğitilir. Model daha sonra bir test seti üzerinde test edilir.

En küçük karelerde teorik motivasyon

Sonlu yaklaştırmayı düşünün Neumann serisi tersinir bir matris için Bir nerede :

Bu, düzensiz en küçük karelerin analitik çözümüne yaklaşmak için kullanılabilir, eğer γ normun birden az olmasını sağlamak için tanıtıldı.

Düzensiz en küçük kareler öğrenme probleminin kesin çözümü, deneysel hatayı en aza indirecektir, ancak beklenen hatayı genelleştirmek ve en aza indirmek için başarısız olabilir. Sınırlayarak TYukarıdaki algoritmadaki tek serbest parametre olan problem zamanında düzenlenir ve bu da genellemesini geliştirebilir.

Yukarıdaki algoritma, ampirik risk için gradyan iniş yinelemelerinin sayısını sınırlamaya eşdeğerdir.

gradyan iniş güncellemesiyle:

Temel durum önemsizdir. Endüktif durum şu şekilde kanıtlanmıştır:

Seyreklik için düzenleyiciler

Bir sözlük olduğunu varsayalım boyut ile fonksiyon uzayındaki bir fonksiyon şu şekilde ifade edilebilecek şekilde verilir:

L1 topu ile L2 topu arasında iki boyutta yapılan bir karşılaştırma, L1 düzenliliğinin seyrekliği nasıl sağladığına dair bir önsezi verir.

Bir seyreklik kısıtlamasının uygulanması daha basit ve daha yorumlanabilir modellere yol açabilir. Bu, birçok gerçek hayattaki uygulamada kullanışlıdır. hesaplamalı biyoloji. Bir örnek, tahmin gücünü en üst düzeye çıkarırken tıbbi testler gerçekleştirmenin maliyetini en aza indirmek için bir hastalık için basit bir tahmin testi geliştirmektir.

Mantıklı bir seyreklik kısıtı, norm , içindeki sıfır olmayan elemanların sayısı olarak tanımlanır . Çözmek düzenli öğrenme probleminin, bununla birlikte, NP-zor.[5]

norm (Ayrıca bakınız Normlar ) optimal olana yaklaşmak için kullanılabilir dışbükey gevşeme yoluyla norm. Gösterilebilir ki norm seyrekliğe neden olur. En küçük kareler söz konusu olduğunda bu sorun şu şekilde bilinir: KEMENT istatistiklerde ve temel arayış sinyal işlemede.

Elastik ağ düzenlenmesi

düzenleme bazen benzersiz olmayan çözümler üretebilir. Şekilde, olası çözümlerin alanı 45 derecelik bir çizgide olduğunda basit bir örnek verilmiştir. Bu, belirli uygulamalar için sorunlu olabilir ve bunları birleştirerek aşılabilir. ile düzenleme elastik ağ düzenlenmesi, aşağıdaki biçimi alır:

Esnek ağ düzenlenmesi, ilişkili girdi özelliklerine eşit ağırlıkların atandığı bir gruplama etkisine sahip olma eğilimindedir.

Esnek ağ düzenlemesi, pratikte yaygın olarak kullanılır ve birçok makine öğrenimi kitaplığında uygulanır.

Proksimal yöntemler

İken norm NP açısından zor bir soruna yol açmaz, norm dışbükeydir ancak x = 0'daki bükülme nedeniyle kesin olarak farklılaşmaz. Alt gradyan yöntemleri güvenen alt türevi çözmek için kullanılabilir düzenli öğrenme problemleri. Bununla birlikte, proksimal yöntemlerle daha hızlı yakınsama elde edilebilir.

Bir problem için öyle ki dışbükey, sürekli, farklılaştırılabilir, Lipschitz sürekli gradyanlı (en küçük kareler kayıp fonksiyonu gibi) ve dışbükey, sürekli ve doğrudur, bu durumda sorunu çözmek için proksimal yöntem aşağıdaki gibidir. Önce tanımlayın proksimal operatör

ve sonra yineleyin

Proksimal yöntem yinelemeli olarak gradyan inişi gerçekleştirir ve ardından sonucu, izin verilen boşluğa geri yansıtır. .

Ne zaman ... düzenleyici, proksimal operatör, yumuşak eşikleme operatörüne eşdeğerdir,

Bu, verimli hesaplamaya izin verir.

Örtüşmesiz grup seyrekliği

Özellik grupları, belirli ön bilgileri bir optimizasyon problemine ifade etmek için yararlı olabilecek seyreklik kısıtlaması ile düzenlenebilir.

Örtüşmeyen bilinen gruplara sahip doğrusal bir model durumunda, bir düzenleyici tanımlanabilir:

nerede

Bu, bir düzenleyiciyi teşvik etmek olarak görülebilir. her grubun üyeleri üzerinde norm ve ardından bir gruplar üzerinde norm.

Bu, proksimal operatörün blok bazında yumuşak eşikleme fonksiyonu olduğu proksimal yöntemle çözülebilir:

Örtüşen grup seyrekliği

Örtüşmesiz grup seyrekliği için açıklanan algoritma, belirli durumlarda grupların örtüştüğü duruma uygulanabilir. Bu, büyük olasılıkla tamamı sıfır elemanlı bazı gruplara ve bazı sıfır olmayan ve bazı sıfır elemanlı diğer gruplara neden olacaktır.

Grup yapısının korunması istenirse, yeni bir düzenleyici tanımlanabilir:

Her biri için , vektör olarak tanımlanır, öyle ki gruba eşittir ve diğer tüm girişler sıfırdır. Düzenleyici, en uygun parçalanmayı bulur parçalara ayırın. Birden çok grupta var olan tüm öğeleri kopyalar olarak görülebilir. Bu düzenleyicideki öğrenme problemleri, proksimal yöntemle de bir komplikasyonla çözülebilir. Proksimal operatör kapalı biçimde hesaplanamaz, ancak yinelemeli olarak etkili bir şekilde çözülebilir ve proksimal yöntem yinelemesinde bir iç yinelemeye neden olabilir.

Yarı denetimli öğrenim için düzenleyiciler

Etiketleri toplamak girdi örneklerinden daha pahalı olduğunda, yarı denetimli öğrenme yararlı olabilir. Düzenleyiciler, denetimsiz eğitim örneklerinin yapısına saygı duyan modelleri öğrenmek için öğrenme algoritmalarına rehberlik etmek üzere tasarlanmıştır. Simetrik ağırlık matrisi ise verildiğinde, bir düzenleyici tanımlanabilir:

Eğer noktalar için bazı mesafe ölçüsünün sonucunu kodlar ve arzu edilir ki . Bu düzenleyici, bu sezgiyi yakalar ve şuna eşdeğerdir:

nerede ... Laplacian matrisi tarafından indüklenen grafiğin .

Optimizasyon sorunu kısıtlama varsa analitik olarak çözülebilir tüm denetlenen numuneler için uygulanır. Vektörün etiketli kısmı bu nedenle açıktır. Etiketlenmemiş kısmı şunun için çözüldü:

Sözde tersin alınabileceğini unutmayın çünkü ile aynı aralığa sahiptir .

Çoklu görev öğrenimi için düzenleyiciler

Çoklu görev öğrenme durumunda, sorunlar eşzamanlı olarak ele alınır, her biri bir şekilde ilişkilidir. Amaç öğrenmektir ideal olarak, tahmin gücü olan görevlerin ilişkisinden güç alan fonksiyonlar. Bu, matrisi öğrenmeye eşdeğerdir .

Sütunlarda seyrek düzenleyici

Bu düzenleyici, her sütunda bir L2 normu ve tüm sütunlarda bir L1 normu tanımlar. Proksimal yöntemlerle çözülebilir.

Nükleer norm düzenlenmesi

nerede özdeğerler tekil değer ayrışımı nın-nin .

Ortalama kısıtlı düzenlilik

Bu düzenleyici, her görev için öğrenilen işlevleri, tüm görevlerdeki işlevlerin genel ortalamasına benzer olacak şekilde sınırlar. Bu, her görevin birbiriyle benzerlikleri paylaşmasının beklendiğine dair önceki bilgileri ifade etmek için kullanışlıdır. Bir örnek, her görevin farklı bir kişiyi temsil ettiği, günün farklı zamanlarında ölçülen kandaki demir seviyelerini tahmin etmektir.

Kümelenmiş ortalama kısıtlı düzenlilik

nerede bir görevler kümesidir.

Bu düzenleyici, ortalama kısıtlamalı düzenleyiciye benzer, ancak bunun yerine aynı küme içindeki görevler arasında benzerliği zorlar. Bu, daha karmaşık ön bilgileri yakalayabilir. Bu teknik tahmin etmek için kullanılmıştır Netflix öneriler. Bir küme, filmlerde benzer tercihleri ​​paylaşan bir grup insana karşılık gelir.

Grafik tabanlı benzerlik

Yukarıdakinden daha genel olarak, görevler arasındaki benzerlik bir işlevle tanımlanabilir. Düzenleyici, modeli benzer görevler için benzer işlevleri öğrenmeye teşvik eder.

belirli bir simetrik benzerlik matrisi için .

İstatistiklerde ve makine öğreniminde düzenleyiciliğin diğer kullanımları

Bayes öğrenimi yöntemler bir önceki olasılık bu (genellikle) daha karmaşık modellere daha düşük olasılık verir. İyi bilinen model seçim teknikleri şunları içerir: Akaike bilgi kriteri (AIC), minimum açıklama uzunluğu (MDL) ve Bayes bilgi kriteri (BIC). Normalleştirme içermeyen aşırı uyumu kontrol etmenin alternatif yöntemleri şunları içerir: çapraz doğrulama.

Farklı düzenlileştirme yöntemlerinin uygulama örnekleri doğrusal model şunlardır:

ModeliÖlçü sığdırEntropi ölçüsü[3][6]
AIC /BIC
Ridge regresyonu[7]
Kement[8]
Temel takibi denoising
Rudin – Osher – Fatemi modeli (TV)
Potts modeli
RLAD[9]
Dantzig Seçici[10]
EĞİM[11]

Ayrıca bakınız

Notlar

  1. ^ Kratsios, Anastasis (2020). "Arbitraj-Düzenleme Verileri Yoluyla Genelleştirilmiş HJM Çerçevesinde Derin Arbitrajsız Öğrenme". Riskler: [1]. doi:10.3390 / risk8020040. Vade yapısı modelleri, arbitraj fırsatlarını ortadan kaldırmak için düzenlenebilir. Alıntı dergisi gerektirir | günlük = (Yardım)
  2. ^ Bühlmann, Peter; Van De Geer, Sara (2011). "Yüksek Boyutlu Veriler için İstatistikler". İstatistiklerle Springer Serisi: 9. doi:10.1007/978-3-642-20192-9. ISBN  978-3-642-20191-2. P> n ise, sıradan en küçük kareler tahmincisi benzersiz değildir ve veriyi fazlasıyla aşacaktır. Bu nedenle, bir tür karmaşıklığın düzenlenmesi gerekli olacaktır. Alıntı dergisi gerektirir | günlük = (Yardım)
  3. ^ a b Piskopos Christopher M. (2007). Örüntü tanıma ve makine öğrenimi (Düzeltilmiş baskı. Ed.). New York: Springer. ISBN  978-0387310732.
  4. ^ Arasındaki bağlantı için maksimum a posteriori tahmin ve sırt gerilemesi, görmek Weinberger, Kilian (11 Temmuz 2018). "Doğrusal / Sırt Regresyonu". CS4780 Makine Öğrenimi Ders 13. Cornell.
  5. ^ Natarajan, B. (1995-04-01). "Doğrusal Sistemlere Seyrek Yaklaşık Çözümler". Bilgi İşlem Üzerine SIAM Dergisi. 24 (2): 227–234. doi:10.1137 / S0097539792240406. ISSN  0097-5397.
  6. ^ Duda Richard O. (2004). Desen sınıflandırması + bilgisayar kılavuzu: ciltli set (2. baskı). New York [u.a.]: Wiley. ISBN  978-0471703501.
  7. ^ Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regresyonu: Ortogonal olmayan problemler için yanlı tahmin". Teknometri. 12 (1): 55–67. doi:10.2307/1267351.
  8. ^ Tibshirani, Robert (1996). "Kement Yoluyla Gerileme Çekme ve Seçim" (PostScript ). Kraliyet İstatistik Derneği Dergisi, Seri B. 58 (1): 267–288. BAY  1379242. Alındı 2009-03-19.
  9. ^ Li Wang, Michael D. Gordon ve Ji Zhu (2006). "Düzenlenmiş En Az Mutlak Sapma Regresyonu ve Parametre Ayarı için Etkin Bir Algoritma". Altıncı Uluslararası Veri Madenciliği Konferansı. sayfa 690–700. doi:10.1109 / ICDM.2006.134.
  10. ^ Candes, Emmanuel; Tao, Terence (2007). "Dantzig seçici: İstatistiksel tahmin p -den çok daha büyük n". İstatistik Yıllıkları. 35 (6): 2313–2351. arXiv:matematik / 0506081. doi:10.1214/009053606000001523. BAY  2382644.
  11. ^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J.Candes (2013). "Sıralı L1 normu aracılığıyla istatistiksel tahmin ve test". arXiv:1310.1969 [stat.ME ].CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)

Referanslar