Düzenlenme (matematik) - Regularization (mathematics)

Yeşil ve mavi işlevlerin her ikisi de verilen veri noktalarında sıfır kayba uğrar. Öğrenilmiş bir model, yeşil işlevi tercih etmeye teşvik edilebilir; bu, temelde yatan bilinmeyen dağılımdan alınan daha fazla noktaya daha iyi genelleştirebilir.

{ displaystyle lambda}

, düzenlileştirme teriminin ağırlığı.

İçinde matematik, İstatistik, finans^[1], bilgisayar Bilimi, Özellikle de makine öğrenme ve ters problemler, düzenleme bir sorunu çözmek için bilgi ekleme işlemidir kötü niyetli problem veya önlemek için aşırı uyum gösterme.^[2]

Düzenlilik, kötü niyetli optimizasyon problemlerindeki nesnel işlevler için geçerlidir. Düzenlileştirme terimi veya ceza, optimizasyon işlevine işlevi gereğinden fazla donatmak veya en uygun çözümü bulmak için bir maliyet getirir.

Sınıflandırma

Sınıflandırıcıların deneysel olarak öğrenilmesi (sonlu bir veri kümesinden) her zaman yeterince belirlenmemiş bir sorundur, çünkü herhangi bir ${ displaystyle x}$ sadece örnekler verilmiştir ${ displaystyle x_ {1}, x_ {2}, ... x_ {n}}$ .

Bir düzenleyici terim (veya düzenleyici) ${ displaystyle R (f)}$ bir kayıp fonksiyonu:

{ displaystyle min _ {f} toplamı _ {i = 1} ^ {n} V (f (x_ {i}), y_ {i}) + lambda R (f)}

nerede ${ displaystyle V}$ tahmin etmenin maliyetini tanımlayan temel bir kayıp fonksiyonudur ${ displaystyle f (x)}$ etiket ne zaman ${ displaystyle y}$ , benzeri kare kaybı veya menteşe kaybı; ve ${ displaystyle lambda}$ düzenlileştirme teriminin önemini kontrol eden bir parametredir. ${ displaystyle R (f)}$ tipik olarak karmaşıklığı bir ceza uygulamak için seçilir ${ displaystyle f}$ . Kullanılan somut karmaşıklık kavramları aşağıdakiler için kısıtlamaları içerir: pürüzsüzlük ve sınırlar vektör uzayı normu.^[3]^{[sayfa gerekli ]}

Düzenlileştirme için teorik bir gerekçe, empoze etmeye çalışmasıdır. Occam'ın ustura çözüm üzerinde (yukarıdaki şekilde gösterildiği gibi, yeşil işlev, daha basit olanı tercih edilebilir). Bir Bayes bakış açısına göre, birçok düzenlileştirme tekniği belirli önceki model parametreleri üzerine dağılımlar.^[4]

Düzenli hale getirme, daha basit modelleri öğrenmek, modellerin seyrek olmasına neden olmak ve grup yapısını tanıtmak gibi birçok amaca hizmet edebilir.^{[açıklama gerekli ]} öğrenme problemine.

Aynı fikir birçok alanda ortaya çıktı. Bilim. Uygulanan basit bir düzenleme biçimi integral denklemler, genel olarak adlandırılır Tikhonov düzenlenmesi sonra Andrey Nikolayeviç Tikhonov, esasen verileri uydurmakla çözümün bir normunu azaltmak arasında bir değiş tokuş. Daha yakın zamanlarda, dahil olmak üzere doğrusal olmayan düzenlilik yöntemleri toplam varyasyon düzenleme popüler hale geldi.

Genelleme

Düzenlileştirme, öğrenilen bir modelin genelleştirilebilirliğini geliştirmek için bir teknik olarak motive edilebilir.

Bu öğrenme probleminin amacı, tüm olası girdiler ve etiketler üzerinde beklenen hatayı en aza indiren sonuca (etikete) uyan veya bunları öngören bir işlev bulmaktır. Bir işlevin beklenen hatası ${ displaystyle f_ {n}}$ dır-dir:

{ displaystyle I [f_ {n}] = int _ {X times Y} V (f_ {n} (x), y) rho (x, y) , dx , dy}

nerede ${ displaystyle X}$ ve ${ displaystyle Y}$ giriş verilerinin etki alanlarıdır ${ displaystyle x}$ ve etiketleri ${ displaystyle y}$ sırasıyla.

Tipik olarak öğrenme problemlerinde, biraz gürültüyle ölçülen yalnızca bir girdi verisi ve etiket alt kümesi mevcuttur. Bu nedenle, beklenen hata ölçülemezdir ve mevcut en iyi ikame ürün üzerindeki ampirik hatadır. ${ displaystyle N}$ mevcut örnekler:

{ displaystyle I_ {S} [f_ {n}] = { frac {1} {n}} sum _ {i = 1} ^ {N} V (f_ {n} ({ hat {x}} _ {i}), { hat {y}} _ {i})}

İşlev uzayının karmaşıklığı sınırlanmadan (resmi olarak, çekirdek Hilbert uzayını yeniden üretmek ) mevcutsa, vekil ampirik hatada sıfır kayba neden olan bir model öğrenilecektir. Ölçümler (örn. ${ displaystyle x_ {i}}$ ) gürültü ile yapıldı, bu model zarar görebilir aşırı uyum gösterme ve beklenen zayıf hatayı gösterir. Düzenli hale getirme, modeli oluşturmak için kullanılan işlev uzayının belirli bölgelerini keşfetmek için bir ceza getirir ve bu da genellemeyi geliştirebilir.

Tikhonov düzenlenmesi

Doğrusal bir işlevi öğrenirken ${ displaystyle f}$ , bilinmeyen ile karakterize vektör ${ displaystyle w}$ öyle ki ${ displaystyle f (x) = w cdot x}$ , eklenebilir ${ displaystyle L_ {2}}$ vektörün formu ${ displaystyle w}$ daha küçük normlara sahip çözümleri tercih etmek için kayıp ifadesine. Buna, en yaygın düzenleme biçimlerinden biri olan Tikhonov düzenlileştirme denir. Aynı zamanda sırt gerilemesi olarak da bilinir. Şu şekilde ifade edilir:

{ displaystyle min _ {w} toplamı _ {i = 1} ^ {n} V ({ hat {x}} _ {i} cdot w, { hat {y}} _ {i}) + lambda | w | _ {2} ^ {2}}

Genel bir fonksiyon durumunda, fonksiyonun normunu onun içinde alırız. çekirdek Hilbert uzayını yeniden üretmek:

{ displaystyle min _ {f} toplamı _ {i = 1} ^ {n} V (f ({ hat {x}} _ {i}), { hat {y}} _ {i}) + lambda | f | _ { mathcal {H}} ^ {2}}

Olarak ${ displaystyle L_ {2}}$ norm ayırt edilebilir, Tikhonov regülasyonunu kullanarak öğrenme problemleri şu şekilde çözülebilir: dereceli alçalma.

Tikhonov'a göre düzenlenmiş en küçük kareler

İle öğrenme problemi en küçük kareler kayıp fonksiyonu ve Tikhonov düzenlileştirmesi analitik olarak çözülebilir. Matris biçiminde yazılmış, optimal ${ displaystyle w}$ kayıp fonksiyonunun gradyanının, ${ displaystyle w}$ 0'dır.

{ displaystyle min _ {w} { frac {1} {n}} ({ hat {X}} wY) ^ {T} ({ hat {X}} wY) + lambda | w | _ {2} ^ {2}}

{ displaystyle nabla _ {w} = { frac {2} {n}} { hat {X}} ^ {T} ({ hat {X}} w-Y) +2 lambda w}

{ displaystyle 0 = { hat {X}} ^ {T} ({ hat {X}} w-Y) + n lambda w}

{ displaystyle leftarrow}

Bu birinci dereceden koşul bu optimizasyon problemi için

{ displaystyle w = ({ hat {X}} ^ {T} { hat {X}} + lambda nI) ^ {- 1} ({ hat {X}} ^ {T} Y)}

Optimizasyon probleminin oluşturulmasıyla, diğer değerler ${ displaystyle w}$ kayıp işlevi için daha büyük değerler verir. Bu, ikinci türevi inceleyerek doğrulanabilir. ${ displaystyle nabla _ {ww}}$ .

Eğitim sırasında bu algoritma ${ displaystyle O (d ^ {3} + nd ^ {2})}$ zaman. Terimler matrisin tersine çevrilmesi ve hesaplanması ile ilgilidir. ${ displaystyle X ^ {T} X}$ , sırasıyla. Test sürüyor ${ displaystyle O (nd)}$ zaman.

Erken durma

Erken durdurma, zaman içinde düzenlenme olarak görülebilir. Sezgisel olarak, gradyan inişi gibi bir eğitim prosedürü, yineleme sayısı arttıkça gittikçe daha karmaşık işlevleri öğrenme eğiliminde olacaktır. Zamanında düzenleyerek, modelin karmaşıklığı kontrol edilebilir ve genelleme geliştirilebilir.

Uygulamada, erken durdurma, bir eğitim seti üzerinde eğitim ve istatistiksel olarak bağımsız bir doğrulama setinde doğruluğu ölçerek uygulanır. Model, doğrulama kümesindeki performans artık iyileşmeyene kadar eğitilir. Model daha sonra bir test seti üzerinde test edilir.

En küçük karelerde teorik motivasyon

Sonlu yaklaştırmayı düşünün Neumann serisi tersinir bir matris için $Bir$ nerede ${ displaystyle | I-A | <1}$ :

{ displaystyle toplamı _ {i = 0} ^ {T-1} (I-A) ^ {i} yaklaşık A ^ {- 1}}

Bu, düzensiz en küçük karelerin analitik çözümüne yaklaşmak için kullanılabilir, eğer $γ$ normun birden az olmasını sağlamak için tanıtıldı.

{ displaystyle w_ {T} = { frac { gamma} {n}} sum _ {i = 0} ^ {T-1} (I - { frac { gamma} {n}} { şapka {X}} ^ {T} { hat {X}}) ^ {i} { hat {X}} ^ {T} { hat {Y}}}

Düzensiz en küçük kareler öğrenme probleminin kesin çözümü, deneysel hatayı en aza indirecektir, ancak beklenen hatayı genelleştirmek ve en aza indirmek için başarısız olabilir. Sınırlayarak $T$ Yukarıdaki algoritmadaki tek serbest parametre olan problem zamanında düzenlenir ve bu da genellemesini geliştirebilir.

Yukarıdaki algoritma, ampirik risk için gradyan iniş yinelemelerinin sayısını sınırlamaya eşdeğerdir.

{ displaystyle I_ {s} [w] = { frac {1} {2n}} | { hat {X}} w - { hat {Y}} | _ { mathbb {R} ^ { n}} ^ {2}}

gradyan iniş güncellemesiyle:

{ displaystyle { begin {align} w_ {0} & = 0 w_ {t + 1} & = (I - { frac { gamma} {n}} { hat {X}} ^ {T } { hat {X}}) w_ {t} + { frac { gamma} {n}} { hat {X}} ^ {T} { hat {Y}} end {hizalı}}}

Temel durum önemsizdir. Endüktif durum şu şekilde kanıtlanmıştır:

{ displaystyle { begin {align} w_ {T} & = (I - { frac { gamma} {n}} { hat {X}} ^ {T} { hat {X}}) { frac { gamma} {n}} sum _ {i = 0} ^ {T-2} (I - { frac { gamma} {n}} { hat {X}} ^ {T} { şapka {X}}) ^ {i} { hat {X}} ^ {T} { hat {Y}} + { frac { gamma} {n}} { hat {X}} ^ {T } { hat {Y}} & = { frac { gamma} {n}} sum _ {i = 1} ^ {T-1} (I - { frac { gamma} {n} } { hat {X}} ^ {T} { hat {X}}) ^ {i} { hat {X}} ^ {T} { hat {Y}} + { frac { gamma} {n}} { hat {X}} ^ {T} { hat {Y}} & = { frac { gamma} {n}} sum _ {i = 0} ^ {T-1 } (I - { frac { gamma} {n}} { hat {X}} ^ {T} { hat {X}}) ^ {i} { hat {X}} ^ {T} { hat {Y}} end {hizalı}}}

Seyreklik için düzenleyiciler

Bir sözlük olduğunu varsayalım ${ displaystyle phi _ {j}}$ boyut ile ${ displaystyle p}$ fonksiyon uzayındaki bir fonksiyon şu şekilde ifade edilebilecek şekilde verilir:

{ displaystyle f (x) = toplam _ {j = 1} ^ {p} phi _ {j} (x) w_ {j}}

L1 topu ile L2 topu arasında iki boyutta yapılan bir karşılaştırma, L1 düzenliliğinin seyrekliği nasıl sağladığına dair bir önsezi verir.

Bir seyreklik kısıtlamasının uygulanması ${ displaystyle w}$ daha basit ve daha yorumlanabilir modellere yol açabilir. Bu, birçok gerçek hayattaki uygulamada kullanışlıdır. hesaplamalı biyoloji. Bir örnek, tahmin gücünü en üst düzeye çıkarırken tıbbi testler gerçekleştirmenin maliyetini en aza indirmek için bir hastalık için basit bir tahmin testi geliştirmektir.

Mantıklı bir seyreklik kısıtı, ${ displaystyle L_ {0}}$ norm ${ displaystyle | w | _ {0}}$ , içindeki sıfır olmayan elemanların sayısı olarak tanımlanır ${ displaystyle w}$ . Çözmek ${ displaystyle L_ {0}}$ düzenli öğrenme probleminin, bununla birlikte, NP-zor.^[5]

${ displaystyle L_ {1}}$ norm (Ayrıca bakınız Normlar ) optimal olana yaklaşmak için kullanılabilir ${ displaystyle L_ {0}}$ dışbükey gevşeme yoluyla norm. Gösterilebilir ki ${ displaystyle L_ {1}}$ norm seyrekliğe neden olur. En küçük kareler söz konusu olduğunda bu sorun şu şekilde bilinir: KEMENT istatistiklerde ve temel arayış sinyal işlemede.

{ displaystyle min _ {w in mathbb {R} ^ {p}} { frac {1} {n}} | { hat {X}} w - { hat {Y}} | ^ {2} + lambda | w | _ {1}}

Elastik ağ düzenlenmesi

${ displaystyle L_ {1}}$ düzenleme bazen benzersiz olmayan çözümler üretebilir. Şekilde, olası çözümlerin alanı 45 derecelik bir çizgide olduğunda basit bir örnek verilmiştir. Bu, belirli uygulamalar için sorunlu olabilir ve bunları birleştirerek aşılabilir. ${ displaystyle L_ {1}}$ ile ${ displaystyle L_ {2}}$ düzenleme elastik ağ düzenlenmesi, aşağıdaki biçimi alır:

{ displaystyle min _ {w in mathbb {R} ^ {p}} { frac {1} {n}} | { hat {X}} w - { hat {Y}} | ^ {2} + lambda ( alpha | w | _ {1} + (1- alpha) | w | _ {2} ^ {2}), alpha [0,1] içinde }

Esnek ağ düzenlenmesi, ilişkili girdi özelliklerine eşit ağırlıkların atandığı bir gruplama etkisine sahip olma eğilimindedir.

Esnek ağ düzenlemesi, pratikte yaygın olarak kullanılır ve birçok makine öğrenimi kitaplığında uygulanır.

Proksimal yöntemler

İken ${ displaystyle L_ {1}}$ norm NP açısından zor bir soruna yol açmaz, ${ displaystyle L_ {1}}$ norm dışbükeydir ancak x = 0'daki bükülme nedeniyle kesin olarak farklılaşmaz. Alt gradyan yöntemleri güvenen alt türevi çözmek için kullanılabilir ${ displaystyle L_ {1}}$ düzenli öğrenme problemleri. Bununla birlikte, proksimal yöntemlerle daha hızlı yakınsama elde edilebilir.

Bir problem için ${ displaystyle min _ {w , H} F (w) + R (w)}$ öyle ki ${ displaystyle F}$ dışbükey, sürekli, farklılaştırılabilir, Lipschitz sürekli gradyanlı (en küçük kareler kayıp fonksiyonu gibi) ve ${ displaystyle R}$ dışbükey, sürekli ve doğrudur, bu durumda sorunu çözmek için proksimal yöntem aşağıdaki gibidir. Önce tanımlayın proksimal operatör

{ displaystyle operatorname {prox} _ {R} (v) = operatorname {argmin} limits _ {w in mathbb {R} ^ {D}} {R (w) + { frac {1 } {2}} | wv | ^ {2} },}

ve sonra yineleyin

{ displaystyle w_ {k + 1} = operatorname {prox} limits _ { gamma, R} (w_ {k} - gamma nabla F (w_ {k}))}

Proksimal yöntem yinelemeli olarak gradyan inişi gerçekleştirir ve ardından sonucu, izin verilen boşluğa geri yansıtır. ${ displaystyle R}$ .

Ne zaman ${ displaystyle R}$ ... ${ displaystyle L_ {1}}$ düzenleyici, proksimal operatör, yumuşak eşikleme operatörüne eşdeğerdir,

{ displaystyle S _ { lambda} (v) f (n) = { başlar {vakalar} v_ {i} - lambda ve { text {if}} v_ {i}> lambda 0, & { text {if}} v_ {i} in [- lambda, lambda] v_ {i} + lambda ve { text {if}} v_ {i} <- lambda end { vakalar}}}

Bu, verimli hesaplamaya izin verir.

Örtüşmesiz grup seyrekliği

Özellik grupları, belirli ön bilgileri bir optimizasyon problemine ifade etmek için yararlı olabilecek seyreklik kısıtlaması ile düzenlenebilir.

Örtüşmeyen bilinen gruplara sahip doğrusal bir model durumunda, bir düzenleyici tanımlanabilir:

{ displaystyle R (w) = toplam _ {g = 1} ^ {G} | w_ {g} | _ {2},}

nerede

{ displaystyle | w_ {g} | _ {2} = { sqrt { toplamı _ {j = 1} ^ {| G_ {g} |} (w_ {g} ^ {j}) ^ {2 }}}}

Bu, bir düzenleyiciyi teşvik etmek olarak görülebilir. ${ displaystyle L_ {2}}$ her grubun üyeleri üzerinde norm ve ardından bir ${ displaystyle L_ {1}}$ gruplar üzerinde norm.

Bu, proksimal operatörün blok bazında yumuşak eşikleme fonksiyonu olduğu proksimal yöntemle çözülebilir:

{ displaystyle operatorname {prox} limits _ { lambda, R, g} (w_ {g}) = { begin {case} (1 - { frac { lambda} { | w_ {g} | _ {2}}}) w_ {g}, & { text {if}} | w_ {g} | _ {2}> lambda 0 ve { text {if}} | w_ {g} | _ {2} leq lambda end {vakalar}}}

Örtüşen grup seyrekliği

Örtüşmesiz grup seyrekliği için açıklanan algoritma, belirli durumlarda grupların örtüştüğü duruma uygulanabilir. Bu, büyük olasılıkla tamamı sıfır elemanlı bazı gruplara ve bazı sıfır olmayan ve bazı sıfır elemanlı diğer gruplara neden olacaktır.

Grup yapısının korunması istenirse, yeni bir düzenleyici tanımlanabilir:

{ displaystyle R (w) = inf sol { toplamı _ {g = 1} ^ {G} | w_ {g} | _ {2}: w = toplamı _ {g = 1} ^ {G} { bar {w}} _ {g} sağ }}

Her biri için ${ displaystyle w_ {g}}$ , ${ displaystyle { bar {w}} _ {g}}$ vektör olarak tanımlanır, öyle ki ${ displaystyle { bar {w}} _ {g}}$ gruba ${ displaystyle g}$ eşittir ${ displaystyle w_ {g}}$ ve diğer tüm girişler ${ displaystyle { bar {w}} _ {g}}$ sıfırdır. Düzenleyici, en uygun parçalanmayı bulur ${ displaystyle w}$ parçalara ayırın. Birden çok grupta var olan tüm öğeleri kopyalar olarak görülebilir. Bu düzenleyicideki öğrenme problemleri, proksimal yöntemle de bir komplikasyonla çözülebilir. Proksimal operatör kapalı biçimde hesaplanamaz, ancak yinelemeli olarak etkili bir şekilde çözülebilir ve proksimal yöntem yinelemesinde bir iç yinelemeye neden olabilir.

Yarı denetimli öğrenim için düzenleyiciler

Etiketleri toplamak girdi örneklerinden daha pahalı olduğunda, yarı denetimli öğrenme yararlı olabilir. Düzenleyiciler, denetimsiz eğitim örneklerinin yapısına saygı duyan modelleri öğrenmek için öğrenme algoritmalarına rehberlik etmek üzere tasarlanmıştır. Simetrik ağırlık matrisi ise ${ displaystyle W}$ verildiğinde, bir düzenleyici tanımlanabilir:

{ displaystyle R (f) = toplamı _ {i, j} w_ {ij} (f (x_ {i}) - f (x_ {j})) ^ {2}}

Eğer ${ displaystyle W_ {ij}}$ noktalar için bazı mesafe ölçüsünün sonucunu kodlar ${ displaystyle x_ {i}}$ ve ${ displaystyle x_ {j}}$ arzu edilir ki ${ displaystyle f (x_ {i}) yaklaşık f (x_ {j})}$ . Bu düzenleyici, bu sezgiyi yakalar ve şuna eşdeğerdir:

{ displaystyle R (f) = { çubuğu {f}} ^ {T} L { çubuğu {f}}}

nerede

{ displaystyle L = D-W}

... Laplacian matrisi tarafından indüklenen grafiğin

{ displaystyle W}

.

Optimizasyon sorunu ${ displaystyle min _ {f in mathbb {R} ^ {m}} R (f), m = u + l}$ kısıtlama varsa analitik olarak çözülebilir ${ displaystyle f (x_ {i}) = y_ {i}}$ tüm denetlenen numuneler için uygulanır. Vektörün etiketli kısmı ${ displaystyle f}$ bu nedenle açıktır. Etiketlenmemiş kısmı ${ displaystyle f}$ şunun için çözüldü:

{ displaystyle min _ {f_ {u} in mathbb {R} ^ {u}} f ^ {T} Lf = min _ {f_ {u} in mathbb {R} ^ {u}} {f_ {u} ^ {T} L_ {uu} f_ {u} + f_ {l} ^ {T} L_ {lu} f_ {u} + f_ {u} ^ {T} L_ {ul} f_ { l} }}

{ displaystyle nabla _ {f_ {u}} = 2L_ {uu} f_ {u} + 2L_ {ul} Y}

{ displaystyle f_ {u} = L_ {uu} ^ { hançer} (L_ {ul} Y)}

Sözde tersin alınabileceğini unutmayın çünkü ${ displaystyle L_ {ul}}$ ile aynı aralığa sahiptir ${ displaystyle L_ {uu}}$ .

Çoklu görev öğrenimi için düzenleyiciler

Çoklu görev öğrenme durumunda, ${ displaystyle T}$ sorunlar eşzamanlı olarak ele alınır, her biri bir şekilde ilişkilidir. Amaç öğrenmektir ${ displaystyle T}$ ideal olarak, tahmin gücü olan görevlerin ilişkisinden güç alan fonksiyonlar. Bu, matrisi öğrenmeye eşdeğerdir ${ displaystyle W: T times D}$ .

Sütunlarda seyrek düzenleyici

{ displaystyle R (w) = toplam _ {i = 1} ^ {D} | W | _ {2,1}}

Bu düzenleyici, her sütunda bir L2 normu ve tüm sütunlarda bir L1 normu tanımlar. Proksimal yöntemlerle çözülebilir.

Nükleer norm düzenlenmesi

{ Displaystyle R (w) = | sigma (W) | _ {1}}

nerede

{ displaystyle sigma (W)}

özdeğerler tekil değer ayrışımı nın-nin

{ displaystyle W}

.

Ortalama kısıtlı düzenlilik

{ displaystyle R (f_ {1} cdots f_ {T}) = toplamı _ {t = 1} ^ {T} | f_ {t} - { frac {1} {T}} toplamı _ { s = 1} ^ {T} f_ {s} | _ {H_ {k}} ^ {2}}

Bu düzenleyici, her görev için öğrenilen işlevleri, tüm görevlerdeki işlevlerin genel ortalamasına benzer olacak şekilde sınırlar. Bu, her görevin birbiriyle benzerlikleri paylaşmasının beklendiğine dair önceki bilgileri ifade etmek için kullanışlıdır. Bir örnek, her görevin farklı bir kişiyi temsil ettiği, günün farklı zamanlarında ölçülen kandaki demir seviyelerini tahmin etmektir.

Kümelenmiş ortalama kısıtlı düzenlilik

{ displaystyle R (f_ {1} cdots f_ {T}) = toplamı _ {r = 1} ^ {C} toplamı _ {t içinde I (r)} | f_ {t} - { frac {1} {I (r)}} sum _ {s in I (r)} f_ {s} | _ {H_ {k}} ^ {2}}

nerede

{ displaystyle I (r)}

bir görevler kümesidir.

Bu düzenleyici, ortalama kısıtlamalı düzenleyiciye benzer, ancak bunun yerine aynı küme içindeki görevler arasında benzerliği zorlar. Bu, daha karmaşık ön bilgileri yakalayabilir. Bu teknik tahmin etmek için kullanılmıştır Netflix öneriler. Bir küme, filmlerde benzer tercihleri paylaşan bir grup insana karşılık gelir.

Grafik tabanlı benzerlik

Yukarıdakinden daha genel olarak, görevler arasındaki benzerlik bir işlevle tanımlanabilir. Düzenleyici, modeli benzer görevler için benzer işlevleri öğrenmeye teşvik eder.

{ displaystyle R (f_ {1} cdots f_ {T}) = toplamı _ {t, s = 1, t neq s} ^ {T} | f_ {t} -f_ {s} | ^ {2} M_ {ts}}

belirli bir simetrik benzerlik matrisi için

{ displaystyle M}

.

İstatistiklerde ve makine öğreniminde düzenleyiciliğin diğer kullanımları

Bayes öğrenimi yöntemler bir önceki olasılık bu (genellikle) daha karmaşık modellere daha düşük olasılık verir. İyi bilinen model seçim teknikleri şunları içerir: Akaike bilgi kriteri (AIC), minimum açıklama uzunluğu (MDL) ve Bayes bilgi kriteri (BIC). Normalleştirme içermeyen aşırı uyumu kontrol etmenin alternatif yöntemleri şunları içerir: çapraz doğrulama.

Farklı düzenlileştirme yöntemlerinin uygulama örnekleri doğrusal model şunlardır:

Modeli	Ölçü sığdır	Entropi ölçüsü^[3]^[6]
AIC /BIC	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle \| beta \| _ {0}}$
Ridge regresyonu^[7]	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle \| beta \| _ {2}}$
Kement^[8]	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle \| beta \| _ {1}}$
Temel takibi denoising	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle lambda \| beta \| _ {1}}$
Rudin – Osher – Fatemi modeli (TV)	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle lambda \| nabla beta \| _ {1}}$
Potts modeli	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle lambda \| nabla beta \| _ {0}}$
RLAD^[9]	${ displaystyle \| Y-X beta \| _ {1}}$	${ displaystyle \| beta \| _ {1}}$
Dantzig Seçici^[10]	${ displaystyle \| X ^ { top} (Y-X beta) \| _ { infty}}$	${ displaystyle \| beta \| _ {1}}$
EĞİM^[11]	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle toplamı _ {i = 1} ^ {p} lambda _ {i} \| beta \| _ {(i)}}$

Ayrıca bakınız

Notlar

^ Kratsios, Anastasis (2020). "Arbitraj-Düzenleme Verileri Yoluyla Genelleştirilmiş HJM Çerçevesinde Derin Arbitrajsız Öğrenme". Riskler: [1]. doi:10.3390 / risk8020040. Vade yapısı modelleri, arbitraj fırsatlarını ortadan kaldırmak için düzenlenebilir. Alıntı dergisi gerektirir | günlük = (Yardım)
^ Bühlmann, Peter; Van De Geer, Sara (2011). "Yüksek Boyutlu Veriler için İstatistikler". İstatistiklerle Springer Serisi: 9. doi:10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. P> n ise, sıradan en küçük kareler tahmincisi benzersiz değildir ve veriyi fazlasıyla aşacaktır. Bu nedenle, bir tür karmaşıklığın düzenlenmesi gerekli olacaktır. Alıntı dergisi gerektirir | günlük = (Yardım)
^ ^a ^b Piskopos Christopher M. (2007). Örüntü tanıma ve makine öğrenimi (Düzeltilmiş baskı. Ed.). New York: Springer. ISBN 978-0387310732.
^ Arasındaki bağlantı için maksimum a posteriori tahmin ve sırt gerilemesi, görmek Weinberger, Kilian (11 Temmuz 2018). "Doğrusal / Sırt Regresyonu". CS4780 Makine Öğrenimi Ders 13. Cornell.
^ Natarajan, B. (1995-04-01). "Doğrusal Sistemlere Seyrek Yaklaşık Çözümler". Bilgi İşlem Üzerine SIAM Dergisi. 24 (2): 227–234. doi:10.1137 / S0097539792240406. ISSN 0097-5397.
^ Duda Richard O. (2004). Desen sınıflandırması + bilgisayar kılavuzu: ciltli set (2. baskı). New York [u.a.]: Wiley. ISBN 978-0471703501.
^ Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regresyonu: Ortogonal olmayan problemler için yanlı tahmin". Teknometri. 12 (1): 55–67. doi:10.2307/1267351.
^ Tibshirani, Robert (1996). "Kement Yoluyla Gerileme Çekme ve Seçim" (PostScript ). Kraliyet İstatistik Derneği Dergisi, Seri B. 58 (1): 267–288. BAY 1379242. Alındı 2009-03-19.
^ Li Wang, Michael D. Gordon ve Ji Zhu (2006). "Düzenlenmiş En Az Mutlak Sapma Regresyonu ve Parametre Ayarı için Etkin Bir Algoritma". Altıncı Uluslararası Veri Madenciliği Konferansı. sayfa 690–700. doi:10.1109 / ICDM.2006.134.
^ Candes, Emmanuel; Tao, Terence (2007). "Dantzig seçici: İstatistiksel tahmin p -den çok daha büyük n". İstatistik Yıllıkları. 35 (6): 2313–2351. arXiv:matematik / 0506081. doi:10.1214/009053606000001523. BAY 2382644.
^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J.Candes (2013). "Sıralı L1 normu aracılığıyla istatistiksel tahmin ve test". arXiv:1310.1969 [stat.ME ].CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)

Referanslar

Neumaier, A. (1998). "Kötü koşullu ve tekil doğrusal sistemleri çözme: Düzenlileştirme üzerine bir eğitim" (PDF). SIAM İncelemesi. 40 (3): 636–666. doi:10.1137 / S0036144597321909.

[1] Kratsios, Anastasis (2020). "Arbitraj-Düzenleme Verileri Yoluyla Genelleştirilmiş HJM Çerçevesinde Derin Arbitrajsız Öğrenme". Riskler: [1]. doi:10.3390 / risk8020040. Vade yapısı modelleri, arbitraj fırsatlarını ortadan kaldırmak için düzenlenebilir. Alıntı dergisi gerektirir | günlük = (Yardım)

[2] Bühlmann, Peter; Van De Geer, Sara (2011). "Yüksek Boyutlu Veriler için İstatistikler". İstatistiklerle Springer Serisi: 9. doi:10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. P> n ise, sıradan en küçük kareler tahmincisi benzersiz değildir ve veriyi fazlasıyla aşacaktır. Bu nedenle, bir tür karmaşıklığın düzenlenmesi gerekli olacaktır. Alıntı dergisi gerektirir | günlük = (Yardım)

[:0-3] Piskopos Christopher M. (2007). Örüntü tanıma ve makine öğrenimi (Düzeltilmiş baskı. Ed.). New York: Springer. ISBN 978-0387310732.

[4] Arasındaki bağlantı için maksimum a posteriori tahmin ve sırt gerilemesi, görmek Weinberger, Kilian (11 Temmuz 2018). "Doğrusal / Sırt Regresyonu". CS4780 Makine Öğrenimi Ders 13. Cornell.

[5] Natarajan, B. (1995-04-01). "Doğrusal Sistemlere Seyrek Yaklaşık Çözümler". Bilgi İşlem Üzerine SIAM Dergisi. 24 (2): 227–234. doi:10.1137 / S0097539792240406. ISSN 0097-5397.

[6] Duda Richard O. (2004). Desen sınıflandırması + bilgisayar kılavuzu: ciltli set (2. baskı). New York [u.a.]: Wiley. ISBN 978-0471703501.

[ridge-7] Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regresyonu: Ortogonal olmayan problemler için yanlı tahmin". Teknometri. 12 (1): 55–67. doi:10.2307/1267351.

[8] Tibshirani, Robert (1996). "Kement Yoluyla Gerileme Çekme ve Seçim" (PostScript ). Kraliyet İstatistik Derneği Dergisi, Seri B. 58 (1): 267–288. BAY 1379242. Alındı 2009-03-19.

[9] Li Wang, Michael D. Gordon ve Ji Zhu (2006). "Düzenlenmiş En Az Mutlak Sapma Regresyonu ve Parametre Ayarı için Etkin Bir Algoritma". Altıncı Uluslararası Veri Madenciliği Konferansı. sayfa 690–700. doi:10.1109 / ICDM.2006.134.

[10] Candes, Emmanuel; Tao, Terence (2007). "Dantzig seçici: İstatistiksel tahmin p -den çok daha büyük n". İstatistik Yıllıkları. 35 (6): 2313–2351. arXiv:matematik / 0506081. doi:10.1214/009053606000001523. BAY 2382644.

[11] Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J.Candes (2013). "Sıralı L1 normu aracılığıyla istatistiksel tahmin ve test". arXiv:1310.1969 [stat.ME ].CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Modeli	Ölçü sığdır	Entropi ölçüsü^[3]^[6]
AIC /BIC	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle \| beta \| _ {0}}$
Ridge regresyonu^[7]	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle \| beta \| _ {2}}$
Kement^[8]	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle \| beta \| _ {1}}$
Temel takibi denoising	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle lambda \| beta \| _ {1}}$
Rudin – Osher – Fatemi modeli (TV)	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle lambda \| nabla beta \| _ {1}}$
Potts modeli	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle lambda \| nabla beta \| _ {0}}$
RLAD^[9]	${ displaystyle \| Y-X beta \| _ {1}}$	${ displaystyle \| beta \| _ {1}}$
Dantzig Seçici^[10]	${ displaystyle \| X ^ { top} (Y-X beta) \| _ { infty}}$	${ displaystyle \| beta \| _ {1}}$
EĞİM^[11]	${ displaystyle \| Y-X beta \| _ {2}}$	${ displaystyle toplamı _ {i = 1} ^ {p} lambda _ {i} \| beta \| _ {(i)}}$