Spektral filtreleme ile düzenleme - Regularization by spectral filtering - Wikipedia

Spektral düzenleme herhangi bir sınıf düzenleme kullanılan teknikler makine öğrenme gürültünün etkisini kontrol etmek ve önlemek aşırı uyum gösterme. Spektral düzenleme, görüntülerin hatalarının giderilmesinden e-postaların istenmeyen posta klasörü ve istenmeyen posta olmayan klasör olarak sınıflandırılmasına kadar çok çeşitli uygulamalarda kullanılabilir. Örneğin, e-posta sınıflandırma örneğinde, spektral düzenleme gürültünün etkisini azaltmak ve bir makine öğrenimi sistemi, bir spam ve istenmeyen e-postayı nasıl söyleyeceğini öğrenmek için etiketli bir e-posta kümesi üzerinde eğitilirken aşırı uyumu önlemek için kullanılabilir. ayrı.

Spektral düzenleme algoritmaları, başlangıçta tanımlanmış ve teoride incelenmiş yöntemlere dayanır. kötü pozlanmış ters problemler (örneğin bkz.^[1]) muhtemelen kötü olan bir doğrusal operatörün (veya bir matrisin) ters çevrilmesine odaklanmak durum numarası veya sınırsız ters. Bu bağlamda, düzenlileştirme, orijinal işleci, bir düzenlileştirme parametresi tarafından kontrol edilen bir koşul numarasına sahip "düzenlileştirme işleci" adı verilen sınırlı bir işleçle ikame etmek anlamına gelir,^[2] klasik bir örnek olmak Tikhonov düzenlenmesi. Kararlılığı sağlamak için, bu düzenleme parametresi gürültü seviyesine göre ayarlanır.^[2] Spektral düzenlemenin arkasındaki ana fikir, her bir düzenlileştirme operatörünün, sorunu tanımlayan operatörün özdeğerleri üzerinde uygun bir filtre olarak spektral hesap kullanılarak tanımlanabilmesidir ve filtrenin rolü, "küçük özdeğerlere karşılık gelen salınım davranışını bastırmaktır". .^[2] Bu nedenle, spektral düzenleme algoritmaları sınıfındaki her algoritma, uygun bir filtre fonksiyonu ile tanımlanır (bu özel algoritma için türetilmesi gerekir). Spektral filtrelemenin iyi çalışıldığı en yaygın kullanılan düzenleme algoritmalarından üçü Tikhonov regülarizasyonu, Landweber yinelemesi, ve kesik tekil değer ayrışımı (TSVD). Düzenlilik parametresini seçmeye gelince, bu parametreyi hesaplamak için aday yöntem örnekleri arasında genelleştirilmiş tutarsızlık ilkesi bulunur çapraz doğrulama ve L eğrisi kriteri.^[3]

Makine öğrenimi bağlamında incelenen spektral filtreleme kavramının, ilgili literatüre yakından bağlı olduğu unutulmamalıdır. fonksiyon yaklaşımı (sinyal işlemede).

Gösterim

Eğitim seti şu şekilde tanımlanır: ${ displaystyle S = {(x_ {1}, y_ {1}), noktalar, (x_ {n}, y_ {n}) }}$ , nerede ${ displaystyle X}$ ... ${ displaystyle n kere d}$ giriş matrisi ve ${ displaystyle Y = (y_ {1}, noktalar, y_ {n})}$ çıktı vektörüdür. Mümkün olduğunda, çekirdek işlevi şu şekilde gösterilir: ${ displaystyle k}$ , ve ${ displaystyle n kere n}$ çekirdek matrisi ile gösterilir ${ displaystyle K}$ girişleri olan ${ displaystyle K_ {ij} = k (x_ {i}, x_ {j})}$ ve ${ displaystyle { mathcal {H}}}$ gösterir Kernel Hilbert Uzayını Yeniden Oluşturmak (RKHS) çekirdekli ${ displaystyle k}$ . Düzenli hale getirme parametresi şu şekilde gösterilir: ${ displaystyle lambda}$ .

(Not: $G'de { displaystyle g }$ ve $F'de { displaystyle f }$ , ile ${ displaystyle G}$ ve ${ displaystyle F}$ Doğrusal, sürekli bir operatör verildiğinde Hilbert uzayları olmak ${ displaystyle L}$ varsayalım ki ${ displaystyle g = Lf}$ tutar. Bu ortamda, doğrudan sorun şunun için çözmek olacaktır: ${ displaystyle g}$ verilen ${ displaystyle f}$ ve tersi problem çözmektir. ${ displaystyle f}$ verilen ${ displaystyle g}$ . Çözüm mevcutsa, benzersiz ve kararlıysa, ters problem (yani çözme problemi) ${ displaystyle f}$ ) iyi pozlanmış; aksi takdirde kötüdür.)

Kötü pozlanmış ters problemler teorisiyle ilişki

Düzenlenmiş en küçük kareler (RLS) tahmin problemi (Tikhonov düzenlileştirme ayarı) ve yanlış ters problem teorisi arasındaki bağlantı, spektral regülasyon algoritmalarının kötü pozlanmış ters problem teorisi ile nasıl ilişkili olduğuna dair bir örnektir.

RLS tahmincisi çözer

{ displaystyle min _ {f { mathcal {H}}} { frac {1} {n}} toplamı _ {i = 1} ^ {n} (y_ {i} -f (x_ { i})) ^ {2} + lambda | f | _ { mathcal {H}} ^ {2}}

ve RKHS, bu RLS tahmin edicisinin şu şekilde ifade edilmesine izin verir: ${ displaystyle f_ {S} ^ { lambda} (X) = toplamı _ {i = 1} ^ {n} c_ {i} k (x, x_ {i})}$ nerede ${ displaystyle (K + n lambda I) c = Y}$ ile ${ displaystyle c = (c_ {1}, noktalar, c_ {n})}$ .^[4] Ceza terimi, düzgünlüğü kontrol etmek ve fazla takmayı önlemek için kullanılır. Ampirik risk minimizasyonunun çözümü ${ displaystyle min _ {f { mathcal {H}}} { frac {1} {n}} toplamı _ {i = 1} ^ {n} (y_ {i} -f (x_ { i})) ^ {2}}$ olarak yazılabilir ${ displaystyle f_ {S} ^ { lambda} (X) = toplamı _ {i = 1} ^ {n} c_ {i} k (x, x_ {i})}$ öyle ki ${ displaystyle Kc = Y}$ , ceza fonksiyonunun eklenmesi, sistemde çözülmesi gereken aşağıdaki değişikliğe karşılık gelir:^[5]

{ displaystyle { bigg {} min _ {f in { mathcal {H}}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i } -f (x_ {i})) ^ {2} rightarrow min _ {f in { mathcal {H}}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} -f (x_ {i})) ^ {2} + lambda | f | _ { mathcal {H}} ^ {2} { bigg }} equiv { bigg {} Kc = Y rightarrow (K + n lambda I) c = Y { bigg }}.}

Bu öğrenme ortamında, çekirdek matrisi şu şekilde ayrıştırılabilir: ${ displaystyle K = Q Sigma Q ^ {T}}$ , ile

{ displaystyle sigma = operatorname {diag} ( sigma _ {1}, noktalar, sigma _ {n}), ~ sigma _ {1} geq sigma _ {2} geq cdots geq sigma _ {n} geq 0}

ve ${ displaystyle q_ {1}, noktalar, q_ {n}}$ karşılık gelen özvektörlerdir. Bu nedenle, ilk öğrenme ortamında aşağıdakiler geçerlidir:

{ displaystyle c = K ^ {- 1} Y = Q Sigma ^ {- 1} Q ^ {T} Y = toplamı _ {i = 1} ^ {n} { frac {1} { sigma _ {i}}} langle q_ {i}, Y rangle q_ {i}.}

Bu nedenle, küçük özdeğerler için, verilerdeki küçük düzensizlikler bile çözümde önemli değişikliklere yol açabilir. Bu nedenle, problem kötü koşullandırılmıştır ve bu HBS problemini çözmek, muhtemelen kötü-koşullu ters problemler teorisinde incelenen, muhtemelen kötü koşullu bir matris ters çevirme problemini stabilize etmek anlamına gelir; Her iki problemde de temel endişe, sayısal istikrar konusunu ele almaktır.

Algoritmaların uygulanması

Spektral düzenleme algoritmaları sınıfındaki her algoritma, burada şu şekilde ifade edilen uygun bir filtre işlevi ile tanımlanır. ${ displaystyle G _ { lambda} ( cdot)}$ . Kernel matrisi ile gösteriliyorsa ${ displaystyle K}$ , sonra ${ displaystyle lambda}$ küçük özdeğerlerin büyüklüğünü kontrol etmelidir ${ displaystyle G _ { lambda} (K)}$ . Bir filtreleme kurulumunda amaç, tahmin edicileri bulmaktır ${ displaystyle f_ {S} ^ { lambda} (X): = toplam _ {i = 1} ^ {n} c_ {i} k (x, x_ {i})}$ nerede ${ displaystyle c = G _ { lambda} (K) Y}$ . Bunu yapmak için bir skaler filtre işlevi ${ displaystyle G _ { lambda} ( sigma)}$ çekirdek matrisinin öz ayrışması kullanılarak tanımlanır:

{ displaystyle G _ { lambda} (K) = QG _ { lambda} ( Sigma) Q ^ {T},}

hangi sonuç verir

{ displaystyle G _ { lambda} (K) Y ~ = ~ toplamı _ {i = 1} ^ {n} G _ { lambda} ( sigma _ {i}) langle q_ {i}, Y rangle q_ {i}.}

Tipik olarak, uygun bir filtre işlevi aşağıdaki özelliklere sahip olmalıdır:^[5]

1. As ${ displaystyle lambda}$ sıfıra gider ${ displaystyle G _ { lambda} ( sigma) ~ rightarrow ~ 1 / sigma}$ .

2. (daha küçük) özdeğerlerinin büyüklüğü ${ displaystyle G _ { lambda}}$ tarafından kontrol edilir ${ displaystyle lambda}$ .

Yukarıdaki öğeler, tüm spektral düzenleme algoritmaları için filtre fonksiyonlarının genel özelliklerinin kaba bir karakterizasyonunu verirken, filtre fonksiyonunun türetilmesi (ve dolayısıyla onun tam formu), spektral filtrelemenin uygulandığı spesifik düzenleme yöntemine bağlı olarak değişir.

Tikhonov düzenlenmesi için filtre işlevi

Tikhonov düzenlileştirme ayarında, RLS için filtre işlevi aşağıda açıklanmıştır. Da gösterildiği gibi,^[4] bu ortamda ${ displaystyle c = (K + n lambda I) ^ {- 1} Y}$ . Böylece,

{ displaystyle c = (K + n lambda I) ^ {- 1} Y = Q ( Sigma + n lambda I) ^ {- 1} Q ^ {T} Y = toplamı _ {i = 1} ^ {n} { frac {1} { sigma _ {i} + n lambda}} q_ {i}.}

İstenmeyen bileşenler, düzenleme kullanılarak filtrelenir:

Eğer ${ displaystyle sigma gg lambda n}$ , sonra ${ displaystyle { frac {1} { sigma _ {i} + n lambda}} sim { frac {1} { sigma _ {i}}}}$ .
Eğer ${ displaystyle sigma ll lambda n}$ , sonra ${ displaystyle { frac {1} { sigma _ {i} + n lambda}} sim { frac {1} { lambda n}}}$ .

Tikhonov düzenlemesine yönelik filtre işlevi bu nedenle şu şekilde tanımlanır:^[5]

${ displaystyle G _ { lambda} ( sigma) = { frac {1} { sigma + n lambda}}.}$

Landweber yinelemesi için filtre işlevi

Landweber yinelemesinin arkasındaki fikir, dereceli alçalma:^[5]

{ displaystyle c ^ {0} = 0}

{ displaystyle { text {for}} i = 1, dots, t-1}

{ displaystyle ~~~~~ c ^ {i} = c ^ {i-1} + eta (Y-Kc ^ {i-1})}

{ displaystyle mathrm {end}}

Bu ortamda, eğer ${ displaystyle n}$ daha büyük ${ displaystyle K}$ en büyük özdeğer, yukarıdaki yineleme, seçilerek yakınsar ${ displaystyle eta = 2 / n}$ adım boyutu olarak:^[5] Yukarıdaki yineleme, en aza indirmeye eşdeğerdir ${ displaystyle { frac {1} {n}} || Y-Kc || _ {2} ^ {2}}$ (yani ampirik risk) gradyan iniş yoluyla; indüksiyon kullanılarak kanıtlanabilir. ${ displaystyle t}$ -th iterasyon, çözüm şu şekilde verilir: ^[5]

{ displaystyle c = eta toplamı _ {i = 0} ^ {t-1} (I- eta K) ^ {i} Y.}

Bu nedenle, uygun filtre işlevi şu şekilde tanımlanır:

${ displaystyle G _ { lambda} ( sigma) = eta toplamı _ {i = 0} ^ {t-1} (I- eta sigma) ^ {i}.}$

Bu filtre fonksiyonunun kesilmiş bir güç genişlemesine karşılık geldiği gösterilebilir. ${ displaystyle K ^ {- 1}}$ ;^[5] bunu görmek için, ilişkinin ${ displaystyle toplamı _ {i geq 0} x ^ {i} = 1 / (1-x)}$ , yine de tutar ${ displaystyle x}$ bir matris ile değiştirilir; bu nedenle, eğer ${ displaystyle K}$ (çekirdek matrisi) veya daha doğrusu ${ displaystyle I- eta K}$ , kabul edilir, aşağıdaki muhafazalar:

{ displaystyle K ^ {- 1} = eta sum _ {i = 0} ^ { infty} (I- eta K) ^ {i} sim eta sum _ {i = 0} ^ { t-1} (I- eta K) ^ {i}.}

Bu ayarda, yineleme sayısı düzenlileştirme parametresini verir; kabaca konuşma, ${ displaystyle t sim 1 / lambda}$ .^[5] Eğer ${ displaystyle t}$ büyük, aşırı uyum bir sorun olabilir. Eğer ${ displaystyle t}$ küçükse, aşırı yumuşatma bir sorun olabilir. Bu nedenle, yinelemelerin erken durdurulması için uygun bir zamanın seçilmesi, bir düzenlilik etkisi sağlar.

TSVD için filtre işlevi

Öz ayrıştırma göz önüne alındığında TSVD ayarında ${ displaystyle K = Q Sigma Q ^ {T}}$ ve önceden belirlenmiş bir eşik kullanarak ${ displaystyle lambda n}$ Bu eşikten daha küçük olan tüm özdeğerler atılarak çekirdek matrisi için düzenli bir ters oluşturulabilir.^[5]Böylece, TSVD için filtre işlevi şu şekilde tanımlanabilir:

{ displaystyle G _ { lambda} ( sigma) = sol {{ begin {array} {lcll} 1 / sigma &, & { text {if}} sigma geq lambda n [ 0,05 inç] 0 &, & { text {aksi halde}} [0,05 inç] end {dizi}} sağ ..}

TSVD'nin (kernel) kullanılarak verilerin (denetimsiz) projeksiyonuna eşdeğer olduğu gösterilebilir. Temel bileşenler Analizi (PCA) ve aynı zamanda öngörülen veriler üzerindeki ampirik riski en aza indirmeye eşdeğerdir (düzenleme olmadan).^[5] Projeksiyon için tutulan bileşen sayısının buradaki tek ücretsiz parametre olduğuna dikkat edin.

Referanslar

^ H. W. Engl, M. Hanke ve A. Neubauer. Ters problemlerin düzenlenmesi. Kluwer, 1996.
^ ^a ^b ^c L. Lo Gerfo, L. Rosasco, F. Odone, E. De Vito ve A. Verri. Denetimli Öğrenme için Spektral Algoritmalar, Sinirsel Hesaplama, 20(7), 2008.
^ P. C. Hansen, J. G. Nagy ve D. P. O'Leary. Çapak Alma Görüntüler: Matrisler, Spektrumlar ve Filtreleme, Algoritmaların Temelleri 3, SIAM, Philadelphia, 2006.
^ ^a ^b L. Rosasco. 9.520 Ders Notları Ders 6: İstatistiksel Öğrenme Teorisi ve Uygulamaları. Massachusetts Teknoloji Enstitüsü, Güz 2013. Şuradan ulaşılabilir: https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf
^ ^a ^b ^c ^d ^e ^f ^g ^h ^ben ^j L. Rosasco. 9.520 Ders Notlarının 7. Dersi: İstatistiksel Öğrenme Teorisi ve Uygulamaları. Massachusetts Teknoloji Enstitüsü, Güz 2013. Şuradan ulaşılabilir: https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf

[1] H. W. Engl, M. Hanke ve A. Neubauer. Ters problemlerin düzenlenmesi. Kluwer, 1996.

[rosasco-2] L. Lo Gerfo, L. Rosasco, F. Odone, E. De Vito ve A. Verri. Denetimli Öğrenme için Spektral Algoritmalar, Sinirsel Hesaplama, 20(7), 2008.

[3] P. C. Hansen, J. G. Nagy ve D. P. O'Leary. Çapak Alma Görüntüler: Matrisler, Spektrumlar ve Filtreleme, Algoritmaların Temelleri 3, SIAM, Philadelphia, 2006.

[BB-4] L. Rosasco. 9.520 Ders Notları Ders 6: İstatistiksel Öğrenme Teorisi ve Uygulamaları. Massachusetts Teknoloji Enstitüsü, Güz 2013. Şuradan ulaşılabilir: https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf

[AA-5] ^ ^a ^b ^c ^d ^e ^f ^g ^h ^ben ^j L. Rosasco. 9.520 Ders Notlarının 7. Dersi: İstatistiksel Öğrenme Teorisi ve Uygulamaları. Massachusetts Teknoloji Enstitüsü, Güz 2013. Şuradan ulaşılabilir: https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf

[1]

[2]

[3]

[4]

[5]