Matris düzenlenmesi - Matrix regularization

Nın alanında istatistiksel öğrenme teorisi, matris düzenlenmesi Vektör düzenlenmesi kavramlarını öğrenilecek nesnenin bir matris olduğu durumlara genelleştirir. Düzenlemenin amacı, kararlı öngörü işlevleri üretebilen seyreklik veya pürüzsüzlük gibi koşulları uygulamaktır. Örneğin, daha yaygın vektör çerçevesinde, Tikhonov düzenlenmesi optimize eder

{ displaystyle min _ {x} | Ax-y | ^ {2} + lambda | x | ^ {2}}

bir vektör bulmak ${ displaystyle x}$ bu regresyon problemine kararlı bir çözümdür. Sistem bir vektör yerine bir matris ile tanımlandığında, bu problem şu şekilde yazılabilir:

{ displaystyle min _ {X} | AX-Y | ^ {2} + lambda | X | ^ {2},}

vektör normunun bir düzenlileştirme cezası uyguladığı ${ displaystyle x}$ bir matris normuna genişletildi ${ displaystyle X}$ .

Matris regülasyonunun uygulamaları vardır matris tamamlama, çok değişkenli regresyon, ve çok görevli öğrenme. Özellik ve grup seçimi fikirleri matrislere de genişletilebilir ve bunlar parametrik olmayan durumlara genelleştirilebilir: çoklu çekirdek öğrenimi.

Temel tanım

Bir matris düşünün ${ displaystyle W}$ bir dizi örnekten öğrenilecek, ${ displaystyle S = (X_ {i} ^ {t}, y_ {i} ^ {t})}$ , nerede ${ displaystyle i}$ den gider ${ displaystyle 1}$ -e ${ displaystyle n}$ , ve ${ displaystyle t}$ den gider ${ displaystyle 1}$ -e ${ displaystyle T}$ . Her bir giriş matrisine izin ver ${ displaystyle X_ {i}}$ olmak ${ displaystyle in mathbb {R} ^ {DT}}$ ve izin ver ${ displaystyle W}$ büyüklükte olmak ${ displaystyle D times T}$ . Çıktı için genel bir model ${ displaystyle y}$ olarak pozlanabilir

{ displaystyle y_ {i} ^ {t} = langle W, X_ {i} ^ {t} rangle _ {F},}

iç çarpım nerede Frobenius iç ürünü. Farklı uygulamalar için matrisler ${ displaystyle X_ {i}}$ farklı formlara sahip olacak,^[1] ancak bunların her biri için optimizasyon sorununun ${ displaystyle W}$ olarak yazılabilir

{ displaystyle min _ {W { mathcal {H}}} E (W) + R (W),}

nerede ${ displaystyle E}$ verilen bir için ampirik hatayı tanımlar ${ displaystyle W}$ , ve ${ displaystyle R (W)}$ bir matris düzenlileştirme cezasıdır. İşlev ${ displaystyle R (W)}$ tipik olarak dışbükey olarak seçilir ve genellikle seyrekliği güçlendirmek için seçilir (kullanarak ${ displaystyle ell ^ {1}}$ -normlar) ve / veya pürüzsüzlük (kullanarak ${ displaystyle ell ^ {2}}$ -normlar). En sonunda, ${ displaystyle W}$ matrislerin uzayında ${ displaystyle { mathcal {H}}}$ Frobenius iç ürünü ile ${ displaystyle langle noktalar rangle _ {F}}$ .

Genel uygulamalar

Matris tamamlama

Sorununda matris tamamlama, matris ${ displaystyle X_ {i} ^ {t}}$ formu alır

{ displaystyle X_ {i} ^ {t} = e_ {t} otimes e_ {i} ',}

nerede ${ displaystyle (e_ {t}) _ {t}}$ ve ${ displaystyle (e_ {i} ') _ {i}}$ kanonik temeli ${ displaystyle mathbb {R} ^ {T}}$ ve ${ displaystyle mathbb {R} ^ {D}}$ . Bu durumda, Frobenius iç ürününün rolü, bireysel unsurları seçmektir. ${ displaystyle w_ {i} ^ {t}}$ matristen ${ displaystyle W}$ . Böylece çıktı ${ displaystyle y}$ matristeki girişlerin bir örneğidir ${ displaystyle W}$ .

Yeniden yapılandırma sorunu ${ displaystyle W}$ küçük bir örneklenmiş girişler kümesinden yalnızca matris üzerindeki belirli kısıtlamalar altında mümkündür ve bu kısıtlamalar bir düzenlilik işlevi ile uygulanabilir. Örneğin, varsayılabilir ${ displaystyle W}$ düşük derecelidir, bu durumda düzenleme cezası nükleer bir norm biçimini alabilir.^[2]

{ displaystyle R (W) = lambda | W | _ {*} = lambda toplamı | sigma _ {i} |,}

nerede ${ displaystyle sigma _ {i}}$ , ile ${ displaystyle i}$ itibaren ${ displaystyle 1}$ -e ${ displaystyle min D, T}$ , tekil değerleridir ${ displaystyle W}$ .

Çok değişkenli regresyon

Kullanılan modeller çok değişkenli regresyon bir katsayılar matrisi ile parametrelendirilir. Yukarıdaki Frobenius iç çarpımında her bir matris ${ displaystyle X}$ dır-dir

{ displaystyle X_ {i} ^ {t} = e_ {t} otimes x_ {i} ,}

öyle ki, iç çarpımın çıktısı, katsayı matrisinin bir sütunu ile girdinin bir satırının iç çarpımıdır. Bu tür modellerin tanıdık biçimi

{ displaystyle Y = XW + b ,}

Tek değişkenli regresyonda kullanılan vektör normlarının çoğu, çok değişkenli duruma genişletilebilir. Bir örnek, kare şeklinde Frobenius normudur. ${ displaystyle ell ^ {2}}$ -norm, giriş yönünde veya matrisin tekil değerleri üzerinde hareket eder:

{ displaystyle R (W) = lambda | W | _ {F} ^ {2} = lambda toplamı toplamı | w_ {ij} | ^ {2} = lambda operatöradı {Tr} (W ^ {*} W) = lambda sum sigma _ {i} ^ {2}.}

Çok değişkenli durumda, Frobenius normu ile düzenleme yapmanın etkisi vektör durumu ile aynıdır; çok karmaşık modeller daha büyük normlara sahip olacak ve bu nedenle daha fazla cezalandırılacaktır.

Çok görevli öğrenme

Çok görevli öğrenme için kurulum, çok değişkenli regresyon kurulumuyla hemen hemen aynıdır. Birincil fark, girdi değişkenlerinin de göreve göre indekslenmesidir (sütunlar ${ displaystyle Y}$ ). Frobenius iç ürünü ile temsil daha sonra

{ displaystyle X_ {i} ^ {t} = e_ {t} otimes x_ {i} ^ {t}.}

Bu ortamda matris düzenlemesinin rolü, çok değişkenli regresyondakiyle aynı olabilir, ancak matris normları, görevler arasında öğrenme problemlerini eşleştirmek için de kullanılabilir. Özellikle, optimizasyon sorunu için

{ displaystyle min _ {W} | XW-Y | _ {2} ^ {2} + lambda | W | _ {2} ^ {2}}

her bir sütununa karşılık gelen çözümler ${ displaystyle Y}$ ayrılmış. Yani, aynı çözüm, ortak problem çözülerek veya her sütun için izole edilmiş bir regresyon problemi çözülerek bulunabilir. Sorunlar, çözümlerin kovaryansına ek bir düzenleme cezası eklenerek birleştirilebilir.

{ displaystyle min _ {W, Omega} | XW-Y | _ {2} ^ {2} + lambda _ {1} | W | _ {2} ^ {2} + lambda _ {2} operatöradı {Tr} (W ^ {T} Omega ^ {- 1} W)}

nerede ${ displaystyle Omega}$ görevler arasındaki ilişkiyi modeller. Bu şema, hem görevler arasında çözümlerin benzerliğini sağlamak hem de görev benzerliğinin belirli yapısını, optimizasyonları arasında dönüşümlü olarak öğrenmek için kullanılabilir. ${ displaystyle W}$ ve ${ displaystyle Omega}$ .^[3] Görevler arasındaki ilişkinin bir grafikte yattığı bilindiğinde, Laplacian matrisi grafik, öğrenme problemlerini birleştirmek için kullanılabilir.

Spektral düzenleme

Spektral filtreleme ile düzenleme yukarıda tartışılanlar gibi sorunlara, kötü pozlanmış matris dönüşümlerini ele alarak kararlı çözümler bulmak için kullanılmıştır (örneğin bkz. Tikhonov düzenlenmesi için filtre işlevi ). Pek çok durumda, düzenlileştirme işlevi, küçük tekil değerleri ortadan kaldırarak sınırlı bir ters sağlamak için girdiye (veya çekirdeğe) etki eder, ancak öğrenilecek matris üzerinde etki eden spektral normlara sahip olmak da faydalı olabilir.

Matrisin tekil değerlerine etki eden bir dizi matris normu vardır. Sık kullanılan örnekler şunları içerir: Schatten p-normları, ile p = 1 veya 2. Örneğin, nükleer norm olarak da adlandırılan bir Schatten 1-normu ile matris düzenlenmesi, bir matrisin spektrumundaki seyrekliği zorlamak için kullanılabilir. Bu, söz konusu matrisin sınırlı bir sıraya sahip olduğuna inanılan matris tamamlama bağlamında kullanılmıştır.^[2] Bu durumda optimizasyon sorunu şu hale gelir:

{ displaystyle min | W | _ {*}}

tabi

{ displaystyle W_ {i, j} = Y_ {ij}.}

Spektral Düzenleme, çok değişkenli regresyonda azaltılmış bir sıra katsayısı matrisi uygulamak için de kullanılır.^[4] Bu ayarda, yalnızca en üstte tutularak azaltılmış bir sıra katsayı matrisi bulunabilir. ${ displaystyle n}$ tekil değerler, ancak bu, indirgenmiş tekil değerler ve vektörler kümesini korumak için genişletilebilir.

Yapılandırılmış seyreklik

Seyrek optimizasyon, az sayıda değişkene bağlı çözümler bulmanın bir yolu olarak araştırma ilgisinin çoğunun odağı haline gelmiştir (bkz. Kement yöntemi ). İlke olarak, giriş-bilge seyreklik, giriş-bilge kişileri cezalandırmak suretiyle uygulanabilir. ${ displaystyle ell ^ {0}}$ - matrisin biçimi, ancak ${ displaystyle ell ^ {0}}$ -norm dışbükey değildir. Uygulamada bu, dışbükey gevşetme ile uygulanabilir. ${ displaystyle ell ^ {1}}$ -norm. Bir ile giriş düzeyinde düzenleme yaparken ${ displaystyle ell ^ {1}}$ -norm, sıfırdan farklı az sayıda öğeye sahip çözümler bulacaktır. ${ displaystyle ell ^ {1}}$ -norm için farklı değişken gruplarına çözümlerin seyrekliği yapısını zorlayabilir.^[5]

Yapılandırılmış seyrekliğin en basit örneği, ${ displaystyle ell _ {p, q}}$ norm ile ${ displaystyle p = 2}$ ve ${ displaystyle q = 1}$ :

{ displaystyle | W | _ {2,1} = toplam | w_ {i} | _ {2}.}

Örneğin, ${ displaystyle ell _ {2,1}}$ norm, katsayı matrisinin belirli bir satırındaki tüm öğelerin bir grup olarak sıfıra zorlanabileceği şekilde, görevleri görevler arasında gruplamak için çok görevli öğrenmede kullanılır.^[6] Gruplama etkisi, ${ displaystyle ell ^ {2}}$ -her satırın normu ve ardından toplam cezanın bu satır bazında normların toplamı olması. Bu düzenleme, tamamen sıfır veya yoğun olma eğiliminde olan satırlarla sonuçlanır. Aynı tür düzenlileştirme, sütun bazında seyrekliği zorlamak için kullanılabilir. ${ displaystyle ell ^ {2}}$ - Her sütunun formları.

Daha genel olarak, ${ displaystyle ell _ {2,1}}$ norm, rastgele değişken gruplarına uygulanabilir:

{ displaystyle R (W) = lambda toplamı _ {g} ^ {G} { sqrt { toplamı _ {j} ^ {| G_ {g} |} | w_ {g} ^ {j} | ^ {2}}} = lambda toplam _ {g} ^ {G} | w_ {g} | _ {g}}

indeks nerede ${ displaystyle g}$ değişken grupları arasında ve ${ displaystyle | G_ {g} |}$ grubun önemini gösterir ${ displaystyle g}$ .

Bu grup seyreklik problemlerini çözmek için algoritmalar, örneğin üst üste binen gruplara izin vererek daha iyi bilinen Lasso ve grup Lasso yöntemlerini genişletir ve bunlar aracılığıyla uygulanmıştır. eşleştirme takibi:^[7] ve proksimal gradyan yöntemleri.^[8] Proksimal gradyanı belirli bir katsayıya göre yazarak, ${ displaystyle w_ {g} ^ {i}}$ bu normun grup bazında yumuşak bir eşiği uyguladığı görülebilir.^[1]

{ displaystyle operatorname {prox} _ { lambda, R_ {g}} (w_ {g}) ^ {i} = left (w_ {g} ^ {i} - lambda { frac {w_ {g } ^ {i}} { | w_ {g} | _ {g}}} right) mathbf {1} _ { | w_ {g} | _ {g} geq lambda}.}

nerede ${ displaystyle mathbf {1} _ { | w_ {g} | _ {g} geq lambda}}$ grup normları için gösterge fonksiyonudur ${ displaystyle geq lambda}$ .

Böylece kullanarak ${ displaystyle ell _ {2,1}}$ normlar Yapıyı bir matrisin seyrekliğinde satır bazında, sütun bazında veya rastgele bloklar halinde uygulamak basittir. Grup normlarını çok değişkenli veya çok görevli regresyonda bloklar üzerinde zorlayarak, örneğin, çıktı değişkenlerinin tanımlanmış alt kümeleri (matristeki sütunlar) gibi girdi ve çıktı değişkenleri grupları bulmak mümkündür. ${ displaystyle Y}$ ) aynı seyrek girdi değişkenleri kümesine bağlı olacaktır.

Çoklu çekirdek seçimi

Yapılandırılmış seyreklik fikirleri ve Öznitelik Seçimi parametrik olmayan duruma genişletilebilir çoklu çekirdek öğrenimi.^[9] Bu, her biri için farklı uygun çekirdeklere sahip birden çok girdi verisi türü (örneğin renk ve doku) olduğunda veya uygun çekirdek bilinmediğinde yararlı olabilir. Örneğin özellik haritalarına sahip iki çekirdek varsa ${ displaystyle A}$ ve ${ displaystyle B}$ karşılık gelen yalan çekirdek Hilbert uzaylarını yeniden üretmek ${ displaystyle { mathcal {H_ {A}}}, { mathcal {H_ {B}}}}$ , sonra daha geniş bir alan, ${ displaystyle { mathcal {H_ {D}}}}$ , iki boşluğun toplamı olarak oluşturulabilir:

{ displaystyle { mathcal {H_ {D}}}: f = h + h '; h { mathcal {H_ {A}}} içinde, h' { mathcal {H_ {B}}}} içinde

doğrusal bağımsızlık varsaymak ${ displaystyle A}$ ve ${ displaystyle B}$ . Bu durumda ${ displaystyle ell _ {2,1}}$ -norm yine normların toplamıdır:

{ displaystyle | f | _ {{ mathcal {H_ {D}}}, 1} = | h | _ { mathcal {H_ {A}}} + | h ' | _ { matematiksel {H_ {B}}}}

Bu nedenle, bu tür bir norm olarak bir matris düzenlileştirme işlevi seçerek, hangi çekirdeklerin kullanıldığı açısından seyrek, ancak kullanılan her çekirdeğin katsayısında yoğun olan bir çözüm bulmak mümkündür. Çoklu çekirdek öğrenimi, doğrusal olmayan değişken seçiminin bir biçimi olarak veya bir model toplama tekniği olarak da kullanılabilir (örneğin, kareli normların toplamını ve gevşetme kısıtlamalarını alarak). Örneğin, her çekirdek, farklı bir genişliğe sahip Gauss çekirdeği olarak alınabilir.

Ayrıca bakınız

Düzenlenme (matematik)

Referanslar

^ ^a ^b Rosasco, Lorenzo; Poggio, Tomaso (Aralık 2014). "Makine Öğreniminin Düzenli Hale Getirilmesi Turu". MIT-9.520 Ders Notları (El yazması).
^ ^a ^b Candès, Emmanuel J.; Recht Benjamin (2009). "Dışbükey Optimizasyon Yoluyla Tam Matris Tamamlama". Hesaplamalı Matematiğin Temelleri. 9 (6): 717–772. doi:10.1007 / s10208-009-9045-5.
^ Zhang; Yeung (2012). "Çok Görevli Öğrenmede Görev İlişkilerini Öğrenmek İçin Konveks Bir Formülasyon". Yapay Zekada Belirsizlik Üzerine Yirmi Altıncı Konferansı Bildirileri (UAI2010). arXiv:1203.3536. Bibcode:2012arXiv1203.3536Z.
^ İzenman, Alan J. (1975). "Çok Değişkenli Doğrusal Model için İndirgenmiş Sıralı Regresyon". Çok Değişkenli Analiz Dergisi. 5 (2): 248–264. doi:10.1016 / 0047-259X (75) 90042-1.
^ Kakade; Shalev-Shwartz; Tewari (2012). "Matrislerle Öğrenmeye Yönelik Düzenleme Teknikleri". Makine Öğrenimi Araştırmaları Dergisi. 13: 1865–1890.
^ Argyriou, A .; Evgeniou, T .; Pontil, M. (2008). "Dışbükey çok görevli özellik öğrenme". Makine öğrenme. 73 (3): 243–272. doi:10.1007 / s10994-007-5040-8.
^ Huang; Zhang; Metaxas (2011). "Yapılandırılmış Seyreklik ile Öğrenme". Makine Öğrenimi Araştırmaları Dergisi. 12: 3371–3412.
^ Chen, Xi; et al. (2012). "Genel Yapılandırılmış Seyrek Regresyon için Proksimal Gradyan Düzeltme Yöntemi". Uygulamalı İstatistik Yıllıkları. 6 (2): 719–752. doi:10.1214 / 11-AOAS514.
^ Sonnenburg; Ratsch; Schafer; Scholkopf (2006). "Büyük Ölçekli Çoklu Çekirdek Öğrenimi". Makine Öğrenimi Araştırmaları Dergisi. 7: 1531–1565.

[Notes-1] Rosasco, Lorenzo; Poggio, Tomaso (Aralık 2014). "Makine Öğreniminin Düzenli Hale Getirilmesi Turu". MIT-9.520 Ders Notları (El yazması).

[Candès,_Emmanuel_J_2009_pp._717-2] Candès, Emmanuel J.; Recht Benjamin (2009). "Dışbükey Optimizasyon Yoluyla Tam Matris Tamamlama". Hesaplamalı Matematiğin Temelleri. 9 (6): 717–772. doi:10.1007 / s10208-009-9045-5.

[3] Zhang; Yeung (2012). "Çok Görevli Öğrenmede Görev İlişkilerini Öğrenmek İçin Konveks Bir Formülasyon". Yapay Zekada Belirsizlik Üzerine Yirmi Altıncı Konferansı Bildirileri (UAI2010). arXiv:1203.3536. Bibcode:2012arXiv1203.3536Z.

[4] İzenman, Alan J. (1975). "Çok Değişkenli Doğrusal Model için İndirgenmiş Sıralı Regresyon". Çok Değişkenli Analiz Dergisi. 5 (2): 248–264. doi:10.1016 / 0047-259X (75) 90042-1.

[5] Kakade; Shalev-Shwartz; Tewari (2012). "Matrislerle Öğrenmeye Yönelik Düzenleme Teknikleri". Makine Öğrenimi Araştırmaları Dergisi. 13: 1865–1890.

[6] Argyriou, A .; Evgeniou, T .; Pontil, M. (2008). "Dışbükey çok görevli özellik öğrenme". Makine öğrenme. 73 (3): 243–272. doi:10.1007 / s10994-007-5040-8.

[7] Huang; Zhang; Metaxas (2011). "Yapılandırılmış Seyreklik ile Öğrenme". Makine Öğrenimi Araştırmaları Dergisi. 12: 3371–3412.

[8] Chen, Xi; et al. (2012). "Genel Yapılandırılmış Seyrek Regresyon için Proksimal Gradyan Düzeltme Yöntemi". Uygulamalı İstatistik Yıllıkları. 6 (2): 719–752. doi:10.1214 / 11-AOAS514.

[9] Sonnenburg; Ratsch; Schafer; Scholkopf (2006). "Büyük Ölçekli Çoklu Çekirdek Öğrenimi". Makine Öğrenimi Araştırmaları Dergisi. 7: 1531–1565.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]