Matris düzenlenmesi - Matrix regularization

Nın alanında istatistiksel öğrenme teorisi, matris düzenlenmesi Vektör düzenlenmesi kavramlarını öğrenilecek nesnenin bir matris olduğu durumlara genelleştirir. Düzenlemenin amacı, kararlı öngörü işlevleri üretebilen seyreklik veya pürüzsüzlük gibi koşulları uygulamaktır. Örneğin, daha yaygın vektör çerçevesinde, Tikhonov düzenlenmesi optimize eder

bir vektör bulmak bu regresyon problemine kararlı bir çözümdür. Sistem bir vektör yerine bir matris ile tanımlandığında, bu problem şu şekilde yazılabilir:

vektör normunun bir düzenlileştirme cezası uyguladığı bir matris normuna genişletildi .

Matris regülasyonunun uygulamaları vardır matris tamamlama, çok değişkenli regresyon, ve çok görevli öğrenme. Özellik ve grup seçimi fikirleri matrislere de genişletilebilir ve bunlar parametrik olmayan durumlara genelleştirilebilir: çoklu çekirdek öğrenimi.

Temel tanım

Bir matris düşünün bir dizi örnekten öğrenilecek, , nerede den gider -e , ve den gider -e . Her bir giriş matrisine izin ver olmak ve izin ver büyüklükte olmak . Çıktı için genel bir model olarak pozlanabilir

iç çarpım nerede Frobenius iç ürünü. Farklı uygulamalar için matrisler farklı formlara sahip olacak,[1] ancak bunların her biri için optimizasyon sorununun olarak yazılabilir

nerede verilen bir için ampirik hatayı tanımlar , ve bir matris düzenlileştirme cezasıdır. İşlev tipik olarak dışbükey olarak seçilir ve genellikle seyrekliği güçlendirmek için seçilir (kullanarak -normlar) ve / veya pürüzsüzlük (kullanarak -normlar). En sonunda, matrislerin uzayında Frobenius iç ürünü ile .

Genel uygulamalar

Matris tamamlama

Sorununda matris tamamlama, matris formu alır

nerede ve kanonik temeli ve . Bu durumda, Frobenius iç ürününün rolü, bireysel unsurları seçmektir. matristen . Böylece çıktı matristeki girişlerin bir örneğidir .

Yeniden yapılandırma sorunu küçük bir örneklenmiş girişler kümesinden yalnızca matris üzerindeki belirli kısıtlamalar altında mümkündür ve bu kısıtlamalar bir düzenlilik işlevi ile uygulanabilir. Örneğin, varsayılabilir düşük derecelidir, bu durumda düzenleme cezası nükleer bir norm biçimini alabilir.[2]

nerede , ile itibaren -e , tekil değerleridir .

Çok değişkenli regresyon

Kullanılan modeller çok değişkenli regresyon bir katsayılar matrisi ile parametrelendirilir. Yukarıdaki Frobenius iç çarpımında her bir matris dır-dir

öyle ki, iç çarpımın çıktısı, katsayı matrisinin bir sütunu ile girdinin bir satırının iç çarpımıdır. Bu tür modellerin tanıdık biçimi

Tek değişkenli regresyonda kullanılan vektör normlarının çoğu, çok değişkenli duruma genişletilebilir. Bir örnek, kare şeklinde Frobenius normudur. -norm, giriş yönünde veya matrisin tekil değerleri üzerinde hareket eder:

Çok değişkenli durumda, Frobenius normu ile düzenleme yapmanın etkisi vektör durumu ile aynıdır; çok karmaşık modeller daha büyük normlara sahip olacak ve bu nedenle daha fazla cezalandırılacaktır.

Çok görevli öğrenme

Çok görevli öğrenme için kurulum, çok değişkenli regresyon kurulumuyla hemen hemen aynıdır. Birincil fark, girdi değişkenlerinin de göreve göre indekslenmesidir (sütunlar ). Frobenius iç ürünü ile temsil daha sonra

Bu ortamda matris düzenlemesinin rolü, çok değişkenli regresyondakiyle aynı olabilir, ancak matris normları, görevler arasında öğrenme problemlerini eşleştirmek için de kullanılabilir. Özellikle, optimizasyon sorunu için

her bir sütununa karşılık gelen çözümler ayrılmış. Yani, aynı çözüm, ortak problem çözülerek veya her sütun için izole edilmiş bir regresyon problemi çözülerek bulunabilir. Sorunlar, çözümlerin kovaryansına ek bir düzenleme cezası eklenerek birleştirilebilir.

nerede görevler arasındaki ilişkiyi modeller. Bu şema, hem görevler arasında çözümlerin benzerliğini sağlamak hem de görev benzerliğinin belirli yapısını, optimizasyonları arasında dönüşümlü olarak öğrenmek için kullanılabilir. ve .[3] Görevler arasındaki ilişkinin bir grafikte yattığı bilindiğinde, Laplacian matrisi grafik, öğrenme problemlerini birleştirmek için kullanılabilir.

Spektral düzenleme

Spektral filtreleme ile düzenleme yukarıda tartışılanlar gibi sorunlara, kötü pozlanmış matris dönüşümlerini ele alarak kararlı çözümler bulmak için kullanılmıştır (örneğin bkz. Tikhonov düzenlenmesi için filtre işlevi ). Pek çok durumda, düzenlileştirme işlevi, küçük tekil değerleri ortadan kaldırarak sınırlı bir ters sağlamak için girdiye (veya çekirdeğe) etki eder, ancak öğrenilecek matris üzerinde etki eden spektral normlara sahip olmak da faydalı olabilir.

Matrisin tekil değerlerine etki eden bir dizi matris normu vardır. Sık kullanılan örnekler şunları içerir: Schatten p-normları, ile p = 1 veya 2. Örneğin, nükleer norm olarak da adlandırılan bir Schatten 1-normu ile matris düzenlenmesi, bir matrisin spektrumundaki seyrekliği zorlamak için kullanılabilir. Bu, söz konusu matrisin sınırlı bir sıraya sahip olduğuna inanılan matris tamamlama bağlamında kullanılmıştır.[2] Bu durumda optimizasyon sorunu şu hale gelir:

tabi

Spektral Düzenleme, çok değişkenli regresyonda azaltılmış bir sıra katsayısı matrisi uygulamak için de kullanılır.[4] Bu ayarda, yalnızca en üstte tutularak azaltılmış bir sıra katsayı matrisi bulunabilir. tekil değerler, ancak bu, indirgenmiş tekil değerler ve vektörler kümesini korumak için genişletilebilir.

Yapılandırılmış seyreklik

Seyrek optimizasyon, az sayıda değişkene bağlı çözümler bulmanın bir yolu olarak araştırma ilgisinin çoğunun odağı haline gelmiştir (bkz. Kement yöntemi ). İlke olarak, giriş-bilge seyreklik, giriş-bilge kişileri cezalandırmak suretiyle uygulanabilir. - matrisin biçimi, ancak -norm dışbükey değildir. Uygulamada bu, dışbükey gevşetme ile uygulanabilir. -norm. Bir ile giriş düzeyinde düzenleme yaparken -norm, sıfırdan farklı az sayıda öğeye sahip çözümler bulacaktır. -norm için farklı değişken gruplarına çözümlerin seyrekliği yapısını zorlayabilir.[5]

Yapılandırılmış seyrekliğin en basit örneği, norm ile ve :

Örneğin, norm, katsayı matrisinin belirli bir satırındaki tüm öğelerin bir grup olarak sıfıra zorlanabileceği şekilde, görevleri görevler arasında gruplamak için çok görevli öğrenmede kullanılır.[6] Gruplama etkisi, -her satırın normu ve ardından toplam cezanın bu satır bazında normların toplamı olması. Bu düzenleme, tamamen sıfır veya yoğun olma eğiliminde olan satırlarla sonuçlanır. Aynı tür düzenlileştirme, sütun bazında seyrekliği zorlamak için kullanılabilir. - Her sütunun formları.

Daha genel olarak, norm, rastgele değişken gruplarına uygulanabilir:

indeks nerede değişken grupları arasında ve grubun önemini gösterir .

Bu grup seyreklik problemlerini çözmek için algoritmalar, örneğin üst üste binen gruplara izin vererek daha iyi bilinen Lasso ve grup Lasso yöntemlerini genişletir ve bunlar aracılığıyla uygulanmıştır. eşleştirme takibi:[7] ve proksimal gradyan yöntemleri.[8] Proksimal gradyanı belirli bir katsayıya göre yazarak, bu normun grup bazında yumuşak bir eşiği uyguladığı görülebilir.[1]

nerede grup normları için gösterge fonksiyonudur .

Böylece kullanarak normlar Yapıyı bir matrisin seyrekliğinde satır bazında, sütun bazında veya rastgele bloklar halinde uygulamak basittir. Grup normlarını çok değişkenli veya çok görevli regresyonda bloklar üzerinde zorlayarak, örneğin, çıktı değişkenlerinin tanımlanmış alt kümeleri (matristeki sütunlar) gibi girdi ve çıktı değişkenleri grupları bulmak mümkündür. ) aynı seyrek girdi değişkenleri kümesine bağlı olacaktır.

Çoklu çekirdek seçimi

Yapılandırılmış seyreklik fikirleri ve Öznitelik Seçimi parametrik olmayan duruma genişletilebilir çoklu çekirdek öğrenimi.[9] Bu, her biri için farklı uygun çekirdeklere sahip birden çok girdi verisi türü (örneğin renk ve doku) olduğunda veya uygun çekirdek bilinmediğinde yararlı olabilir. Örneğin özellik haritalarına sahip iki çekirdek varsa ve karşılık gelen yalan çekirdek Hilbert uzaylarını yeniden üretmek , sonra daha geniş bir alan, , iki boşluğun toplamı olarak oluşturulabilir:

doğrusal bağımsızlık varsaymak ve . Bu durumda -norm yine normların toplamıdır:

Bu nedenle, bu tür bir norm olarak bir matris düzenlileştirme işlevi seçerek, hangi çekirdeklerin kullanıldığı açısından seyrek, ancak kullanılan her çekirdeğin katsayısında yoğun olan bir çözüm bulmak mümkündür. Çoklu çekirdek öğrenimi, doğrusal olmayan değişken seçiminin bir biçimi olarak veya bir model toplama tekniği olarak da kullanılabilir (örneğin, kareli normların toplamını ve gevşetme kısıtlamalarını alarak). Örneğin, her çekirdek, farklı bir genişliğe sahip Gauss çekirdeği olarak alınabilir.

Ayrıca bakınız

Referanslar

  1. ^ a b Rosasco, Lorenzo; Poggio, Tomaso (Aralık 2014). "Makine Öğreniminin Düzenli Hale Getirilmesi Turu". MIT-9.520 Ders Notları (El yazması).
  2. ^ a b Candès, Emmanuel J.; Recht Benjamin (2009). "Dışbükey Optimizasyon Yoluyla Tam Matris Tamamlama". Hesaplamalı Matematiğin Temelleri. 9 (6): 717–772. doi:10.1007 / s10208-009-9045-5.
  3. ^ Zhang; Yeung (2012). "Çok Görevli Öğrenmede Görev İlişkilerini Öğrenmek İçin Konveks Bir Formülasyon". Yapay Zekada Belirsizlik Üzerine Yirmi Altıncı Konferansı Bildirileri (UAI2010). arXiv:1203.3536. Bibcode:2012arXiv1203.3536Z.
  4. ^ İzenman, Alan J. (1975). "Çok Değişkenli Doğrusal Model için İndirgenmiş Sıralı Regresyon". Çok Değişkenli Analiz Dergisi. 5 (2): 248–264. doi:10.1016 / 0047-259X (75) 90042-1.
  5. ^ Kakade; Shalev-Shwartz; Tewari (2012). "Matrislerle Öğrenmeye Yönelik Düzenleme Teknikleri". Makine Öğrenimi Araştırmaları Dergisi. 13: 1865–1890.
  6. ^ Argyriou, A .; Evgeniou, T .; Pontil, M. (2008). "Dışbükey çok görevli özellik öğrenme". Makine öğrenme. 73 (3): 243–272. doi:10.1007 / s10994-007-5040-8.
  7. ^ Huang; Zhang; Metaxas (2011). "Yapılandırılmış Seyreklik ile Öğrenme". Makine Öğrenimi Araştırmaları Dergisi. 12: 3371–3412.
  8. ^ Chen, Xi; et al. (2012). "Genel Yapılandırılmış Seyrek Regresyon için Proksimal Gradyan Düzeltme Yöntemi". Uygulamalı İstatistik Yıllıkları. 6 (2): 719–752. doi:10.1214 / 11-AOAS514.
  9. ^ Sonnenburg; Ratsch; Schafer; Scholkopf (2006). "Büyük Ölçekli Çoklu Çekirdek Öğrenimi". Makine Öğrenimi Araştırmaları Dergisi. 7: 1531–1565.