Marj sınıflandırıcı - Margin classifier

İçinde makine öğrenme, bir marj sınıflandırıcı bir sınıflandırıcı Bu, her örnek için karar sınırından ilişkili bir mesafe verebilir. Örneğin, eğer bir doğrusal sınıflandırıcı (Örneğin. Algılayıcı veya doğrusal ayırıcı analizi ) kullanılır, mesafe (tipik olarak öklid mesafesi (diğerleri kullanılabilir olsa da) ayıran hiper düzlemden bir örneğin, bu örneğin marjıdır.

Kenar boşluğu kavramı, çeşitli makine öğrenimi sınıflandırma algoritmalarında önemlidir, çünkü genelleme hatası sınıflandırıcının. Bu sınırlar sıklıkla VC boyutu. Özellikle öne çıkan, genellemedir hata sınırı açık artırma algoritmalar ve Vektör makineleri desteklemek.

Kenar boşluğunun vektör makine tanımını destekleyin

Görmek Vektör makineleri desteklemek ve maksimum marj hiper düzlem detaylar için.

Algoritmaları artırmak için marj

Yinelemeli için marj artırma iki sınıflı bir dizi örnek verilen algoritma aşağıdaki gibi tanımlanabilir. Sınıflandırıcıya örnek bir çift verilir ${ displaystyle (x, y)}$ nerede ${ displaystyle x X'te}$ bir etki alanı alanıdır ve ${ displaystyle y in Y = {- 1, + 1 }}$ örneğin etiketidir. Yinelemeli hızlandırma algoritması daha sonra bir sınıflandırıcı seçer ${ displaystyle h_ {j} C}$ her yinelemede ${ displaystyle j}$ nerede ${ displaystyle C}$ gerçek değerleri tahmin eden olası sınıflandırıcıların alanıdır. Bu hipotez daha sonra ağırlıklandırılır ${ displaystyle alpha _ {j} R’de}$ artırma algoritması tarafından seçildiği gibi. Yinelemede ${ displaystyle t}$ bir örneğin marjı ${ displaystyle x}$ böylece tanımlanabilir

{ displaystyle { frac {y sum _ {j} ^ {t} alpha _ {j} h_ {j} (x)} { toplamı | alpha _ {j} |}}.}

Bu tanıma göre, örnek doğru etiketlenmişse marj pozitif, örnek yanlış etiketlenmişse negatiftir.

Bu tanım değiştirilebilir ve algoritmaları güçlendirmek için marjı tanımlamanın tek yolu değildir. Bununla birlikte, bu tanımın çekici olmasının nedenleri vardır.^[1]

Kenar boşluğuna dayalı algoritma örnekleri

Birçok sınıflandırıcı, her örnek için ilişkili bir marj verebilir. Ancak, yalnızca bazı sınıflandırıcılar bir veri setinden öğrenirken marjın bilgisini kullanır.

Pek çok yükseltme algoritması, örneklere ağırlık vermek için bir kenar boşluğu kavramına güvenir. Dışbükey bir kayıp kullanılırsa ( AdaBoost, LogitBoost ve tüm üyeleri AnyBoost algoritma ailesi) daha yüksek marjlı bir örnek, daha düşük marjlı bir örnekten daha az (veya eşit) ağırlık alacaktır. Bu, artırma algoritmasının ağırlığı düşük marjlı örneklere odaklamasına yol açar. Konveks olmayan algoritmalarda (ör. BrownBoost ), marj yine de bir örneğin ağırlıklandırmasını belirler, ancak ağırlıklandırma marj açısından monoton değildir. Minimum marjı kanıtlanabilir şekilde maksimize eden artırıcı algoritmalar mevcuttur (ör. ^[2]).

Vektör makineleri desteklemek ayıran alt düzlemin marjını kanıtlanabilir şekilde maksimize edin. Gürültülü veriler kullanılarak eğitilen destek vektör makineleri (verilen alanda mükemmel bir veri ayrımı yoktur) yumuşak marjı en üst düzeye çıkarır. Bununla ilgili daha fazla tartışma şurada bulunabilir: destek vektör makinesi makale.

oy-algılayıcı algoritması, klasik bir yinelemeli uygulamaya dayalı bir marjı maksimize eden bir algoritmadır. Algılayıcı algoritması.

Genelleme hata sınırları

Kenar boşluğu sınıflandırıcılarının arkasındaki teorik motivasyonlardan biri, genelleme hatası algoritmanın parametreleri ve bir marj terimi ile sınırlandırılabilir. AdaBoost algoritması böyle bir sınırın bir örneğidir.^[1] İzin Vermek ${ displaystyle S}$ bir dizi olmak ${ displaystyle m}$ bir dağılımdan rastgele olarak bağımsız olarak örneklenen örnekler ${ displaystyle D}$ . Temeldeki temel sınıflandırıcının VC boyutunun şöyle olduğunu varsayalım: ${ displaystyle d}$ ve ${ displaystyle m geq d geq 1}$ . Sonra olasılıkla ${ displaystyle 1- delta}$ sınırımız var

{ displaystyle P_ {D} sol ({ frac {y toplamı _ {j} ^ {t} alpha _ {j} h_ {j} (x)} { toplamı | alfa _ {j} | }} leq 0 right) leq P_ {S} left ({ frac {y sum _ {j} ^ {t} alpha _ {j} h_ {j} (x)} { toplamı | alpha _ {j} |}} leq theta right) + O left ({ frac {1} { sqrt {m}}} { sqrt {d log ^ {2} (m / d ) / theta ^ {2} + log (1 / delta)}} sağ)}

hepsi için ${ displaystyle theta> 0}$ .

Referanslar

^ ^a ^b Robert E. Schapire, Yoav Freund, Peter Bartlett ve Wee Sun Lee. (1998) "Marjı artırmak: Oylama yöntemlerinin etkinliği için yeni bir açıklama ", İstatistik Yıllıkları, 26(5):1651–1686
^ Manfred Warmuth ve Karen Glocer ve Gunnar Rätsch. Yumuşak Marjı Maksimize Etmek İçin Algoritmaları Artırma. Nöral Bilgi İşleme Sistemlerindeki Gelişmelerin Bildirilerinde 20, 2007, s 1585–1592.

[Statistics_1686-1] Robert E. Schapire, Yoav Freund, Peter Bartlett ve Wee Sun Lee. (1998) "Marjı artırmak: Oylama yöntemlerinin etkinliği için yeni bir açıklama ", İstatistik Yıllıkları, 26(5):1651–1686

[2] Manfred Warmuth ve Karen Glocer ve Gunnar Rätsch. Yumuşak Marjı Maksimize Etmek İçin Algoritmaları Artırma. Nöral Bilgi İşleme Sistemlerindeki Gelişmelerin Bildirilerinde 20, 2007, s 1585–1592.

[1]

[2]