BrownBoost - BrownBoost

BrownBoost bir artırma gürültülü veri kümelerine karşı sağlam olabilecek algoritma. BrownBoost uyarlanabilir bir sürümüdür çoğunluk ile artırmak algoritması. Herkes için doğru olduğu gibi artırma BrownBoost diğer algoritmalarla birlikte kullanılır. makine öğrenme yöntemler. BrownBoost, Yoav Freund 2001 yılında.[1]

Motivasyon

AdaBoost çeşitli veri kümelerinde iyi performans gösterir; ancak AdaBoost'un gürültülü veri setlerinde iyi performans göstermediği gösterilebilir.[2] Bu, AdaBoost'un defalarca yanlış sınıflandırılan örneklere odaklanmasının bir sonucudur. Bunun aksine, BrownBoost defalarca yanlış sınıflandırılan örneklerden etkin bir şekilde "vazgeçer". BrownBoost'un temel varsayımı, gürültülü örneklerin tekrar tekrar zayıf hipotezlerle yanlış etiketleneceği ve gürültülü olmayan örneklerin "vazgeçilmeyecek" kadar sık ​​sık doğru etiketleneceği yönündedir. Bu nedenle, yalnızca gürültülü örnekler "vazgeçilir", gürültülü olmayan örnekler ise son sınıflandırıcıya katkıda bulunur. Buna karşılık, son sınıflandırıcı gürültülü olmayan örneklerden öğrenilirse, genelleme hatası son sınıflandırıcı, gürültülü ve gürültülü olmayan örneklerden öğrenildiğinden çok daha iyi olabilir.

Algoritmanın kullanıcısı, eğitim setinde tolere edilecek hata miktarını belirleyebilir. Bu nedenle, eğitim seti gürültülü ise (örneğin tüm örneklerin% 10'unun yanlış etiketlendiği varsayılır), güçlendiriciye% 10 hata oranını kabul etmesi söylenebilir. Gürültülü örnekler göz ardı edilebileceğinden, yalnızca gerçek örnekler öğrenme sürecine katkıda bulunacaktır.

Algoritma açıklaması

BrownBoost, dışbükey olmayan bir potansiyel kayıp işlevi kullanır, bu nedenle AdaBoost çerçeve. Dışbükey olmayan optimizasyon, gürültülü veri kümelerinin aşırı uyumunu önlemek için bir yöntem sağlar. Bununla birlikte, analitik olarak bir dışbükey kayıp işlevini (ör. AdaBoost ve LogitBoost ), BrownBoost standart sayısal yöntemler kullanarak iki denklem ve iki bilinmeyenli bir sistemi çözer.

BrownBoost'un tek parametresi ( algoritmada), algoritmanın çalıştırdığı "zamandır". BrownBoost teorisi, her hipotezin değişken bir süre aldığını belirtir ( Algoritmada) hipoteze verilen ağırlık ile doğrudan ilgilidir . BrownBoost'taki zaman parametresi, yineleme sayısına benzer AdaBoost'ta.

Daha büyük bir değer BrownBoost'un verileri daha az gürültülü gibi ele alacağı ve bu nedenle daha az örnekten vazgeçeceği anlamına gelir. Tersine, daha küçük bir değer BrownBoost'un verileri daha gürültülü olarak ele alacağı ve daha fazla örnekten vazgeçeceği anlamına gelir.

Algoritmanın her yinelemesi sırasında, rastgele tahmin etmeye göre bir avantaja sahip bir hipotez seçilir. Bu hipotezin ağırlığı ve "geçen süre" yineleme sırasında, iki bilinmeyenli (hipotezin ağırlığı) iki doğrusal olmayan denklem sisteminde (1. örnek ağırlıklarla ilişkisiz hipotez ve 2. potansiyel sabit tutulur) aynı anda çözülür. ve zaman geçti ). Bu, ikiye bölme ile çözülebilir ( JBoost yazılım paketi) veya Newton yöntemi (Freund'un orijinal belgesinde anlatıldığı gibi). Bu denklemler çözüldüğünde, her örneğin kenar boşlukları ( algoritmada) ve kalan süre miktarı uygun şekilde güncellenir. Bu işlem, zaman kalmayana kadar tekrar edilir.

Başlangıç ​​potansiyeli şu şekilde tanımlanır: . Her yinelemenin bir kısıtlaması, potansiyelin sabit tutulması olduğu için, son potansiyel . Böylece son hata muhtemelen Yakın olmak . Bununla birlikte, nihai potansiyel işlevi 0-1 kayıp hata işlevi değildir. Son hatanın tam olması için , kayıp fonksiyonunun varyansı doğrusal olarak azalmalıdır. yinelemeleri artırmanın sonunda 0-1 kayıp işlevini oluşturma zamanı. Bu, literatürde henüz tartışılmamıştır ve aşağıdaki algoritmanın tanımında yer almamaktadır.

Son sınıflandırıcı, zayıf hipotezlerin doğrusal bir kombinasyonudur ve diğer pek çok yükseltme algoritması ile aynı şekilde değerlendirilir.

BrownBoost öğrenme algoritması tanımı

Giriş:

  • eğitim örnekleri nerede
  • Parametre

İlklendir:

  • . (Değeri oyunda kalan süredir)
  •   . Değeri yinelemedeki marj Örneğin .

Süre :

  • Her örneğin ağırlıklarını ayarlayın: , nerede örnek marjı
  • Bir sınıflandırıcı bulun öyle ki
  • Değerleri bulun denklemi sağlayan:
    .
    (Bunun duruma benzer olduğunu unutmayın Schapire ve Singer tarafından ortaya konmuştur.[3] Bu ortamda, sayısal olarak buluyoruz öyle ki .)
    Bu güncelleme kısıtlamaya tabidir
    ,
    nerede marjlı bir puan için potansiyel kayıp
  • Her örnek için kenar boşluklarını güncelleyin:
  • Kalan süreyi güncelleyin:

Çıktı:

Ampirik sonuçlar

Gürültülü veri kümelerine sahip ön deneysel sonuçlarda BrownBoost daha iyi performans gösterdi AdaBoost genelleme hatası; ancak, LogitBoost BrownBoost'un yanı sıra gerçekleştirildi.[4] BrownBoost'un bir uygulaması açık kaynak yazılımda bulunabilir JBoost.

Referanslar

  1. ^ Yoav Freund. Çoğunluk algoritmasıyla güçlendirmenin uyarlanabilir bir versiyonu. Makine Öğrenimi, 43 (3): 293-318, Haziran 2001.
  2. ^ Dietterich, T. G., (2000). Karar ağaçları toplulukları oluşturmak için üç yöntemin deneysel karşılaştırması: Torbalama, güçlendirme ve randomizasyon. Makine Öğrenimi, 40 (2) 139-158.
  3. ^ Robert Schapire ve Yoram Singer. Güven Dereceli Tahminler Kullanarak Geliştirilmiş Artırma. Makine Öğrenimi Dergisi, Cilt 37 (3), sayfalar 297-336. 1999
  4. ^ Ross A. McDonald, David J. El, Idris A. Eckley. Yapay Sınıf Gürültülü Gerçek Veri Kümelerinde Üç Yükseltme Algoritmasının Ampirik Bir Karşılaştırması. Çoklu Sınıflandırıcı Sistemler, Bilgisayar Bilimi Serilerinde Ders Notları, sayfalar 35-44, 2003.

Ayrıca bakınız