CoBoosting - CoBoosting

CoBoost, Collins ve Singer tarafından 1999'da önerilen yarı denetimli bir eğitim algoritmasıdır. Algoritmanın orijinal uygulaması, Adlandırılmış Varlık Sınıflandırması çok zayıf öğrenenler kullanıyor.[1] Özelliklerde fazlalık olduğu durumlarda yarı denetimli öğrenmeyi gerçekleştirmek için kullanılabilir.

Bir kombinasyonu olarak görülebilir ortak eğitim ve artırma. Her örnek iki görünümde (özellik setinin alt bölümleri) mevcuttur ve güçlendirme, önceki yinelemenin alternatif görünümünde üretilen tahmin edilen etiketleri kullanarak her görünümle dönüşümlü olarak yinelemeli olarak uygulanır. CoBoosting, şu ülkelerde geçerli bir yükseltme algoritması değildir. PAC öğrenimi anlamda.

Motivasyon

CoBoosting, Collins ve Singer tarafından, sınıflandırıcıları yarı denetimli bir şekilde eğitmek için özelliklerde fazlalıktan yararlanmaya yönelik önceki girişimleri geliştirme girişimiydi. Blum ve Mitchell'in ufuk açıcı bir çalışması olan CoTraining'in, bir karar listesindeki kuralları yinelemeli olarak teşvik ederek az sayıda tohum örneği verilen sınıflandırıcıları öğrenmek için güçlü bir çerçeve olduğu gösterildi. CoBoosting'in CoTraining'e avantajı, CoTraining modelini herhangi bir sınıflandırıcıyla kullanılabilecek şekilde genelleştirmesidir. CoBoosting, bu başarıyı kavramları ödünç alarak gerçekleştirir. AdaBoost.

Hem CoTrain hem de CoBoost'ta eğitim ve test örnek setleri iki özelliği takip etmelidir. Birincisi, örneklerin özellik uzayının, her bir görünümün sınıflandırma için yeterince açıklayıcı olacağı şekilde iki özellik alanına (veya görünüme) ayrılabilmesidir. Resmi olarak iki işlev vardır ve öyle ki tüm örnekler için , . İdeal olsa da, bu kısıtlama aslında gürültü ve diğer faktörler nedeniyle çok güçlüdür ve her iki algoritma bunun yerine iki işlev arasındaki anlaşmayı en üst düzeye çıkarmaya çalışır. İkinci özellik, iki görünümün yüksek oranda ilişkilendirilmemesi gerektiğidir.

Algoritma

Giriş: ,

Başlat: .

İçin ve için :

Sözde etiketleri ayarlayın:

Sanal dağıtımı ayarlayın:

nerede

Zayıf hipotezi bulun genişletilmiş eğitim hatasını en aza indirir.

İçin değer seçin genişletilmiş eğitim hatasını en aza indirir.

Mevcut güçlü eşiksiz sınıflandırıcının değerini güncelleyin:

Son güçlü sınıflandırıcı çıktısı

AdaBoost'u kurma

CoBoosting, AdaBoost AdaBoost diğer birçok öğrenme algoritması ile birlikte kullanılabildiğinden, CoBoosting'e genelleme yeteneğini veren algoritma. Bu birikim, iki sınıflı bir sınıflandırma görevi üstlenir, ancak birden çok sınıf sınıflandırmasına uyarlanabilir. AdaBoost çerçevesinde, zayıf sınıflandırıcılar seri halinde üretilir ve ayrıca eğitim setindeki örnekler üzerinden bir dağıtım yapılır. Her zayıf sınıflandırıcıya bir ağırlık verilir ve son güçlü sınıflandırıcı, atanmış ağırlıklarına göre ağırlıklandırılan zayıf sınıflandırıcıların toplamının işareti olarak tanımlanır. (Görmek AdaBoost Gösterim için Wikipedia sayfası). AdaBoost çerçevesinde Schapire ve Singer, eğitim hatasının aşağıdaki denklemle sınırlandırıldığını göstermiştir:

Nerede dağılım için normalleştirme faktörüdür . İçin çözme denkleminde biz alırız:

Nerede mevcut zayıf hipotezde seçilen özelliktir. Mevcut hipotezin doğru veya yanlış etiketi seçtiği dağılımların toplamını açıklayan üç denklem tanımlanmıştır. Sınıflandırıcının, verilen etiketin 0 olduğu bir örnek için bir etiket seçmekten kaçınmasının mümkün olduğuna dikkat edin. İki etiket -1 veya 1 olacak şekilde seçilir.

Schapire ve Singer, değerin seçilerek en aza indirilebilir (ve dolayısıyla eğitim hatası) aşağıdaki gibi olmak:

Örnekler üzerinden dağılıma göre ağırlıklandırılan yanlış sınıflandırılmış örneklerin sayısına karşılık doğru sınıflandırılanların sayısına göre mevcut varsayılmış sınıflandırıcı için güven değerleri sağlamak. Bu denklem, aşağıdaki durumları telafi etmek için düzeltilebilir çok küçük. Türetme bu denklemden şunu elde ederiz:

Böylece eğitim hatası, önceki denklemi en aza indiren her yinelemede zayıf hipotez seçilerek en aza indirilir.

İki manzaralı AdaBoost

CoBoosting, etiketli bir eğitim setine sahip olunması durumunda bu çerçeveyi genişletir (örneklerden ) ve etiketlenmemiş bir eğitim seti ( ) şeklindeki özelliklerde fazlalık koşullarını karşılamanın yanı sıra . Algoritma, iki sınıflandırıcıyı aynı şekilde eğitir AdaBoost etiketli eğitim üzerinde anlaşan, doğru etiketleri belirler ve etiketlenmemiş eğitim setinde iki sınıflandırıcı arasındaki anlaşmayı en üst düzeye çıkarır. Son sınıflandırıcı, iki güçlü sınıflandırıcının toplamının işaretidir. CoBoost üzerindeki sınırlı eğitim hatası aşağıdaki şekilde uzatılır, burada uzantısı :

Nerede hipotezlerin ağırlıklarının, güven değerleri ile toplamıdır. görünüm (j = 1 veya 2). işaretidir . CoBoost'un her yinelemesinde, her iki sınıflandırıcı da yinelemeli olarak güncellenir. Eğer için güçlü sınıflandırıcı çıktısı kadar görüntüle yineleme için sözde etiketleri ayarlayabiliriz j. güncelleme şu şekilde olacaktır:

İçinde diğer görünümü o anda güncellenmekte olana seçer. öyle ikiye ayrılır ki . Nerede

Her görünüm için örnekler üzerinden dağılım yinelemede aşağıdaki gibi tanımlanır:

Hangi noktada olarak yeniden yazılabilir

AdaBoost'taki denklem ile aynıdır. Böylece aynı işlem, değerlerini güncellemek için kullanılabilir. AdaBoost'ta olduğu gibi kullanarak ve . Bunu değiştirerek, ve bu moda da açgözlü bir şekilde küçültülür.

Referanslar

Dipnotlar

  1. ^ Michael Collins ve Yoram Singer, Adlandırılmış Varlık Sınıflandırması için Denetimsiz Modeller. Doğal Dil İşlemede Ampirik Yöntemler ve Çok Büyük Corpora üzerine 1999 Ortak SIGDAT Konferansı Bildirileri, s. 100-110, 1999.