Çok etiketli sınıflandırma - Multi-label classification

İçinde makine öğrenme, çok etiketli sınıflandırma ve güçlü bir şekilde ilgili problem çok çıktılı sınıflandırma varyantları sınıflandırma her bir örneğe birden çok etiketin atanabileceği sorun. Çok etiketli sınıflandırma, çok sınıflı sınıflandırma, örnekleri tam olarak ikiden fazla sınıftan birine kategorilere ayırmanın tek etiketli sorunu olan; çoklu etiket probleminde, örneğin kaç tane sınıfa atanabileceği konusunda bir kısıtlama yoktur.

Resmi olarak, çok etiketli sınıflandırma, girdileri haritalayan bir model bulma sorunudur. x ikili vektörlere y (içindeki her öğe (etiket) için 0 veya 1 değeri atama y).

Problem dönüştürme yöntemleri

Çok etiketli sınıflandırma için birkaç sorun dönüştürme yöntemi vardır ve kabaca şu şekilde ayrılabilir:

  • Dönüşümü ikili sınıflandırma sorunlar: temel yaklaşım, adı verilen ikili alaka yöntem,[1] her etiket için bir ikili sınıflandırıcıyı bağımsız olarak eğitmek anlamına gelir. Görünmeyen bir örnek verildiğinde, birleşik model daha sonra ilgili sınıflandırıcıların pozitif bir sonuç öngördüğü bu örnek için tüm etiketleri tahmin eder. Görevi birden fazla ikili göreve bölmenin bu yöntemi, yüzeysel olarak bire bir hepsine (OvA) ve bire karşı dinlenme (OvR) yöntemlerine benzeyebilir. çok sınıflı sınıflandırma, aslında her ikisinden de farklıdır, çünkü ikili alaka düzeyi altındaki tek bir sınıflandırıcı, diğer etiketlere hiçbir şekilde bakılmaksızın tek bir etiketle ilgilenir. Bir sınıflandırıcı zinciri çok etiketli bir sınıflandırma problemini birkaç ikili sınıflandırma problemine dönüştürmek için alternatif bir yöntemdir. Etiketlerin sıralı olarak tahmin edilmesi ve önceki tüm sınıflandırıcıların çıktısının (yani belirli bir etiket için pozitif veya negatif) sonraki sınıflandırıcılara özellikler olarak girdi olması bakımından ikili alaka düzeyinden farklıdır.[1] Sınıflandırıcı zincirleri, örneğin, HIV ilaç direnci tahmini.[2][3] Bayes ağı sınıflandırıcıları en uygun şekilde sıralamak için de uygulandı Sınıflandırıcı zincirleri.[4]
  • Dönüşümü çok sınıflı sınıflandırma sorun: Etiket güç kümesi (LP) dönüşümü, eğitim setinde bulunan her etiket kombinasyonu için bir ikili sınıflandırıcı oluşturur. Örneğin, bir örnek için olası etiketler A, B ve C ise, bu sorunun etiket güç kümesi gösterimi, [0 0 0], [1 0 0], [0 1 0 sınıflarıyla ilgili çok sınıflı bir sınıflandırma problemidir. ], [0 0 1], [1 1 0], [1 0 1], [0 1 1]. [1 1 1] burada örneğin [1 0 1], A ve C etiketlerinin mevcut olduğu ve B etiketinin bulunmadığı bir örneği belirtir.[5]
  • Topluluk yöntemleri: Çok etiketli bir topluluk sınıflandırıcı oluşturmak için bir dizi çok sınıflı sınıflandırıcı kullanılabilir. Verilen bir örnek için, her sınıflandırıcı tek bir sınıf çıkarır (çoklu etiketli problemde tek bir etikete karşılık gelir). Bu tahminler daha sonra toplu bir yöntemle birleştirilir, genellikle tek tek sınıflandırıcılardan zorunlu oy yüzdesini alan her sınıfın (genellikle ayrımcılık eşiği olarak anılır)[6]) çoklu etiketli çıktıda mevcut bir etiket olarak tahmin edilmektedir. Ancak, daha karmaşık topluluk yöntemleri mevcuttur, örneğin komite makineleri. Diğer bir varyasyon ise rastgele k-Her biri gerçek etiketlerin rastgele bir alt kümesi üzerinde eğitilmiş birden fazla LP sınıflandırıcı kullanan etiket kümesi (RAKEL) algoritması; etiket tahmini daha sonra bir oylama şeması ile gerçekleştirilir.[7] Çok etiketli bir grup sınıflandırıcı oluşturmak için benzer şekilde bir dizi çok etiketli sınıflandırıcı kullanılabilir. Bu durumda her sınıflandırıcı, tek bir etiket yerine tahmin ettiği her etiket için bir kez oy verir.

Uyarlanmış algoritmalar

Bazı sınıflandırma algoritmaları / modelleri, problem dönüşümleri gerektirmeden çok etiketli göreve uyarlanmıştır. Çok etiketli veriler dahil bunlara örnekler.

  • k-en yakın komşular: ML-kNN algoritması, k-NN sınıflandırıcısını çok etiketli verilere genişletir.[8]
  • Karar ağaçları: "Clare", çok etiketli sınıflandırma için uyarlanmış bir C4.5 algoritmasıdır; modifikasyon entropi hesaplamalarını içerir.[9] MMC, MMDT ve SSC iyileştirilmiş MMDT, öznitelikleri tek değerlere dönüştürmeden çok değerli özniteliklere dayalı olarak çok etiketli verileri sınıflandırabilir. Aynı zamanda çok değerli ve çok etiketli karar ağacı sınıflandırma yöntemleri olarak adlandırılırlar.[10][11][12]
  • vektör çıktısı için çekirdek yöntemleri
  • nöral ağlar: BP-MLL, çok etiketli öğrenme için popüler geri yayılma algoritmasının bir uyarlamasıdır.[13]

Öğrenme paradigmaları

Öğrenme paradigmalarına dayalı olarak, mevcut çok etiketli sınıflandırma teknikleri toplu öğrenmeye sınıflandırılabilir ve çevrimiçi makine öğrenimi. Toplu öğrenme algoritmaları, tüm veri örneklerinin önceden mevcut olmasını gerektirir. Modeli tüm eğitim verilerini kullanarak eğitir ve ardından bulunan ilişkiyi kullanarak test örneğini tahmin eder. Öte yandan çevrimiçi öğrenme algoritmaları, modellerini sıralı yinelemelerde aşamalı olarak oluşturur. Yinelemede t, çevrimiçi bir algoritma bir örnek alır, xt ve etiketlerini tahmin ediyor ŷt mevcut modeli kullanarak; algoritma daha sonra y alırt, x'in gerçek etiketlerit ve modelini örnek etiket çiftine göre günceller: (xt, yt).

Çok etiketli akış sınıflandırması

Veri akışları Muhtemelen zaman içinde sürekli ve hızla büyüyen sonsuz veri dizileridir.[14] Çok etiketli akış sınıflandırması (MLSC), veri akışlarında yer alan çok etiketli sınıflandırma görevinin bir sürümüdür. Bazen çevrimiçi çok etiketli sınıflandırma olarak da adlandırılır. Çok etiketli sınıflandırmanın zorlukları (olası etiket kümelerinin üstel sayısı, etiketler arasındaki bağımlılıkları yakalama), veri akışlarının zorluklarıyla (zaman ve bellek kısıtlamaları, sonlu araçlarla sonsuz akışı ele alma, kavram sürükleniyor ).

Birçok MLSC yöntemi, topluluk yöntemleri tahmin performanslarını artırmak ve kavram sapmalarıyla başa çıkmak için. Literatürde en yaygın kullanılan topluluk yöntemleri şunlardır:

  • Çevrimiçi Torbalama (OzaBagging[15]) tabanlı yöntemler: Bir önyükleme örneğindeki belirli bir veri noktasının çoğunun K'ye sahip olma olasılığını gözlemlemek yaklaşık olarak Poisson 'e Tıklayın (1) büyük veri kümeleri için, bir veri akışındaki her gelen veri örneği, çevrimiçi bir ortamda önyüklemeyi taklit etmek için Poisson (1) dağıtımıyla orantılı olarak ağırlıklandırılabilir. Buna Çevrimiçi Torbalama (OzaBagging) denir. Literatürde Çevrimiçi Torbalama kullanan birçok çok etiketli yöntem önerilmiştir ve bunların her biri farklı problem dönüştürme yöntemlerini kullanır. EBR,[1] ECC,[1] EPS,[16] EBRT,[17] EBMT,[17] ML-Rastgele Kurallar[18] bu tür yöntemlerin örnekleridir.
  • ADWIN Torbalama[19]tabanlı yöntemler: MLSC için çevrimiçi torbalama yöntemleri bazen ADWIN gibi açık kavram sapması tespit mekanizmalarıyla birleştirilir.[20] (Uyarlanabilir Pencere). ADWIN, verilerin dağıtımındaki değişiklikleri tespit etmek için değişken boyutlu bir pencere tutar ve gelen verilerde bir kayma olduğunda kötü performans gösteren bileşenleri sıfırlayarak topluluğu iyileştirir. Genel olarak, "a" harfi, ADWIN değişiklik detektörünün kullanımını belirtmek için bu tür toplulukların adında bir alt simge olarak kullanılır. EaBR,[19] EaCC,[19] EaHTPS[19] bu tür çok etiketli toplulukların örnekleridir.
  • GOOWE-ML[21]tabanlı yöntemler: Topluluğun her bir bileşeninin uygunluk puanlarının etiket uzayındaki vektörler olarak yorumlanması ve her partinin sonunda en küçük kareler probleminin çözülmesi, Geometrically Optimum Online-Weighted Ensemble for Multi-Label Classification (GOOWE-ML) önerilmektedir. Topluluk, bileşenlerinin ağırlıklı tahmini ile bir parti üzerindeki her bir örnek için yer gerçeği vektörü arasındaki mesafeyi en aza indirmeye çalışır. Çevrimiçi Torbalama ve ADWIN Torbalama'dan farklı olarak, GOOWE-ML, ağırlıklı Topluluğun daha iyi performans gösteren bileşenlerine daha fazla ağırlık verildiği oylama şeması. GOOWE-ML topluluğu zamanla büyür ve en düşük ağırlıklı bileşen, bir partinin sonunda dolduğunda yeni bir bileşenle değiştirilir. GOBR,[21] GOCC,[21] GOPS,[21] GORT[21] önerilen GOOWE-ML tabanlı çok etiketli topluluklardır.
  • Çoklu Windows[22] : Burada, sürgülü pencere kullanan BR modelleri, her etiket için, biri ilgili ve diğeri ilgisiz örnekler için olmak üzere iki pencere ile değiştirilir. Örnekler, bu iki pencere arasında tutulan bir yük faktörüne göre yüksek hızda örneklenir veya düşük örneklenir. Bu, her etiket için bağımsız olan kavram sapmalarının tespit edilmesine ve sınıf dengesizliğinin (ilgili ve ilgili olmayan örneklerdeki çarpıklık) ele alınmasına izin verir.

İstatistikler ve değerlendirme ölçütleri

Düşünen için bir dizi etiket olmak veri örneği (tek sıcak vektörle karıştırmayın; bu, basitçe bu örneğe ait tüm etiketlerin bir koleksiyonudur), bir veri kümesinin çok etiketli olma derecesi iki istatistikte elde edilebilir:

  • Etiket kardinalitesi, kümedeki örnek başına ortalama etiket sayısıdır: nerede toplam veri örneği sayısıdır;
  • Etiket yoğunluğu, numune başına etiket sayısının toplam etiket sayısına bölünmesiyle elde edilir ve numuneler üzerinden ortalaması alınır: nerede , mevcut sınıfların toplam sayısı (bu, oluşturabilecek maksimum öğe sayısıdır) ).

Çok etiketli sınıflandırma performansı için değerlendirme ölçütleri, sınıflandırma sorununun doğasında var olan farklılıklar nedeniyle, çok sınıflı (veya ikili) sınıflandırmada kullanılanlardan doğal olarak farklıdır. Eğer T belirli bir örnek için gerçek etiket kümesini belirtir ve P tahmin edilen etiket kümesi, ardından bu örnekte aşağıdaki metrikler tanımlanabilir:

  • Hamming kayıp: yanlış etiketlerin toplam etiket sayısına oranı, yani , nerede hedef tahmin ve ... "Özel veya" operatör hedef ve tahmin aynı olduğunda sıfır ve aksi takdirde bir döndürür. Bu bir kayıp fonksiyonu, yani optimal değer sıfır ve üst sınırı birdir.
  • Yakından ilgili Jaccard indeksi, çoklu etiketli ortamda Birlik üzerinden Kesişim olarak da adlandırılır, doğru tahmin edilen etiketlerin sayısının tahmin edilen ve gerçek etiketlerin birleşimine bölünmesiyle tanımlanır, , nerede ve sırasıyla tahmin edilen etiketler ve gerçek etiketler kümeleridir.
  • Hassasiyet, hatırlama ve Puan: hassasiyet , hatırlama , ve onların harmonik ortalama.[23]
  • Tam eşleme (Alt küme doğruluğu olarak da adlandırılır): tüm etiketleri doğru şekilde sınıflandırılmış örneklerin yüzdesini gösteren en katı ölçüdür.

Çoklu etiketli ortamlarda çapraz doğrulama, olağan (ikili / çok sınıflı) yönteminin kullanılmasıyla karmaşıktır. tabakalı örnekleme çalışmayacak; yaklaşık tabakalı örneklemenin alternatif yolları önerilmiştir.[24]

Uygulamalar ve veri kümeleri

Çok etiketli algoritmaların Java uygulamaları, Mulan ve Meka her ikisi de temel alan yazılım paketleri Weka.

scikit-öğrenmek Python paketi bazılarını uygular çok etiketli algoritmalar ve metrikler.

scikit-multilearn Python paketi özellikle çok etiketli sınıflandırmaya hitap eder. SVM, kNN ve dahil olmak üzere birçok iyi bilinen tekniğin çoklu etiketli uygulamasını sağlar. çok daha fazlası. Paketin üzerine inşa edilmiştir scikit-öğrenmek ekosistem.

İkili alaka yöntemi, sınıflandırıcı zincirleri ve birçok farklı temel öğreniciye sahip diğer çok etiketli algoritmalar, R paketinde uygulanmaktadır. mlr[25]

Yaygın olarak kullanılan çok etiketli veri setlerinin bir listesi şu adreste mevcuttur: Mulan web sitesi.

Ayrıca bakınız

Referanslar

  1. ^ a b c d Jesse Read, Bernhard Pfahringer, Geoff Holmes, Eibe Frank. Çok Etiketli Sınıflandırma için Sınıflandırıcı Zincirler. Makine Öğrenimi Dergisi. Springer. Cilt 85 (3), (2011).
  2. ^ Heider, D; Senge, R; Cheng, W; Hüllermeier, E (2013). "HIV-1 ilaç direnci tahmininde çapraz direnç bilgisini kullanmak için çoklu etiket sınıflandırması". Biyoinformatik. 29 (16): 1946–52. doi:10.1093 / biyoinformatik / btt331. PMID  23793752.
  3. ^ Riemenschneider, M; Senge, R; Neumann, U; Hüllermeier, E; Heider, D (2016). "Çok etiketli sınıflandırma yoluyla iyileştirilmiş ilaç direnci tahmini için HIV-1 proteaz ve ters transkriptaz çapraz direnç bilgilerinin kullanılması". BioData Madenciliği. 9: 10. doi:10.1186 / s13040-016-0089-1. PMC  4772363. PMID  26933450.
  4. ^ Soufan, Othman; Ba-Alewi, Wail; Afeef, Moataz; Essack, Magbubah; Kalnis, Panos; Bajic, Vladimir B. (2016-11-10). "DRABAL: Bayesian aktif öğrenmeyi kullanarak büyük, yüksek verimli tarama tahlillerini araştırmak için yeni yöntem". Journal of Cheminformatics. 8: 64. doi:10.1186 / s13321-016-0177-8. ISSN  1758-2946. PMC  5105261. PMID  27895719.
  5. ^ Spolaôr, Newton; Cherman, Everton Alvares; Monard, Maria Carolina; Lee, Huei Diana (Mart 2013). "Sorun Dönüşümü Yaklaşımı Kullanılarak Çok Etiketli Özellik Seçim Yöntemlerinin Karşılaştırması". Teorik Bilgisayar Bilimlerinde Elektronik Notlar. 292: 135–151. doi:10.1016 / j.entcs.2013.02.010. ISSN  1571-0661.
  6. ^ "Ayrımcılık Eşiği - yellowbrick 0.9 belgeleri". www.scikit-yb.org. Alındı 2018-11-29.
  7. ^ Tsoumakas, Grigorios; Vlahavas, Ioannis (2007). Rastgele k-etiket kümeleri: Çok etiketli sınıflandırma için bir topluluk yöntemi (PDF). ECML. Arşivlenen orijinal (PDF) 2014-07-29 tarihinde. Alındı 2014-07-26.
  8. ^ Zhang, M.L .; Zhou, Z.H. (2007). "ML-KNN: Çok etiketli öğrenmeye tembel bir öğrenme yaklaşımı". Desen tanıma. 40 (7): 2038–2048. CiteSeerX  10.1.1.538.9597. doi:10.1016 / j.patcog.2006.12.019.
  9. ^ Madjarov, Gjorgji; Kocev, Dragi; Gjorgjevikj, Dejan; Džeroski, Sašo (2012). "Çok etiketli öğrenme yöntemlerinin kapsamlı bir deneysel karşılaştırması". Desen tanıma. 45 (9): 3084–3104. doi:10.1016 / j.patcog.2012.03.004.
  10. ^ Chen, Yen-Liang; Hsu, Chang-Ling; Chou, Shih-chieh (2003). "Çok değerli ve çok etiketli bir karar ağacı oluşturmak". Uygulamalarla uzmanlık sistmeleri. 25 (2): 199–209. doi:10.1016 / S0957-4174 (03) 00047-2.
  11. ^ Chou, Shihchieh; Hsu, Chang-Ling (2005-05-01). "MMDT: veri madenciliği için çok değerli ve çok etiketli bir karar ağacı sınıflandırıcısı". Uygulamalarla uzmanlık sistmeleri. 28 (4): 799–812. doi:10.1016 / j.eswa.2004.12.035.
  12. ^ Li, Hong; Guo, Yue-jian; Wu, Min; Li, Ping; Xiang, Yao (2010-12-01). "Çok değerli öznitelik ayrıştırmasını çok etiketli öğrenmeyle birleştirin". Uygulamalarla uzmanlık sistmeleri. 37 (12): 8721–8728. doi:10.1016 / j.eswa.2010.06.044.
  13. ^ Zhang, M.L .; Zhou, Z.H. (2006). İşlevsel genomik ve metin kategorizasyon uygulamaları ile çok etiketli sinir ağları (PDF). Bilgi ve Veri Mühendisliği IEEE İşlemleri. 18. sayfa 1338–1351.
  14. ^ Aggarwal, Charu C., ed. (2007). Veri Akışları. Veritabanı Sistemlerindeki Gelişmeler. 31. doi:10.1007/978-0-387-47534-9. ISBN  978-0-387-28759-1.
  15. ^ Oza, Nikunj (2005). "Çevrimiçi Torbalama ve Yükseltme". IEEE Uluslararası Sistemler, İnsan ve Sibernetik Konferansı. hdl:2060/20050239012.
  16. ^ Oku, Jesse; Pfahringer, Bernhard; Holmes, Geoff (2008-12-15). Budanmış Setlerin Topluluklarını Kullanarak Çok Etiketli Sınıflandırma. IEEE Bilgisayar Topluluğu. s. 995–1000. doi:10.1109 / ICDM.2008.74. hdl:10289/8077. ISBN  9780769535029. S2CID  16059274.
  17. ^ a b Osojnik, Aljaź; Panov, PanăźE; DźEroski, Sašo (2017/06/01). "Veri akışlarında çok hedefli regresyon yoluyla çok etiketli sınıflandırma". Makine öğrenme. 106 (6): 745–770. doi:10.1007 / s10994-016-5613-5. ISSN  0885-6125.
  18. ^ Sousa, Ricardo; Gama, João (2018-01-24). "Uyarlanabilir model kuralları ve rastgele kurallarla yüksek hızlı veri akışlarından çok etiketli sınıflandırma". Yapay Zekada İlerleme. 7 (3): 177–187. doi:10.1007 / s13748-018-0142-z. ISSN  2192-6352. S2CID  32376722.
  19. ^ a b c d Oku, Jesse; Bifet, Albert; Holmes, Geoff; Pfahringer, Bernhard (2012-02-21). "Değişen veri akışları için ölçeklenebilir ve verimli çok etiketli sınıflandırma". Makine öğrenme. 88 (1–2): 243–272. doi:10.1007 / s10994-012-5279-6. ISSN  0885-6125.
  20. ^ Bifet, Albert; Gavaldà, Ricard (2007-04-26), "Uyarlanabilir Pencereleme ile Zaman Değiştiren Verilerden Öğrenme", 2007 SIAM Uluslararası Veri Madenciliği Konferansı Bildirileri, Endüstriyel ve Uygulamalı Matematik Derneği, s. 443–448, CiteSeerX  10.1.1.215.8387, doi:10.1137/1.9781611972771.42, ISBN  9780898716306
  21. ^ a b c d e Büyükçakir, Alican; Bonab, Hamed; Can, Fazlı (2018-10-17). Çok Etiketli Akış Sınıflandırması için Yeni Bir Çevrimiçi İstiflenmiş Topluluk. ACM. s. 1063–1072. arXiv:1809.09994. doi:10.1145/3269206.3271774. ISBN  9781450360142. S2CID  52843253.
  22. ^ Xioufis, Eleftherios Spyromitros; Spiliopoulou, Myra; Tsoumakas, Grigorios; Vlahavas, Ioannis (2011-07-16). Çok etiketli akış sınıflandırmasında kavram sapması ve sınıf dengesizliği ile başa çıkmak. AAAI Basın. s. 1583–1588. doi:10.5591 / 978-1-57735-516-8 / IJCAI11-266. ISBN  9781577355144.
  23. ^ Godbole, Shantanu; Sarawagi, Sunita (2004). Çok etiketli sınıflandırma için ayrımcı yöntemler (PDF). Bilgi Keşfi ve Veri Madenciliğindeki Gelişmeler. s. 22–30.
  24. ^ Sechidis, Konstantinos; Tsoumakas, Grigorios; Vlahavas, Ioannis (2011). Çok etiketli verilerin katmanlaşması hakkında (PDF). ECML PKDD. s. 145–158.
  25. ^ Philipp Probst, Quay Au, Giuseppe Casalicchio, Clemens Stachl, Bernd Bischl. R Paketi mlr ile Çok Etiketli Sınıflandırma. The R Journal (2017) 9: 1, sayfalar 352-369.

daha fazla okuma

  • Madjarov, Gjorgji; Kocev, Dragi; Gjorgjevikj, Dejan; Džeroski, Sašo (2012). "Çok etiketli öğrenme yöntemlerinin kapsamlı bir deneysel karşılaştırması". Desen tanıma. 45 (9): 3084–3104. doi:10.1016 / j.patcog.2012.03.004.