Kontrast seti öğrenme - Contrast set learning - Wikipedia

Kontrast seti öğrenme bir biçimdir ilişki kuralı öğrenimi her bir belirli grup için belirleyen anahtar belirleyicileri tersine mühendislik yoluyla ayrı gruplar arasındaki anlamlı farklılıkları belirlemeye çalışan. Örneğin, bir öğrenci havuzu için (derece türüne göre etiketlenmiş) bir dizi özellik verildiğinde, kontrast ayarlı bir öğrenci, zıt lisans derecesi almak isteyen öğrenciler ile doktora derecesi için çalışanlar arasındaki özellikler.

Genel Bakış

Ortak bir uygulama veri madenciliği için sınıflandırmak, bir nesnenin veya durumun özniteliklerine bakmak ve gözlenen öğenin hangi kategoriye ait olduğuna dair bir tahmin yapmak. Yeni kanıtlar incelendikçe (tipik olarak bir Eğitim Seti öğrenmeye algoritma ), bu tahminler iyileştirildi ve geliştirildi. Kontrast küme öğrenimi ters yönde çalışır. Sınıflandırıcılar bir veri koleksiyonunu okurken ve yeni verileri bir dizi ayrı kategoriye yerleştirmek için kullanılan bilgileri toplarken, kontrast kümesi öğrenimi bir öğenin ait olduğu kategoriyi alır ve bir öğeyi üye olarak tanımlayan istatistiksel kanıtı tersine çevirmeye çalışır. bir sınıfın. Yani, kontrast seti öğrencileri, nitelik değerlerini sınıf dağılımındaki değişikliklerle ilişkilendiren kurallar ararlar.[1] Bir sınıflandırmayı diğerinden farklı kılan anahtar belirleyicileri belirlemeye çalışırlar.

Örneğin, bir havacılık mühendisi yeni bir roketin test fırlatmalarına ilişkin verileri kaydedebilir. Roketin yörüngesi, çalışma sıcaklıkları, dış basınçlar vb. Gibi faktörler dikkate alınarak fırlatma boyunca düzenli aralıklarla ölçümler yapılacak. Bir dizi başarılı testten sonra roket fırlatma başarısız olursa, mühendis başarılı ve başarısız testleri ayırt etmek için kontrast seti öğrenmeyi kullanabilir. Bir kontrast seti öğrencisi, uygulandığında başarılı olanlara karşı başarısız olan her testin temel belirleyicilerini gösteren bir dizi ilişkilendirme kuralı üretecektir (sıcaklık çok yüksek, rüzgar basıncı çok yüksekti, vb.).

Kontrast set öğrenimi, ilişki kuralı öğrenimi.[2] İlişkilendirme kuralı öğrenenler tipik olarak, bir eğitim setinde yaygın olarak görülen nitelikleri birbirine bağlayan kurallar sunar (örneğin, dört yıllık programlara kayıtlı olan ve tam bir ders yükü alan kişiler de kampüs yakınında yaşama eğilimindedir). Mevcut durumu tanımlayan kurallar bulmak yerine, kontrast seti öğrencileri, gruplar arasında dağılımlarında anlamlı bir şekilde farklılık gösteren kurallar ararlar (ve bu nedenle, bu gruplar için yordayıcı olarak kullanılabilir).[3] Örneğin, bir karşıtlık grubu öğrencisi şu soruyu sorabilir: "Lisans derecesine sahip bir kişinin veya doktora derecesine sahip bir kişinin temel tanımlayıcıları nelerdir ve doktora ve lisans derecelerine sahip kişiler nasıl farklılık gösterir?"

Standart sınıflandırıcı gibi algoritmalar C4.5, sınıf önemi kavramı yoktur (yani, bir sınıfın "iyi" mi yoksa "kötü" mü olduğunu bilmezler). Bu tür öğrenciler, tahminlerini istenen belirli sınıflara göre önyargılı olamaz veya filtreleyemez. Kontrast kümesi öğrenmenin amacı gruplar arasındaki anlamlı farklılıkları keşfetmek olduğundan, öğrenilen kuralları belirli sınıflandırmalara doğru hedefleyebilmek faydalıdır. MINWAL gibi çeşitli kontrast seti öğrenenler[4] veya TAR algoritmaları ailesi,[5][6][7] Öğrenilen teorileri belirli bir hedef kitlenin ilgisini çeken sonuçlara odaklamak için her sınıfa ağırlık verin. Bu nedenle, kontrast kümeli öğrenme, ağırlıklı sınıf öğreniminin bir biçimi olarak düşünülebilir.[8]

Örnek: Süpermarket Satın Alımları

Standart sınıflandırma, ilişkilendirme kuralı öğrenimi ve kontrast kümesi öğrenimi arasındaki farklar basit bir süpermarket metaforu ile gösterilebilir. Aşağıdaki küçük veri kümesinde, her satır bir süpermarket işlemidir ve her "1", öğenin satın alındığını gösterir ("0", öğenin satın alınmadığını gösterir):

HamburgerPatatesKaz ciğeriSoğanlarŞampanyaSatın Alma Amacı
11010Cookout
11010Cookout
00101Yıldönümü
11010Cookout
11001Kardeş Partisi

Bu veriler göz önüne alındığında,

  • İlişkilendirme kuralı öğrenimi, birlikte soğan ve patates satın alan müşterilerin hamburger eti de satın alabileceklerini keşfedebilir.
  • Sınıflandırma, soğan, patates ve hamburger etleri satın alan müşterilerin bir aşçılık için ürün satın aldığını keşfedebilir.
  • Zıt set öğrenimi, bir aşçı yemeği için alışveriş yapan müşterilerle bir yıl dönümü yemeği için alışveriş yapanlar arasındaki en büyük farkın, müşterilerin aşçılık için soğan, patates ve hamburger eti (ve satın alma kaz ciğeri veya şampanya).

Tedavi öğrenimi

Tedavi öğrenimi, tek bir tedavi alan ağırlıklı kontrastlı öğrenme biçimidir. arzu edilir gruplandırır ve geri kalanla karşılaştırır istenmeyen gruplar (arzu edilirlik düzeyi ağırlıklı sınıflarla temsil edilir).[5] Ortaya çıkan "tedavi", uygulandığında istenen sonuca götüren bir dizi kuralı önerir.

Tedavi öğrenimi, aşağıdaki kısıtlamalar nedeniyle standart kontrast seti öğrenmeden farklıdır:

  • Tüm gruplar arasındaki farklılıkları aramak yerine, tedavi öğrenimi odaklanılacak belirli bir grubu belirler, bu istenen gruplamaya bir ağırlık uygular ve geri kalan grupları tek bir "istenmeyen" kategoride toplar.
  • Tedavi öğrenimi, minimal teorilere odaklanır. Uygulamada, tedavi maksimum dört kısıtlama ile sınırlıdır (yani, bir roketin bir kaykaydan farklı olmasının tüm nedenlerini belirtmek yerine, bir tedavi öğrencisi, roketleri yüksek bir istatistik düzeyinde tahmin eden bir ila dört ana farklılık belirtecektir. önemi).

Sadeliğe bu odaklanma, tedaviyi öğrenenler için önemli bir hedeftir. Tedavi öğrenimi, en küçük olan değişiklik En büyük sınıf dağılımı üzerindeki etkisi.[8]

Kavramsal olarak, tedaviyi öğrenenler tüm nitelikler için değer aralığının tüm olası alt kümelerini keşfederler. Böyle bir arama pratikte genellikle mümkün değildir, bu nedenle tedavi öğrenimi, bunun yerine, uygulandığında, istenen sınıfın azınlıkta olduğu bir sınıf dağılımına yol açan nitelik aralıklarını hızla budamaya ve göz ardı etmeye odaklanır.[7]

Örnek: Boston konut verileri

Aşağıdaki örnek, tedavi öğrencisi TAR3'ün, şehirden konut verilerinin bir veri kümesindeki çıktısını göstermektedir. Boston (500'den fazla örnek içeren, halka açık olmayan bir veri kümesi). Bu veri setinde, her ev için bir dizi faktör toplanır ve her ev, kalitesine göre sınıflandırılır (düşük, orta-düşük, orta-yüksek ve yüksek). İstenen sınıf "yüksek" olarak ayarlanır ve diğer tüm sınıflar istenmeyen olarak bir araya toplanır.

Tedaviyi öğrenen kişinin çıktısı aşağıdaki gibidir:

Başlangıç ​​sınıf dağılımı: düşük:% 29 orta düşük:% 29 orta yüksek:% 21 yüksek:% 21 Önerilen Tedavi: [PTRATIO = [12.6..16), RM = [6.7..9.78)] Yeni sınıf dağılımı: düşük:% 0 medlow: 0% medhigh: 3% high: 97%


Uygulanan işlem (kurallar) olmadan, istenen sınıf, sınıf dağılımının yalnızca% 21'ini temsil eder. Bununla birlikte, 6.7 ila 9.78 odalı ve 12.6 ila 16 arasında bir mahalle veli-öğretmen oranına sahip evler için veri seti filtrelendiğinde, kalan örneklerin% 97'si istenen sınıfa (yüksek kaliteli evler) girer.

Algoritmalar

Kontrast seti öğrenmeyi gerçekleştiren bir dizi algoritma vardır. Aşağıdaki alt bölümler iki örneği açıklamaktadır.

SIVA

STUCCO kontrast seti öğrencisi[1][3] kontrast kümelerinden öğrenme görevini bir ağaç araması ağacın kök düğümünün boş bir kontrast kümesi olduğu sorun. Çocuklar, özniteliklerin kanonik sıralaması yoluyla seçilen ek öğelerle özelleştirilerek (aynı düğümleri iki kez ziyaret etmekten kaçınmak için) eklenir. Çocuklar, belirli bir sıralamada mevcut tüm terimleri izleyen terimler eklenerek oluşturulur. Oluşan ağaç enine kadar aranır. Her seviyedeki düğümler göz önüne alındığında, veri kümesi taranır ve destek her grup için sayılır. Her bir düğüm daha sonra önemli ve büyük olup olmadığını, budanması gerekip gerekmediğini ve yeni çocukların üretilmesi gerekip gerekmediğini belirlemek için incelenir. Tüm önemli kontrast kümeleri yerleştirildikten sonra, bir son işlemci kullanıcıya göstermek için bir alt küme seçer - önce düşük sıra, daha basit sonuçlar gösterilir, ardından "şaşırtıcı ve önemli ölçüde farklı olan daha yüksek sıralı sonuçlar gösterilir.[3]"

Destek hesaplaması, kontrast seti desteğinin tüm gruplar arasında eşit olduğuna dair boş bir hipotezin test edilmesinden gelir (yani, kontrast seti desteği grup üyeliğinden bağımsız). Her grup için destek sayısı, her satırın kontrast kümesinin doğruluk değerini temsil ettiği ve her sütun değişkeninin grup üyelik sıklığını gösterdiği bir acil durum tablosunda analiz edilebilen bir sıklık değeridir. Kontrast ayarlı frekanslar ile sıfır hipotezininki arasındaki oranlarda bir fark varsa, algoritma, oranlardaki farklılıkların değişkenler arasındaki bir ilişkiyi temsil edip etmediğini veya rastgele nedenlere atfedilip atfedilemeyeceğini belirlemelidir. Bu bir ile belirlenebilir ki-kare testi gözlemlenen sıklık sayısının beklenen sayı ile karşılaştırılması.

Düğümün tüm uzmanlıkları hiçbir zaman önemli ve büyük bir kontrast kümesine yol açamadığında düğümler ağaçtan budanır. Budama kararı şunlara dayanmaktadır:

  • Minimum sapma boyutu: Herhangi iki grubun desteği arasındaki maksimum fark, kullanıcı tarafından belirlenen bir eşikten daha büyük olmalıdır.
  • Beklenen hücre frekansları: Bir acil durum tablosunun beklenen hücre frekansları, yalnızca kontrast seti özelleştikçe azalabilir. Bu frekanslar çok küçük olduğunda ki-kare testinin geçerliliği ihlal edilir.
  • sınırlar: Boş hipotez doğru olduğunda hesaplanan bir istatistiğin dağılımında bir üst sınır tutulur. Bu kesintiyi karşılamak artık mümkün olmadığında düğümler budanır.

TAR3

TAR3[6][9] ağırlıklı kontrast seti öğrenen, iki temel konsepte dayanır - asansör ve destek bir kural kümesinin.

Bir dizi kuralın kaldırılması, bazı kararların bu kararı dayattıktan sonra bir dizi örneğe yaptığı değişikliktir (yani, bir kuralın uygulanmasına yanıt olarak sınıf dağılımının nasıl değiştiği). TAR3, her bir sınıfa eklenen ağırlıkların toplamında, her bir sınıfın oluştuğu sıklık ile çarpılan en büyük değişiklikleri tetikleyen en küçük kurallar dizisini arar. Artış, bir dizi kuralın dayatıldığı kümenin puanının temel kümenin puanına bölünmesiyle hesaplanır (yani, hiçbir kural uygulanmaz). Asansör puanlama işlevini tersine çevirerek, TAR3 öğrencisinin kalan sınıfları da seçebileceğini ve hedef sınıfı reddedebileceğini unutmayın.

Tek başına belirlenen bir kuralın kaldırılmasına güvenmek sorunludur. Hatalı veya yanıltıcı veri gürültüsü, başarısız örneklerle ilişkilendirilirse, aşırı uydurulmuş bir kural kümesine neden olabilir. Böyle bir aşırı uyumlu model, büyük bir kaldırma puanına sahip olabilir, ancak bu, veri kümesindeki hakim koşulları doğru bir şekilde yansıtmaz. Aşırı uyumu önlemek için TAR3 bir destek eşiği kullanır ve bu eşiğin yanlış tarafına düşen tüm kuralları reddeder. Bir hedef sınıf verildiğinde, destek eşiği, kullanıcı tarafından sağlanan bir değerdir (genellikle 0,2) ve kural kümesi, genel veri kümesindeki o sınıfın frekansına uygulandığında hedef sınıfın sıklığının oranıyla karşılaştırılır. TAR3, desteği bu eşiğin altında olan tüm kural kümelerini reddeder.

Hem yüksek bir kaldırma hem de yüksek bir destek değeri gerektiren TAR3, yalnızca ideal kural kümelerini döndürmekle kalmaz, aynı zamanda daha küçük kural kümelerini de destekler. Ne kadar az kural kabul edilirse, bu kuralları destekleyen daha fazla kanıt olacaktır.

TAR3 algoritması, yalnızca sezgisel değeri yüksek öznitelik değeri aralıklarından kural kümeleri oluşturur. Algoritma, öncelikle her bir özelliğin değer aralıklarının artış puanını belirleyerek hangi aralıkların kullanılacağını belirler. Bu bireysel puanlar daha sonra sıralanır ve kümülatif bir olasılık dağılımına dönüştürülür. TAR3 bu dağılımdan rastgele değerler seçer, yani düşük puanlı aralıkların seçilme olasılığı düşüktür. Bir aday kural kümesi oluşturmak için birkaç aralık seçilir ve birleştirilir. Bu aday kural kümeleri daha sonra puanlanır ve sıralanır. Kullanıcı tanımlı tur sayısından sonra herhangi bir gelişme görülmezse, algoritma sona erer ve en yüksek puanlama kural kümelerini döndürür.

Referanslar

  1. ^ a b Stephen Bay; Michael Pazzani (2001). "Grup farklılıklarını algılama: Madencilik kontrast setleri" (PDF). Veri Madenciliği ve Bilgi Keşfi. 5 (3): 213–246. doi:10.1023 / A: 1011429418057. S2CID  2941550.
  2. ^ G.I. Webb; S. Butler; D. Newlands (2003). Gruplar Arasındaki Farklılıkları Algılama Hakkında. KDD'03 Dokuzuncu ACM SIGKDD Uluslararası Bilgi Keşfi ve Veri Madenciliği Konferansı Bildirileri.
  3. ^ a b c Stephen Bay; Michael Pazzani (1999). Kategorik verilerdeki değişikliği algılama: madencilik kontrast kümeleri. KDD '99 Bilgi keşfi ve veri madenciliği üzerine beşinci ACM SIGKDD uluslararası konferansının bildirileri.
  4. ^ C.H. Cai; A.W.C. Fu; C.H. Cheng; W.W. Kwong (1998). Ağırlıklı maddelerle madencilik birliği kuralları (PDF). Uluslararası Veritabanı Mühendisliği ve Uygulamaları Sempozyumu Bildirileri (IDEAS 98).
  5. ^ a b Y. Hu (2003). Tedavi öğrenimi: Uygulama ve uygulama (Yüksek lisans tezi). Elektrik Mühendisliği Bölümü, British Columbia Üniversitesi.
  6. ^ a b K. Gundy-Burlet; J. Schumann; T. Barrett; T. Menzies (2007). Gelişmiş test üretimi ve veri analizi kullanarak ANTARES yeniden giriş rehberlik algoritmalarının parametrik analizi. 9. Uluslararası Uzayda Yapay Zeka, Robotik ve Otomasyon Sempozyumunda.
  7. ^ a b Gregory Gay; Tim Menzies; Misty Davies; Karen Gundy-Burlet (2010). "Karmaşık Sistem Davranışı için Kontrol Değişkenlerini Otomatik Olarak Bulma" (PDF). Otomatik Yazılım Mühendisliği. 17 (4).
  8. ^ a b T. Menzies; Y. Hu (2003). "Çok Meşgul İnsanlar için Veri Madenciliği" (PDF). IEEE Bilgisayar. 36 (11): 22–29. doi:10.1109 / mc.2003.1244531.
  9. ^ J. Schumann; K. Gundy-Burlet; C. Pasareanu; T. Menzies; A. Barrett (2009). Büyük yazılım simülasyon sistemlerinin parametrik analizi ile yazılım V&V desteği. 2009 IEEE Havacılık ve Uzay Konferansı Bildirileri.