Ağaç çekirdeği - Tree kernel

İçinde makine öğrenme, ağaç çekirdekleri daha genel bir kavramın uygulanmasıdır pozitif tanımlı çekirdek ağaç yapılarına. Uygulamaları şurada bulurlar: doğal dil işleme nerede kullanılabilirler makine öğrenimli ayrıştırma veya cümlelerin sınıflandırılması.

Motivasyon

Doğal dil işlemede, genellikle ağaç yapılarını karşılaştırmak gerekir (ör. ağaçları ayrıştırmak ) benzerlik için. Bu tür karşılaştırmalar hesaplama yoluyla yapılabilir nokta ürünler ağaçların özelliklerinin vektörleri, ancak bu vektörler çok büyük olma eğilimindedir: NLP teknikleri, iki kelimeden oluşan basit bir bağımlılık ilişkisinin birkaç milyon özellikli bir vektörle kodlandığı bir noktaya gelmiştir.[1] Ağaçlar gibi karmaşık yapıları özellik vektörleriyle temsil etmek pratik olmayabilir. İyi tasarlanmış çekirdekler, bu ağaçların özellik vektörlerini açık bir şekilde hesaplamadan ağaçlar üzerinde benzerliği hesaplamaya izin verir. Dahası, çekirdek yöntemleri makine öğrenimi görevlerinde yaygın olarak kullanılmaktadır (ör. SVM ) ve dolayısıyla birçok algoritma, çekirdeklerle yerel olarak çalışıyor veya bunları işleyen bir uzantıya sahip çekirdekleştirme.

Örnek bir uygulama, farklı soru türleri gibi cümlelerin sınıflandırılmasıdır.[2]

Örnekler

Seçim bölgesi cümle için ayrıştırma ağacı: "Kedi fareyi yer."
Yukarıdaki ile aynı cümle için: "Fare, kediyi yer."

Burada, "Kedi fareyi yer" cümlelerinin seçim bölgesi ağaçlarına uygulanan iki ağaç çekirdeği örneği sunulmuştur. ve "Fare, kediyi yer." Bu örnekte "A" ve "a" aynı sözcüklerdir ve NLP uygulamalarının çoğunda aynı simge ile temsil edilirler.

Bu iki çekirdeğin ilgi çekici yanı, aynı hesaplama karmaşıklığı için çok farklı taneciklik göstermeleridir (alt küme ağaç çekirdeği alt ağaç çekirdeğinden çok daha ince tanelidir). Her ikisi de zaman içinde özyinelemeli olarak hesaplanabilir O (| T1|. | T2|).[3]

Alt ağaç çekirdek

Seçim ağacı durumunda, bir alt ağaç bir düğüm ve tüm çocukları olarak tanımlanır (örneğin, [NP [D [A]] [N [fare]], iki ağacın bir alt ağacıdır). Terminaller alt ağaç olarak kabul edilmez (ör. [A] bir alt ağaç değildir). Alt ağaç çekirdeği, verilen iki ağaç arasındaki ortak alt ağaçların sayısını sayar.

Bu örnekte, yedi ortak alt ağaç vardır:

[NP [D [a]] [N [cat]]],
[NP [D [a]] [N [fare]]],
[N [fare]],
[N [kedi]],
[V [yiyor]],
[D [a]] (iki kez göründüğünden iki kez sayılır).

Alt küme ağaç çekirdeği

Alt küme ağacı, alt ağaçtan daha genel bir yapıdır. Temel tanım aynıdır, ancak alt küme ağaçları durumunda, yaprakların uçlar olması gerekmez (örneğin, [VP [V] [NP]], her iki ağacın bir alt küme ağacıdır), ancak burada da tek düğümler ağaçlar. Bu daha genel tanım nedeniyle, alt ağaçlardan daha fazla alt küme ağacı ve ortak alt ağaçlardan daha yaygın alt küme ağaçları vardır.

Bu örnekte, 54 ortak alt küme ağacı vardır. Yedi ortak alt ağaç artı diğerleri arasında:

[NP [D] [N]] (iki kez sayılır),
[VP [V [yiyor]] [NP]] ...

Ayrıca bakınız

Notlar

  1. ^ McDonald, Ryan; Pereira, Fernando; Ribarov, Kiril; Hajič, Ocak (2005). Yayılan Ağaç Algoritmalarını Kullanarak Projektif Olmayan Bağımlılık Ayrıştırma. HLT – EMNLP.
  2. ^ Zhang, Dell; Lee, Wee Sun (2003). Destek vektör makinelerini kullanarak soru sınıflandırması. SİGİR.
  3. ^ Collins, Michael; Duffy, Nigel (2001). Doğal dil için evrişim çekirdekleri. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler.

Referanslar

  • Jun Sun, Min Zhang ve Chew Lim Tan. Doğal Dil için Ağaç Dizisi Çekirdeği
  • Alessandro Moschitti. Ağaç Çekirdeklerinin Doğal Dil Öğrenimi için pratik hale getirilmesi

Dış bağlantılar