Gradyan artırma - Gradient boosting

Gradyan artırma bir makine öğrenme için teknik gerileme ve sınıflandırma şeklinde bir tahmin modeli üreten problemler topluluk zayıf tahmin modellerinden, tipik olarak Karar ağaçları. Modeli, diğerleri gibi sahne tarzında inşa eder. artırma yöntemler yapar ve keyfi bir optimizasyona izin vererek onları genelleştirir. ayırt edilebilir kayıp fonksiyonu.

Gradyan artırma fikri şu gözlemden ortaya çıktı: Leo Breiman artırma, uygun bir maliyet fonksiyonu üzerinde bir optimizasyon algoritması olarak yorumlanabilir.^[1] Açık regresyon gradyan artırma algoritmaları daha sonra Jerome H. Friedman,^[2]^[3] Llew Mason, Jonathan Baxter, Peter Bartlett ve Marcus Frean'ın daha genel işlevsel gradyan artırma perspektifiyle aynı anda.^[4]^[5]Son iki makale, artırma algoritmalarını yinelemeli olarak tanıttı. fonksiyonel gradyan inişi algoritmalar. Yani, negatif gradyan yönünü işaret eden bir fonksiyonu (zayıf hipotez) yinelemeli olarak seçerek bir maliyet fonksiyonunu fonksiyon alanı üzerinden optimize eden algoritmalardır. Güçlendirmenin bu işlevsel gradyan görünümü, regresyon ve sınıflandırmanın ötesinde, makine öğreniminin ve istatistiklerin birçok alanında artırıcı algoritmaların geliştirilmesine yol açtı.

Gayri resmi giriş

(Bu bölüm, Li ile gradyan artırmanın açıklamasını takip eder.^[6])

Diğer artırma yöntemleri gibi, gradyan artırma da zayıf "öğrenenleri" yinelemeli bir şekilde tek bir güçlü öğrenci olarak birleştirir. En küçük karelerle açıklamak en kolay yoldur gerileme hedefin bir modeli "öğretmek" olduğu ortam ${ displaystyle F}$ formun değerlerini tahmin etmek ${ displaystyle { şapka {y}} = F (x)}$ en aza indirerek ortalama karesel hata ${ displaystyle { tfrac {1} {n}} toplamı _ {i} ({ hat {y}} _ {i} -y_ {i}) ^ {2}}$ , nerede ${ displaystyle i}$ bazı eğitim bedenleri üzerinde dizinler ${ displaystyle n}$ çıktı değişkeninin gerçek değerlerinin ${ displaystyle y}$ :

${ displaystyle { hat {y}} _ {i} =}$ tahmin edilen değer ${ displaystyle F (x)}$
${ displaystyle y_ {i} =}$ gözlemlenen değer
${ displaystyle n}$ içindeki örnek sayısı ${ displaystyle y}$

Şimdi, bir gradyan artırma algoritması düşünelim. ${ displaystyle M}$ aşamalar. Her aşamada ${ displaystyle m}$ ( ${ displaystyle 1 leq m leq M}$ ) gradyan artırma, bazı kusurlu modellerin ${ displaystyle F_ {m}}$ (düşük için ${ displaystyle m}$ , bu model basitçe geri dönebilir ${ displaystyle { hat {y}} _ {i} = { bar {y}}}$ , nerede RHS anlamı ${ displaystyle y}$ ). Geliştirmek için ${ displaystyle F_ {m}}$ algoritmamız yeni bir tahminci eklemelidir, ${ displaystyle h_ {m} (x)}$ . Böylece,

{ displaystyle F_ {m + 1} (x) = F_ {m} (x) + h_ {m} (x) = y}

Veya eşdeğer olarak,

{ displaystyle h_ {m} (x) = y-F_ {m} (x)}

.

Bu nedenle, gradyan artırma uygun olacaktır $h$ için artık ${ displaystyle y-F_ {m} (x)}$ . Diğer artırıcı varyantlarda olduğu gibi, her biri ${ displaystyle F_ {m + 1}}$ selefinin hatalarını düzeltmeye çalışır ${ displaystyle F_ {m}}$ . Bu fikrin genellemesi kayıp fonksiyonları hatanın karesi dışında ve sınıflandırma ve sıralama problemleri, kalıntıların ${ displaystyle h_ {m} (x)}$ belirli bir model için negatif gradyanlar ortalama hata karesi (MSE) kayıp fonksiyonu (göre ${ displaystyle F (x)}$ ):

{ displaystyle L _ { rm {MSE}} = { frac {1} {2}} sol (y-F (x) sağ) ^ {2}}

{ displaystyle h_ {m} (x) = - { frac { kısmi L _ { rm {MSE}}} { kısmi F}} = y-F (x)}

.

Dolayısıyla, gradyan artırma, dereceli alçalma algoritma ve genelleme, farklı bir kaybı ve onun gradyanını "takmayı" gerektirir.

Algoritma

Çoğunda denetimli öğrenme problemlerin bir çıktı değişkeni vardır $y$ ve girdi değişkenlerinin bir vektörü $x$ aracılığıyla tarif edildi ortak olasılık dağılımı ${ displaystyle P (x, y)}$ . Bir eğitim seti kullanma ${ displaystyle {(x_ {1}, y_ {1}), noktalar, (x_ {n}, y_ {n}) }}$ bilinen değerlerinin $x$ ve karşılık gelen değerleri $y$ amaç, bir tahmin bulmaktır. ${ displaystyle { şapka {F}} (x)}$ bir işleve ${ displaystyle F (x)}$ bu, belirtilen bazılarının beklenen değerini en aza indirir kayıp fonksiyonu ${ displaystyle L (y, F (x))}$ :

{ displaystyle { hat {F}} = { underet {F} { arg min}} , mathbb {E} _ {x, y} [L (y, F (x))]}

.

Gradyan artırma yöntemi, gerçek değerli bir $y$ ve bir yaklaşım arıyor ${ displaystyle { şapka {F}} (x)}$ ağırlıklı toplam fonksiyonlar şeklinde ${ displaystyle h_ {i} (x)}$ bazı sınıflardan ${ displaystyle { mathcal {H}}}$ , baz (veya güçsüz ) öğrenciler:

{ displaystyle { hat {F}} (x) = sum _ {i = 1} ^ {M} gamma _ {i} h_ {i} (x) + { mbox {const}}}

.

Uyarınca ampirik risk minimizasyonu ilke, yöntem bir yaklaşım bulmaya çalışır ${ displaystyle { şapka {F}} (x)}$ eğitim setindeki kayıp fonksiyonunun ortalama değerini en aza indirir, yani deneysel riski en aza indirir. Bunu, sabit bir fonksiyondan oluşan bir modelle başlayarak yapar. ${ displaystyle F_ {0} (x)}$ ve adım adım genişletir. açgözlü moda:

{ displaystyle F_ {0} (x) = { underet { gamma} { arg min}} { sum _ {i = 1} ^ {n} {L (y_ {i}, gamma)} }}

,

{ displaystyle F_ {m} (x) = F_ {m-1} (x) + { underet {h_ {m} in { mathcal {H}}} { operatorname {arg , min}}} sol [{ toplam _ {i = 1} ^ {n} {L (y_ {i}, F_ {m-1} (x_ {i}) + h_ {m} (x_ {i}))}} sağ]}

,

nerede ${ mathcal {H}}} içinde { displaystyle h_ {m}$ temel bir öğrenen işlevidir.

Ne yazık ki, en iyi işlevi seçmek $h$ keyfi bir kayıp işlevi için her adımda $L$ genel olarak hesaplama açısından mümkün olmayan bir optimizasyon problemidir. Bu nedenle, yaklaşımımızı sorunun basitleştirilmiş bir versiyonuyla sınırlıyoruz.

Fikir uygulamaktır en dik iniş bu minimizasyon problemine bir adım (fonksiyonel gradyan inişi). Sürekli durumu ele alırsak, yani nerede ${ displaystyle { mathcal {H}}}$ keyfi türevlenebilir işlevler kümesidir ${ displaystyle mathbb {R}}$ modeli aşağıdaki denklemlere göre güncellerdik

{ displaystyle F_ {m} (x) = F_ {m-1} (x) - gamma _ {m} toplamı _ {i = 1} ^ {n} { nabla _ {F_ {m-1} } L (y_ {i}, F_ {m-1} (x_ {i}))},}

{ displaystyle gamma _ {m} = { underet { gamma} { arg min}} { sum _ {i = 1} ^ {n} {L left (y_ {i}, F_ {m -1} (x_ {i}) - gamma nabla _ {F_ {m-1}} L (y_ {i}, F_ {m-1} (x_ {i})) sağ)}},}

fonksiyonlara göre türevlerin alındığı yer ${ displaystyle F_ {i}}$ için ${ displaystyle i in {1, .., m }}$ , ve ${ displaystyle gamma _ {m}}$ adım uzunluğudur. Ancak farklı durumda, yani setin ${ displaystyle { mathcal {H}}}$ sonlu, aday işlevi seçiyoruz $h$ gradyanına en yakın $L$ katsayısı $γ$ daha sonra yardımıyla hesaplanabilir satır arama yukarıdaki denklemlerde. Bu yaklaşımın bir sezgisel olduğunu ve bu nedenle verilen soruna kesin bir çözüm getirmediğini, bunun yerine bir yaklaşık olduğunu unutmayın.Pseudocode'da, genel gradyan artırma yöntemi şöyledir:^[2]^[7]

Girdi: eğitim seti ${ displaystyle {(x_ {i}, y_ {i}) } _ {i = 1} ^ {n},}$ ayırt edilebilir bir kayıp işlevi ${ displaystyle L (y, F (x)),}$ yineleme sayısı $M$ .

Algoritma:

Modeli sabit bir değerle başlatın:
${ displaystyle F_ {0} (x) = { underet { gamma} { arg min}} sum _ {i = 1} ^ {n} L (y_ {i}, gamma).}$
İçin m = 1 ila M:
1. Sözde hesaplama sözde kalıntılar:
  ${ displaystyle r_ {im} = - sol [{ frac { kısmi L (y_ {i}, F (x_ {i}))} { kısmi F (x_ {i})}} sağ] _ {F (x) = F_ {m-1} (x)} quad { mbox {for}} i = 1, ldots, n.}$
2. Temel bir öğrenciyi (veya zayıf bir öğrenciyi, örneğin ağaç) yerleştirin ${ displaystyle h_ {m} (x)}$ sözde kalıntılar için, yani eğitim setini kullanarak eğitmek ${ displaystyle {(x_ {i}, r_ {im}) } _ {i = 1} ^ {n}}$ .
3. Hesaplama çarpanı ${ displaystyle gamma _ {m}}$ aşağıdakileri çözerek tek boyutlu optimizasyon sorun:
  ${ displaystyle gamma _ {m} = { underet { gamma} { operatorname {arg , min}}} sum _ {i = 1} ^ {n} L left (y_ {i}, F_ {m-1} (x_ {i}) + gamma h_ {m} (x_ {i}) sağ).}$
4. Modeli güncelleyin:
  ${ displaystyle F_ {m} (x) = F_ {m-1} (x) + gamma _ {m} h_ {m} (x).}$
Çıktı ${ displaystyle F_ {M} (x).}$

Gradyan ağacı artırma

Gradyan artırma tipik olarak Karar ağaçları (özellikle ARABA ağaçlar) temel öğrenenler olarak sabit boyutta. Bu özel durum için Friedman, her temel öğrencinin uyum kalitesini artıran gradyan artırma yönteminde bir değişiklik önerir.

Genel gradyan artırma m-inci adım bir karar ağacına uyacaktır ${ displaystyle h_ {m} (x)}$ sözde artıklara. İzin Vermek ${ displaystyle J_ {m}}$ yapraklarının sayısı. Ağaç, giriş alanını bölümlere ayırır. ${ displaystyle J_ {m}}$ ayrık bölgeler ${ displaystyle R_ {1m}, ldots, R_ {J_ {m} m}}$ ve her bölgede sabit bir değer öngörür. Kullanmak gösterge notasyonu çıktısı ${ displaystyle h_ {m} (x)}$ girdi için x toplam olarak yazılabilir:

{ displaystyle h_ {m} (x) = toplam _ {j = 1} ^ {J_ {m}} b_ {jm} mathbf {1} _ {R_ {jm}} (x),}

nerede ${ displaystyle b_ {jm}}$ bölgede tahmin edilen değer ${ displaystyle R_ {jm}}$ .^[8]

Sonra katsayılar ${ displaystyle b_ {jm}}$ bir değerle çarpılır ${ displaystyle gamma _ {m}}$ , kayıp fonksiyonunu en aza indirmek için satır arama kullanılarak seçilir ve model aşağıdaki gibi güncellenir:

{ displaystyle F_ {m} (x) = F_ {m-1} (x) + gamma _ {m} h_ {m} (x), quad gamma _ {m} = { underet { gamma } { operatöradı {arg , min}}} toplam _ {i = 1} ^ {n} L (y_ {i}, F_ {m-1} (x_ {i}) + gamma h_ {m} (x_ {i})).}

Friedman, ayrı bir optimal değer seçecek şekilde bu algoritmayı değiştirmeyi önerir. ${ displaystyle gamma _ {jm}}$ ağacın her bölgesi için tek bir ${ displaystyle gamma _ {m}}$ bütün ağaç için. Değiştirilmiş algoritmaya "TreeBoost" diyor. Katsayılar ${ displaystyle b_ {jm}}$ ağaç uydurma prosedüründen daha sonra basitçe atılabilir ve model güncelleme kuralı şöyle olur:

{ displaystyle F_ {m} (x) = F_ {m-1} (x) + toplamı _ {j = 1} ^ {J_ {m}} gamma _ {jm} mathbf {1} _ {R_ {jm}} (x), quad gamma _ {jm} = { underet { gamma} { operatorname {arg , min}}} sum _ {x_ {i} in R_ {jm}} L (y_ {i}, F_ {m-1} (x_ {i}) + gama).}

Ağaçların boyutu

${ displaystyle J}$ Ağaçlardaki terminal düğümlerinin sayısı, eldeki bir veri seti için ayarlanabilen yöntemin parametresidir. İzin verilen maksimum seviyesini kontrol eder. etkileşim modeldeki değişkenler arasında. İle ${ displaystyle J = 2}$ (karar kütükleri ), değişkenler arasında hiçbir etkileşime izin verilmez. İle ${ displaystyle J = 3}$ model, en fazla iki değişken arasındaki etkileşimin etkilerini içerebilir ve bu böyle devam eder.

Hastie vd.^[7] tipik olarak yorum yapın ${ displaystyle 4 leq J leq 8}$ artırmak için iyi çalışır ve sonuçlar, seçimine oldukça duyarsızdır. ${ displaystyle J}$ bu aralıkta ${ displaystyle J = 2}$ birçok uygulama için yetersizdir ve ${ displaystyle J> 10}$ gerekli olması muhtemel değildir.

Düzenlilik

Eğitim setini çok yakından takmak, modelin genelleme yeteneğinin bozulmasına neden olabilir. Birkaç sözde düzenleme teknikler bunu azaltır aşırı uyum gösterme uydurma prosedürünü kısıtlayarak etki.

Doğal bir düzenleme parametresi, gradyan artırma yinelemelerinin sayısıdır M (ör. temel öğrenci bir karar ağacı olduğunda modeldeki ağaçların sayısı). Artan M eğitim setindeki hatayı azaltır, ancak çok yükseğe ayarlamak aşırı takmaya neden olabilir. Optimal bir değer M genellikle ayrı bir doğrulama veri kümesinde tahmin hatası izlenerek seçilir. Kontrol etmenin yanı sıra M, birkaç başka düzenlileştirme tekniği kullanılır.

Diğer bir düzenlilik parametresi ağaçların derinliğidir. Bu değer ne kadar yüksekse, modelin eğitim verilerini aşma olasılığı o kadar yüksektir.

Çekme

Gradyan artırma yönteminin önemli bir parçası, güncelleme kuralının aşağıdaki gibi değiştirilmesinden oluşan büzülme yoluyla düzenleyicidir:

{ displaystyle F_ {m} (x) = F_ {m-1} (x) + nu cdot gamma _ {m} h_ {m} (x), quad 0 < nu leq 1,}

nerede parametre ${ displaystyle nu}$ "öğrenme oranı" olarak adlandırılır.

Ampirik olarak küçük kullanımın öğrenme oranları (gibi ${ displaystyle nu <0.1}$ ) modellerin genelleştirme yeteneğinde küçülmeden gradyan artırmaya göre çarpıcı gelişmeler sağlar ( ${ displaystyle nu = 1}$ ).^[7] Ancak, artan fiyatla geliyor hesaplama zamanı hem eğitim sırasında hem de sorgulama: daha düşük öğrenme oranı daha fazla yineleme gerektirir.

Stokastik gradyan artırma

Gradyan artırmanın uygulanmasından kısa bir süre sonra, Friedman, algoritmada küçük bir değişiklik önerdi. Breiman 's bootstrap toplama ("torbalama") yöntemi.^[3] Spesifik olarak, algoritmanın her yinelemesinde, bir temel öğrenicinin, değiştirilmeden rastgele çizilmiş eğitim setinin bir alt örneğine uyması gerektiğini öne sürdü.^[9] Friedman, bu modifikasyonla gradyan artırmanın doğruluğunda önemli bir iyileşme gözlemledi.

Alt örnek boyutu sabit bir kesirdir ${ displaystyle f}$ eğitim setinin büyüklüğünde. Ne zaman ${ displaystyle f = 1}$ algoritma belirleyicidir ve yukarıda açıklananla aynıdır. Daha küçük değerler ${ displaystyle f}$ algoritmaya rastgelelik katın ve aşırı uyum gösterme bir çeşit gibi davranmak düzenleme. Algoritma ayrıca daha hızlı hale gelir çünkü regresyon ağaçlarının her yinelemede daha küçük veri kümelerine sığması gerekir. Friedman^[3] bunu elde etti ${ displaystyle 0.5 leq f leq 0.8}$ küçük ve orta ölçekli eğitim setleri için iyi sonuçlara yol açar. Bu nedenle, ${ displaystyle f}$ tipik olarak 0,5'e ayarlanır, yani eğitim setinin yarısı her bir temel öğrenciyi oluşturmak için kullanılır.

Ayrıca, torbalamada olduğu gibi, alt örnekleme bir kişinin bir torba dışı hatası sonraki temel öğrenicinin oluşturulmasında kullanılmayan bu gözlemlere ilişkin tahminleri değerlendirerek tahmin performansının iyileştirilmesi. Torba dışı tahminler, bağımsız bir doğrulama veri kümesi ihtiyacını ortadan kaldırmaya yardımcı olur, ancak genellikle gerçek performans iyileştirmesini ve optimum yineleme sayısını olduğundan az tahmin eder.^[10]^[11]

Yapraklardaki gözlem sayısı

Gradyan ağaç artırma uygulamaları genellikle ağaçların terminal düğümlerindeki minimum gözlem sayısını sınırlandırarak düzenlileştirmeyi de kullanır. Ağaç oluşturma sürecinde, bu sayıdan daha az eğitim seti örneği içeren düğümlere yol açan herhangi bir bölünmeyi göz ardı ederek kullanılır.

Bu sınırın empoze edilmesi yapraklarda tahminlerdeki farklılığın azaltılmasına yardımcı olur.

Ağacın karmaşıklığını cezalandırın

Yükseltilmiş gradyan için başka bir kullanışlı düzenleme tekniği ağaçlar öğrenilen modelin model karmaşıklığını cezalandırmaktır.^[12] Model karmaşıklığı, öğrenilen ağaçlardaki orantılı yaprak sayısı olarak tanımlanabilir. Kayıp ve model karmaşıklığının ortak optimizasyonu, kaybı bir eşik kadar azaltmada başarısız olan dalları ortadan kaldırmak için bir budama sonrası algoritmasına karşılık gelir. Gibi diğer düzenleme türleri ${ displaystyle ell _ {2}}$ Yaprak değerlerine ceza da eklenebilir. aşırı uyum gösterme.

Kullanım

Gradyan artırma alanında kullanılabilir sıralamayı öğrenmek. Ticari web arama motorları Yahoo^[13] ve Yandex^[14] makine öğrenimli sıralama motorlarında gradyan artırmanın varyantlarını kullanın.

İsimler

Yöntem, çeşitli isimlerle gider. Friedman, regresyon tekniğini bir "Gradyan Artırma Makinesi" (GBM) olarak tanıttı.^[2] Mason, Baxter vd. genelleştirilmiş soyut algoritma sınıfını "fonksiyonel gradyan artırma" olarak tanımladı.^[4]^[5] Friedman vd. gradyan destekli modellerin ilerlemesini Çoklu Eklemeli Regresyon Ağaçları (MART) olarak tarif eder;^[15] Elith vd. Bu yaklaşımı "Boosted Regression Trees" (BRT) olarak tanımlayın.^[16]

İçin popüler bir açık kaynak uygulaması R buna "Genelleştirilmiş Arttırma Modeli" diyor,^[10] ancak bu çalışmayı genişleten paketler BRT kullanır.^[17] Salford Systems'ın ticari uygulamaları, her ikisi de ticari markalı olan "Multiple Additive Regression Trees" (MART) ve TreeNet adlarını kullanır.^{[kaynak belirtilmeli ]}

Ayrıca bakınız

Referanslar

^ Breiman, L. (Haziran 1997). "Kenarı Eğmek" (PDF). Teknik Rapor 486. İstatistik Departmanı, California Üniversitesi, Berkeley.
^ ^a ^b ^c Friedman, J.H. (Şubat 1999). "Açgözlü İşlev Yaklaşımı: Bir Gradyan Artırma Makinesi" (PDF). Alıntı dergisi gerektirir | günlük = (Yardım)
^ ^a ^b ^c Friedman, J.H. (Mart 1999). "Stokastik Gradyan Arttırma" (PDF). Alıntı dergisi gerektirir | günlük = (Yardım)
^ ^a ^b Mason, L .; Baxter, J .; Bartlett, P. L .; Frean, Marcus (1999). "Gradyan İnişi Olarak Algoritmaları Güçlendirme" (PDF). S.A. Solla ve T.K. Leen ve K. Müller (ed.). Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 12. MIT Basın. s. 512–518.
^ ^a ^b Mason, L .; Baxter, J .; Bartlett, P. L .; Frean, Marcus (Mayıs 1999). "Fonksiyon Uzayında Gradyan İnişi Olarak Algoritmaları Güçlendirme" (PDF). Arşivlenen orijinal (PDF) 2018-12-22 tarihinde. Alıntı dergisi gerektirir | günlük = (Yardım)
^ Cheng Li. "Gradyan Artırmaya Nazik Bir Giriş" (PDF).
^ ^a ^b ^c Hastie, T .; Tibshirani, R .; Friedman, J.H. (2009). "10. Güçlendirme ve Katkı Ağaçları". İstatistiksel Öğrenmenin Unsurları (2. baskı). New York: Springer. s. 337–384. ISBN 978-0-387-84857-0. Arşivlenen orijinal 2009-11-10 tarihinde.
^ Not: olağan CART ağaçlarında, ağaçlar en küçük kareler kaybı kullanılarak yerleştirilir ve bu nedenle katsayı ${ displaystyle b_ {jm}}$ bölge için ${ displaystyle R_ {jm}}$ sadece çıktı değişkeninin değerine eşittir, tüm eğitim örneklerinin ortalaması alınır ${ displaystyle R_ {jm}}$ .
^ Bunun, eğitim setiyle aynı boyutta numuneler kullandığı için değiştirme ile numune alan torbalamadan farklı olduğunu unutmayın.
^ ^a ^b Ridgeway, Greg (2007). Genelleştirilmiş Güçlendirilmiş Modeller: gbm paketi için bir kılavuz.
^ Daha iyi tahminler için Gradyan Artırma Algoritmasını öğrenin (R kodlarıyla)
^ Tianqi Chen. Yükseltilmiş Ağaçlara Giriş
^ Cossock, David ve Zhang, Tong (2008). Bayes Optimal Alt Küme Sıralamasının İstatistiksel Analizi Arşivlendi 2010-08-07 de Wayback Makinesi, sayfa 14.
^ Yeni sıralama modeli "Snezhinsk" hakkında Yandex kurumsal blog girişi (Rusça)
^ Friedman, Jerome (2003). "Epidemiyolojide Uygulamalı Çoklu Katmanlı Regresyon Ağaçları". Tıpta İstatistik. 22 (9): 1365–1381. doi:10.1002 / sim.1501. PMID 12704603.
^ Elith, Jane (2008). "Arttırılmış regresyon ağaçları için çalışan bir rehber". Hayvan Ekolojisi Dergisi. 77 (4): 802–813. doi:10.1111 / j.1365-2656.2008.01390.x. PMID 18397250.
^ Elith, Jane. "Ekolojik modelleme için Güçlendirilmiş Regresyon Ağaçları" (PDF). CRAN. CRAN. Alındı 31 Ağustos 2018.

daha fazla okuma

Boehmke, Bradley; Greenwell, Brandon (2019). "Gradyan Artırma". R ile Uygulamalı Makine Öğrenimi. Chapman & Hall. s. 221–245. ISBN 978-1-138-49568-5.

Dış bağlantılar

[Breiman1997-1] Breiman, L. (Haziran 1997). "Kenarı Eğmek" (PDF). Teknik Rapor 486. İstatistik Departmanı, California Üniversitesi, Berkeley.

[Friedman1999a-2] Friedman, J.H. (Şubat 1999). "Açgözlü İşlev Yaklaşımı: Bir Gradyan Artırma Makinesi" (PDF). Alıntı dergisi gerektirir | günlük = (Yardım)

[Friedman1999b-3] Friedman, J.H. (Mart 1999). "Stokastik Gradyan Arttırma" (PDF). Alıntı dergisi gerektirir | günlük = (Yardım)

[MasonBaxterBartlettFrean1999a-4] Mason, L .; Baxter, J .; Bartlett, P. L .; Frean, Marcus (1999). "Gradyan İnişi Olarak Algoritmaları Güçlendirme" (PDF). S.A. Solla ve T.K. Leen ve K. Müller (ed.). Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 12. MIT Basın. s. 512–518.

[MasonBaxterBartlettFrean1999b-5] Mason, L .; Baxter, J .; Bartlett, P. L .; Frean, Marcus (Mayıs 1999). "Fonksiyon Uzayında Gradyan İnişi Olarak Algoritmaları Güçlendirme" (PDF). Arşivlenen orijinal (PDF) 2018-12-22 tarihinde. Alıntı dergisi gerektirir | günlük = (Yardım)

[6] Cheng Li. "Gradyan Artırmaya Nazik Bir Giriş" (PDF).

[hastie-7] Hastie, T .; Tibshirani, R .; Friedman, J.H. (2009). "10. Güçlendirme ve Katkı Ağaçları". İstatistiksel Öğrenmenin Unsurları (2. baskı). New York: Springer. s. 337–384. ISBN 978-0-387-84857-0. Arşivlenen orijinal 2009-11-10 tarihinde.

[8] Not: olağan CART ağaçlarında, ağaçlar en küçük kareler kaybı kullanılarak yerleştirilir ve bu nedenle katsayı ${ displaystyle b_ {jm}}$ bölge için ${ displaystyle R_ {jm}}$ sadece çıktı değişkeninin değerine eşittir, tüm eğitim örneklerinin ortalaması alınır ${ displaystyle R_ {jm}}$ .

[9] Bunun, eğitim setiyle aynı boyutta numuneler kullandığı için değiştirme ile numune alan torbalamadan farklı olduğunu unutmayın.

[gbm-vignette-10] Ridgeway, Greg (2007). Genelleştirilmiş Güçlendirilmiş Modeller: gbm paketi için bir kılavuz.

[11] Daha iyi tahminler için Gradyan Artırma Algoritmasını öğrenin (R kodlarıyla)

[12] Tianqi Chen. Yükseltilmiş Ağaçlara Giriş

[13] Cossock, David ve Zhang, Tong (2008). Bayes Optimal Alt Küme Sıralamasının İstatistiksel Analizi Arşivlendi 2010-08-07 de Wayback Makinesi, sayfa 14.

[snezhinsk-14] Yeni sıralama modeli "Snezhinsk" hakkında Yandex kurumsal blog girişi (Rusça)

[15] Friedman, Jerome (2003). "Epidemiyolojide Uygulamalı Çoklu Katmanlı Regresyon Ağaçları". Tıpta İstatistik. 22 (9): 1365–1381. doi:10.1002 / sim.1501. PMID 12704603.

[16] Elith, Jane (2008). "Arttırılmış regresyon ağaçları için çalışan bir rehber". Hayvan Ekolojisi Dergisi. 77 (4): 802–813. doi:10.1111 / j.1365-2656.2008.01390.x. PMID 18397250.

[17] Elith, Jane. "Ekolojik modelleme için Güçlendirilmiş Regresyon Ağaçları" (PDF). CRAN. CRAN. Alındı 31 Ağustos 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]