Optimizasyonda Newton yöntemi - Newtons method in optimization - Wikipedia

Karşılaştırması dereceli alçalma (yeşil) ve Newton yöntemi (kırmızı) bir işlevi en aza indirmek için (küçük adım boyutlarında). Newton yöntemi kullanır eğrilik daha doğrudan bir yol izlemek için bilgi (yani ikinci türev).

llIn hesap, Newton yöntemi bir yinelemeli yöntem bulmak için kökler bir ayırt edilebilir işlev $F$ çözümler olan denklem $F (x) = 0$ . İçinde optimizasyon Newton yöntemi, türev $f'$ bir iki kez türevlenebilir fonksiyon $f$ türevin köklerini bulmak için (çözümler $f'(x) = 0$ ) olarak da bilinir sabit noktalar nın-nin $f$ . Bu çözümler minimum, maksimum veya eyer noktaları olabilir.^[1]

Newton Yöntemi

Optimizasyonun temel sorunu, işlevlerin en aza indirilmesidir. İlk önce tek değişkenli fonksiyonların durumunu, yani tek bir gerçek değişkenin fonksiyonlarını ele alalım. Daha sonra daha genel ve pratik olarak daha kullanışlı olan çok değişkenli durumu ele alacağız.

İki kez türevlenebilir işlev verildiğinde ${ displaystyle f: mathbb {R} - mathbb {R}}$ optimizasyon sorununu çözmeye çalışıyoruz

{ displaystyle min _ {x in mathbb {R}} f (x).}

Newton'un yöntemi, bu sorunu bir sıra ${ displaystyle {x_ {k} }}$ ilk tahminden (başlangıç noktası) ${ displaystyle x_ {0} in mathbb {R}}$ küçültücüye yakınsayan ${ displaystyle x _ {*}}$ nın-nin ${ displaystyle f}$ ikinci dereceden Taylor yaklaşımlarının bir dizisini kullanarak ${ displaystyle f}$ yinelemeler etrafında. İkinci derece Taylor genişlemesi nın-nin $f$ etrafında ${ displaystyle x_ {k}}$ dır-dir

{ displaystyle f (x_ {k} + t) yaklaşık f (x_ {k}) + f '(x_ {k}) t + { frac {1} {2}} f' '(x_ {k}) t ^ {2}.}

Sonraki yineleme ${ displaystyle x_ {k + 1}}$ bu ikinci dereceden yaklaşımı en aza indirecek şekilde tanımlanmıştır. ${ displaystyle t}$ ve ayar ${ displaystyle x_ {k + 1} = x_ {k} + t}$ . İkinci türev pozitifse, ikinci dereceden yaklaşım, bir dışbükey fonksiyondur. ${ displaystyle t}$ türevi sıfır olarak ayarlanarak minimum bulunabilir. Dan beri

{ displaystyle displaystyle 0 = { frac { rm {d}} {{ rm {d}} t}} sol (f (x_ {k}) + f '(x_ {k}) t + { frac {1} {2}} f '' (x_ {k}) t ^ {2} sağ) = f '(x_ {k}) + f' '(x_ {k}) t,}

minimum şunun için elde edilir

{ displaystyle t = - { frac {f '(x_ {k})} {f' '(x_ {k})}}.}

Her şeyi bir araya getirerek, Newton'un yöntemi yinelemeyi gerçekleştirir

{ displaystyle x_ {k + 1} = x_ {k} + t = x_ {k} - { frac {f '(x_ {k})} {f' '(x_ {k})}}.}

Geometrik yorumlama

Newton'un yönteminin geometrik yorumu, her yinelemede, bir paraboloit için yüzey nın-nin ${ displaystyle f (x)}$ deneme değerinde ${ displaystyle x_ {k}}$ , o noktada yüzeyle aynı eğim ve eğriliğe sahip olmak ve daha sonra bu paraboloitin maksimum veya minimumuna ilerlemek (daha yüksek boyutlarda, bu aynı zamanda bir Eyer noktası ).^[2] Unutmayın ki ${ displaystyle f}$ Olur olmak ikinci dereceden bir fonksiyon, daha sonra tam ekstremum bir adımda bulunur.

Daha yüksek boyutlar

Yukarıdaki yinelemeli şema genelleştirilebilir ${ displaystyle d}$ türevi değiştirerek boyutları gradyan (farklı yazarlar gradyan için farklı gösterimler kullanırlar. ${ displaystyle f '(x) = nabla f (x) = g_ {f} (x) mathbb içinde {R} ^ {d}}$ ), ve karşılıklı ile ikinci türevin ters of Hessen matrisi (farklı yazarlar Hessian için farklı gösterimler kullanırlar. ${ displaystyle f '' (x) = nabla ^ {2} f (x) = H_ {f} (x) mathbb {R} ^ {d times d}}$ ). Böylece yinelemeli şema elde edilir

{ displaystyle x_ {k + 1} = x_ {k} - [f '' (x_ {k})] ^ {- 1} f '(x_ {k}), qquad k geq 0.}

Genellikle, Newton'un yöntemi küçük bir adım boyutu ${ displaystyle 0 < gamma leq 1}$ onun yerine ${ displaystyle gamma = 1}$ :

{ displaystyle x_ {k + 1} = x_ {k} - gamma [f '' (x_ {k})] ^ {- 1} f '(x_ {k}).}

Bu genellikle, Wolfe koşulları yöntemin her adımında tatmin edilir. 1'den farklı adım boyutları için, yöntem genellikle rahat veya sönümlü Newton yöntemi olarak adlandırılır.

Yakınsama

Eğer $f$ Lipschitz Hessian ile kuvvetli dışbükey bir fonksiyondur. ${ displaystyle x_ {0}}$ yeterince yakın ${ displaystyle x _ {*} = arg min f (x)}$ , sekans ${ displaystyle x_ {0}, x_ {1}, x_ {2}, noktalar}$ Newton yöntemi tarafından oluşturulan (zorunlu olarak benzersiz) küçültücü ${ displaystyle x _ {*}}$ nın-nin ${ displaystyle f}$ ikinci dereceden hızlı.^{[kaynak belirtilmeli ]} Yani,

{ displaystyle | x_ {k + 1} -x _ {*} | leq { frac {1} {2}} | x_ {k} -x _ {*} | ^ {2}, qquad forall k geq 0.}

Newton yönünü hesaplama

Newton yönünü hesaplamak için Hessian'ın yüksek boyutlarda tersini bulma ${ displaystyle h = - (f '' (x_ {k})) ^ {- 1} f '(x_ {k})}$ pahalı bir işlem olabilir. Bu gibi durumlarda, doğrudan Hessian'ı ters çevirmek yerine, vektörü hesaplamak daha iyidir. ${ displaystyle h}$ çözüm olarak doğrusal denklem sistemi

{ displaystyle [f '' (x_ {k})] h = -f '(x_ {k})}

çeşitli çarpanlara ayırmalarla veya yaklaşık olarak (ancak büyük doğrulukla) kullanılarak çözülebilir yinelemeli yöntemler. Bu yöntemlerin çoğu yalnızca belirli denklem türlerine uygulanabilir, örneğin Cholesky çarpanlara ayırma ve eşlenik gradyan sadece eğer çalışırsa ${ displaystyle f '' (x_ {k})}$ pozitif tanımlı bir matristir. Bu bir sınırlama gibi görünse de, genellikle bir şeylerin ters gittiğinin yararlı bir göstergesidir; örneğin bir küçültme sorununa yaklaşılıyorsa ve ${ displaystyle f '' (x_ {k})}$ pozitif tanımlı değilse, yinelemeler bir Eyer noktası ve minimum değil.

Öte yandan, eğer bir kısıtlı optimizasyon yapılır (örneğin, Lagrange çarpanları ), sorun eyer noktası bulmaya dönüşebilir, bu durumda Hessian simetrik belirsiz olacaktır ve çözümü ${ displaystyle x_ {k + 1}}$ bunun için işe yarayacak bir yöntemle yapılması gerekecek, örneğin ${ displaystyle LDL ^ { top}}$ varyantı Cholesky çarpanlara ayırma ya da eşlenik kalıntı yöntemi.

Ayrıca çeşitli var yarı-Newton yöntemleri, Hessian için (veya doğrudan tersi) bir yaklaşımın gradyan değişikliklerinden oluşturulduğu yerde.

Hessian, non-tersinir matris tersine çevrilmiş Hessian sayısal olarak kararsız olabilir ve çözüm farklı olabilir. Bu durumda, geçmişte, belirli sorunlarla çeşitli başarılara sahip olan bazı geçici çözümler denenmiştir. Örneğin, bir düzeltme matrisi ekleyerek Hessian'ı değiştirebilirsiniz. ${ displaystyle B_ {k}}$ yapmak için ${ displaystyle f '' (x_ {k}) + B_ {k}}$ pozitif tanımlı. Yaklaşımlardan biri, Hessian'ı köşegenleştirmek ve ${ displaystyle B_ {k}}$ Böylece ${ displaystyle f '' (x_ {k}) + B_ {k}}$ Hessian ile aynı özvektörlere sahiptir, ancak her negatif özdeğer ile değiştirilir. ${ displaystyle epsilon> 0}$ .

Sömürülen bir yaklaşım Levenberg – Marquardt algoritması (yaklaşık bir Hessian kullanır), Hessian'a ölçekli bir kimlik matrisi eklemektir, ${ displaystyle mu I}$ , ölçek her yinelemede gerektiği gibi ayarlanarak. Büyük için ${ displaystyle mu}$ ve küçük Hessian, yinelemeler gibi davranacak dereceli alçalma adım boyutu ile ${ displaystyle 1 / mu}$ . Bu, Hessian'ın yararlı bilgiler sağlamadığı daha yavaş ama daha güvenilir bir yakınsama ile sonuçlanır.

Stokastik Newton Yöntemi

Birçok pratik optimizasyon problemi ve özellikle veri bilimi ve makine öğreniminde ortaya çıkan problemler, bir işlevi içerir ${ displaystyle f: mathbb {R} ^ {d} - mathbb {R}}$ çok sayıda basit fonksiyonun ortalaması olarak ortaya çıkan ${ displaystyle f_ {i}}$ :

{ displaystyle f (x) = { frac {1} {n}} toplamı _ {i = 1} ^ {n} f_ {i} (x).}

Denetimli makine öğreniminde, ${ displaystyle f_ {i} (x)}$ vektör tarafından parametreleştirilmiş model kaybını temsil eder ${ displaystyle x in mathbb {R} ^ {d}}$ veri eğitim noktasında ${ displaystyle i}$ , ve ${ displaystyle f (x)}$ bu nedenle eğitim veri setinde modelin ortalama kaybını yansıtır. Bu tür problemler arasında doğrusal en küçük kareler, lojistik regresyon ve derin sinir ağı eğitimi bulunur.

Bu durumda, Newton'un küçültme yöntemi ${ displaystyle f}$ formu alır

{ displaystyle x_ {k + 1} = x_ {k} - left ({ frac {1} {n}} toplam _ {i = 1} ^ {n} f '' _ {i} (x_ { k}) sağ) ^ {- 1} left ({ frac {1} {n}} sum _ {i = 1} ^ {n} f_ {i} '(x_ {k}) sağ) .}

Standart Newton yönteminin temel zorluğunun, tipik olarak Hessian'ın hesaplamasından çok daha fazla hesaplama gerektiren Newton adımının hesaplanması olduğunu hatırlayın. ${ displaystyle f '' (x_ {k})}$ ve gradyan ${ displaystyle f '(x_ {k})}$ . Ancak, burada ele alınan ortamda ${ displaystyle f}$ çok sayıda fonksiyonun toplamı olduğu için durum tersine döner ve hesaplama nın-nin ${ displaystyle f '' (x_ {k})}$ ve ${ displaystyle f '(x_ {k})}$ Hessianların ve bireysel fonksiyonların gradyanlarının ortalamasını alarak ${ displaystyle f_ {i}}$ darboğaz haline gelir.

Bu büyük ${ displaystyle n}$ rejim, yukarıdaki konu dikkate alınarak çözülebilir. stokastik Newton (SN) yöntemi Kovalev, Mishchenko ve Richtárik tarafından geliştirilmiş ve analiz edilmiştir.^[3] SN, setin esnek bir seçimine izin veren Newton yönteminin bir genellemesidir. ${ displaystyle S_ {k}}$ Hessian ve gradyan hesaplamasının gerekli olduğu fonksiyonlar. Bu set şu şekilde seçilebilir: ${ displaystyle S_ {k} = {1,2, noktalar, n }}$ , bu durumda SN, Newton yöntemine indirgenir. Ancak, biri de seçilebilir ${ displaystyle S_ {k} = {i }}$ , nerede ${ displaystyle i}$ rastgele bir unsurdur ${ displaystyle {1,2, noktalar, n }}$ .

Yöntem. Genel olarak SN, parametrik bir yöntem ailesidir. ${ displaystyle tau in {1,2, noktalar, n }}$ parti boyutunu kontrol etmek. Verilen ${ displaystyle tau}$ , yinelemede ${ displaystyle k}$ izin verdik ${ displaystyle S_ {k}}$ rastgele bir alt kümesi olmak ${ displaystyle {1,2, noktalar, n }}$ tüm kardinalite alt kümelerinden eşit olarak seçilmiş ${ displaystyle tau}$ . Yani, kardinalitenin tüm alt kümeleri ${ displaystyle tau}$ olasılıkla seçilir ${ displaystyle 1 / {d tau seçin}}$ . Yukarıda açıklanan iki durum, bunun için özel durumlardır. ${ displaystyle tau = n}$ ve ${ displaystyle tau = 1}$ , sırasıyla.

Stokastik Newton yöntemi bir vektör dizisini korur ${ displaystyle x_ {k} ^ {1}, x_ {k} ^ {2}, cdots, x_ {k} ^ {n} in mathbb {R} ^ {d}}$ için ${ displaystyle k geq 0}$ . Başlangıçta, yani ${ displaystyle k = 0}$ , bu vektörler keyfi olarak başlatılır. Mantıklı bir seçim, onları eşit hale getirmektir. Yöntem daha sonra aşağıdaki adımları gerçekleştirir:

{ displaystyle Adım ; 1: quad x_ {k + 1} = left ({ frac {1} {n}} sum _ {i = 1} ^ {n} f '' _ {i} ( x_ {k} ^ {i}) sağ) ^ {- 1} left ({ frac {1} {n}} sum _ {i = 1} ^ {n} f '' _ {i} ( x_ {k} ^ {i}) x_ {k} ^ {i} -f_ {i} '(x_ {k} ^ {i}) sağ)}

{ displaystyle Adım ; 2: quad { text {Örnek}} S_ {k} subseteq {1,2, dots, n }}

{ displaystyle Adım ; 3: quad x_ {k + 1} ^ {i} = { başla {vakalar} x_ {k + 1} & i in S_ {k} x_ {k} ^ {i} & i not in S_ {k} end {case}}.}

Unutmayın ki ${ displaystyle x_ {0} ^ {1} = x_ {0} ^ {2} = cdots = x_ {0} ^ {n}}$ ve ${ displaystyle tau = n}$ SN, yukarıda açıklanan Newton yöntemine indirgenir. Bununla birlikte, Newton yönteminin tersine, yinelemede ${ displaystyle k}$ SN, fonksiyonların gradyanlarını ve Hessian'larını hesaplamalıdır ${ displaystyle f_ {i}}$ için ${ displaystyle i S_ {k}} içinde$ sadece. Özellikle parti boyutu ${ displaystyle tau}$ sabit olarak seçilebilir, bu durumda SN'nin her yinelemesinin maliyeti bağımsız nın-nin ${ displaystyle n}$ .

Yakınsama. İçin ${ displaystyle tau = n}$ SN, Newton yöntemiyle aynı yerel ikinci dereceden yakınsama oranına sahiptir. İçin ${ displaystyle tau$ SN, koşul numarasından bağımsız bir yerel doğrusal yakınsama oranına sahiptir. Özellikle, Kovalev, Mishchenko ve Richtárik tarafından ${ displaystyle f}$ güçlü bir şekilde dışbükeydir ve Lipschitz Hessian'a sahiptir, bu durumda ilk yinelemeler olduğu sürece ${ displaystyle x_ {0} ^ {1}, x_ {0} ^ {2}, cdots, x_ {0} ^ {n}}$ (zorunlu olarak) benzersiz küçültücüye yeterince yakın ${ displaystyle x _ {*}}$ nın-nin ${ displaystyle f}$ , sonra

{ displaystyle { rm {E}} sol [{ frac {1} {n}} sum _ {i = 1} ^ {n} | x_ {k} ^ {i} -x _ {*} | ^ {2} right] leq left (1 - { frac {3 tau} {4n}} right) ^ {k} left [{ frac {1} {n}} toplam _ {i = 1} ^ {n} | x_ {0} ^ {i} -x _ {*} | ^ {2} sağ],}

nerede ${ displaystyle { rm {E}} [ cdot]}$ Algoritmanın doğasında bulunan rastgelelikle ilgili matematiksel beklentiyi ifade eder.

Bu, herhangi bir stokastik birinci dereceden yöntemle elde edilebileceğinden çok daha iyi bir orandır. stokastik gradyan inişi. Aslında, tüm birinci dereceden yöntemlerin yakınsama oranı, koşul sayısına bağlıdır. ${ displaystyle f}$ , tipik olarak şu şekilde tanımlanır: ${ displaystyle kappa = L / mu}$ , nerede ${ displaystyle 0 < mu leq L}$ sabitler öyle ki

{ displaystyle mu I preceq f '' (x) preceq LI, qquad forall x içinde mathbb {R} ^ {d}.}

Bir dereceye kadar yapabilecek çeşitli teknikler vardır. azaltmak Ama hangisi tamamen ortadan kaldıramaz şartlandırmanın etkisi ${ displaystyle kappa}$ birinci dereceden yöntemlerin yakınsama oranında. Bu teknikler arasında uyarlanabilir adım boyutları, minibatching, önem örneklemesi, Polyak momentum, Nesterov'un momentumu ve varyans azaltımı bulunur. Tüm bu tekniklerin aksine SN, şartlandırmanın etkisini tamamen ortadan kaldırır. Ancak, Newton'un yöntemi olarak SN, yerel yakınsama yalnızca garanti eder.

Ayrıca bakınız

Notlar

^ "Göreli Extrema". Lamar Üniversitesi. Alındı 28 Ağustos 2019.
^ Edwards, A.W.F. (1992). Olasılık (Genişletilmiş ed.). Baltimore: Johns Hopkins Üniversitesi Yayınları. s. 129. ISBN 0-8018-4443-6.
^ Kovalev, Dmitry; Mişçenko, Konstantin; Richtárik, Peter (2019). "Stokastik Newton ve basit yerel doğrusal-ikinci dereceden oranlarla kübik Newton yöntemleri". arXiv:1912.01597.

Referanslar

Avriel, Mordecai (2003). Doğrusal Olmayan Programlama: Analiz ve Yöntemler. Dover Yayıncılık. ISBN 0-486-43227-0.
Bonnans, J. Frédéric; Gilbert, J. Charles; Lemaréchal, Claude; Sagastizábal, Claudia A. (2006). Sayısal optimizasyon: Teorik ve pratik yönler. Universitext (1997 Fransızca baskısının ikinci gözden geçirilmiş baskısı). Berlin: Springer-Verlag. doi:10.1007/978-3-540-35447-5. ISBN 3-540-35445-X. BAY 2265882.
Fletcher Roger (1987). Pratik Optimizasyon Yöntemleri (2. baskı). New York: John Wiley & Sons. ISBN 978-0-471-91547-8.
Givens, Geof H .; Hoeting, Jennifer A. (2013). Hesaplamalı İstatistik. Hoboken, New Jersey: John Wiley & Sons. s. 24–58. ISBN 978-0-470-53331-4.
Nocedal, Jorge; Wright, Stephen J. (1999). Sayısal Optimizasyon. Springer-Verlag. ISBN 0-387-98793-2.
Kovalev, Dmitry; Mişçenko, Konstantin; Richtárik, Peter (2019). "Stokastik Newton ve basit yerel doğrusal-ikinci dereceden oranlarla kübik Newton yöntemleri". arXiv:1912.01597 [cs.LG ].

Dış bağlantılar

Korenblum, Daniel (29 Ağu 2015). "Newton-Raphson görselleştirme (1D)". Bl.ocks. ffe9653768cb80dfc0da.

[http://tutorial.math.lamar.edu/-1] "Göreli Extrema". Lamar Üniversitesi. Alındı 28 Ağustos 2019.

[2] Edwards, A.W.F. (1992). Olasılık (Genişletilmiş ed.). Baltimore: Johns Hopkins Üniversitesi Yayınları. s. 129. ISBN 0-8018-4443-6.

[3] Kovalev, Dmitry; Mişçenko, Konstantin; Richtárik, Peter (2019). "Stokastik Newton ve basit yerel doğrusal-ikinci dereceden oranlarla kübik Newton yöntemleri". arXiv:1912.01597.

[1]

[2]

[3]

Sör Isaac Newton
Yayınlar	Fluxions (1671) De Motu (1684) Principia (1687; yazı ) Tercihler (1704) Sorguları (1704) Arithmetica (1707) De Analysi (1711)
Diğer yazılar	Quaestiones (1661–1665) "devlerin omuzlarında durmak " (1675) Yahudi Tapınağı üzerine notlar (yaklaşık 1680) "Genel Scholium " (1713; "fingo olmayan hipotezler " ) Eski Krallıklar Değiştirildi (1728) Kutsal Yazıların Yolsuzlukları (1754)
Katkılar	Matematik akma Darbe derinliği Eylemsizlik Newton diski Newton çokgen Newton-Okounkov gövdesi Newton'un reflektörü Newton teleskopu Newton ölçeği Newton metali Newton beşiği Spektrum Yapısal renklendirme
Newtonculuk	Bölüm argümanı Newton eşitsizlikleri Newton'un soğutma yasası Newton'un evrensel çekim yasası Newton sonrası genişleme parametreli yerçekimi sabiti Newton-Cartan teorisi Schrödinger-Newton denklemi Newton'un hareket yasaları Kepler'in yasaları Newton dinamikleri Optimizasyonda Newton yöntemi Apollonius'un sorunu kesik Newton yöntemi Gauss – Newton algoritması Newton halkaları Ovallerle ilgili Newton teoremi Newton-Pepys sorunu Newton potansiyeli Newton sıvısı Klasik mekanik Korpüsküler ışık teorisi Leibniz-Newton hesabı tartışması Newton gösterimi Dönen küreler Newton'un güllesi Newton-Cotes formülleri Newton yöntemi genelleştirilmiş Gauss – Newton yöntemi Newton fraktal Newton'un kimlikleri Newton polinomu Newton'un döner yörünge teoremi Newton – Euler denklemleri Newton numarası öpüşen numara problemi Newton bölümü Paralelkenar kuvvet Newton-Puiseux teoremi Mutlak uzay ve zaman Parlak eter Newton serisi masa
Kişisel hayat	Woolsthorpe Malikanesi (doğum yeri) Cranbury Parkı (ev) Erken dönem Daha sonra yaşam Dini Görüşler Gizli çalışmalar Bilimsel devrim Kopernik Devrimi
İlişkiler	Catherine Barton (yeğen) John Conduitt (kayın yeğen) Isaac Barrow (profesör) William Clarke (mentor) Benjamin Pulleyn (özel öğretmen) John Keill (öğrenci) William Stukeley (arkadaş) William Jones (arkadaş) Abraham de Moivre (arkadaş)
Tasvirler	Newton Blake tarafından (tek tip) Newton Paolozzi tarafından (heykel)
Adaş	Isaac Newton Enstitüsü Isaac Newton Madalyası Isaac Newton Teleskopu Isaac Newton Teleskoplar Grubu Newton (birim)
Kategoriler	► Isaac Newton