Quasi-Newton yöntemi - Quasi-Newton method

Quasi-Newton yöntemleri Newton yöntemine alternatif olarak sıfırları veya yerel maksimumları ve minimumları bulmak için kullanılan yöntemlerdir. Kullanılabilirlerse Jacobian veya Hessian mevcut değil veya her yinelemede hesaplanması çok pahalı. Dolu" Newton yöntemi Sıfırları aramak için Jacobian'ı veya extrema bulmak için Hessian'ı gerektirir.

Sıfır arama: kök bulma

Newton yöntemi bir fonksiyonun sıfırlarını bulmak için ${displaystyle g}$ birden çok değişken tarafından verilir ${displaystyle x_ {n + 1} = x_ {n} - [J_ {g} (x_ {n})] ^ {- 1} g (x_ {n})}$ , nerede ${displaystyle [J_ {g} (x_ {n})] ^ {- 1}}$ ... sol ters of Jacobian matrisi ${displaystyle J_ {g} (x_ {n})}$ nın-nin ${displaystyle g}$ için değerlendirildi ${displaystyle x_ {n}}$ .

Kesinlikle, Jacobian'ın yerine geçen herhangi bir yöntem ${displaystyle J_ {g} (x_ {n})}$ bir yaklaşımla bir yarı-Newton yöntemidir.^[1] Örneğin, akor yöntemi (nerede ${displaystyle J_ {g} (x_ {n})}$ ile değiştirilir ${displaystyle J_ {g} (x_ {0})}$ tüm yinelemeler için) basit bir örnektir. Aşağıda verilen yöntemler optimizasyon Newton benzeri yöntemlerin önemli bir alt sınıfına, sekant yöntemlerine gönderme yapar.^[2]

Sıfırları bulmak için ekstremayı bulmak için geliştirilen yöntemleri kullanmak her zaman iyi bir fikir değildir, çünkü ekstremayı bulmak için kullanılan yöntemlerin çoğu kullanılan matrisin simetrik olmasını gerektirir. Bu ekstrema arayışı bağlamında geçerli olsa da, sıfırları ararken nadiren tutar. Broyden'ın "iyi" ve "kötü" yöntemleri sıfırları bulmak için de uygulanabilen, ekstremayı bulmak için yaygın olarak kullanılan iki yöntemdir. Kullanılabilecek diğer yöntemler şunlardır: sütun güncelleme yöntemi, ters sütun güncelleme yöntemi, yarı-Newton en küçük kareler yöntemi ve yarı-Newton ters en küçük kareler yöntemi.

Daha yakın zamanlarda yarı-Newton yöntemleri, çoklu bağlı denklem sistemlerinin çözümünü bulmak için uygulanmıştır (örneğin, akışkan-yapı etkileşim problemleri veya fizikte etkileşim problemleri). Küresel sistemin çözümü bulunana kadar döngüsel, yinelemeli bir şekilde her bir bileşen sistemi ayrı ayrı (küresel sistemden daha basit olan) çözerek çözümün bulunmasına izin verirler.^[2]^[3]

Ekstrema arayın: optimizasyon

Skaler değerli bir fonksiyonun minimum veya maksimumunun aranmasının, fonksiyonun sıfırlarını aramadan başka bir şey olmadığını not ederek gradyan Bu fonksiyonun, Newton benzeri yöntemler, bir fonksiyonun ekstremma bulmak için kolayca uygulanabilir. Başka bir deyişle, eğer ${displaystyle g}$ gradyanı ${displaystyle f}$ , sonra vektör değerli fonksiyonun sıfırlarını arar ${displaystyle g}$ skaler değerli fonksiyonun ekstremma aramasına karşılık gelir ${displaystyle f}$ ; Jacobian ${displaystyle g}$ şimdi Hessian oldu ${displaystyle f}$ . Temel fark şudur: Hessian matrisi simetrik bir matristir Jacobian'ın aksine sıfır aramak. Optimizasyonda kullanılan yarı-Newton yöntemlerinin çoğu bu özelliği kullanır.

İçinde optimizasyon, yarı-Newton yöntemleri (özel bir durum değişken metrik yöntemler) yerel bulma algoritmalarıdır maksimum ve minimum nın-nin fonksiyonlar. Quasi-Newton yöntemleri temel alır Newton yöntemi bulmak için sabit nokta gradyan 0 olduğunda bir fonksiyonun yöntemi, fonksiyonun yerel olarak yaklaşık olarak tahmin edilebileceğini varsayar. ikinci dereceden Optimum çevresindeki bölgede ve durağan noktayı bulmak için birinci ve ikinci türevleri kullanır. Daha yüksek boyutlarda, Newton'un yöntemi degradeyi ve Hessen matrisi saniyenin türevler en aza indirilecek işlevin.

Yarı-Newton yöntemlerinde, Hessian matrisinin hesaplanmasına gerek yoktur. Hessian, bunun yerine ardışık gradyan vektörleri analiz edilerek güncellenir. Yarı-Newton yöntemleri, sekant yöntemi çok boyutlu problemler için birinci türevin kökünü bulmak. Birden çok boyutta sekant denklemi az belirlenmiş ve yarı-Newton yöntemleri, tipik olarak Hessian'ın mevcut tahminine basit bir düşük sıralı güncelleme ekleyerek çözümü nasıl kısıtladıklarında farklılık gösterir.

İlk yarı-Newton algoritması tarafından önerildi William C. Davidon, çalışan bir fizikçi Argonne Ulusal Laboratuvarı. İlk yarı-Newton algoritmasını 1959'da geliştirdi: DFP güncelleme formülü, daha sonra 1963'te Fletcher ve Powell tarafından popüler hale getirilen, ancak bugün nadiren kullanılmaktadır. En yaygın yarı-Newton algoritmaları şu anda SR1 formülü ("simetrik sıra bir" için), BHHH yöntem, yaygın BFGS yöntemi (1970'te Broyden, Fletcher, Goldfarb ve Shanno tarafından bağımsız olarak önerildi) ve düşük bellek uzantısı L-BFGS. Broyden'ın sınıfı, DFP ve BFGS yöntemlerinin doğrusal bir kombinasyonudur.

SR1 formülü, güncelleme matrisinin korunacağını garanti etmez. pozitif kesinlik ve belirsiz problemler için kullanılabilir. Broyden yöntemi güncelleme matrisinin simetrik olmasını gerektirmez ve genel bir denklem sisteminin kökünü (gradyan yerine) bulmak için kullanılır. Jacobian (Hessian yerine).

Yarı-Newton yöntemlerinin başlıca avantajlarından biri Newton yöntemi bu mu Hessen matrisi (veya yarı-Newton yöntemleri söz konusu olduğunda, yaklaşımı) ${displaystyle B}$ ters çevrilmesine gerek yoktur. Newton yöntemi ve türevleri iç nokta yöntemleri, Hessian'ın ters çevrilmesini gerektirir, bu genellikle bir çözülerek gerçekleştirilir. doğrusal denklem sistemi ve genellikle oldukça maliyetlidir. Buna karşılık, yarı-Newton yöntemleri genellikle bir tahmin üretir ${displaystyle B ^ {- 1}}$ direkt olarak.

De olduğu gibi Newton yöntemi biri, bir fonksiyonun minimumunu bulmak için ikinci dereceden bir yaklaşım kullanır ${displaystyle f (x)}$ . Taylor serisi nın-nin ${displaystyle f (x)}$ bir yineleme etrafında

{displaystyle f (x_ {k} + Delta x) yaklaşık f (x_ {k}) + abla f (x_ {k}) ^ {mathrm {T}}, Delta x + {frac {1} {2}} Delta x ^ {mathrm {T}} B, Delta x,}

nerede ( ${displaystyle abla f}$ ) gradyan, ve ${displaystyle B}$ bir yaklaşım Hessen matrisi^[4]. Bu yaklaşımın gradyanı ( ${displaystyle Delta x}$ ) dır-dir

{displaystyle abla f (x_ {k} + Delta x) yaklaşık abla f (x_ {k}) + B, Delta x,}

ve bu gradyanı sıfıra ayarlamak (optimizasyonun amacıdır), Newton adımını sağlar:

{displaystyle Delta x = -B ^ {- 1} abla f (x_ {k}).}

Hessen yaklaşımı ${displaystyle B}$ tatmin etmek için seçildi

{displaystyle abla f (x_ {k} + Delta x) = abla f (x_ {k}) + B, Delta x,}

buna denir sekant denklem (degradenin Taylor serisi). Birden fazla boyutta ${displaystyle B}$ dır-dir az belirlenmiş. Tek boyutta ${displaystyle B}$ ve Newton adımını güncellenmiş değerle uygulamak, sekant yöntemi. Çeşitli yarı-Newton yöntemleri, sekant denkleminin çözüm seçiminde farklılık gösterir (bir boyutta, tüm varyantlar eşdeğerdir). Çoğu yöntem (ancak istisnalar dışında, örneğin Broyden yöntemi ) simetrik bir çözüm aramak ( ${displaystyle B ^ {T} = B}$ ); ayrıca, aşağıda listelenen varyantlar bir güncelleme bularak motive edilebilir ${displaystyle B_ {k + 1}}$ mümkün olduğu kadar yakın ${displaystyle B_ {k}}$ bazılarında norm; yani, ${displaystyle B_ {k + 1} = operatöradı {argmin} _ {B} | B-B_ {k} | _ {V}}$ , nerede ${displaystyle V}$ biraz pozitif tanımlı matris normu tanımlayan. Yaklaşık bir başlangıç değeri ${displaystyle B_ {0} = eta I}$ hızlı yakınsama elde etmek için genellikle yeterlidir, ancak seçilecek genel bir strateji olmamasına rağmen ${displaystyle eta}$ ^[5]. Bunu not et ${displaystyle B_ {0}}$ pozitif tanımlı olmalıdır. Bilinmeyen ${displaystyle x_ {k}}$ o anki yaklaşık Hessian matrisi kullanılarak hesaplanan Newton adımını uygulayarak güncellenir ${displaystyle B_ {k}}$ :

${displaystyle Delta x_ {k} = - alfa _ {k} B_ {k} ^ {- 1} abla f (x_ {k})}$ , ile ${displaystyle alpha}$ tatmin etmek için seçilmiş Wolfe koşulları;
${displaystyle x_ {k + 1} = x_ {k} + Delta x_ {k}}$ ;
Yeni noktada hesaplanan gradyan ${displaystyle abla f (x_ {k + 1})}$ , ve

{displaystyle y_ {k} = abla f (x_ {k + 1}) - abla f (x_ {k})}

yaklaşık Hessian'ı güncellemek için kullanılır ${displaystyle B_ {k + 1}}$ veya doğrudan tersi ${displaystyle H_ {k + 1} = B_ {k + 1} ^ {- 1}}$ kullanmak Sherman-Morrison formülü.

BFGS ve DFP güncellemelerinin önemli bir özelliği, ${displaystyle B_ {k}}$ pozitif tanımlıdır ve ${displaystyle alpha _ {k}}$ Wolfe koşullarını karşılamak için seçilirse ${displaystyle B_ {k + 1}}$ aynı zamanda pozitif-tanımlıdır.

En popüler güncelleme formülleri şunlardır:

Yöntem	${displaystyle displaystyle B_ {k + 1} =}$	${displaystyle H_ {k + 1} = B_ {k + 1} ^ {- 1} =}$
BFGS	${displaystyle B_ {k} + {frac {y_ {k} y_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}} Delta x_ {k}}} - {frac {B_ {k} Delta x_ {k} (B_ {k} Delta x_ {k}) ^ {mathrm {T}}} {Delta x_ {k} ^ {mathrm {T}} B_ {k}, Delta x_ {k} }}}$	${displaystyle left (I- {frac {Delta x_ {k} y_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}} Delta x_ {k}}} ight) H_ {k } sol (I- {frac {y_ {k} Delta x_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}} Delta x_ {k}}} ight) + {frac { Delta x_ {k} Delta x_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}}, Delta x_ {k}}}}$
Broyden	${displaystyle B_ {k} + {frac {y_ {k} -B_ {k} Delta x_ {k}} {Delta x_ {k} ^ {mathrm {T}}, Delta x_ {k}}}, Delta x_ { k} ^ {mathrm {T}}}$	${displaystyle H_ {k} + {frac {(Delta x_ {k} -H_ {k} y_ {k}) Delta x_ {k} ^ {mathrm {T}} H_ {k}} {Delta x_ {k} ^ {mathrm {T}} H_ {k}, y_ {k}}}}$
Broyden ailesi	${displaystyle (1-varphi _ {k}) B_ {k + 1} ^ {ext {BFGS}} + varphi _ {k} B_ {k + 1} ^ {ext {DFP}}, dörtlü değişken [0, 1]}$
DFP	${displaystyle left (I- {frac {y_ {k}, Delta x_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}}, Delta x_ {k}}} ight) B_ {k} sol (I- {frac {Delta x_ {k} y_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}}, Delta x_ {k}}} ight) + {frac {y_ {k} y_ {k} ^ {mathrm {T}}} {y_ {k} ^ {mathrm {T}}, Delta x_ {k}}}}$	${displaystyle H_ {k} + {frac {Delta x_ {k} Delta x_ {k} ^ {mathrm {T}}} {Delta x_ {k} ^ {mathrm {T}}, y_ {k}}} - { frac {H_ {k} y_ {k} y_ {k} ^ {mathrm {T}} H_ {k}} {y_ {k} ^ {mathrm {T}} H_ {k} y_ {k}}}}$
SR1	${displaystyle B_ {k} + {frac {(y_ {k} -B_ {k}, Delta x_ {k}) (y_ {k} -B_ {k}, Delta x_ {k}) ^ {mathrm {T} }} {(y_ {k} -B_ {k}, Delta x_ {k}) ^ {mathrm {T}}, Delta x_ {k}}}}$	${displaystyle H_ {k} + {frac {(Delta x_ {k} -H_ {k} y_ {k}) (Delta x_ {k} -H_ {k} y_ {k}) ^ {mathrm {T}}} {(Delta x_ {k} -H_ {k} y_ {k}) ^ {mathrm {T}} y_ {k}}}}$

Diğer yöntemler, Pearson yöntemi, McCormick'in yöntemi, Powell simetrik Broyden (PSB) yöntemi ve Greenstadt'ın yöntemidir.^[2]

Matris ters çevirme ilişkisi

Ne zaman ${displaystyle f}$ pozitif tanımlı Hessian ile dışbükey ikinci dereceden bir fonksiyondur ${displaystyle B}$ matrisler beklenir ${displaystyle H_ {k}}$ ters Hessian'a yakınsamak için bir yarı-Newton yöntemi ile üretilir ${displaystyle H = B ^ {- 1}}$ . Bu gerçekten de en az değişiklik güncellemelerine dayanan yarı-Newton yöntemleri sınıfı için geçerlidir.^[6]

Önemli uygulamalar

Yarı-Newton yöntemlerinin uygulamaları birçok programlama dilinde mevcuttur. Önemli uygulamalar şunları içerir:

GNU Oktav bir BFGS biçimi kullanır fsolve işlevi ile güven bölgesi uzantılar.
Mathematica yarı-Newton çözücüleri içerir.^[7]
NAG Kitaplığı birkaç rutin içerir^[8] bir işlevi küçültmek veya büyütmek için^[9] yarı-Newton algoritmaları kullanan.
MATLAB'larda Optimizasyon Araç Kutusu, fminunc işlev kullanır (diğer yöntemlerin yanı sıra) BFGS yarı-Newton yöntemi.^[10] Optimizasyon araç kutusunun kısıtlı yöntemlerinin çoğu, BFGS ve varyant L-BFGS.^[11]
R 's iyileştirmek genel amaçlı optimize edici rutini, BFGS kullanarak yöntem method = "BFGS".^[12]
Scipy.optimize fmin_bfgs'e sahiptir. İçinde SciPy uzantısı Python, scipy.optimize.minimize işlev, diğer yöntemlerin yanı sıra, bir BFGS uygulama.^[13]

Ayrıca bakınız

Referanslar

^ Broyden, C.G. (1972). "Yarı-Newton Yöntemleri". Murray, W. (ed.). Kısıtlamasız Optimizasyon için Sayısal Yöntemler. Londra: Akademik Basın. sayfa 87–106. ISBN 0-12-512250-0.
^ ^a ^b ^c Haelterman, Rob (2009). "Etkileşim problemleri için En Küçük Kareler Yarı-Newton yönteminin analitik çalışması". Doktora Tezi, Ghent Üniversitesi. Alındı 2014-08-14.
^ Rob Haelterman, Dirk Van Eester, Daan Verleyen (2015). "(Ters) Sütun Güncelleme Yöntemini kullanarak bir tokamak içindeki bir fizik modelinin çözümünü hızlandırmak". Hesaplamalı ve Uygulamalı Matematik Dergisi. 279: 133–144. doi:10.1016 / j.cam.2014.11.005.CS1 Maint: yazar parametresini kullanır (bağlantı)
^ https://mathinsight.org/taylors_theorem_multivariable_introduction
^ Nocedal, Jorge; Wright, Stephen J. (2006). Sayısal Optimizasyon. New York: Springer. pp.142. ISBN 0-387-98793-2.
^ Robert Mansel Gower; Peter Richtarik (2015). "Randomize Yarı-Newton Güncellemeleri Doğrusal Yakınsak Matris Ters Çevirme Algoritmalarıdır". arXiv:1602.01768 [math.NA ].
^ http://reference.wolfram.com/mathematica/tutorial/UnconstrainedOptimizationQuasiNewtonMethods.html
^ Sayısal Algoritmalar Grubu. "Anahtar Kelime Dizini: Quasi-Newton". NAG Kitaplığı Kılavuzu, Mark 23. Alındı 2012-02-09.
^ Sayısal Algoritmalar Grubu. "E04 - Bir İşlevi Küçültme veya Büyütme" (PDF). NAG Kitaplığı Kılavuzu, Mark 23. Alındı 2012-02-09.
^ http://www.mathworks.com/help/toolbox/optim/ug/fminunc.html
^ http://www.mathworks.com/help/toolbox/optim/ug/brnoxzl.html
^ [1]
^ http://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize.html

daha fazla okuma

Bonnans, J. F .; Gilbert, J. Ch .; Lemaréchal, C.; Sagastizábal, C.A. (2006). Sayısal Optimizasyon: Teorik ve Sayısal Yönler (İkinci baskı). Springer. ISBN 3-540-35445-X.
Fletcher, Roger (1987), Pratik optimizasyon yöntemleri (2. baskı), New York: John Wiley & Sons, ISBN 978-0-471-91547-8.
Nocedal, Jorge; Wright, Stephen J. (1999). "Quasi-Newton Yöntemleri". Sayısal Optimizasyon. New York: Springer. s. 192–221. ISBN 0-387-98793-2.
Basın, W. H .; Teukolsky, S. A .; Vetterling, W. T .; Flannery, B.P. (2007). "Bölüm 10.9. Çok Boyutlu Yarı Newton veya Değişken Metrik Yöntemler". Sayısal Tarifler: Bilimsel Hesaplama Sanatı (3. baskı). New York: Cambridge University Press. ISBN 978-0-521-88068-8.
Ölçekler, L. E. (1985). Doğrusal Olmayan Optimizasyona Giriş. New York: MacMillan. sayfa 84–106. ISBN 0-333-32552-4.

[1] Broyden, C.G. (1972). "Yarı-Newton Yöntemleri". Murray, W. (ed.). Kısıtlamasız Optimizasyon için Sayısal Yöntemler. Londra: Akademik Basın. sayfa 87–106. ISBN 0-12-512250-0.

[Haelterman-2] Haelterman, Rob (2009). "Etkileşim problemleri için En Küçük Kareler Yarı-Newton yönteminin analitik çalışması". Doktora Tezi, Ghent Üniversitesi. Alındı 2014-08-14.

[3] Rob Haelterman, Dirk Van Eester, Daan Verleyen (2015). "(Ters) Sütun Güncelleme Yöntemini kullanarak bir tokamak içindeki bir fizik modelinin çözümünü hızlandırmak". Hesaplamalı ve Uygulamalı Matematik Dergisi. 279: 133–144. doi:10.1016 / j.cam.2014.11.005.CS1 Maint: yazar parametresini kullanır (bağlantı)

[4] ttps://mathinsight.org/taylors_theorem_multivariable_introduction

[5] Nocedal, Jorge; Wright, Stephen J. (2006). Sayısal Optimizasyon. New York: Springer. pp.142. ISBN 0-387-98793-2.

[Gower_and_Richtarik-6] Robert Mansel Gower; Peter Richtarik (2015). "Randomize Yarı-Newton Güncellemeleri Doğrusal Yakınsak Matris Ters Çevirme Algoritmalarıdır". arXiv:1602.01768 [math.NA ].

[7] ttp://reference.wolfram.com/mathematica/tutorial/UnconstrainedOptimizationQuasiNewtonMethods.html

[8] Sayısal Algoritmalar Grubu. "Anahtar Kelime Dizini: Quasi-Newton". NAG Kitaplığı Kılavuzu, Mark 23. Alındı 2012-02-09.

[9] Sayısal Algoritmalar Grubu. "E04 - Bir İşlevi Küçültme veya Büyütme" (PDF). NAG Kitaplığı Kılavuzu, Mark 23. Alındı 2012-02-09.

[10] ttp://www.mathworks.com/help/toolbox/optim/ug/fminunc.html

[11] ttp://www.mathworks.com/help/toolbox/optim/ug/brnoxzl.html

[12] [1]

[13] ttp://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize.html

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]