Optimizasyonda Newton yöntemi - Newtons method in optimization - Wikipedia

Karşılaştırması dereceli alçalma (yeşil) ve Newton yöntemi (kırmızı) bir işlevi en aza indirmek için (küçük adım boyutlarında). Newton yöntemi kullanır eğrilik daha doğrudan bir yol izlemek için bilgi (yani ikinci türev).

llIn hesap, Newton yöntemi bir yinelemeli yöntem bulmak için kökler bir ayırt edilebilir işlev Fçözümler olan denklem F (x) = 0. İçinde optimizasyon Newton yöntemi, türev f bir iki kez türevlenebilir fonksiyon f türevin köklerini bulmak için (çözümler f ′(x) = 0) olarak da bilinir sabit noktalar nın-nin f. Bu çözümler minimum, maksimum veya eyer noktaları olabilir.[1]

Newton Yöntemi

Optimizasyonun temel sorunu, işlevlerin en aza indirilmesidir. İlk önce tek değişkenli fonksiyonların durumunu, yani tek bir gerçek değişkenin fonksiyonlarını ele alalım. Daha sonra daha genel ve pratik olarak daha kullanışlı olan çok değişkenli durumu ele alacağız.

İki kez türevlenebilir işlev verildiğinde optimizasyon sorununu çözmeye çalışıyoruz

Newton'un yöntemi, bu sorunu bir sıra ilk tahminden (başlangıç ​​noktası) küçültücüye yakınsayan nın-nin ikinci dereceden Taylor yaklaşımlarının bir dizisini kullanarak yinelemeler etrafında. İkinci derece Taylor genişlemesi nın-nin f etrafında dır-dir

Sonraki yineleme bu ikinci dereceden yaklaşımı en aza indirecek şekilde tanımlanmıştır. ve ayar . İkinci türev pozitifse, ikinci dereceden yaklaşım, bir dışbükey fonksiyondur. türevi sıfır olarak ayarlanarak minimum bulunabilir. Dan beri

minimum şunun için elde edilir

Her şeyi bir araya getirerek, Newton'un yöntemi yinelemeyi gerçekleştirir

Geometrik yorumlama

Newton'un yönteminin geometrik yorumu, her yinelemede, bir paraboloit için yüzey nın-nin deneme değerinde , o noktada yüzeyle aynı eğim ve eğriliğe sahip olmak ve daha sonra bu paraboloitin maksimum veya minimumuna ilerlemek (daha yüksek boyutlarda, bu aynı zamanda bir Eyer noktası ).[2] Unutmayın ki Olur olmak ikinci dereceden bir fonksiyon, daha sonra tam ekstremum bir adımda bulunur.

Daha yüksek boyutlar

Yukarıdaki yinelemeli şema genelleştirilebilir türevi değiştirerek boyutları gradyan (farklı yazarlar gradyan için farklı gösterimler kullanırlar. ), ve karşılıklı ile ikinci türevin ters of Hessen matrisi (farklı yazarlar Hessian için farklı gösterimler kullanırlar. ). Böylece yinelemeli şema elde edilir

Genellikle, Newton'un yöntemi küçük bir adım boyutu onun yerine :

Bu genellikle, Wolfe koşulları yöntemin her adımında tatmin edilir. 1'den farklı adım boyutları için, yöntem genellikle rahat veya sönümlü Newton yöntemi olarak adlandırılır.

Yakınsama

Eğer f Lipschitz Hessian ile kuvvetli dışbükey bir fonksiyondur. yeterince yakın , sekans Newton yöntemi tarafından oluşturulan (zorunlu olarak benzersiz) küçültücü nın-nin ikinci dereceden hızlı.[kaynak belirtilmeli ] Yani,

Newton yönünü hesaplama

Newton yönünü hesaplamak için Hessian'ın yüksek boyutlarda tersini bulma pahalı bir işlem olabilir. Bu gibi durumlarda, doğrudan Hessian'ı ters çevirmek yerine, vektörü hesaplamak daha iyidir. çözüm olarak doğrusal denklem sistemi

çeşitli çarpanlara ayırmalarla veya yaklaşık olarak (ancak büyük doğrulukla) kullanılarak çözülebilir yinelemeli yöntemler. Bu yöntemlerin çoğu yalnızca belirli denklem türlerine uygulanabilir, örneğin Cholesky çarpanlara ayırma ve eşlenik gradyan sadece eğer çalışırsa pozitif tanımlı bir matristir. Bu bir sınırlama gibi görünse de, genellikle bir şeylerin ters gittiğinin yararlı bir göstergesidir; örneğin bir küçültme sorununa yaklaşılıyorsa ve pozitif tanımlı değilse, yinelemeler bir Eyer noktası ve minimum değil.

Öte yandan, eğer bir kısıtlı optimizasyon yapılır (örneğin, Lagrange çarpanları ), sorun eyer noktası bulmaya dönüşebilir, bu durumda Hessian simetrik belirsiz olacaktır ve çözümü bunun için işe yarayacak bir yöntemle yapılması gerekecek, örneğin varyantı Cholesky çarpanlara ayırma ya da eşlenik kalıntı yöntemi.

Ayrıca çeşitli var yarı-Newton yöntemleri, Hessian için (veya doğrudan tersi) bir yaklaşımın gradyan değişikliklerinden oluşturulduğu yerde.

Hessian, non-tersinir matris tersine çevrilmiş Hessian sayısal olarak kararsız olabilir ve çözüm farklı olabilir. Bu durumda, geçmişte, belirli sorunlarla çeşitli başarılara sahip olan bazı geçici çözümler denenmiştir. Örneğin, bir düzeltme matrisi ekleyerek Hessian'ı değiştirebilirsiniz. yapmak için pozitif tanımlı. Yaklaşımlardan biri, Hessian'ı köşegenleştirmek ve Böylece Hessian ile aynı özvektörlere sahiptir, ancak her negatif özdeğer ile değiştirilir. .

Sömürülen bir yaklaşım Levenberg – Marquardt algoritması (yaklaşık bir Hessian kullanır), Hessian'a ölçekli bir kimlik matrisi eklemektir, , ölçek her yinelemede gerektiği gibi ayarlanarak. Büyük için ve küçük Hessian, yinelemeler gibi davranacak dereceli alçalma adım boyutu ile . Bu, Hessian'ın yararlı bilgiler sağlamadığı daha yavaş ama daha güvenilir bir yakınsama ile sonuçlanır.

Stokastik Newton Yöntemi

Birçok pratik optimizasyon problemi ve özellikle veri bilimi ve makine öğreniminde ortaya çıkan problemler, bir işlevi içerir çok sayıda basit fonksiyonun ortalaması olarak ortaya çıkan :

Denetimli makine öğreniminde, vektör tarafından parametreleştirilmiş model kaybını temsil eder veri eğitim noktasında , ve bu nedenle eğitim veri setinde modelin ortalama kaybını yansıtır. Bu tür problemler arasında doğrusal en küçük kareler, lojistik regresyon ve derin sinir ağı eğitimi bulunur.

Bu durumda, Newton'un küçültme yöntemi formu alır

Standart Newton yönteminin temel zorluğunun, tipik olarak Hessian'ın hesaplamasından çok daha fazla hesaplama gerektiren Newton adımının hesaplanması olduğunu hatırlayın. ve gradyan . Ancak, burada ele alınan ortamda çok sayıda fonksiyonun toplamı olduğu için durum tersine döner ve hesaplama nın-nin ve Hessianların ve bireysel fonksiyonların gradyanlarının ortalamasını alarak darboğaz haline gelir.

Bu büyük rejim, yukarıdaki konu dikkate alınarak çözülebilir. stokastik Newton (SN) yöntemi Kovalev, Mishchenko ve Richtárik tarafından geliştirilmiş ve analiz edilmiştir.[3] SN, setin esnek bir seçimine izin veren Newton yönteminin bir genellemesidir. Hessian ve gradyan hesaplamasının gerekli olduğu fonksiyonlar. Bu set şu şekilde seçilebilir: , bu durumda SN, Newton yöntemine indirgenir. Ancak, biri de seçilebilir , nerede rastgele bir unsurdur .

Yöntem. Genel olarak SN, parametrik bir yöntem ailesidir. parti boyutunu kontrol etmek. Verilen , yinelemede izin verdik rastgele bir alt kümesi olmak tüm kardinalite alt kümelerinden eşit olarak seçilmiş . Yani, kardinalitenin tüm alt kümeleri olasılıkla seçilir . Yukarıda açıklanan iki durum, bunun için özel durumlardır. ve , sırasıyla.

Stokastik Newton yöntemi bir vektör dizisini korur için . Başlangıçta, yani , bu vektörler keyfi olarak başlatılır. Mantıklı bir seçim, onları eşit hale getirmektir. Yöntem daha sonra aşağıdaki adımları gerçekleştirir:

Unutmayın ki ve SN, yukarıda açıklanan Newton yöntemine indirgenir. Bununla birlikte, Newton yönteminin tersine, yinelemede SN, fonksiyonların gradyanlarını ve Hessian'larını hesaplamalıdır için sadece. Özellikle parti boyutu sabit olarak seçilebilir, bu durumda SN'nin her yinelemesinin maliyeti bağımsız nın-nin .

Yakınsama. İçin SN, Newton yöntemiyle aynı yerel ikinci dereceden yakınsama oranına sahiptir. İçin SN, koşul numarasından bağımsız bir yerel doğrusal yakınsama oranına sahiptir. Özellikle, Kovalev, Mishchenko ve Richtárik tarafından güçlü bir şekilde dışbükeydir ve Lipschitz Hessian'a sahiptir, bu durumda ilk yinelemeler olduğu sürece (zorunlu olarak) benzersiz küçültücüye yeterince yakın nın-nin , sonra

nerede Algoritmanın doğasında bulunan rastgelelikle ilgili matematiksel beklentiyi ifade eder.

Bu, herhangi bir stokastik birinci dereceden yöntemle elde edilebileceğinden çok daha iyi bir orandır. stokastik gradyan inişi. Aslında, tüm birinci dereceden yöntemlerin yakınsama oranı, koşul sayısına bağlıdır. , tipik olarak şu şekilde tanımlanır: , nerede sabitler öyle ki

Bir dereceye kadar yapabilecek çeşitli teknikler vardır. azaltmak Ama hangisi tamamen ortadan kaldıramaz şartlandırmanın etkisi birinci dereceden yöntemlerin yakınsama oranında. Bu teknikler arasında uyarlanabilir adım boyutları, minibatching, önem örneklemesi, Polyak momentum, Nesterov'un momentumu ve varyans azaltımı bulunur. Tüm bu tekniklerin aksine SN, şartlandırmanın etkisini tamamen ortadan kaldırır. Ancak, Newton'un yöntemi olarak SN, yerel yakınsama yalnızca garanti eder.

Ayrıca bakınız

Notlar

  1. ^ "Göreli Extrema". Lamar Üniversitesi. Alındı 28 Ağustos 2019.
  2. ^ Edwards, A.W.F. (1992). Olasılık (Genişletilmiş ed.). Baltimore: Johns Hopkins Üniversitesi Yayınları. s. 129. ISBN  0-8018-4443-6.
  3. ^ Kovalev, Dmitry; Mişçenko, Konstantin; Richtárik, Peter (2019). "Stokastik Newton ve basit yerel doğrusal-ikinci dereceden oranlarla kübik Newton yöntemleri". arXiv:1912.01597.

Referanslar

Dış bağlantılar