Doğrusal olmayan en küçük kareler - Non-linear least squares

Doğrusal olmayan en küçük kareler şekli en küçük kareler bir dizi uydurmak için kullanılan analiz m doğrusal olmayan bir modelle yapılan gözlemler n bilinmeyen parametreler (m ≥ n). Bazı şekillerde kullanılır doğrusal olmayan regresyon. Yöntemin temeli, modeli doğrusal bir modelle kestirmek ve parametreleri ardışık yinelemelerle rafine etmektir. Birçok benzerlik var doğrusal en küçük kareler ama aynı zamanda biraz önemli farklılıklar. Ekonomik teoride, doğrusal olmayan en küçük kareler yöntemi (i) probit regresyonunda, (ii) eşik regresyonunda, (iii) yumuşak regresyonda, (iv) lojistik bağlantı regresyonunda, (v) Box-Cox dönüştürülmüş regresörlerde ().

Teori

Bir dizi düşünün Veri noktaları, ve bir eğri (model fonksiyonu) değişkene ek olarak ayrıca bağlıdır parametreler ile Vektörü bulmak isteniyor eğrinin verilen veriye en küçük kareler anlamında en iyi uyması, yani kareler toplamı gibi parametrelerin

küçültüldüğünde kalıntılar (örneklem içi tahmin hataları) rben tarafından verilir

için

minimum değeri S ne zaman oluşur gradyan sıfırdır. Model içerdiğinden n parametreler var n gradyan denklemleri:

Doğrusal olmayan bir sistemde, türevler hem bağımsız değişkenin hem de parametrelerin fonksiyonlarıdır, bu nedenle genel olarak bu gradyan denklemlerinin kapalı bir çözümü yoktur. Bunun yerine, parametreler için başlangıç ​​değerleri seçilmelidir. Ardından, parametreler yinelemeli olarak rafine edilir, yani değerler ardışık yaklaşımla elde edilir,

Buraya, k bir yineleme numarası ve artışların vektörüdür, kaydırma vektörü olarak bilinir. Her yinelemede model, birinci dereceden bir yaklaşıma göre doğrusallaştırılır. Taylor polinomu hakkında genişleme

Jacobian, J, sabitlerin bir fonksiyonudur, bağımsız değişken ve parametreler, dolayısıyla bir yinelemeden diğerine değişir. Dolayısıyla, doğrusallaştırılmış model açısından, ve artıklar tarafından verilir

Bu ifadeleri gradyan denklemlerine koyarsak,

yeniden düzenlemede n eşzamanlı doğrusal denklemler, normal denklemler

Normal denklemler matris gösteriminde şu şekilde yazılır:

Gözlemler eşit derecede güvenilir olmadığında, ağırlıklı bir kareler toplamı en aza indirilebilir,

Her bir öğe diyagonal ağırlık matrisi W ideal olarak hatanın karşılığına eşit olmalıdır varyans ölçümün.[1] Normal denklemler o zaman

Bu denklemler temelini oluşturur Gauss – Newton algoritması doğrusal olmayan en küçük kareler problemi için.

Geometrik yorumlama

Doğrusal en küçük karelerde amaç fonksiyonu, S, bir ikinci dereceden fonksiyon parametrelerin.

Sadece bir parametre olduğunda, grafik S bu parametreye göre bir parabol. İki veya daha fazla parametre ile S herhangi bir çift parametreye göre eş merkezli olacaktır elipsler (normal denklem matrisinin dır-dir pozitif tanımlı ). Minimum parametre değerleri, elipslerin ortasında bulunur. Genel amaç fonksiyonunun geometrisi paraboloit eliptik olarak tanımlanabilir. NLLSQ'da amaç fonksiyonu, yalnızca minimum değerine yakın bir bölgedeki parametrelere göre ikinci dereceden oluşur; burada kesilmiş Taylor serileri modele iyi bir yaklaşımdır.

Parametre değerleri optimum değerlerinden ne kadar farklı olursa, konturlar o kadar eliptik şekilden sapar. Bunun bir sonucu, ilk parametre tahminlerinin (bilinmeyen!) Optimal değerlerine mümkün olduğu kadar yakın olması gerektiğidir. Ayrıca, Gauss – Newton algoritmasının yalnızca amaç fonksiyonu parametrelerde yaklaşık olarak ikinci dereceden olduğu zaman yakınsak olduğu için ıraksamanın nasıl ortaya çıkabileceğini de açıklar.

Hesaplama

İlk parametre tahminleri

Bazı kötü koşullandırma ve sapma sorunları, optimum değerlere yakın olan ilk parametre tahminleri bularak düzeltilebilir. Bunu yapmanın iyi bir yolu şudur: bilgisayar simülasyonu. Hem gözlemlenen hem de hesaplanan veriler bir ekranda görüntülenir. Modelin parametreleri, gözlemlenen ve hesaplanan veriler arasındaki uyum makul derecede iyi olana kadar elle ayarlanır. Bu öznel bir yargı olsa da, doğrusal olmayan iyileştirme için iyi bir başlangıç ​​noktası bulmak yeterlidir. İlk parametre tahminleri, dönüşümler veya doğrusallaştırmalar kullanılarak oluşturulabilir. Daha da iyisi Stokastik Huni Algoritması gibi evrimsel algoritmalar, optimum parametre tahminlerini çevreleyen dışbükey çekim havzasına yol açabilir. Randomizasyon ve elitizm kullanan hibrit algoritmaların, ardından Newton yöntemlerinin yararlı ve hesaplama açısından verimli olduğu gösterilmiştir.

Çözüm

Tarif edilenler arasında herhangi bir yöntem altında bir çözüm bulmak için uygulanabilir.

Yakınsama kriterleri

Yakınsama için sağduyu kriteri, kareler toplamının bir yinelemeden diğerine azalmamasıdır. Bununla birlikte, bu kriterin çeşitli nedenlerle pratikte uygulanması genellikle zordur. Yararlı bir yakınsama kriteri

0.0001 değeri biraz keyfidir ve değiştirilmesi gerekebilir. Özellikle deneysel hataların büyük olduğu durumlarda artırılması gerekebilir. Alternatif bir kriter

Yine, sayısal değer biraz keyfidir; 0,001, her parametrenin% 0,1 hassasiyetle düzeltilmesi gerektiğini belirtmeye eşdeğerdir. Bu, parametrelerdeki en büyük bağıl standart sapmadan daha az olduğunda mantıklıdır.

Jacobian'ın sayısal yaklaşımla hesaplanması

Jacobian unsurları için analitik ifadeler türetmenin çok zor veya hatta imkansız olduğu modeller vardır. Ardından, sayısal yaklaşım

hesaplanarak elde edilir için ve . Artış,, boyut, sayısal türev çok büyük olduğu için yaklaşım hatasına maruz kalmayacak şekilde seçilmelidir veya yuvarlama çok küçük olmakla hata.

Parametre hataları, güven sınırları, kalıntılar vb.

Bazı bilgiler verilir ilgili bölüm üzerinde doğrusal en küçük kareler sayfa.

Birden çok minimum

Birden çok minimum, bazıları şunlardır:

  • Bir parametre iki veya daha fazlasına yükseltilir. Örneğin, verileri bir Lorentziyen eğri

nerede yükseklik pozisyon ve yarı yükseklikte yarı genişliktir, yarı genişlik için iki çözüm vardır, ve amaç işlevi için aynı optimal değeri verir.

  • Modelin değeri değiştirilmeden iki parametre değiştirilebilir. Basit bir örnek, modelin iki parametrenin ürününü içermesidir, çünkü ile aynı değeri verecek .
  • Bir parametre bir trigonometrik fonksiyondadır, örneğin aynı değerlere sahip olan . Görmek Levenberg – Marquardt algoritması Örneğin.

Tüm çoklu minimumlar, amaç fonksiyonunun eşit değerlerine sahip değildir. Yerel minimum olarak da bilinen yanlış minimumlar, hedef fonksiyon değeri sözde küresel minimum değerinden büyük olduğunda ortaya çıkar. Bulunan minimumun genel minimum olduğundan emin olmak için, iyileştirme büyük ölçüde farklı olan parametrelerin başlangıç ​​değerleri ile başlatılmalıdır. Başlangıç ​​noktasına bakılmaksızın aynı minimum bulunduğunda, muhtemelen küresel minimum olacaktır.

Çoklu minimumlar olduğunda önemli bir sonuç vardır: amaç fonksiyonunun iki minimum arasında bir yerde maksimum bir değeri olacaktır. Gradyan sıfır olduğundan ve benzersiz bir iniş yönü olmadığından, normal denklemler matrisi objektif fonksiyonda maksimumda pozitif tanımlı değildir. Maksimuma yakın bir noktadan (bir dizi parametre değeri) yapılan iyileştirme kötü koşullandırılacaktır ve bir başlangıç ​​noktası olarak bundan kaçınılmalıdır. Örneğin, bir Lorentzian'ı takarken, bandın yarı genişliği sıfır olduğunda normal denklem matrisi pozitif tanımlı değildir.[2]

Doğrusal bir modele dönüşüm

Doğrusal olmayan bir model bazen doğrusal bir modele dönüştürülebilir. Örneğin, model basit bir üstel fonksiyon olduğunda,

logaritma alınarak doğrusal bir modele dönüştürülebilir.

Grafiksel olarak bu, bir yarı günlük arsa. Karelerin toplamı,

Hatalar çarpımsal olmadığı sürece bu prosedürden kaçınılmalıdır. günlük normal dağıtılmış çünkü yanıltıcı sonuçlar verebilir. Bu, deneysel hatalar ne olursa olsun y olabilir, hatalar günlük y farklıdır. Bu nedenle, dönüştürülmüş kareler toplamı en aza indirildiğinde, hem parametre değerleri hem de hesaplanan standart sapmaları için farklı sonuçlar elde edilecektir. Ancak, günlük olarak normal dağıtılan çarpımsal hatalarda bu prosedür tarafsız ve tutarlı parametre tahminleri verir.

Başka bir örnek, Michaelis-Menten kinetiği, iki parametreyi belirlemek için kullanılır ve :

.

Lineweaver – Burk grafiği

nın-nin karşısında parametrelerde doğrusaldır ve , ancak veri hatalarına karşı çok hassastır ve verileri bağımsız değişkenin belirli bir aralığına sığdırmaya yönelik güçlü bir önyargı .

Algoritmalar

Gauss – Newton yöntemi

Normal denklemler

çözülebilir tarafından Cholesky ayrışma, açıklandığı gibi doğrusal en küçük kareler. Parametreler yinelemeli olarak güncellenir

nerede k bir yineleme numarasıdır. Bu yöntem basit modeller için yeterli olsa da, sapma olursa başarısız olacaktır. Bu nedenle, sapmaya karşı koruma şarttır.

Vardiyalı kesme

Sapma meydana gelirse, basit bir çare, kaydırma vektörünün uzunluğunu azaltmaktır, kesirli f

Örneğin, kaydırma vektörünün uzunluğu, amaç fonksiyonunun yeni değeri son iterasyondaki değerinden daha az olana kadar art arda yarıya indirilebilir. Kesir, f tarafından optimize edilebilir satır arama.[3] Her deneme değeri olarak f amaç fonksiyonunun yeniden hesaplanmasını gerektirir, değerini çok sıkı bir şekilde optimize etmeye değmez.

Kaydırmalı kesme kullanılırken, kaydırma vektörünün yönü değişmeden kalır. Bu, yöntemin uygulanabilirliğini, kaydırma vektörünün yönünün, objektif fonksiyon parametrelerde yaklaşık olarak ikinci dereceden olsaydı olacağından çok farklı olmadığı durumlara sınırlar.

Marquardt parametresi

Sapma meydana gelirse ve kaydırma vektörünün yönü, kaydırma-kesme çok etkili olmayacak şekilde "ideal" yönünden o kadar uzaksa, yani kesir, f sapmayı önlemek için gereken çok küçük, yön değiştirilmelidir. Bu, Marquardt parametre.[4] Bu yöntemde normal denklemler değiştirilir

nerede Marquardt parametresidir ve ben bir kimlik matrisidir. Değerini artırmak kaydırma vektörünün hem yönünü hem de uzunluğunu değiştirme etkisine sahiptir. Kaydırma vektörü yönüne doğru döndürülür en dik iniş

ne zaman

en dik iniş vektörüdür. Öyleyse ne zaman çok büyük hale geldiğinde, kaydırma vektörü en dik iniş vektörünün küçük bir parçası haline gelir.

Marquardt parametresinin belirlenmesi için çeşitli stratejiler önerilmiştir. Vardiyalı kesmede olduğu gibi, bu parametreyi çok sıkı bir şekilde optimize etmek israftır. Daha ziyade, amaç fonksiyonunun değerinde bir azalmaya neden olan bir değer bulunduğunda, parametrenin bu değeri bir sonraki yinelemeye taşınır, mümkünse azaltılır veya gerekirse arttırılır. Marquardt parametresinin değerini azaltırken, altında onu sıfıra ayarlamanın güvenli olduğu, yani değiştirilmemiş Gauss – Newton yöntemiyle devam etmenin güvenli olduğu bir kesme değeri vardır. Kesme değeri, Jacobian'ın en küçük tekil değerine eşit olarak ayarlanabilir.[5] Bu değer için bir sınır verilir .[6]

QR ayrıştırması

Kareler toplamındaki minimum, normal denklemlerin oluşturulmasını içermeyen bir yöntemle bulunabilir. Doğrusallaştırılmış model ile artıklar şu şekilde yazılabilir:

Jacobian, dikey bir ayrışmaya maruz kalır; QR ayrıştırması süreci açıklamaya hizmet edecek.

nerede Q bir dikey matris ve R bir matris olan bölümlenmiş Içine blok, ve bir sıfır blok. üst üçgendir.

Kalan vektör sol ile çarpılır .

Bunun kareler toplamı üzerinde hiçbir etkisi yoktur. Çünkü Q dır-dir dikey Minimum değeri S üst blok sıfır olduğunda elde edilir. Bu nedenle, kaydırma vektörü çözülerek bulunur

Bu denklemler şu şekilde kolayca çözülür: R üst üçgendir.

Tekil değer ayrışımı

Ortogonal ayrıştırma yönteminin bir varyantı şunları içerir: tekil değer ayrışımı içinde R diğer dikey dönüşümlerle köşegenleştirilir.

nerede ortogonaldir, tekil değerlerin köşegen bir matrisidir ve özvektörlerinin ortogonal matrisidir veya eşdeğer olarak sağ tekil vektörler . Bu durumda kaydırma vektörü şu şekilde verilir:

Bu ifadenin göreli basitliği, doğrusal olmayan en küçük karelerin teorik analizinde çok kullanışlıdır. Tekil değer ayrışımının uygulanması, Lawson ve Hanson'da ayrıntılı olarak tartışılmıştır.[5]

Gradyan yöntemleri

Bilimsel literatürde doğrusal olmayan veri uydurma problemleri için farklı yöntemlerin kullanıldığı birçok örnek vardır.

Matris H olarak bilinir Hessen matrisi. Bu model, minimuma yakın daha iyi yakınsama özelliklerine sahip olmasına rağmen, parametreler optimum değerlerinden uzak olduğunda çok daha kötüdür. Hessian'ın hesaplanması, algoritmanın karmaşıklığına katkıda bulunur. Bu yöntem genel kullanımda değildir.
  • Davidon – Fletcher – Powell yöntemi. Sözde Newton yönteminin bir biçimi olan bu yöntem, yukarıdakine benzer, ancak ikinci türevler için analitik ifadeler kullanmak zorunda kalmamak için, ardışık yaklaşımla Hessian'ı hesaplar.
  • En dik iniş. Kaydırma vektörü en dik iniş yönünü gösterdiğinde karelerin toplamında bir azalma garanti edilse de, bu yöntem genellikle kötü performans gösterir. Parametre değerleri optimumdan uzak olduğunda, amaç fonksiyonunun dış hatlarına normal (dik) olan en dik iniş vektörünün yönü Gauss – Newton vektörünün yönünden çok farklıdır. Bu, özellikle en dik iniş yönü boyunca minimum, en dik iniş vektörünün uzunluğunun küçük bir kısmına karşılık gelebileceğinden, sapmayı çok daha olası hale getirir. Objektif fonksiyonun dış hatları çok eksantrik olduğunda, parametreler arasında yüksek korelasyon olması nedeniyle, en dik iniş yinelemeleri, kaydırmalı kesme ile minimuma doğru yavaş, zikzak bir yörünge izler.
  • Eşlenik gradyan araması. Bu, ikinci dereceden problemlerde kullanıldığında bile sonlu hassasiyetli dijital bilgisayarlarda başarısız olmasına rağmen, iyi teorik yakınsama özelliklerine sahip gelişmiş bir en dik iniş tabanlı yöntemdir.[7]

Doğrudan arama yöntemleri

Doğrudan arama yöntemleri, çeşitli parametre değerlerinde amaç fonksiyonunun değerlendirilmesine bağlıdır ve türevleri hiç kullanmaz. Gauss – Newton yönteminde ve gradyan yöntemlerinde sayısal türevlerin kullanımına alternatifler sunarlar.

  • Alternatif değişken arama.[3] Her parametre, sırayla sabit veya değişken bir artış eklenerek ve karelerin toplamında bir azalmaya neden olan değer korunarak değiştirilir. Yöntem, parametreler yüksek oranda ilişkilendirilmediğinde basit ve etkilidir. Çok zayıf yakınsama özelliklerine sahiptir, ancak ilk parametre tahminlerini bulmak için yararlı olabilir.
  • Nelder – Mead (simpleks) araması. Bir basit bu bağlamda bir politop nın-nin n İçinde + 1 köşe n boyutlar; düzlemde bir üçgen, üç boyutlu uzayda bir tetrahedron vb. Her köşe noktası, belirli bir parametre kümesi için amaç işlevinin bir değerine karşılık gelir. Simpleksin şekli ve boyutu, en yüksek tepe noktasındaki amaç fonksiyonunun değeri her zaman azalacak şekilde parametreler değiştirilerek ayarlanır. Karelerin toplamı başlangıçta hızlı bir şekilde azalabilse de, M.J.D. Powell'ın bir örneğine göre yarı-konveks problemlerde durağan olmayan bir noktaya yakınsayabilir.

Bunların ve diğer yöntemlerin daha ayrıntılı açıklamaları şurada mevcuttur: Sayısal Tarifler çeşitli dillerde bilgisayar kodu ile birlikte.

Ayrıca bakınız

Referanslar

  1. ^ Bu, gözlemlerin ilintisiz olduğu anlamına gelir. Gözlemler ise bağlantılı, ifade
    geçerlidir. Bu durumda ağırlık matrisi ideal olarak hatanın tersine eşit olmalıdır varyans kovaryans matrisi gözlemlerin.
  2. ^ Yokluğunda yuvarlama hatası ve bağımsız değişkendeki deneysel hata durumunda normal denklem matrisi tekil olacaktır
  3. ^ a b M.J. Box, D. Davies ve W.H. Swann, Doğrusal Olmayan optimizasyon Teknikleri, Oliver ve Boyd, 1969
  4. ^ Bu teknik, bağımsız olarak Levenberg (1944), Girard (1958), Wynne (1959), Morrison (1960) ve Marquardt (1963) tarafından önerildi. Marquardt'ın adı tek başına bilimsel literatürün çoğunda bunun için kullanılmaktadır.
  5. ^ a b C.L. Lawson ve R.J. Hanson, En Küçük Kareler Sorunlarını Çözme, Prentice – Hall, 1974
  6. ^ R. Fletcher, UKAEA Raporu AERE-R 6799, H.M. Kırtasiye Ofisi, 1971
  7. ^ M.J.D. Powell, Computer Journal, (1964), 7, 155.

daha fazla okuma

  • Kelley, C.T. (1999). Optimizasyon için Yinelemeli Yöntemler (PDF). Uygulamalı Matematikte SIAM Sınırları. hayır 18. ISBN  0-89871-433-8.
  • Strutz, T. (2016). Veri Uydurma ve Belirsizlik: Ağırlıklı En Küçük Kareler ve Ötesine Pratik Bir Giriş (2. baskı). Springer Vieweg. ISBN  978-3-658-11455-8.