Hamilton – Jacobi – Bellman denklemi - Hamilton–Jacobi–Bellman equation - Wikipedia

İçinde optimal kontrol teorisi, Hamilton – Jacobi – Bellman (HJB) denklem verir gerekli ve yeterli koşul için optimallik bir kontrol ile ilgili olarak kayıp fonksiyonu.[1] Genel olarak doğrusal olmayan bir kısmi diferansiyel denklem içinde değer işlevi, bu onun çözümü anlamına gelir dır-dir değer işlevinin kendisi. Bu çözüm bilindikten sonra, en üst düzeye çıkarıcıyı (veya en aza indirgeyiciyi) alarak en uygun kontrolü elde etmek için kullanılabilir. Hamiltoniyen HJB denkleminde yer alır.[2][3]

Denklem teorisinin bir sonucudur dinamik program 1950'lerde öncülük ettiği Richard Bellman ve iş arkadaşları.[4][5][6] İle bağlantı Hamilton-Jacobi denklemi itibaren klasik fizik ilk çizilen Rudolf Kálmán.[7] İçinde ayrık zaman sorunlar, karşılık gelen fark denklemi genellikle şu şekilde anılır: Bellman denklemi.

Klasik iken varyasyonel problemler, benzeri brachistochrone sorunu Hamilton – Jacobi – Bellman denklemi kullanılarak çözülebilir,[8] yöntem daha geniş bir problem yelpazesine uygulanabilir. Ayrıca, genelleştirilebilir stokastik sistemler, bu durumda HJB denklemi ikinci dereceden eliptik kısmi diferansiyel denklem.[9] Bununla birlikte, önemli bir dezavantaj, HJB denkleminin klasik çözümleri yalnızca yeterince pürüzsüz çoğu durumda garanti edilmeyen değer işlevi. Bunun yerine, a kavramı viskozite çözümü konvansiyonel türevlerin (set değerli) ile değiştirildiği alt türevler.[10]

Optimal kontrol sorunları

Zaman periyodu üzerinde deterministik optimal kontrolde aşağıdaki problemi düşünün :

nerede skaler maliyet oranı işlevi ve veren bir işlevdir vasiyet değeri son durumda, sistem durum vektörü, verildiği varsayılır ve için bulmaya çalıştığımız kontrol vektörüdür.

Sistem ayrıca tabi olmalıdır

nerede durum vektörünün zaman içindeki fiziksel evrimini belirleyen vektörü verir.

Kısmi diferansiyel denklem

Bu basit sistem için (izin verme ), Hamilton – Jacobi – Bellman kısmi diferansiyel denklemi

terminal koşuluna tabi

nerede kısmi türevini gösterir zaman değişkenine göre . Buraya gösterir nokta ürün vektörlerin ve ve gradyan nın-nin değişkenlere göre .

Bilinmeyen skaler yukarıdaki kısmi diferansiyel denklemde Bellman değer işlevi, eyalette başlamaktan kaynaklanan maliyeti temsil eden zamanda ve sistemi o zamandan zamana kadar en iyi şekilde kontrol etmek .

Denklemi türetmek

Sezgisel olarak, HJB denklemi aşağıdaki gibi türetilebilir. Eğer en uygun maliyet işlevidir ('değer işlevi' olarak da adlandırılır), daha sonra Richard Bellman tarafından iyimserlik ilkesi, zamandan gidiyor t -e t + dt, sahibiz

Unutmayın ki Taylor genişlemesi sağ taraftaki ilk terim

nerede Taylor açılımındaki terimleri birden yüksek mertebeden küçükÖ gösterim. Sonra çıkarırsak her iki taraftan da bölün dtve sınırı olarak al dt sıfıra yaklaşırsa, yukarıda tanımlanan HJB denklemini elde ederiz.

Denklemi çözme

HJB denklemi genellikle zamanda geriye doğru çözüldü, den başlayarak ve bitiyor .[kaynak belirtilmeli ]

Tüm durum uzayı üzerinde çözüldüğünde ve sürekli türevlenebilir, HJB denklemi bir gerekli ve yeterli koşul terminal durumu kısıtlanmadığında bir optimum için.[11] Çözebilirsek o zaman ondan bir kontrol bulabiliriz minimum maliyete ulaşan.

Genel durumda, HJB denkleminin klasik (pürüzsüz) bir çözümü yoktur. Bu tür durumları kapsayacak şekilde birkaç genelleştirilmiş çözüm kavramı geliştirilmiştir. viskozite çözümü (Pierre-Louis Aslanları ve Michael Crandall ),[12] minimax çözümü (Andrei Izmailovich Subbotin [ru ]), ve diğerleri.

Yaklaşık dinamik programlama, D. P. Bertsekas ve J. N. Tsitsiklis Kullanımı ile yapay sinir ağları (çok katmanlı algılayıcılar ) Bellman işlevine genel olarak yaklaşmak için.[13] Bu, tüm uzay alanı için tam işlev eşlemesinin ezberlenmesini tek sinir ağı parametrelerinin ezberlenmesiyle değiştirerek boyutluluğun etkisini azaltmak için etkili bir azaltma stratejisidir. Özellikle, sürekli zamanlı sistemler için, her iki politika yinelemesini sinir ağlarıyla birleştiren yaklaşık bir dinamik programlama yaklaşımı tanıtıldı.[14] Ayrık zamanda, değer yinelemelerini ve sinir ağlarını birleştiren HJB denklemini çözmek için bir yaklaşım tanıtıldı.[15]

Stokastik problemlere genişletme

Bellman'ın optimallik ilkesini uygulayarak bir kontrol problemini çözme ve sonra geriye doğru bir optimizasyon stratejisi geliştirme fikri, stokastik kontrol problemlerine genelleştirilebilir. Yukarıdakine benzer düşünün

Şimdi birlikte stokastik süreç optimize etmek ve direksiyon. Önce Bellman kullanarak ve sonra genişleterek ile Itô kuralı stokastik HJB denklemi bulunur

nerede temsil etmek stokastik farklılaştırma operatörü ve terminal koşuluna tabidir

Rastgeleliğin kaybolduğuna dikkat edin. Bu durumda bir çözüm İkincisi, birincil problemi mutlaka çözmez, yalnızca bir adaydır ve daha ileri bir doğrulayıcı argüman gereklidir. Bu teknik, piyasadaki en uygun yatırım stratejilerini belirlemek için Finansal Matematik'te yaygın olarak kullanılmaktadır (örneğin bkz. Merton'un portföy sorunu ).

LQG Kontrolüne Uygulama

Örnek olarak, doğrusal stokastik dinamik ve ikinci dereceden maliyete sahip bir sisteme bakabiliriz. Sistem dinamikleri tarafından verilirse

ve maliyet oranında birikir HJB denklemi şu şekilde verilir:

tarafından verilen optimal eylem ile

Değer fonksiyonu için ikinci dereceden bir form varsayarak, olağan Riccati denklemi değer fonksiyonunun Hessian için her zamanki gibi Doğrusal ikinci dereceden Gauss kontrolü.

Ayrıca bakınız

  • Bellman denklemi, Hamilton-Jacobi-Bellman denkleminin ayrık zamanlı karşılığı.
  • Pontryagin'in maksimum prensibi, optimum için gerekli ancak yeterli olmayan koşul, bir Hamiltoniyen, ancak bunun HJB'ye göre, yalnızca dikkate alınan tek bir yörünge üzerinden tatmin edilmesi gerektiği gibi bir avantajı vardır.

Referanslar

  1. ^ Kirk Donald E. (1970). Optimal Kontrol Teorisi: Giriş. Englewood Kayalıkları, NJ: Prentice-Hall. sayfa 86–90. ISBN  0-13-638098-0.
  2. ^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Dinamik Programlama ve HJB Denklemleri". Stokastik Kontroller: Hamilton Sistemleri ve HJB Denklemleri. Springer. s. 157–215 [s. 163]. ISBN  0-387-98723-1.
  3. ^ Naidu, Desineni S. (2003). "Hamilton-Jacobi-Bellman Denklemi". Optimal Kontrol Sistemleri. Boca Raton: CRC Basın. s. 277–283 [s. 280]. ISBN  0-8493-0892-5.
  4. ^ Bellman, R. E. (1954). "Dinamik Programlama ve varyasyonlar hesabında yeni bir biçimcilik". Proc. Natl. Acad. Sci. 40 (4): 231–235. Bibcode:1954PNAS ... 40..231B. doi:10.1073 / pnas.40.4.231. PMC  527981. PMID  16589462.
  5. ^ Bellman, R. E. (1957). Dinamik program. Princeton, NJ.
  6. ^ Bellman, R .; Dreyfus, S. (1959). "Optimal Uydu Yörüngelerinin Belirlenmesine Dinamik Programlama Uygulaması". J. Br. Gezegenler arası. Soc. 17: 78–83.
  7. ^ Kálmán, Rudolf E. (1963). "Optimal Kontrol Teorisi ve Varyasyon Hesabı". Bellman, Richard (ed.). Matematiksel Optimizasyon Teknikleri. Berkeley: California Üniversitesi Yayınları. s. 309–331. OCLC  1033974.
  8. ^ Kemajou-Brown, Isabelle (2016). "Optimal Kontrol Teorisinin Kısa Tarihi ve Bazı Son Gelişmeler". Budzban'da Gregory; Hughes, Harry Randolph; Schurz, Henri (editörler). Cebirsel ve Geometrik Yapılar Üzerine Olasılık. Çağdaş Matematik. 668. s. 119–130. doi:10.1090 / conm / 668/13400. ISBN  9781470419455.
  9. ^ Chang, Fwu-Ranq (2004). Sürekli Zamanda Stokastik Optimizasyon. Cambridge, İngiltere: Cambridge University Press. s. 113–168. ISBN  0-521-83406-6.
  10. ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Hamilton-Jacobi-Bellman Denklemlerinin Optimal Kontrol ve Viskozite Çözümleri. Boston: Birkhäuser. ISBN  0-8176-3640-4.
  11. ^ Bertsekas, Dimitri P. (2005). Dinamik Programlama ve Optimal Kontrol. Athena Scientific.
  12. ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Hamilton-Jacobi-Bellman Denklemlerinin Optimal Kontrol ve Viskozite Çözümleri. Boston: Birkhäuser. ISBN  0-8176-3640-4.
  13. ^ Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Nöro-dinamik Programlama. Athena Scientific. ISBN  978-1-886529-10-6.
  14. ^ Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Bir sinir ağı HJB yaklaşımı kullanan doyurucu aktüatörlere sahip doğrusal olmayan sistemler için neredeyse optimal kontrol yasaları". Automatica. 41 (5): 779–791. doi:10.1016 / j.automatica.2004.11.034.
  15. ^ Al-Tamimi, Asma; Lewis, Frank L .; Abu-Khalaf, Murad (2008). "Yaklaşık Dinamik Programlama Kullanan Ayrık Zamanlı Doğrusal Olmayan HJB Çözümü: Yakınsama Kanıtı". Sistemler, İnsan ve Sibernetik üzerine IEEE İşlemleri, Bölüm B (Sibernetik). 38 (4): 943–949. doi:10.1109 / TSMCB.2008.926614.

daha fazla okuma