Dağ arabası sorunu - Mountain car problem


Dağ arabası sorunu

Dağ arabası, içinde standart bir test alanı Takviye Öğrenme, güçsüz bir arabanın dik bir tepeye çıkması gereken bir sorundur. Yerçekimi aracın motorundan daha güçlü olduğu için, tam gazda bile, araç dik yokuşta sadece hızlanamaz. Araba bir vadide yer almaktadır ve araba en sağdaki tepenin tepesindeki hedefe ulaşmadan önce karşı tepeyi sürerek potansiyel enerjiden yararlanmayı öğrenmelidir. Etki alanı bir test ortamı çeşitliliğinde Takviye Öğrenme kağıtları.

Giriş

Dağ arabası problemi, oldukça basit olmasına rağmen, iki sürekli değişkeni öğrenmek için bir takviye öğrenme aracısı gerektirdiğinden yaygın olarak uygulanır: konum ve hız. Aracın verili herhangi bir durumu (konum ve hız) için, temsilciye sola, sağa gitme veya motoru hiç kullanmama olasılığı verilir. Sorunun standart versiyonunda, aracı hedefe ulaşılmadığında her adımda olumsuz bir ödül alır; Temsilcinin, ilk başarıya kadar hedef hakkında hiçbir bilgisi yoktur.

Tarih

Dağ arabası sorunu ilk olarak Andrew Moore'un Doktora Tezi'nde (1990) ortaya çıktı.[1] Daha sonra Singh ve Sutton'ın Reinforcement Leaning makalesinde daha katı bir şekilde tanımlandı. uygunluk izleri.[2] Sutton ve Barto bunu Reinforcement Learning: An Introduction (1998) adlı kitaplarına eklediklerinde sorun daha geniş bir şekilde incelendi.[3] Yıllar boyunca problemin birçok versiyonu kullanılmıştır, örneğin ödül işlevi, sonlandırma koşulu ve / veya başlangıç ​​durumu.

Dağ arabasını çözmek için kullanılan teknikler

Q-öğrenme ve ayrık durumları ayrı eylemlerle eşleştirmeye yönelik benzer tekniklerin, problemin sürekli durum uzayıyla başa çıkabilmek için genişletilmesi gerekir. Yaklaşımlar genellikle iki kategoriden birine girer, durum uzayı ayrıştırma veya fonksiyon yaklaşımı.

Ayrıştırma

Bu yaklaşımda, iki sürekli durum değişkeni, her bir sürekli değişkeni birden çok ayrık duruma gruplayarak ayrı durumlara itilir. Bu yaklaşım, uygun şekilde ayarlanmış parametrelerle çalışır, ancak bir dezavantaj, bir durumdan toplanan bilgilerin başka bir durumu değerlendirmek için kullanılmamasıdır. Çini kodlama ayrıklaştırmayı iyileştirmek için kullanılabilir ve sürekli değişkenlerin birbirinden uzak kova kümeleri halinde eşleştirilmesini içerir. Eğitimin her adımı, değer fonksiyonu yaklaşımı üzerinde daha geniş bir etkiye sahiptir çünkü ofset ızgaraları toplandığında, bilgi yayılır.[4]

Fonksiyon yaklaşımı

İşlev yaklaşımı, dağ arabasını çözmenin başka bir yoludur. Aracı, önceden bir dizi temel işlevi seçerek veya bunları araç sürerken oluşturarak, her durumda değer işlevine yaklaşabilir. Ayrıklaştırma ile oluşturulan değer işlevinin adım adım sürümünün aksine, işlev yaklaşımı, dağ arabası alanının gerçek düzgün işlevini daha net bir şekilde tahmin edebilir.[5]

Uygunluk İzleri

Sorunun ilginç bir yönü, gerçek ödülün geciktirilmesidir. Temsilci, başarılı bir şekilde tamamlanana kadar hedefi öğrenemez. Her deneme için saf bir yaklaşım göz önüne alındığında, araba hedefin ödülünü yalnızca biraz destekleyebilir. Bu, naif ayrıklaştırma için bir sorundur çünkü her ayrık durum, sorunu öğrenmek için daha fazla sayıda bölüm alarak yalnızca bir kez yedeklenecektir. Bu sorun, daha önce eyaletlere verilen ödülü otomatik olarak yedekleyecek ve öğrenme hızını önemli ölçüde artıracak uygunluk izleme mekanizması yoluyla hafifletilebilir. Uygunluk izleri bir köprü olarak görülebilir. zamansal fark öğrenme yöntemleri Monte Carlo yöntemler.[6]

Teknik detaylar

Dağ arabası sorunu birçok kez yinelendi. Bu bölüm, Sutton'ın (2008) standart iyi tanımlanmış versiyonuna odaklanacaktır.[7]

Durum değişkenleri

İki boyutlu sürekli durum uzayı.

Hareketler

Tek boyutlu ayrık hareket uzayı.

Ödül

Her zaman adımı için:

Güncelleme işlevi

Her zaman adımı için:

Başlangıç ​​koşulu

İsteğe bağlı olarak, birçok uygulama, daha iyi genelleştirilmiş öğrenmeyi göstermek için her iki parametrede rastgelelik içerir.

Fesih koşulu

Simülasyonu şu durumlarda sonlandırın:

Varyasyonlar

Dağ arabasının standart modelden farklı şekillerde sapan birçok versiyonu vardır. Değişen değişkenler arasında, bunlarla sınırlı olmamak üzere, sorunun sabitlerini (yerçekimi ve diklik) değiştirmeyi içerir, böylece belirli politikalar için özel ayarlamalar gereksiz hale gelir ve temsilcinin farklı bir şekilde öğrenme yeteneğini etkilemek için ödül işlevini değiştirir. Bir örnek, ödülü hedefe olan mesafeye eşit olacak şekilde değiştirmek veya ödülü her yerde sıfıra ve hedefte bir olacak şekilde değiştirmektir. Ek olarak, 4D sürekli durum uzayına sahip 3 boyutlu bir dağ arabası kullanabiliriz.[8]

Referanslar

  1. ^ [Moore, 1990] A. Moore, Robot Kontrolü için Etkin Bellek Tabanlı Öğrenme, Doktora tezi, Cambridge Üniversitesi, Kasım 1990.
  2. ^ [Singh ve Sutton, 1996] Singh, S.P. ve Sutton, R.S. (1996) Uygunluk izlerini değiştirerek pekiştirmeli öğrenme. Makine Öğrenimi 22 (1/2/3): 123-158.
  3. ^ [Sutton ve Barto, 1998] Güçlendirmeli Öğrenme: Giriş. Richard S. Sutton ve Andrew G. Barto. Bir Bradford Kitabı. MIT Press Cambridge, Massachusetts Londra, İngiltere, 1998
  4. ^ "Arşivlenmiş kopya". Arşivlenen orijinal 28 Nisan 2012'de. Alındı 14 Aralık 2011.CS1 Maint: başlık olarak arşivlenmiş kopya (bağlantı)
  5. ^ "Arşivlenmiş kopya". Arşivlenen orijinal 30 Nisan 2012'de. Alındı 14 Aralık 2011.CS1 Maint: başlık olarak arşivlenmiş kopya (bağlantı)
  6. ^ Sutton, Richard S .; Barto, Andrew G .; Bach, Francis (13 Kasım 2018). "7. Uygunluk İzleri". Takviyeli Öğrenme: Giriş (İkinci baskı). Bir Bradford Kitabı. ISBN  9780262039246.
  7. ^ [Sutton, 2008] Mountain Car Software. Richard s. Sutton. http://www.cs.ualberta.ca/~sutton/MountainCar/MountainCar.html Arşivlendi 12 Ekim 2009 Wayback Makinesi
  8. ^ "Arşivlenmiş kopya". Arşivlenen orijinal 26 Nisan 2012'de. Alındı 14 Aralık 2011.CS1 Maint: başlık olarak arşivlenmiş kopya (bağlantı)

Uygulamalar

daha fazla okuma