Maven (Scrabble) - Maven (Scrabble)

Uzman bir yapay zeka Scrabble oyuncu, Brian Sheppard tarafından yaratılmıştır. Resmi lisanslı olarak kullanılmıştır Hasbro Scrabble oyunları.

Algoritmalar

Oyun aşamaları

Maven'in oynanışı üç aşamaya bölünmüştür: "Oyun ortası" aşaması, "Oyunsonu öncesi" aşaması ve "Oyunsonu" aşaması.

"Oyun ortası" aşaması oyunun başlangıcından çantada dokuz veya daha az taş kalana kadar sürer. Program, verilen raftaki tüm olası oyunları bulmak için hızlı bir algoritma kullanır ve daha sonra programın "kibitzer" adı verilen bölümü, bunları kaba kalite sırasına göre sıralamak için basit buluşsal yöntemler kullanır. En umut verici hareketler daha sonra, programın taşların rastgele çizimini simüle ettiği, belirli sayıda oyunu ilerlettiği ve hamlelerin sonuçlarının dağılımını karşılaştırdığı "simming" ile değerlendirilir. Binlerce rastgele çizimi simüle ederek, program farklı oyunların çok doğru bir nicel değerlendirmesini verebilir. (Monte Carlo araması sırasında, Maven kullanmaz Monte Carlo ağaç araması çünkü oyun ağaçlarını oyunun sonuna kadar oynamak yerine yalnızca 2 kat derinliğinde değerlendirir ve daha derin keşifler için daha ümit vaat eden dallara dağıtımları yeniden tahsis etmez; içinde pekiştirmeli öğrenme terminolojiye göre, Maven arama stratejisi "kesilmiş Monte Carlo simülasyonu" olarak düşünülebilir. Gerçek bir MCTS stratejisi gereksizdir çünkü oyunsonu çözülebilir. Sığ arama, Maven yazarının^[1] Bir kişinin çantasındaki harflerin hızlı bir şekilde değişmesi nedeniyle, genellikle 2 kattan daha derin görünmenin yararlı olmadığını, çünkü bunun yerine daha derine bakıldığında, ör. 4 katlı varyans Ödüllerin yüzdesi daha büyük olacak ve simülasyonlar birkaç kat daha uzun sürecek, ancak yalnızca birkaç egzotik durumda yardımcı olacak: "Dört katlı bir simülasyonun değerini görmek için CACIQUE gibi aşırı bir durum gerektiriyorsa, o zaman bunların değmeyeceğini düşünüyoruz. yapıyor. " Tahta değeri, Scrabble'da çok yüksek doğrulukla değerlendirilebildiğinden, Git, daha derin simülasyonların ilk değerlendirmeyi değiştirmesi olası değildir.)

"Oyunsonu öncesi" aşaması, "oyun ortası" aşamasıyla hemen hemen aynı şekilde çalışır, ancak iyi bir oyun sonu durumu sağlamaya çalışmak için tasarlanmıştır.

Çantada karo kalmaz kalmaz "oyunsonu" aşaması devralır. İki oyunculu oyunlarda bu, oyuncuların artık ilk harf dağılımından birbirlerinin raflarındaki taşları tam olarak çıkarabileceği anlamına gelir. Maven kullanır B-yıldız arama algoritması oyun ağacını oyun sonu aşamasında analiz etmek.

Üretimi taşı

Maven, hareket oluşturma için birkaç algoritma kullanmıştır, ancak takılan, DAWG algoritması. GADDAG algoritması daha hızlıdır, ancak Kuzey Amerika İngilizcesi için DAWG, GADDAG için yaklaşık 2,5 MB iken yalnızca 0,5 MB'dir. Bu, indirilen oyunlar için önemli bir fark yaratırken, hız avantajı önemli değil. (Önemsizliğin farkın küçük olduğu anlamına gelmediğini, yalnızca kullanıcıların farkı anlayamayacağı anlamına gelmediğini unutmayın. GADDAG belki iki kat daha hızlıdır, ancak her iki algoritma da yeterince hızlıdır.)

Raf değerlendirmesi

Maven'in ilk (1986) versiyonu raflara değer biçmek için yaklaşık 100 modelden oluşan bir set kullandı. Her bir döşemenin bir değeri vardı (27 desen). Her kopya bir değere sahipti (22 desen). Çantada yeterli temsili olan harfler için üçlüler ve dörtlüler için desenler vardı. Son olarak, QU kombinasyonu bir modeldi.

İlk versiyondan kısa bir süre sonra Maven, ünlü / ünsüz dengesi ve Q / U dağılımı için raf değerlendirme terimlerini aldı. Ünlü / ünsüz dengesi, rafta kalan sesli harflerin ve ünsüzlerin sayısına dayalı bir tablo taramasıydı. Q / U dağılımı, torbada kaç tane kaldığına göre indekslenmiş bir tablo arama kullanarak Q ve U değerlerini değiştirdi.

Kısa bir süre sonra Maven bir karo çoğaltma değerlendiricisi edindi. Fikir, kopya çekme olasılığına bağlı olarak bir rafı değiştirmekti. Örneğin, bir karo olarak A genellikle benden daha iyidir, ancak çantada 7 A varsa ve sadece 2 I kaldıysa, o zaman belki I'i tutmayı tercih etmeliyiz.

Parametre uydurma, gelecekteki puanların toplamını tahmin etmek için değerleri ayarlayarak gerçekleştirildi. Bugünlerde buna denirdi Zamansal Fark Öğrenme.

Bu raf değerlendirme tasarımı Maven için orijinaldi. Günün insan şampiyonlarıyla rekabet etmekte çok başarılıydı.

Tasarım daha sonra diğer araştırmacılar tarafından genişletildi. Mark Watkins, "kiremit sinerji modelleri" dediği şeyi savundu. Bunlar, birçok yüksek puanlı sözcüğün temelini oluşturan ADES gibi kombinasyonlardır. Bu, tasarımı önemli ölçüde iyileştiren tasarımın doğal bir uzantısıdır. Maven'in desen seti kademeli olarak 100 temel setten 400'ün çok üzerine çıktı.

Maven o zamandan beri, John O'Laughlin tarafından önerilen ve tamamen farklı bir mimariye geçti. Quackle. Bu, programın 0 ila 7 döşemenin 3 milyon olası kombinasyonunun her biri için farklı bir raf değerlendirme parametresine sahip olduğu "kapsamlı" mimaridir. Son on yılda bilgisayar gücündeki gelişmelerle, bu kadar büyük parametre setlerini ayarlamak mümkün hale geldi.

Kapsamlı bir yaklaşım kullanmanın dezavantajı, Maven'ın çantada kalan karoların bir işlevi olarak değerlendirmeleri değiştirme yeteneğini kaybetmesidir. Buradaki önemli nokta, kapsamlı raf değerlendiricisinin, bir rafın değerini torbadan olası çekimlerle ilişkilendiren terimlere sahip olmamasıdır.

Maven'in kapsamlı raf değerlendirme sürümü bu yeteneği ekledi. Maven'de, her bir rafın kendi astar değerlendiricisi vardır ve bu rafın değeri, bir kopya çizme şansı, bir sesli harf çizme şansı ve Q ve U çizme şansının bir fonksiyonu olarak değişir. Bu sistemin 5 parametresi vardır yaklaşık 15 milyon parametre için raf başına.

Simülasyon

Büyük insan şampiyonu Ron Tiekert Scrabble'ı onlarca kez bireysel pozisyonları oynayarak ve sonuçları tablo haline getirerek çalışmıştı. Maven'in hızıyla, bu süreci bir gecede otomatikleştirmenin mümkün olması gerektiğini öne sürdü. Brian Sheppard tavlada "rollout" ve Go'da "playout" adıyla geçse de bu sürece "simülasyon" adını verdi.

Süreç, skor + raf buluşsal yöntemini kullanarak N aday hareket seçmekti. Ardından, hangi adayın en iyi performansı gösterdiğini görmek için bu hareketleri yüzlerce veya binlerce kez oynayın. Amacınıza uyması için playout'un derinliğini değiştirebilirsiniz; Puan farkı hakkında iyi bir fikir edinmek için iki veya dört hamle ilerleyin veya kazanma şansını ölçmek için oyunun sonuna kadar oynayın.

1990'ların ortalarına gelindiğinde bilgisayarlar, Maven'in simülasyonu kullanarak turnuva süresi kontrolleri altında rekabetçi oyunlarda hamleler seçmesine yetecek kadar hızlı hale geldi. Algoritmik iyileştirmeler, bu amaçla simülasyonu ölçeklendirmede önemliydi. En önemli yenilik, adaylara verilen deneme sayısını değiştirerek daha başarılı adayların daha fazla çaba göstermesiydi. Rafları kontrol etmek de yardımcı oldu, böylece tüm aday hamleler aynı, tarafsız dağıtıma karşı örneklendi.

Maven'in simülasyon motoru tarafından oynanan oyunların analizi, Maven'in insan şampiyonlarının yetenek seviyesini aştığını gösteriyor.

Oyunsonu

Scrabble oyunsonlarında güçlü oyun göründüğünden çok daha zordur. Teoride, oyunsonları mükemmel bilgi oyunudur, bu nedenle Alfa beta budama algoritma çalışmalıdır. Ancak pratikte Alpha Beta, Scrabble'da kötü çalışıyor.

Alpha Beta ile ilgili sorun, bazı Scrabble oyunlarının oynanması için 14 hamle gerektirmesi ve bunu derinlemesine araştırmanın mümkün olmamasıdır. Bu sadece teorik bir olasılık değildir. Bir oyuncu bir karo ile "sıkışmış "sa, kalan tüm karoları oynamak imkansızdır. Bu durumda, her iki taraf için en uygun strateji genellikle her turda bir taş oynamaktır.

Maven farklı bir yaklaşım kullanır. B * arama algoritması, her bir pozisyonun değerlerinde üst ve alt sınırlar hesaplanabildiğinde, iki oyunculu oyunlara en uygun çözümleri bulmayı garanti eden seçici derinlikli, aşamalı genişleyen bir algoritmadır.

Oyunsonu konumlarında üst ve alt sınırları tahmin etmenin mümkün olduğu ortaya çıktı. Bu sınırlar, pozisyonların ezici çoğunluğu için doğrudur (yani, gerçek değer aralık dahilindedir). Sınırlarda küçük bir hata yüzdesi varlığında B * makul ölçüde sağlam olduğundan, Maven diğer yaklaşımların çözemediği oyunsonlarını çözebilir.

Daha fazla iyileştirme, Maven'in oyunsonu çözümlerini hataların varlığında bile asimptotik olarak optimum hale getirir. B * araması, bir hareketin en iyisi olduğuna dair bir kanıtla sona erdiğinde ve hala zaman kaldığında, Maven tahminlerini 1 puan genişletir ve tekrar arama yapar. Bu yeniden aramalar genellikle çok hızlıdır, çünkü önceki aramadaki ağaç hala büyük ölçüde geçerlidir. Bu politikanın tekrar tekrar kullanılması, en küçük (ve muhtemelen en olası) hatalardan başlayarak hataları aşamalı olarak tanımlayacaktır.

Kapsamlı oyunsonu öncesi

Torbada sadece 1 veya 2 karo kaldığında ("PEG-1" veya "PEG-2"), durum uzayının kapsamlı araştırmalarını gerçekleştirmek mümkündür.

Bir PEG-1 durumu önemlidir, çünkü tüm oyunların neredeyse yarısı bu durumdan geçer. Maven, neredeyse tüm durumlarda bu tür durumları kapsamlı bir şekilde oynayabilir. Yani, tüm yasal hamleler için Maven sonuçta ortaya çıkan oyun sonlarını oynayabilir (her yasal hamle için 8'e kadar) ve her durumda oyunu hangi tarafın kazanacağını hesaplayabilir. Ekstra çaba gerektiren bazı durumlar (örneğin iki boşluk, Q ile yapıştırılmış) olduğundan, hesaplama aşamalı olarak gerçekleştirilir. Yani Maven, önce kararın yakın ve ilgili olduğu durumlarda analizini genişletir.

Bir PEG-2'de, normalde tüm hareket dizilerini ayrıntılı bir şekilde incelemek mümkün değildir, bu nedenle Maven, mümkün olduğu kadar ileri gider.

Bu düşük kiremitli durumların bir özelliği, yasal hamlelerin listesini güvenli bir şekilde budanmanın çok zor olmasıdır. Örneğin, optimum oyun, puan + raf sezgiselliğine göre% 1'den fazla 50'den fazla diğer hamlenin arkasında sıralanır.

Bu politika teorik olarak mükemmel bir oyun üretmez, çünkü görünmeyen karoların gerçek ilk dağılımının ne olması gerektiğini bilmek imkansızdır. Tekdüze bir dağılımın iyi iş çıkardığını varsayarsak, bu varsayımı marjinal olarak geliştiren görünmeyen döşemeler hakkında çıkarımlar hesaplamak mümkündür.

Diğer bir sınırlama, Maven'in bu tür durumların "gizli bilgi" yönünü ele almıyor olmasıdır. Yani teoride, oyuncuların olasılık dağılımına göre rastgele hamleler seçerek beklentilerini maksimize ettiği durumlar vardır. Maven, her düğümde saf stratejiler seçiyor.

Referanslar

^ pg14, Sheppard 2002

Sheppard Brian (2002). "Dünya şampiyonası kalibre Scrabble" (PDF). Yapay zeka. 134 (1–2): 241–275. doi:10.1016 / S0004-3702 (01) 00166-7.

Dış bağlantılar

[1] 14, Sheppard 2002

[1]