Shift-azaltma ayrıştırıcı - Shift-reduce parser

Bir shift-azaltma ayrıştırıcısı verimli, tablo odaklı bir sınıftır aşağıdan yukarıya ayrıştırma bilgisayar dilleri için yöntemler ve resmi olarak tanımlanmış diğer gösterimler dilbilgisi. Ayrıştırma için en yaygın olarak kullanılan ayrıştırma yöntemleri Programlama dilleri, LR ayrıştırma ve varyasyonları, kaydırma azaltma yöntemleridir.[1] öncelik ayrıştırıcıları LR ayrıştırmanın icadından önce kullanılanlar aynı zamanda kaydırma-azaltma yöntemleridir. Tüm kaydırma-azaltma ayrıştırıcıları, bir ayrıştırma ağacı oluşturdukları veya belirli çıktı eylemlerini çağırdıkları artımlı sırada benzer dışa doğru etkilere sahiptir.

Genel Bakış

Bir vardiya azalt ayrıştırıcı giriş metnini, yedeklemeden metin üzerinden tek bir ileri geçişte tarar ve ayrıştırır. (Bu ileri yön genellikle bir satır içinde soldan sağa ve çok satırlı girişler için yukarıdan aşağıya doğrudur.) Ayrıştırıcı, ayrıştırma ağacı tahmin etmeden veya geriye dönmeden aşamalı olarak, aşağıdan yukarıya ve soldan sağa. Bu geçişin her noktasında, ayrıştırıcı, halihazırda ayrıştırılmış olan giriş metninin alt ağaçlarının veya tümcelerinin bir listesini toplamıştır. Bu alt ağaçlar henüz birleştirilmemiştir çünkü ayrıştırıcı, onları birleştirecek sözdizimi modelinin sağ ucuna henüz ulaşmamıştır.

Numaralandırılmış adımlarla aşağıdan yukarıya oluşturulmuş ayrıştırma ağacını Shift-azaltın.

Dizeyi düşünün A = B + C * 2.

Örnekteki 7. adımda, yalnızca "A = B +" ayrıştırılmıştır. Ayrıştırma ağacının yalnızca gölgeli sol alt köşesi mevcuttur. 8 ve üzeri numaralı ayrıştırma ağacı düğümlerinden hiçbiri henüz mevcut değil. Düğümler 1, 2, 6 ve 7, tüm öğeleri 1..7 kapsayan izole edilmiş alt ağaçların kökleridir. Düğüm 1, değişken A'dır, düğüm 2, sınırlayıcıdır =, düğüm 6, toplam B'dir ve düğüm 7, + operatörüdür. Bu dört kök düğüm geçici olarak bir ayrıştırma yığınında tutulur. Giriş akışının kalan ayrıştırılmamış kısmı "C * 2" dir.

Kaydırma-azaltma ayrıştırıcısı, Shift adımlarının ve Azaltma adımlarının bazı kombinasyonlarını yaparak çalışır.

  • Bir Vardiya adım, giriş akışında bir sembol ile ilerler. Bu kaydırılmış sembol, yeni bir tek düğümlü ayrıştırma ağacına dönüşür.
  • Bir Azalt step, son ayrıştırma ağaçlarından bazılarına tamamlanmış bir dilbilgisi kuralı uygular ve onları yeni bir kök sembolüyle tek bir ağaç olarak birleştirir.

Ayrıştırıcı, tüm girdiler tüketilene ve tüm ayrıştırma ağaçları, yasal girdinin tamamını temsil eden tek bir ağaca indirgenene kadar bu adımlarla devam eder.

Ağaç oluşturma adımları

Her ayrıştırma adımında, giriş metninin tamamı ayrıştırma yığınına, geçerli önden okuma simgesine ve kalan taranmamış metne bölünür. Ayrıştırıcının bir sonraki eylemi, en sağdaki yığın sembol (ler) i ve önden okuma sembolüyle belirlenir. Eylem, sözdizimsel olarak geçerli tüm yığın ve önden okuma sembol kombinasyonlarını içeren bir tablodan okunur.

AdımAyrıştırma YığınıBak
İleride
TaranmamışAyrıştırıcı Eylem
0boşİD= B + C * 2Vardiya
1İD=B + C * 2Vardiya
2İD =İD+ C * 2Vardiya
3İD = İD+C * 2Değere Göre Azaltma ← İD
4İD = Değer+C * 2Ürünlere Göre Azalt ← Değer
5İD = Ürünler+C * 2Tutarla Azalt ← Ürünler
6İD = Toplamlar+C * 2Vardiya
7İD = Toplamlar +İD*2Vardiya
8İD = Toplamlar + İD*2Değere Göre Azaltma ← İD
9İD = Toplamlar + Değer*2Ürünlere Göre Azalt ← Değer
10İD = Toplamlar + Ürünler*2Vardiya
11İD = Toplamlar + Ürünler *inteofVardiya
12İD = Toplamlar + Ürünler * inteofDeğere Göre Azaltma ← int
13İD = Toplamlar + Ürünler * DeğereofÜrünlere Göre Azaltma ← Ürünler * Değer
14İD = Toplamlar + ÜrünlereofTutarla Azaltma ← Toplamlar + Ürünler
15İD = ToplamlareofAtayarak Azalt ← İD = Toplamlar
16AtamakeofBitti

Görmek [2] daha basit bir örnek için.

Gramerler

Dilbilgisi, giriş dili için kalıplar veya sözdizimi kuralları kümesidir. Sayıların boyutu veya adların tutarlı kullanımı ve tüm program bağlamında tanımları gibi tüm dil kurallarını kapsamaz. Kaydırma-azaltma ayrıştırıcıları bir bağlamdan bağımsız gramer bu sadece yerel sembol kalıplarıyla ilgilenir.

Eşleşebilen Java veya C dilinin küçük bir alt kümesi olarak örnek bir gramer A = B + C * 2 olabilir:

Ata ← İD = Toplamlar
Toplamlar ← Toplamlar + Ürünler
Toplamlar ← Ürünler
Ürünler ← Ürünler * Değer
Ürünler ← Değer
Değer ← int
Değer ← İD

Gramer terminal sembolleri giriş akışında bulunan çok karakterli semboller veya 'belirteçler'dir. sözcük tarayıcı. İşte bunlar arasında = + * ve int herhangi bir tam sayı sabiti için ve İD herhangi bir tanımlayıcı adı için. Dilbilgisi ne olduğu umurunda değil int değerler veya İD Yazımlar, boşluklar veya satır sonları umurunda değildir. Dilbilgisi bu terminal sembollerini kullanır ancak bunları tanımlamaz. Her zaman ayrıştırma ağacının en alt gür ucundadırlar.

Toplamlar gibi büyük harfle yazılmış terimler şunlardır: terminal olmayan semboller. Bunlar, dildeki kavramların veya kalıpların isimleridir. Dilbilgisinde tanımlanırlar ve asla giriş akışında kendiliğinden oluşmazlar. Her zaman ayrıştırma ağacının dibinin üstündedirler. Yalnızca ayrıştırıcının bazı gramer kurallarını uygulamasının bir sonucu olarak ortaya çıkarlar. Bazı terminal olmayanlar iki veya daha fazla kuralla tanımlanır; bunlar alternatif kalıplardır. Kurallar kendilerine geri dönebilir. Bu dilbilgisi, tekrarlanan matematik işlemlerini işlemek için yinelemeli kurallar kullanır. Eksiksiz diller için dilbilgileri listeleri, parantezli ifadeleri ve iç içe geçmiş ifadeleri işlemek için yinelemeli kurallar kullanır.

Herhangi bir bilgisayar dili, birkaç farklı gramer ile tanımlanabilir. Kaydırma-azaltma ayrıştırıcısının dilbilgisi, kesin kendisi veya bağları bozan öncelik kuralları ile artırılabilir. Bu, dil bilgisini dilin belirli bir yasal örneğine uygulamanın yalnızca bir doğru yolu olduğu anlamına gelir; bu, benzersiz bir ayrıştırma ağacı ve bu örnek için benzersiz bir kaydırma / azaltma eylemleri dizisi ile sonuçlanır.

Tablo güdümlü bir ayrıştırıcı, ayrıştırıcı tabloları adı verilen değişmeyen verilere kodlanmış gramer hakkındaki tüm bilgisine sahiptir. Ayrıştırıcının program kodu, birçok gramere ve dile değişmeden uygulanan basit bir genel döngüdür. Öncelik yöntemleri için tablolar elle hazırlanabilir. LR yöntemleri için, karmaşık tablolar bazılarına göre mekanik olarak bir dilbilgisinden türetilir. ayrıştırıcı oluşturucu alet gibi Bizon.[3] Ayrıştırıcı tabloları genellikle dilbilgisinden çok daha büyüktür. Tabloya dayalı olmayan diğer ayrıştırıcılarda, örneğin yinelemeli iniş her dil yapısı, o yapının sözdizimine göre özelleştirilmiş farklı bir alt yordam tarafından ayrıştırılır.

Ayrıştırıcı İşlemleri

Kaydırma-azaltma ayrıştırıcısının verimliliği, yedekleme veya geri izleme yapmamaktan kaynaklanır. Toplam süresi, girdinin uzunluğu ve ayrıştırma ağacının tamamının boyutuyla doğrusal olarak ölçeklenir. Geriye dönük diğer ayrıştırıcı yöntemleri, kötü tahmin ettiklerinde üstel zaman alabilir.[kaynak belirtilmeli ]

Tahmin etmekten kaçınmak için, kaydırma-azaltma ayrıştırıcısı, önceden taranmış sembollerle ne yapılacağına karar vermeden önce, genellikle sonraki taranan sembole (sağa doğru) bakar. Sözcüksel tarayıcı, ayrıştırıcının geri kalanından bir sembol önde çalışır. ileri bakmak sembolü, her ayrıştırma kararı için 'sağ taraf bağlamı'dır. (Nadiren, iki veya daha fazla önden okuma sembolü kullanılabilir, ancak çoğu pratik dilbilgisi bir önden okuma sembolü kullanacak şekilde tasarlanabilir.)

Kaydırma-azaltma ayrıştırıcısı, birleşik yapının ne olduğunu taahhüt etmeden önce bazı yapının tüm parçalarını tarayıp ayrıştırana kadar bekler. Ayrıştırıcı, daha fazla beklemek yerine hemen kombinasyon üzerinde hareket eder. Yukarıdaki ayrıştırma ağacı örneğinde, B cümlesi, daha sonra ayrıştırma ağacının bu bölümlerini organize etmeyi beklemek yerine, önden + görüldüğünde 3-6 adımlarında Değer'e ve ardından Ürünlere ve Toplamlara indirgenir. B'nin nasıl ele alınacağına ilişkin kararlar, daha sonra sağda görünen şeyleri dikkate almadan, yalnızca ayrıştırıcının ve tarayıcının daha önce gördüklerine dayanır.

İndirgemeler, en son ayrıştırılan şeyleri, önden okuma sembolünün hemen solunda yeniden düzenler. Dolayısıyla, önceden ayrıştırılmış şeylerin listesi bir yığın. Bu ayrıştırma yığını sağa doğru büyür. Yığının tabanı veya altı soldadır ve en soldaki, en eski ayrıştırma parçasını tutar. Her indirgeme adımı yalnızca en sağdaki, en yeni ayrıştırma parçalarına etki eder. (Bu birikimli ayrıştırma yığını, tarafından kullanılan tahmini, sola doğru büyüyen ayrıştırma yığınından çok farklıdır. yukarıdan aşağı ayrıştırıcılar.)

Bir gramer kuralı gibi

Ürünler ← Ürünler * Değer

uygulandığında, yığının tepesi ayrıştırma ağaçlarını tutar "... Ürünler * Değer". Kuralın sağ tarafının bu bulunan örneğine üstesinden gelmek. Azaltma adımı, sol taraftaki terminal olmayan "Ürünler * Değer" tutamacının yerini alır, burada daha büyük Ürünler. Ayrıştırıcı tam ayrıştırma ağaçları oluşturursa, iç Ürünler, * ve Değer için üç ağaç, Ürünler için yeni bir ağaç kökü ile birleştirilir. Aksi takdirde, anlamsal İç Ürünler ve Değer'deki ayrıntılar daha sonraki bir derleyici geçişine verilir veya birleştirilir ve yeni Ürünler sembolünde kaydedilir.[4]

Ayrıştırıcı, orada yeni tamamlanmış gramer kuralları örneklerini bulmaya devam ettiği sürece ayrıştırma yığınının tepesine indirgeme uygulamaya devam eder. Daha fazla kural uygulanamadığında, ayrıştırıcı önden okuma sembolünü ayrıştırma yığınına kaydırır, yeni bir önden okuma sembolünü tarar ve tekrar dener.

Shift-Reduce Ayrıştırıcı Türleri

Ayrıştırıcı tabloları, en üstteki ayrıştırma yığını sembolleri ve önden okuma sembolünün her yasal kombinasyonu için bir sonraki adımda ne yapılacağını gösterir. Bir sonraki eylem benzersiz olmalıdır; ya kaydır ya da azalt, ama ikisini birden değil. (Bu, net olmanın ötesinde dilbilgisi üzerinde bazı sınırlamalara işaret eder.) Tablo ayrıntıları, farklı kaydırma-azaltma ayrıştırıcı türleri arasında büyük ölçüde farklılık gösterir.

İçinde öncelik ayrıştırıcılar, tutamaçların sağ ucu, üst yığın sembollerinin öncelik seviyesi veya gramer sıkılığı ile önden okuma sembolününki karşılaştırılarak bulunur. Yukarıdaki örnekte, int ve İD ifade sınırlayıcıyla karşılaştırıldığında iç gramer düzeylerine aittir ;. Yani int ve İD her ikisi de daha yüksek öncelikli olarak kabul edilir ; ve ardından her zaman başka bir şeye indirgenmelidir ;. Her biri tutamacın sol ucunu bulmanın ve uygulanacak doğru kuralı seçmenin farklı yollarına sahip farklı öncelik ayrıştırıcı çeşitleri vardır:

  • Operatör öncelik ayrıştırıcısı, ifadeler için çalışan ancak genel program sözdizimi için çalışmayan çok basit bir sayısal yöntem.
  • Basit öncelik ayrıştırıcı, sağ ve sol uçları bulmak için büyük bir MxN tablosu kullanır. Kullanılan PL360.[5] Yaygın programlama dillerini işlemez.
  • Zayıf öncelik ayrıştırıcısı, öncelik tablosunu yalnızca tutamaçların doğru uçlarını bulmak için kullanır. Basit önceliğe göre daha fazla gramer kullanır.[6]
  • Genişletilmiş öncelik ayrıştırıcısı.

  • Orijinal sürümü tarafından kullanılan Karma Strateji Önceliği ayrıştırıcısı XPL. Herhangi bir öncelik tanıyıcının doğasında bulunan "çiftleri" "üçlüleri" içerecek şekilde genişletir. SLR'den daha az güçlü. Öncelik yöntemlerinin dayattığı sınırların dışındaki gramerleri tanımak için gerekli olan çok sayıda "üçlü" nedeniyle XPL'nin kendisi gibi nispeten küçük diller için bile genellikle çok büyük tablolara sahiptir.[7]

Öncelik ayrıştırıcıları, işleyebilecekleri gramerler açısından sınırlıdır. Karar verirken ayrıştırma yığınının çoğunu görmezden gelirler. Sadece en üstteki sembollerin adlarını dikkate alırlar, bu sembollerin gramerde şu anda nerede göründüğünün tam bağlamını değil. Öncelik, benzer görünümlü sembol kombinasyonlarının dilbilgisi boyunca aynı yollarla ayrıştırılıp kullanılmasını gerektirir, ancak bu kombinasyonlar bağlamdan bağımsız olarak gerçekleşir.

LR ayrıştırıcılar, çok daha fazla grameri işleyen daha esnek bir kaydırma azaltma ayrıştırma biçimidir.[8]

LR Ayrıştırıcı İşleme

LR ayrıştırıcıları bir durum makinesi, her vardiya veya azaltma eylemi için bir durum geçişi gerçekleştirme. Bunlar, mevcut durumun vardiya eylemleri tarafından itildiği (aşağı) bir yığın kullanır. Bu yığın daha sonra eylemleri azaltarak açılır (yukarı). Bu mekanizma, LR ayrıştırıcısının tüm deterministik bağlamdan bağımsız gramerleri, öncelikli gramerlerin bir üst kümesi olan işlemesini sağlar. LR ayrıştırıcısı, tamamen Kanonik LR ayrıştırıcı. İleri Bakış LR ve Basit LR ayrıştırıcılar, bellek gereksinimlerini önemli ölçüde azaltan basitleştirilmiş türevlerini uygular.[9][10] Yakın zamanda yapılan araştırmalar, kurallı LR ayrıştırıcılarının Knuth'un tablo oluşturma algoritmasına göre önemli ölçüde azaltılmış tablo gereksinimleri ile uygulanabileceği yöntemler belirlemiştir.[11]

LR, LALR veya SLR olsun, temel durum makinesi aynıdır; yalnızca tablolar farklıdır ve bu tablolar neredeyse her zaman mekanik olarak oluşturulur. Ek olarak, bu tablolar genellikle, bir REDUCE, durum makinesinin dışında olan ve REDUCEd olan dilbilgisi kuralının anlambiliminin ima ettiği bir işlevi yerine getiren kapalı bir alt programa ÇAĞRI ile sonuçlanacak şekilde uygulanır. Bu nedenle, ayrıştırıcı bir değişmez durum makine parçası ve bir değişken anlambilim bölümü olarak bölümlenir. Bu temel ayrım, son derece güvenilir olan yüksek kaliteli ayrıştırıcıların geliştirilmesini teşvik eder.

Belirli bir yığın durumu ve önden okuma sembolü verildiğinde, tam olarak dört olası eylem vardır: ERROR, SHIFT, REDUCE ve STOP (bundan sonra konfigürasyonlar olarak anılacaktır). Bir konfigürasyonda bir noktanın varlığı, • noktanın sağında gösterilen önden okuma sembolüyle (ve her zaman bir terminal sembolüne karşılık gelir) ve noktanın solundaki mevcut yığın durumu (ve genelde terminal olmayan bir sembole karşılık gelir).

Daha yüksek performans da dahil olmak üzere pratik nedenlerden dolayı, tablolar genellikle bayt odaklı makinelere verimli erişim için genellikle şu şekilde kodlanan, dört iki bitlik sembole, bir bayta sıkıştırılmış, oldukça büyük, yardımcı iki bitlik semboller dizisi ile genişletilir. :

00b HATA temsil eder
01b SHIFT'i temsil eder
10b AZALTMA'yı temsil eder
11b STOP'u temsil eder

(DURDURMA özel bir SHIFT durumu). Dizinin tamamı genellikle çoğunlukla HATA konfigürasyonlarını, gramer tanımlı bir SHIFT ve REDUCE konfigürasyonlarını ve bir STOP konfigürasyonunu içerir.

Değerlerin özelliklerini destekleyen programlama sistemlerinde dördüncül sayı sistemi (4 tabanı, dördüncül basamak başına iki bit), örneğin XPL, bunlar şu şekilde kodlanır, örneğin:

"(2)…0… "HATA anlamına gelir
"(2)…1… "SHIFT'i temsil eder
"(2)…2… "REDUCE anlamına gelir
"(2)…3… "STOP'u temsil eder

SHIFT ve REDUCE tabloları diziden ayrı olarak uygulanır. Yardımcı dizi, yalnızca mevcut durum ve önden okuma sembolü için "araştırılır". (Yardımcı) dizi "dolu" iken (kaydır ve azalt) tabloları çok gerçekten "seyrek" ve bu SHIFT ve REDUCE tablolarının optimal "ayrıştırılması" yoluyla önemli verimlilikler elde edilebilir (ERROR ve STOP tabloya ihtiyaç duymaz).

SHIFT-REDUCE ayrıştırıcısının temel tanımından SHIFT ve REDUCE konfigürasyonları açıktır.

DURDUR, bu durumda yığının en üstündeki durumun ve önden okuma terminali sembolünün dır-dir konu grameri içinde ve programın sonunu temsil eder:

<program>

finalin ötesine geçmek imkansız ulaşmak için, kavramsal olarak

<program>

HATA, bu durumda yığının en üstündeki durumun ve önden okuma terminal sembolünün bulunduğu bir yapılandırmayı temsil eder. değil konu grameri içinde. Bu, bir hata kurtarma prosedürünü çağırmak için, belki de en basit haliyle, önden okuma terminal sembolünü ve sonraki terminal sembolünü okumak için bir fırsat sunar, ancak yığının kesilmesi veya önden bakış atılması dahil olmak üzere diğer birçok programlanmış eylem mümkündür. terminal sembolü ve yığını budamak (ve patolojik bir durumda, genellikle elde etmek mümkündür

<program>

burada yalnızca bir "boş ifade" ).

Çoğu durumda, yığın bilinçli olarak önceden yüklenir, yani

<program>

böylece ilk zaten tanınmış olduğu varsayılmaktadır. Bu, bu durumda, programın başlangıcını temsil eder ve dolayısıyla kavramsal olarak ayrı bir BAŞLAT konfigürasyonuna sahip olmaktan kaçınır.

<program>

'ın dilbilgisine mekanik olarak eklenen özel sözde terminal olmayan sembol olması gibi (programcı dilbilgisine açıkça eklemediyse, ) programcı adına dilbilgisine otomatik olarak eklenecektir).

Açıkça, böyle bir ayrıştırıcının tam olarak bir (örtük) START yapılandırması ve bir (açık) STOP yapılandırması vardır, ancak olabilir ve genellikle yüzlerce SHIFT ve REDUCE yapılandırmasına ve belki de binlerce HATA yapılandırmasına sahiptir.

Referanslar

  1. ^ Derleyiciler: İlkeler, Teknikler ve Araçlar (2. Baskı), Alfred Aho, Monica Lam, Ravi Sethi ve Jeffrey Ullman, Prentice Hall 2006.
  2. ^ https://web.archive.org/web/20160305041504/http://dragonbook.stanford.edu/lecture-notes/Stanford-CS143/08-Bottom-Up-Parsing.pdf
  3. ^ Flex & Bison: Metin İşleme Araçları, John Levine, O'Reilly Media 2009.
  4. ^ Crafting a Compiler, Charlese Fischer, Ron Cytron ve Richard LeBlanc, Addison Wesley 2009.
  5. ^ PL360 - 360 Bilgisayarlar için Bir Programlama Dili, Niklaus Wirth, J. ACM 15: 1 1968.
  6. ^ The Theory of Parsing, Translation, and Compiling, Volume 1: Parsing, by Alfred Aho and Jeffrey Ullman, Prentice Hall 1972.
  7. ^ William M. McKeeman, J Horning ve D Wortman tarafından A Compiler Generator, Prentice Hall 1970; ISBN  978-0131550773.
  8. ^ Knuth, D. E. (Temmuz 1965). "Dillerin soldan sağa çevrilmesi üzerine" (PDF). Bilgi ve Kontrol. 8 (6): 607–639. doi:10.1016 / S0019-9958 (65) 90426-2. Alındı 29 Mayıs 2011.CS1 bakimi: ref = harv (bağlantı)
  9. ^ LR (k) Dilleri için Pratik Çevirmenler, Frank DeRemer, MIT Doktora tezi 1969.
  10. ^ Basit LR (k) Grammars, Frank DeRemer, Comm. ACM 14: 7 1971.
  11. ^ X. Chen, LR (1) ayrıştırmasını ölçme ve genişletme, University of Hawaii PhD tezi, 2009.