Dize değişmez değeri - String literal

Bir dize değişmezi veya anonim dizge[1] bir tür gerçek içinde programlama temsili için dizi içindeki değer kaynak kodu bir bilgisayar programı. Çoğu zaman modern dillerde bu, alıntılanmış bir karakter dizisidir (resmi olarak "köşeli parantezli sınırlayıcılar "), de olduğu gibi x = "foo", nerede "foo" bir dizedir gerçek değerli foo - tırnaklar değerin bir parçası değildir ve aşağıdaki gibi bir yöntem kullanılmalıdır: Kaçış dizileri sorunundan kaçınmak için sınırlayıcı çarpışması ve izin ver sınırlayıcılar kendilerini bir dizeye gömmek için. Bununla birlikte, dizge değişmezlerini, özellikle daha karmaşık durumları belirtmek için çok sayıda alternatif gösterim vardır ve tam gösterim, kişiye bağlıdır. Programlama dili söz konusu. Yine de, çoğu modern programlama dilinin izlediği bazı genel kurallar vardır.

Sözdizimi

Köşeli ayraçlı sınırlayıcılar

Modern programlama dillerinin çoğu, köşeli ayraç sınırlayıcıları (Ayrıca dengeli sınırlayıcılar) dize değişmezlerini belirtmek için. Çift alıntılar kullanılan en yaygın alıntı sınırlayıcılardır:

 "Merhaba!"

Boş bir dize, aralarında hiçbir karakter bulunmayan bir çift tırnak ile yazılır:

 ""

Bazı diller, çift tırnak yerine tek tırnak kullanımına izin verir veya zorunlu kılar (dizge aynı tür tırnak işaretiyle başlamalı ve bitmelidir ve tırnak işareti türü biraz farklı anlamlar verebilir veya vermeyebilir):

 'Merhaba!'

Bu tırnak işaretleri eşleşmemiş (aynı karakter bir açıcı ve daha yakın olarak kullanılır), ki bu da akşamdan kalma daktilo en eski bilgisayar giriş ve çıkış cihazlarının habercisi olan teknoloji.

Açısından düzenli ifadeler, tırnak içine alınmış basit bir dize şu şekilde verilir:

"[^"]*"

Bu, bir dize değişmezinin şu şekilde yazıldığı anlamına gelir: bir alıntı, ardından sıfır, bir veya daha fazla tırnaksız karakter, ardından bir alıntı. Pratikte bu, kaçış, diğer sınırlayıcılar ve yeni satırları hariç tutarak genellikle karmaşıktır.

Eşleştirilmiş sınırlayıcılar

Bir dizi dil, açılış ve kapanış sınırlayıcılarının farklı olduğu eşleştirilmiş sınırlayıcılar sağlar. Bunlar aynı zamanda genellikle iç içe dizelere izin verir, bu nedenle, eşleştirildikleri sürece sınırlayıcılar gömülebilir, ancak yine de eşleşmemiş bir kapatma sınırlayıcısının gömülmesi için sınırlayıcı çarpışmasına neden olur. Örnekler şunları içerir: PostScript, olduğu gibi parantez kullanan (Hızlı kahverengi tilki)) ve m4, kullanan backtick (`) başlangıç ​​sınırlayıcı olarak ve kesme işareti (') bitiş sınırlayıcı olarak. Tcl hem tırnaklara (enterpolasyonlu dizeler için) hem de kaşlı ayraçlara (ham dizeler için) izin verir. "Hızlı kahverengi tilki" veya {Hızlı kahverengi tilki}}; bu, Unix kabuklarındaki tek alıntılardan ve parantez kullanımından kaynaklanmaktadır. C Bileşik ifadeler için, kod blokları Tcl'de sözdizimsel olarak dizgi değişmezleri ile aynı şey olduğundan - sınırlayıcıların eşleştirilmesi bunu mümkün kılmak için gereklidir.

İken Unicode karakter kümesi hem tek hem de çift alıntıların eşleştirilmiş (ayrı açılış ve kapanış) versiyonlarını içerir, metinde çoğunlukla İngilizce dışındaki dillerde kullanılır, bunlar programlama dillerinde nadiren kullanılır (çünkü ASCII tercih edilir ve bunlar ASCII'ye dahil değildir) :

 "Merhaba!" "Merhaba!" "Merhaba!" "Merhaba!"

Eşleştirilmiş çift alıntılar, Visual Basic .NET ancak diğer birçok programlama dili bunları kabul etmeyecektir. Eşlenmemiş işaretler, çok çeşitli klavyelerde yazılmaları daha kolay olduğundan uyumluluk için tercih edilir ve bu nedenle izin verilen dillerde bile, birçok proje kaynak kodu için kullanımlarını yasaklar.

Boşluk sınırlayıcıları

Dize değişmezleri satırsonu ile sonlandırılabilir.

Bir örnek MediaWiki şablon parametreleri.

 {{Navbox | name = Nulls | title = [[wikt: Null | Nulls]] [[computing]]} içinde

Çok satırlı dizeler için özel sözdizimi olabilir.

İçinde YAML dize değişmezleri, göreceli konumlandırmasıyla belirtilebilir Beyaz boşluk ve indentasyon.

    - Başlık: YAML'de örnek bir çok satırlı dize      vücut : |        Bu çok satırlı bir dizedir.        "özel" meta karakterler        burada görün. Bu dizenin kapsamı        girinti ile temsil edilir.

Sınırlayıcı yok

Perl, JavaScript ve PHP gibi bazı programlama dilleri, bazı bağlamlarda herhangi bir sınırlayıcı olmadan dize değişmez değerlerine izin verir. Aşağıdaki Perl ve JavaScript programlarında, örneğin, kırmızı, yeşil, ve mavi dize değişmezleridir, ancak tırnaksızdır:

%harita = (kırmızı => 0x00f, mavi => 0x0f0, yeşil => 0xf00);
harita = {kırmızı: 0x00f, mavi: 0x0f0, yeşil: 0xf00};

Perl, alfanümerik karakterlerin ayrılmamış dizilerini çoğu bağlamda dizge değişmezleri olarak ele alır. Örneğin, Perl'in aşağıdaki iki satırı eşdeğerdir:

y = "x";y = x;

Bildirime dayalı gösterim

Orjinalinde FORTRAN programlama dili (örneğin), dize değişmezleri sözde yazılmıştır Hollerith gösterim, karakter sayısının ondalık sayısının ardından H harfi ve ardından dizenin karakterleri gelir:

35HAn misal Hollerith dizi gerçek

Bu bildirimsel gösterim stili, köşeli parantez ile karşılaştırılır sınırlayıcı alıntı, çünkü dizenin her iki tarafında dengeli "köşeli parantez içine alınmış" karakterlerin kullanılmasını gerektirmez.

Avantajlar:

  • metin aramayı ortadan kaldırır (sınırlayıcı karakter için) ve bu nedenle önemli ölçüde daha az gerektirir tepeden
  • probleminden kaçınır sınırlayıcı çarpışması
  • dahil edilmesini sağlar meta karakterler aksi takdirde komut olarak yanlış olabilir
  • düz metin dizelerinin oldukça etkili veri sıkıştırması için kullanılabilir[kaynak belirtilmeli ]

Dezavantajlar:

  • bu tür bir gösterim, tarafından manuel giriş olarak kullanılırsa hataya açıktır. programcılar
  • çok baytlı kodlamalar durumunda özel dikkat gereklidir

Bununla birlikte, büyük olasılıkla olduğu gibi, önek bir algoritma tarafından oluşturulduğunda bu bir dezavantaj değildir.[kaynak belirtilmeli ]

Yapıcı işlevleri

C ++, biri C'den miras alınan ( ") ve daha güvenli std :: string C ++ Standart Kitaplığında. std :: string sınıfı, diğer dillerde bir dize değişmezinin kullanıldığı şekilde sıklıkla kullanılır ve daha fazla esnekliği ve güvenliği için genellikle C tarzı dizelere tercih edilir. Ancak dize değişmezleri için bir performans cezası ile birlikte gelir. std :: string genellikle belleği dinamik olarak ayırır ve C-stili dize hazır bilgisini çalışma zamanında ona kopyalamalıdır.

C ++ 11'den önce, C ++ dizeleri için hazır bilgi yoktu (C ++ 11, "bu bir C ++ dizesidir" s ile s değişmezin sonunda), bu nedenle normal yapıcı sözdizimi kullanıldı, örneğin:

  • std :: string str = "başlatıcı sözdizimi";
  • std :: string str ("kurucu sözdizimini dönüştürüyor");
  • std :: string str = string ("açık kurucu sözdizimi");

hepsi aynı yoruma sahip. C ++ 11'den beri, yeni bir yapıcı sözdizimi de vardır:

  • std :: string str {"tek tip başlatıcı sözdizimi"};
  • auto str = "constexpr değişmez sözdizimi" s;

Sınırlayıcı çarpışması

Alıntı kullanırken, sınırlayıcının kendisini bir dizgede temsil etmek istenirse, sorunla karşılaşırsınız: sınırlayıcı çarpışması. Örneğin, sınırlayıcı bir çift tırnak ise, bir çift tırnağın kendisi değişmez değerle basitçe gösterilemez. """ ikinci alıntı dizenin değeri olarak değil, dizgenin sonu olarak yorumlanır ve benzer şekilde biri yazamaz "Bu" tırnak içinde "ama geçersiz." çünkü ortada alıntılanan kısım tırnak işaretlerinin dışında olarak yorumlanır. En genel amacı kaçış dizileri kullanan çeşitli çözümler vardır, örneğin "\"" veya "Bu " tırnak işaretlerinde "ve doğru şekilde kaçtı.", ancak başka birçok çözüm var.

Tcl'deki kaşlı ayraçlar gibi çift tırnak işaretleri, iç içe dizelere izin verir. {foo {bar} zork} ancak, sınırlayıcı çarpışması sorununu başka türlü çözmeyin, çünkü dengesiz bir kapanış sınırlayıcısı, {}}.

İkiye katlama

Aşağıdakiler dahil bir dizi dil: Pascal, TEMEL, DCL, Smalltalk, SQL, J, ve Fortran, sınırlayıcı çarpışmasını önlemek için ikiye katlamak dizenin kendisinin parçası olması amaçlanan tırnak işaretleri üzerinde:

  Bu Pascal dizisi''iki kesme işareti içerir'''
"" Beni duyabiliyor musun "dedim" "

Çift alıntı

Gibi bazı diller Fortran, Modula-2, JavaScript, Python, ve PHP birden fazla alıntı sınırlayıcıya izin verin; iki olası sınırlayıcı olması durumunda bu, çift ​​alıntı. Tipik olarak bu, programcının tek veya çift alıntıları birbirinin yerine kullanmasına izin vermekten ibarettir - her değişmez değer birini veya diğerini kullanmalıdır.

  "Bu John'un elması."  "Beni duyabiliyor musun?" Dedim.

Ancak bu, içinde her iki sınırlayıcı ile tek bir değişmezin olmasına izin vermez. Bu, birkaç değişmez değer kullanarak ve dize birleştirme:

  "Bu" dedim + "John's" + ' elma."'

Python'da dize değişmez birleştirme, böylece ardışık dize değişmezleri bir operatör olmadan bile birleştirilir, böylece bu şu şekilde azaltılabilir:

  "Bu" dedim"John's"' elma."'

D birkaç alıntı sınırlayıcıyı destekler, bu tür dizeler ile başlar q "[ ve ile biten ]" veya diğer ayırıcı karakterler için benzer şekilde (() <> {} veya [] 'den herhangi biri). D ayrıca burada benzer sözdizimi aracılığıyla belge tarzı dizeleri destekler.

Gibi bazı programlama dillerinde sh ve Perl, dize enterpolasyonu yapmak gibi farklı şekilde işlenen farklı sınırlayıcılar vardır ve bu nedenle hangi sınırlayıcının kullanılacağını seçerken dikkatli olunmalıdır; görmek farklı dizeler, altında.

Çoklu alıntı

Bir başka uzantı da kullanımıdır çoklu alıntı, yazarın bir dize değişmezinin sınırlarını belirlemesi gereken karakterleri seçmesine olanak tanır.

Örneğin, Perl:

qq ^ "Beni duyabiliyor musun?" dedim ^qq @ "Beni duyabiliyor musun?" dedim @qq§ "Beni duyabiliyor musun?" dedim §

hepsi istenen sonucu verir. Bu gösterim daha esnek olmasına rağmen, birkaç dil desteklemektedir; Perl dışında Yakut (Perl'den etkilendi) ve C ++ 11 bunları da destekleyin. C ++ 11'de, ham dizelerin çeşitli sınırlayıcıları olabilir. R "sınırlayıcı ( ve ile biter ) sınırlayıcı ". Sınırlayıcı sıfır ila 16 karakter uzunluğunda olabilir ve boşluk karakterleri, parantezler veya ters eğik çizgi dışında temel kaynak karakter kümesinin herhangi bir üyesini içerebilir. Birden fazla alıntı yapmanın bir varyantı, burada belge tarzı dizeler.

Lua (5.1 itibariyle), özellikle uzun yorumların veya gömülü dizelerin iç içe geçmesine izin vermek için sınırlı bir çoklu alıntı biçimi sağlar. Normalde biri kullanır [[ ve ]] değişmez dizeleri sınırlandırmak için (ilk satırsonu çıkarılır, aksi takdirde ham), ancak açılış parantezleri herhangi bir sayıda eşit işareti içerebilir ve yalnızca aynı sayıda işarete sahip kapanış parantezleri dizeyi kapatır. Örneğin:

yerel ls = [=[Bu gösterim Windows yolları için kullanılabilir: yerel yol = [[C:  Windows  Fonts]]]=]

Birden çok alıntı özellikle şu durumlarda kullanışlıdır: düzenli ifadeler tırnak işaretleri gibi olağan sınırlayıcıları içeren, çünkü bu onlardan kaçma ihtiyacını ortadan kaldırır. Erken bir örnek sed, ikame komutunun neresinde s /normal ifade/değiştirme/ varsayılan eğik çizgi / sınırlayıcılar, olduğu gibi başka bir karakterle değiştirilebilir s,normal ifade,değiştirme, .

Yapıcı işlevleri

Modern dillerde nadiren kullanılan bir başka seçenek de, bir dizgeyi bir literal aracılığıyla temsil etmek yerine, bir dizgeyi oluşturmak için bir işlev kullanmaktır. Bu genellikle modern dillerde kullanılmaz, çünkü hesaplama ayrıştırma zamanında değil, çalışma zamanında yapılır.

Örneğin, erken formları TEMEL kaçış dizilerini veya burada listelenen diğer geçici çözümleri içermedi ve bu nedenle bunun yerine CHR $ argümanına karşılık gelen karakteri içeren bir dize döndüren işlev. İçinde ASCII tırnak işareti 34 değerine sahiptir, bu nedenle bir ASCII sisteminde tırnak işaretleriyle bir dizeyi temsil etmek için yazılır

"Dedim, "+CHR $(34)+"Beni duyabiliyor musun?"+CHR $(34)

C'de benzer bir tesis, sprintf ve % c "karakter" biçim tanımlayıcısı, ancak diğer geçici çözümlerin varlığında bu genellikle kullanılmaz:

sprintf("Bu% cin alıntıdır.% C", 34, 34);

Bu yapıcı işlevler, yazdırılmayan karakterleri temsil etmek için de kullanılabilir, ancak bunun yerine genellikle kaçış dizileri kullanılır. Benzer bir teknik, C ++ 'da std :: string stringification operatörü.

Kaçış dizileri

Kaçış dizileri, sınırlayıcılar, basılmayan karakterler (arka boşluklar gibi), yeni satırlar ve beyaz boşluk karakterleri (aksi takdirde görsel olarak ayırt edilmesi imkansızdır) dahil olmak üzere doğrudan temsil edilmesi zor olan ve uzun bir geçmişi olan karakterleri temsil etmek için genel bir tekniktir. Buna göre, dize değişmezlerinde yaygın olarak kullanılırlar ve bir kaçış dizisi eklemek (tek bir karaktere veya bir dize boyunca) olarak bilinir kaçan.

Doğrudan dahil edilmesi zor veya imkansız olan karakterlere kodlama vermek için bir karakter önek olarak seçilir. En yaygın olarak bu ters eğik çizgi; Diğer karakterlere ek olarak, önemli bir nokta, ters eğik çizginin kendisinin çift ters eğik çizgi olarak kodlanabilmesidir. \\ ve sınırlandırılmış dizeler için sınırlayıcının kendisi kaçarak kodlanabilir. \" için ". Bu tür çıkış karakterli dizeler için normal bir ifade, aşağıdaki gibi verilebilir: ANSI C Şartname:[2][a]

"(\\.|[^\\"])*"

"bir alıntı; ardından sıfır veya daha fazla kaçış karakter (ters eğik çizgi ve ardından gelen bir şey, ters eğik çizgi veya tırnak) veya kaçış olmayan, tırnaksız karakter; tırnakla biten" - tek sorun Bir ters eğik çizgiden önce gelen bir alıntıdan alıntıyı sonlandırmak, ki bu kendisi kaçabilir. Ters eğik çizgiyi birden fazla karakter izleyebilir, örneğin uFFFF, kaçış düzenine bağlı olarak.

Kaçan bir dizenin kendisi olmalıdır sözcüksel olarak analiz edildi, çıkış karakterli dizeyi temsil ettiği çıkış karaktersiz dizeye dönüştürme. Bu, bilgisayar dilinin genel kelime dağarcığının değerlendirme aşamasında yapılır: genel dilin sözlüğünü değerlendiren kişi, kaçan dizgi değişmezleri için kendi sözlüğünü yürütür.

Diğer şeylerin yanı sıra, normalde dize sabitini sonlandıran karakteri kodlamak mümkün olmalı, ayrıca çıkış karakterinin kendisini belirtmenin bir yolu olmalıdır. Kaçış dizileri her zaman hoş veya kullanımı kolay değildir, bu nedenle birçok derleyici ortak sorunları çözmek için başka yollar da sunar. Bununla birlikte, kaçış dizileri her sınırlayıcı problemini çözer ve çoğu derleyici kaçış dizilerini yorumlar. Bir kaçış karakteri bir dize değişmezinin içinde olduğunda, "bu, kaçış dizisinin başlangıcıdır" anlamına gelir. Her kaçış dizisi, doğrudan dizeye yerleştirilecek bir karakteri belirtir. Bir kaçış dizisinde gerekli olan gerçek karakter sayısı değişir. Çıkış karakteri klavyenin üst / sol tarafındadır, ancak düzenleyici onu çevirecektir, bu nedenle doğrudan bir dizeye bantlanamaz. Ters eğik çizgi, bir dize değişmezindeki kaçış karakterini temsil etmek için kullanılır.

Birçok dil kullanımı destekler meta karakterler dize değişmezleri. Metakarakterlerin bağlama ve dile bağlı olarak değişen yorumları vardır, ancak genellikle yazdırılan veya yazdırılmayan karakterleri temsil etmek için bir tür "işleme komutu" dur.

Örneğin, bir C dizesi değişmez, ters eğik çizginin ardından "b", "n" veya "t" gibi bir harf geliyorsa, bu bir basılmayan geri tuşu, Yeni hat veya sekme sırasıyla karakter. Veya ters eğik çizginin ardından 1-3 gelirse sekizli rakamlar, daha sonra bu dizi, belirtilen rastgele karakteri temsil ettiği şeklinde yorumlanır. ASCII kodu. Bu daha sonra daha modern hale getirmek için genişletildi onaltılık karakter kodu gösterimi:

"Dedim, t  t  x22Can beni duyuyor musun? x22  n"
Kaçış dizisiUnicodeDizeye yerleştirilen değişmez karakterler
\0U + 0000boş karakter[3][4]
(tipik olarak özel bir ooo sekizlik gösterim durumu olarak)
aU + 0007uyarmak[5][6]
bU + 0008geri tuşu[5]
fU + 000Cform besleme[5]
nU + 000Asatır besleme[5] (veya POSIX'te yeni satır)
rU + 000Dsatırbaşı[5] (veya Mac OS 9 ve önceki sürümlerde yeni satır)
tU + 0009yatay sekme[5]
vU + 000Bdikey sekme[5]
eU + 001Bkaçış karakteri[6] (GCC,[7] clang ve tcc )
u ####U + ####16 bit Unicode #### dört onaltılık rakam olan karakter[4]
U ########U + ############## 'nin sekiz onaltılık basamak olduğu 32 bitlik Unicode karakter (Unicode karakter alanı şu anda yalnızca 21 bit genişliğindedir, bu nedenle ilk iki onaltılık basamak her zaman sıfır olacaktır)
u {######}U + ############, değişken sayıda onaltılık basamak olduğu 21 bitlik Unicode karakteri
x ##U + 00 ### Değerinin onaltılık basamak olduğu 8 bitlik karakter özelliği[5]
oooU + 0 ###O'nun sekizlik bir rakam olduğu 8 bitlik karakter özelliği[5]
\"U + 0022çift ​​tırnak (")[5]
\&Haskell'de sayısal kaçışları sınırlandırmak için kullanılan karakter olmayan[3]
\'U + 0027tek alıntı (')[5]
\\U + 005Cters eğik çizgi ()[5]
\?U + 003Fsoru işareti (?)[5]

Not: Listedeki tüm diziler tüm ayrıştırıcılar tarafından desteklenmez ve listede olmayan başka kaçış dizileri olabilir.

İç içe geçmiş çıkış

Bir programlama dilindeki kod diğerinin içine gömülü olduğunda, gömülü dizeler birden fazla kaçış seviyesi gerektirebilir. Bu, özellikle normal ifadelerde ve diğer dillerdeki SQL sorgusunda veya kabuk betikleri içindeki diğer dillerde yaygındır. Bu çift kaçışın okunması ve yazılması genellikle zordur.

İç içe dizilerin yanlış alıntılanması bir güvenlik açığı oluşturabilir. Güvenilmeyen verilerin kullanımı, bir SQL sorgusunun veri alanlarında olduğu gibi, hazırlanmış ifadeler önlemek için kod yerleştirme saldırı. İçinde PHP 2'den 5.3'e kadar, adında bir özellik vardı sihirli alıntılar otomatik olarak kaçan dizeler (kolaylık ve güvenlik için), ancak sorunlar nedeniyle 5.4 sürümünden itibaren kaldırıldı.

Ham dizeler

Birkaç dil, bir literalin herhangi bir dile özgü yorumlama olmaksızın işleneceğini belirtmek için bir yöntem sağlar. Bu, kaçma ihtiyacını ortadan kaldırır ve daha okunaklı dizeler sağlar.

Ham dizeler, ortak bir karakterin öncelenmesi gerektiğinde özellikle yararlıdır, özellikle normal ifadelerde (dize değişmezleri olarak iç içe geçmiş), burada ters eğik çizgi \ yaygın olarak kullanılmaktadır ve DOS / Windows'ta yollar, burada ters eğik çizgi, yol ayırıcı olarak kullanılır. Ters eğik çizgilerin bolluğu şu şekilde bilinir: eğik kürdan sendromu ve ham dizeler kullanılarak azaltılabilir. C # 'ta çıkış karakterli ve ham yol adlarını karşılaştırın:

 "Windows yolu C:  Foo  Bar  Baz " @ "Windows yolu C:  Foo  Bar  Baz "

Bunlar birleştirildiğinde aşırı örnekler ortaya çıkar - Tekdüzen Adlandırma Kuralı yollar ile başlar \\ve dolayısıyla bir UNC adıyla eşleşen çıkış karakterli bir normal ifade 8 ters eğik çizgiyle başlar, "\\\\\\\\", dizeden ve normal ifadeden kaçma ihtiyacı nedeniyle. Ham dizeleri kullanmak, C # 'da olduğu gibi bunu 4'e (normal ifadede kaçış) düşürür @"\\\\".

XML belgelerinde, CDATA bölümler & ve iyi biçimlendirilmiş.

<![CDATA[  if (path!=null && depth<2) { add(path); }  ]]>

Çok satırlı dize değişmez değerleri

Pek çok dilde, dize değişmezleri, birkaç satıra yayılan düz satırsonları içerebilir. Alternatif olarak, yeni satırlardan kaçılabilir, çoğunlukla n. Örneğin:

Eko 'foobar'

ve

Eko -e "foo  nbar"

her ikisi de geçerli bash, üreten:

foobar

Birebir yeni satırlara izin veren diller arasında bash, Lua, Perl, PHP, R ve Tcl bulunur. Diğer bazı dillerde dize değişmezleri satırsonu içeremez.

Çok satırlı dize değişmezleriyle ilgili iki sorun, satırsonu satırları ve girintidir. İlk veya son sınırlayıcılar ayrı satırlardaysa, fazladan satırlar vardır, eğer değilse, sınırlayıcı dizeyi okumayı zorlaştırır, özellikle ilk satır için, genellikle diğerlerinden farklı girintili. Dahası, baştaki boşluk korunduğu için hazır bilgi girintisiz olmalıdır - bu, girintili kod içinde değişmez değer olması durumunda kodun akışını bozar.

Bu problemler için en yaygın çözüm, burada belge -stilli dize değişmezleri. Resmi olarak, bir burada belge bir dize değişmezi değil, bunun yerine bir akış değişmezi veya dosya değişmezi. Bunlar kabuk komut dosyalarından kaynaklanır ve bir hazır bilginin harici bir komuta girdi olarak beslenmesine izin verir. Açılış sınırlayıcı << SON nerede SON herhangi bir kelime olabilir ve kapanış sınırlayıcı SON kendi başına bir satırda içerik sınırı görevi görür - << yeniden yönlendirme nedeniyle stdin literalden. Sınırlayıcının keyfi olması nedeniyle, bunlar aynı zamanda sınırlayıcı çarpışma sorununu da önler. Bunlar ayrıca ilk sekmelerin varyant sözdizimi aracılığıyla kaldırılmasına da olanak tanır << - SON baştaki boşluklar ayıklanmamış olsa da. Aynı sözdizimi o zamandan beri çok satırlı dizgi değişmezleri için birçok dilde, özellikle de Perl'de benimsenmiştir ve aynı zamanda burada belgeler, ve dizeler olmasına ve yeniden yönlendirme içermemesine rağmen sözdizimini koruyun. Diğer dize değişmezlerinde olduğu gibi, bunlar bazen değişken enterpolasyon gibi farklı davranışlara sahip olabilir.

Normal dize değişmezleri değişmez satırsonlarına izin vermeyen Python, bunun yerine çok satırlı değişmezler için tasarlanmış özel bir dize biçimine sahiptir. üçlü alıntı. Bunlar, üç kat sınırlayıcı kullanır. ''' veya """. Bu değişmez değerler özellikle olarak bilinen satır içi dokümantasyon için kullanılır. dökümanlar.

Tcl, dizelerde değişmez satırsonlarına izin verir ve çok satırlı dizelere yardımcı olmak için özel bir sözdizimi içermez, ancak sınırlayıcılar kendi başlarına satırlara yerleştirilebilir ve satırların başında ve sonunda satırsonu satırları çıkarılabilir. dize süslemesi, süre dize haritası girintiyi çıkarmak için kullanılabilir.

Dize değişmez birleştirme

Birkaç dil sağlar dize değişmez birleştirme, bitişik dize değişmez değerlerinin derleme zamanında tek bir değişmez değere örtük olarak birleştirildiği durumlarda. Bu, C'nin bir özelliğidir,[8][9] C ++,[10] D,[11] Ruby,[12] ve Python,[13] C'den kopyaladı.[14] Özellikle, bu birleştirme işlemi derleme zamanında gerçekleşir. sözcük analizi (ilk belirteçleştirmeyi takip eden bir aşama olarak) ve her iki çalışma süresiyle karşılaştırılır dize birleştirme (genellikle + Şebeke)[15] ve sıradaki birleştirme sabit katlama, derleme sırasında, ancak daha sonraki bir aşamada (ifade analizi veya "ayrıştırmadan" sonra) oluşur. C #, Java gibi çoğu dil[16] ve Perl, örtük dize değişmez birleştirmeyi desteklemez ve bunun yerine, + operatör (bu, D ve Python'da da mümkündür, ancak C / C ++ 'da geçersizdir - aşağıya bakın); bu durumda, birleştirme işlemi derleme zamanında sabit bölme yoluyla gerçekleşebilir veya çalışma süresine ertelenebilir.

Motivasyon

Kavram ve terimin ortaya çıktığı C'de, dize değişmez birleştirme iki nedenden dolayı tanıtıldı:[17]

  • Uzun dizelerin, girinti şemasını yok eden satır devamlılığının aksine, uygun girintiyle birden çok satırı kapsamasına izin vermek; ve
  • Dize değişmezlerinin makrolar tarafından oluşturulmasına izin vermek için ( tel çekme ).[18]

Pratik anlamda, bu, kelime öbeği analizi veya sabit bölme gerektirmeden, derlemenin ilk aşamalarında (özellikle sözcük analizinin bir parçası olarak "çeviri") dizi birleştirmeye izin verir. Örneğin, aşağıdakiler geçerli C / C ++ 'dır:

kömür *s = "Merhaba, " "dünya";printf("Merhaba, " "dünya");

Ancak aşağıdakiler geçersizdir:

kömür *s = "Merhaba, " + "dünya";printf("Merhaba, " + "dünya");

Bunun nedeni, dize değişmezlerinin dizi türü, karakter [n] (C) veya const karakter [n] (C ++) eklenemeyen; bu diğer birçok dilde bir kısıtlama değildir.

Bu, özellikle birlikte kullanıldığında önemlidir. C ön işlemcisi, dizelerin ön işlemenin ardından özellikle makrolarda hesaplanmasına izin vermek için.[14] Basit bir örnek olarak:

kömür *file_and_message = __DOSYA__ ": İleti";

(dosyanın adı a.c ise) şu şekilde genişleyecektir:

kömür *file_and_message = "AC" ": İleti";

bu daha sonra birleştirilerek şuna eşdeğerdir:

kömür *file_and_message = "a.c: mesaj";

Yaygın bir kullanım örneği, printf veya scanf oluşturmaktır. biçim dizeleri biçim belirleyicilerinin makrolar tarafından verildiği yer.[19][20]

Daha karmaşık bir örnek kullanır telleştirme tamsayılar (önişlemci tarafından) bir dizi değişmez dize olarak genişleyen ve daha sonra dosya adı ve satır numarasıyla tek bir değişmez dize olarak birleştirilen bir makro tanımlamak için:[21]

#define STRINGIFY (x) #x#define TOSTRING (x) STRINGIFY (x)#define AT __FILE__ ":" TOSTRING (__ LINE__)

C / C ++ 'nın sözdizimsel gereksinimlerinin ötesinde, örtük birleştirme bir biçimdir Sözdizimsel şeker, dize değişmezlerini birkaç satıra bölmeyi kolaylaştırarak, satır devamı ihtiyacını ortadan kaldırır (ters eğik çizgiler yoluyla) ve dizelerin parçalarına yorum eklemeye izin verir. Örneğin, Python'da bir kişi bir Düzenli ifade Böylece:[22]

yeniden.derlemek("[A-Za-z_]"       # harf veya alt çizgi           "[A-Za-z0-9 _] *"   # harf, rakam veya alt çizgi          )

Problemler

Örtük dize birleştirme, sabit bölme uygulayan modern derleyiciler için gerekli değildir ve kasıtsız birleştirmenin virgülün atlanmasından dolayı, özellikle dikey dizge listelerinde olduğu gibi, tespit edilmesi zor hatalara neden olur:

l = ['foo',     'bar'     "zork"]

Buna göre, çoğu dilde kullanılmaz ve D'den kullanımdan kaldırılması önerilmiştir.[23] ve Python.[14] Bununla birlikte, özelliğin kaldırılması geriye dönük uyumluluğu bozar ve onu bir birleştirme operatörüyle değiştirmek öncelikli sorunları ortaya çıkarır - dizge sabit birleştirme, operatör değerlendirmesinden önce lexing sırasında gerçekleşir, ancak açık bir operatör aracılığıyla birleştirme, diğer operatörlerle aynı anda gerçekleşir, dolayısıyla öncelik , istenen değerlendirme sırasını sağlamak için potansiyel olarak parantez gerektiren bir sorundur.

Daha ince bir sorun, C ve C ++ 'da[24] farklı türde dize değişmezleri vardır ve bunların birleştirilmesi, olası bir güvenlik riski oluşturan uygulama tanımlı davranışa sahiptir.[25]

Farklı dizeler

Bazı diller, farklı davranışları olan birden fazla türde literal sağlar. Bu özellikle belirtmek için kullanılır ham dizeler (kaçış yok) veya değişken enterpolasyonu devre dışı bırakmak veya etkinleştirmek için, ancak karakter kümelerini ayırt etmek gibi başka kullanımları vardır. Çoğu zaman bu, alıntı karakterini değiştirerek veya bir önek veya sonek ekleyerek yapılır. Bu, önekler ve soneklerle karşılaştırılabilir: tamsayı değişmezleri, örneğin onaltılık sayıları veya uzun tam sayıları belirtmek için.

En eski örneklerden biri, tek tırnakların bir ham dizeyi veya "değişmez dizeyi" gösterdiği, çift tırnakların ise kaçış dizileri ve değişken enterpolasyonu olduğu kabuk betikleridir.

Örneğin, Python, ham dizelerden önce bir r veya R - karşılaştırmak "C: Windows" ile r'C: Windows ' (yine de, bir Python ham dizesi tek sayıda ters eğik çizgi ile bitemez). Python 2 ayrıca iki tür dizeyi ayırt eder: 8 bitlik ASCII ("bayt") dizeleri (varsayılan), açıkça bir b veya B önek ve Unicode dizeleri, bir sen veya U önek.[26]

C # Ham dizelerin gösterimi @ -kotlama olarak adlandırılır.

@ "C:  Foo  Bar  Baz "

Bu, kaçmayı devre dışı bıraksa da, dize içindeki tırnakların temsil edilmesine izin veren çift tırnaklara izin verir:

@ "" Merhabalar "dedim."

C ++ 11, önekler tarafından belirlenen ham dizeler, unicode dizeler (UTF-8, UTF-16 ve UTF-32) ve geniş karakter dizeleri. Ayrıca mevcut C ++ için değişmez değerler ekler dizi, genellikle mevcut C tarzı dizelere tercih edilir.

Tcl'de, küme ayracı sınırlandırılmış dizeler değişmezdir, tırnakla sınırlanmış dizeler ise kaçış ve enterpolasyona sahiptir.

Perl, daha resmi olarak operatörler olarak kabul edilen ve şu şekilde bilinen çok çeşitli dizelere sahiptir: alıntı ve alıntı benzeri operatörler. Bunlar, hem genel bir sözdizimi (sabit sınırlayıcılar) hem de sınırlayıcı seçimine izin veren genel bir sözdizimi içerir; bunlar şunları içerir:[27]

''  ""  ``  //  m //  qr //  s ///  y///q {}  qq {}  qx {}  qw {}  m {}  qr {}  s {} {}  tr{}{}  y{}{}

REXX karakterleri veya dizeleri onaltılık veya ikili kodlarını kullanarak belirtmek için sonek karakterleri kullanır. Örneğin.,

'20'x"0010 0000"b"00100000"b

hepsi verir boşluk karakteri, işlev çağrısından kaçınmak X2C (20).

Değişken enterpolasyon

Diller, dize değişmezlerinin 'çizim' veya 'değişken enterpolasyonlu' olarak yorumlanıp yorumlanmayacağına ve nasıl yorumlanacağına göre farklılık gösterir. Değişken enterpolasyonu, bir veya daha fazla değişken içeren bir ifadeyi değerlendirme ve değişkenlerin bellekteki karşılık gelen değerleriyle değiştirildiği çıktıyı döndürme işlemidir. sh uyumlu Unix kabukları (Perl ve Ruby gibi), tırnakla sınırlanmış (") dizeler aradeğerlendirilirken kesme işaretiyle ayrılmış (') dizeler enterpolasyonlu değildir. Örneğin, aşağıdaki Perl kod:

$ isim     = "Nancy";$ tebrik = "Selam Dünya";Yazdır "$ name, insan kalabalığına $ selam dedi.";

çıktıyı üretir:

Nancy, kalabalığa Merhaba Dünya dedi.

mühür karakter ($) değişken enterpolasyonunu gösterecek şekilde yorumlanır.

Benzer şekilde, printf işlevi aşağıdaki gibi gösterimi kullanarak aynı çıktıyı üretir:

printf "% s insan kalabalığına% s dedi.", $ isim, $ tebrik;

Metakarakterler (% s) değişken enterpolasyonu gösterir.

Bu, "ham" dizelerle çelişir:

Yazdır "$ name, insan kalabalığına $ selam dedi.";

aşağıdakiler gibi çıktı üreten:

$ name insan kalabalığına $ selam dedi.

Burada $ karakterleri işaretler ve düz metin dışında herhangi bir anlamı olduğu şeklinde yorumlanmamıştır.

Dize değişmezlerine kaynak kodu gömme

Dize değişmezlerini belirtme esnekliği olmayan diller, diğer programlama kodunu üreten programlama kodunu yazmayı özellikle zahmetli hale getirir. Bu, özellikle üretim dili çıktı diliyle aynı veya benzer olduğunda geçerlidir.

Örneğin:

  • üretmek için kod yazmak beşli
  • içinden bir çıktı dili üretmek web şablonu;
  • kullanma XSLT XSLT oluşturmak için veya SQL daha fazla SQL oluşturmak için
  • bir PostScript yazılı bir belge işleme uygulamasından, baskı amaçlı bir belgenin temsili C veya başka bir dil.
  • yazı gölgelendiriciler

Bununla birlikte, bazı diller, özellikle sınırlayıcı çakışmasını önlemek için birden fazla seçeneği destekleyenler, bu tür kendine benzer çıktılar üretmek için özellikle iyi uyarlanmıştır.

Dize değişmezlerini diğer kodu üreten kod olarak kullanmak, özellikle çıktı en azından kısmen güvenilmeyen kullanıcı girdisine dayanıyorsa, olumsuz güvenlik etkilerine sahip olabilir. Bu, özellikle kötü niyetli kullanıcıların uygulamanın çalışmasını bozmak için bu tür zayıflıklardan yararlanabildiği Web tabanlı uygulamalarda, örneğin bir SQL enjeksiyonu saldırı.

Ayrıca bakınız

Notlar

  1. ^ Karışıklığı azaltmak için burada verilen normal ifade kendi başına alıntılanmamıştır veya kullanılmamıştır.

Referanslar

  1. ^ "Java'ya Giriş - MFC 158 G". Dize değişmezleri (veya sabitleri) "anonim dizeler" olarak adlandırılır
  2. ^ "ANSI C dilbilgisi (Lex)". liu.se. Alındı 22 Haziran 2016.
  3. ^ a b "Ek B. Karakterler, dizeler ve çıkış kuralları". realworldhaskell.org. Alındı 22 Haziran 2016.
  4. ^ a b "Dize". mozilla.org. Alındı 22 Haziran 2016.
  5. ^ a b c d e f g h ben j k l m "Kaçış Dizileri (C)". microsoft.com. Alındı 22 Haziran 2016.
  6. ^ a b "Uluslararası Standart için Gerekçe - Programlama Dilleri - C" (PDF). 5.10. Nisan 2003. s. 52, 153–154, 159. Arşivlendi (PDF) 2016-06-06 tarihinde orjinalinden. Alındı 2010-10-17.
  7. ^ "6.35 Sabitlerde Karakteri", GCC 4.8.2 Kılavuzu, alındı 2014-03-08
  8. ^ C11 taslak standart, WG14 N1570 Komite Taslağı - 12 Nisan 2011, 5.1.1.2 Çeviri aşamaları, s. 11: "6. Bitişik dizge dizgeleri birleştirilir."
  9. ^ C sözdizimi: Dize değişmez birleştirme
  10. ^ C ++ 11 taslak standart, "Çalışma Taslağı, Programlama Dili için Standart C ++" (PDF)., 2.2 Çeviri aşamaları [lex.phases], s. 17: "6. Bitişik dize değişmez simgeleri birleştirilir." ve 2.14.5 Dize değişmezleri [lex.string], not 13, s. 28–29: "Çeviri aşamasında 6 (2.2), bitişik dize değişmezleri birleştirilir."
  11. ^ D Programlama Dili, Sözcüksel Analiz, "String Değişmezleri": "Bitişik dizeler ~ işleciyle veya basit yan yana dizilerek birleştirilir:"
  12. ^ ruby: Ruby Programlama Dili, Ruby Programlama Dili, 2017-10-19, alındı 2017-10-19
  13. ^ Python Dil Referansı, 2. Sözcüksel analiz, 2.4.2. Dize değişmez birleştirme: "Muhtemelen farklı alıntı kuralları kullanan birden çok bitişik dize değişmezine (boşlukla sınırlandırılmış) izin verilir ve anlamları birleştirme ile aynıdır."
  14. ^ a b c Python fikirleri, "Örtük dize değişmez birleştirme zararlı olarak kabul edilir mi? ", Guido van Rossum, 10 Mayıs 2013
  15. ^ Python Dil Referansı, 2. Sözcüksel analiz, 2.4.2. Dize değişmez birleştirme: "Bu özelliğin sözdizimi düzeyinde tanımlandığını, ancak derleme zamanında uygulandığını unutmayın." + "Operatörü, çalışma zamanında dize ifadelerini birleştirmek için kullanılmalıdır."
  16. ^ "Dizeler (Java ™ Öğreticileri> Java Dilini Öğrenme> Sayılar ve Dizeler)". Docs.oracle.com. 2012-02-28. Alındı 2016-06-22.
  17. ^ ANSI C Programlama Dili için Gerekçe. Silikon Basın. 1990. s.31. ISBN  0-929306-07-4.CS1 bakimi: ref = harv (bağlantı), 3.1.4 Dize değişmezleri: "Uzun bir dizge ters eğik çizgi-satırsonu satırı devamı kullanılarak birden çok satır boyunca devam ettirilebilir, ancak bu uygulama dizenin devamının bir sonraki satırın ilk konumunda başlamasını gerektirir. Daha esnek bir düzene izin vermek ve bazılarını çözmek için Önişleme problemleri (bkz. §3.8.3), Komite dizgi değişmez birleştirme getirmiştir. Bir sıradaki iki dize değişmezi, bir birleşik dize değişmezi yapmak için birbirine yapıştırılır (ortada boş karakter olmadan). C diline yapılan bu ekleme, bir ters eğik çizgi-satırsonu mekanizmasını kullanmak zorunda kalmadan ve böylece programın girinti şemasını bozmadan bir dize değişmezini fiziksel bir satırın sonunun ötesine genişletmek için. Birleştirme işleminden ziyade sözcüksel bir yapı olduğu için açık bir birleştirme operatörü tanıtılmadı. -zamanlı işlem. "
  18. ^ ANSI C Programlama Dili için Gerekçe. Silikon Basın. 1990. s.6566. ISBN  0-929306-07-4.CS1 bakimi: ref = harv (bağlantı), 3.8.3.2 # operatörü: "Dizeleştirme için # operatörü tanıtıldı. Yalnızca bir #define genişletmesinde kullanılabilir. Aşağıdaki biçimsel parametre adının, gerçek bağımsız değişken simge dizisini dizgileştirerek oluşturulan bir dize değişmezi ile değiştirilmesine neden olur. Dize değişmezi ile birlikte bitiştirme (bkz. §3.1.4), bu operatörün kullanılması, bir dizge içindeki tanımlayıcı değişimi kadar etkili bir şekilde dizelerin oluşturulmasına izin verir. Standarttaki bir örnek, bu özelliği gösterir. "
  19. ^ C / C ++ Kullanıcı Dergisi, Cilt 19, s. 50
  20. ^ "python - Dize değişmez değerlerinin birleştirilmesine neden izin verilsin?". Yığın Taşması. Alındı 2016-06-22.
  21. ^ "LINE__ to string (stringify) using preprocessor directives". Decompile.com. 2006-10-12. Alındı 2016-06-22.
  22. ^ Python Dil Referansı, 2. Sözcüksel analiz, 2.4.2. Dize değişmez birleştirme: "Bu özellik, gereken ters eğik çizgi sayısını azaltmak, uzun dizeleri uzun satırlara rahatça bölmek ve hatta dizelerin bölümlerine yorum eklemek için kullanılabilir, örneğin:
  23. ^ DLang'ın Sorun İzleme Sistemi - Sorun 3827 - Uyarı yapın ve ardından bitişik dize değişmezlerinin örtük olarak birleştirilmesini kullanımdan kaldırın
  24. ^ C ++ 11 taslak standart, "Çalışma Taslağı, Programlama Dili için Standart C ++" (PDF)., 2.14.5 Dize değişmezleri [lex.string], not 13, s. 28–29: "Diğer birleştirmeler, uygulama tanımlı davranışla koşullu olarak desteklenir."
  25. ^ "Arşivlenmiş kopya". Arşivlenen orijinal 14 Temmuz 2014. Alındı 3 Temmuz, 2014.CS1 Maint: başlık olarak arşivlenmiş kopya (bağlantı)
  26. ^ "2. Sözcüksel analiz - Python 2.7.12rc1 belgeleri". python.org. Alındı 22 Haziran 2016.
  27. ^ "perlop - perldoc.perl.org". perl.org. Alındı 22 Haziran 2016.

Dış bağlantılar