Yeni hat - Newline

"Merhaba" ve "dünya" kelimeleri arasına yeni satır eklendi

Yeni hat (sıklıkla aranır satır sonu, yolun sonu (EOL), satır beslemeveya satır sonu) bir kontrol karakteri veya bir içindeki kontrol karakterleri dizisi karakter kodlaması şartname (ör. ASCII veya EBCDIC ) bir sonunu belirtmek için kullanılır metin satırı ve yenisinin başlangıcı. Bazı metin düzenleyicileri, bu özel karakteri, Giriş anahtar.

A görüntülerken (veya yazdırırken) Metin dosyası, bu kontrol karakteri, metin düzenleyicinin aşağıdaki karakterleri yeni bir satırda göstermesine neden olur.

Tarih

1800'lerin ortalarında, ortaya çıkmadan çok önce teleprinters ve teletip makineleri, Mors kodu operatörler veya telgrafçılar icat edildi ve kullanıldı Mors alfabesi ilahileri resmi yazılı metin mesajlarında beyaz boşluk metin biçimlendirmesini kodlamak için. Özellikle, normal karakterler arası boşluk olmadan gönderilen iki gerçek metin Mors kodu "A" karakterlerinin birleştirilmesiyle temsil edilen Mors işareti, bir Mors alfabesinde kodlamak ve belirtmek için kullanılır. Yeni hat resmi bir metin mesajında.

Modern çağın ilerleyen saatlerinde teleprinters Beyaz boşluk metin biçimlendirmesine yardımcı olmak için standartlaştırılmış karakter seti kontrol kodları geliştirilmiştir. ASCII, aynı anda Uluslararası Standardizasyon Örgütü (ISO) ve Amerikan Standartlar Birliği (ASA), ikincisi, Amerikan Ulusal Standartlar Enstitüsü (ANSI). 1963-1968 döneminde, ISO taslak standartları her ikisinin de kullanımını destekledi. CR+LF veya LF satır başı olarak tek başına, ASA taslakları yalnızca CR+LF.

Sekans CR+LF yaygın olarak benimsenen birçok eski bilgisayar sisteminde kullanılmıştır Teletype makineler — tipik olarak bir Teletype Modeli 33 ASR - bir konsol aygıtı olarak, çünkü bu sıra, bu yazıcıları yeni bir hattın başlangıcına konumlandırmak için gerekliydi. Satırsonunun iki işleve ayrılması, yazdırma kafasının bir sonraki karakteri yazdırmak için en sağdan sonraki satırın başına dönemediği gerçeğini gizledi. CR'den sonra yazdırılan herhangi bir karakter, yazdırma kafası hala taşıyıcıyı ilk konumuna geri götürürken sayfanın ortasında leke olarak yazdırılır. "Çözüm, satır başını iki karakter yapmaktı: CR, taşıyıcıyı birinci sütuna taşımak ve LF, kağıdı yukarı taşımak için."[1] Aslında, genellikle göz ardı edilen ancak yazıcı kafasına sol kenar boşluğuna gitmesi için zaman veren fazladan karakterleri (yabancı CR'ler veya NUL'lar) göndermek gerekliydi. Birçok erken video gösterimi, aynı zamanda kaydırma ekran.

Bu tür sistemlerde, uygulamalar doğrudan Teletype makinesiyle konuşmak ve kavramından bu yana onun kurallarına uymak zorundaydı. aygıt sürücüleri bu tür donanım detaylarını uygulamadan gizlemek henüz iyi gelişmemişti. Bu nedenle metin, Teletype makinelerinin ihtiyaçlarını karşılamak için rutin olarak oluşturuldu. Çoğu mini bilgisayar sistemi ARALIK bu kuralı kullandı. CP / M ayrıca mini bilgisayarların kullandığı aynı terminallere yazdırmak için de kullandı. Buradan MS-DOS (1981), CP / M'leri kabul etti CR+LF uyumlu olması için ve bu kural Microsoft'un daha sonraki pencereler işletim sistemi.

Multics işletim sistemi 1964'te geliştirilmeye başladı ve LF onun yeni satırı olarak yalnız. Multics, bu karakteri bir yazıcının ihtiyaç duyduğu sıraya (ekstra dolgu karakterleri dahil) çevirmek için bir aygıt sürücüsü kullandı ve tek bayt programlama için daha uygun oldu. Daha açık gibi görünen şey[kaynak belirtilmeli ] tercih-CR- kullanılmadığı için CR oluşturmak için bir satırı diğeriyle üst baskı yapma işlevi sağladı kalın suratlı ve üstü çizili Etkileri. Belki daha da önemlisi, LF bir hat sonlandırıcı olarak tek başına halihazırda nihai projenin taslaklarına dahil edilmişti. ISO / IEC 646 standart. Unix Multics uygulamasını takip etti ve daha sonra Unix benzeri sistemler Unix'i takip etti. Bu, Windows ve Unix benzeri işletim sistemleri arasında, bir işletim sisteminde oluşturulan dosyalar başka bir işletim sistemi tarafından düzgün şekilde biçimlendirilemez veya yorumlanamaz (örneğin UNIX kabuk komut dosyası gibi bir Windows metin düzenleyicide yazılmıştır Not defteri ).

Temsil

Kavramları satırbaşı (CR) ve satır besleme (LF) yakından ilişkilidir ve ayrı ayrı veya birlikte düşünülebilir. Fiziksel medyada daktilolar ve yazıcılar, iki eksenler üzerinde yeni bir çizgi oluşturmak için "aşağı" ve "çapraz" hareket gerekir. sayfa. Bir makinenin (daktilo veya yazıcı) tasarımının bunları ayrı ayrı ele alması gerekse de, yazılımın soyut mantığı bunları tek bir olay olarak birleştirebilir. Bu yüzden yeni satır karakter kodlaması olarak tanımlanabilir CR ve LF bir araya getirilerek (genellikle CR + LF veya CRLF).

Biraz karakter kümeleri ayrı bir satırsonu karakter kodu sağlayın. EBCDIC örneğin, bir NL karakter koduna ek olarak CR ve LF kodları. Unicode sağlamanın yanı sıra ASCII CR ve LF kontrol kodları, ayrıca bir "sonraki satır" (NEL) kontrol kodu ve "satır ayırıcı" ve "paragraf ayırıcı" işaretleri için kontrol kodları.

Bir veya iki yeni satırın yazılım uygulamaları ve işletim sistemi gösterimi kontrol karakterleri
İşletim sistemiKarakter kodlamasıKısaltmaaltıgen değeraralık değerKaçış dizisi
Unix ve Unix benzeri sistemleri (Linux, Mac os işletim sistemi, FreeBSD, AIX, Xenix, vb.), Multics, BeOS, Amiga, RISC OS, ve diğerleri[2]ASCIILF0A10 n
Microsoft Windows, DOS (MS-DOS, PC DOS, vb.), Atari TOS, ARALIK TOPS-10, RT-11, CP / M, MP / M, OS / 2, Symbian OS, Palm OS, Amstrad TBM ve Unix olmayan ve IBM dışı diğer eski işletim sistemlerinin çoğuCR LF0D 0A13 10 r n
Commodore 8 bit makineler (C64, C128 ), Meşe palamudu BBC, ZX Spektrumu, TRS-80, Apple II serisi, Oberon, klasik Mac OS, MIT Lisp Makinesi ve OS-9CR0D13 r
QNX POSIX öncesi uygulama (sürüm <4)RS1E30\036
Meşe palamudu BBC[3] ve RISC OS bekletilen metin çıktısı.[4]LF CR0A 0D10 13 n r
Atari 8-bit makinelerATASCII9B155
IBM dahil olmak üzere ana bilgisayar sistemleri z / OS (OS / 390 ) ve i5 / OS (OS / 400 )EBCDICNL1521\025
ZX80 ve ZX81 (Ev bilgisayarları Sinclair Araştırma Ltd )belirli bir ASCII olmayan karakter kümesi kullandıYENİ HAT76118
  • EBCDIC sistemler - esas olarak IBM dahil olmak üzere ana bilgisayar sistemleri z / OS (OS / 390 ) ve i5 / OS (OS / 400 ) - kullanım NL (Yeni hat, 0x15)[5] satır besleme ve satır başı işlevlerini birleştiren karakter olarak. Eşdeğer Unicode karakteri (0x85) denir NEL (Sonraki satır). EBCDIC ayrıca adı verilen kontrol karakterlerine sahiptir. CR ve LF, ancak sayısal değeri LF (0x25) ASCII tarafından kullanılandan farklıdır (0x0A). Ek olarak, bazı EBCDIC varyantları da kullanır NL ancak karaktere farklı bir sayısal kod atayın. Ancak, bu işletim sistemleri bir kayıt tabanlı dosya sistemi, metin dosyalarını satır başına bir kayıt olarak depolayan. Çoğu dosya biçiminde, gerçekte hiçbir satır sonlandırıcı depolanmaz.
  • İçin işletim sistemleri CDC 6000 serisi yeni satırı 60 bitlik bir sözcüğün sonunda iki veya daha fazla sıfır değerli altı bitlik karakter olarak tanımladı. Bazı konfigürasyonlar ayrıca sıfır değerli bir karakteri bir kolon karakteri, bunun sonucunda birden fazla iki nokta üst üste, konuma bağlı olarak yeni satır olarak yorumlanabilir.
  • RSX-11 ve OpenVMS ayrıca metin dosyalarını satır başına bir kayıt olarak saklayan kayıt tabanlı bir dosya sistemi kullanır. Çoğu dosya biçiminde, gerçekte hiçbir satır sonlandırıcı depolanmaz, ancak Kayıt Yönetim Hizmetleri Tesis, bir uygulama tarafından alındığında her satıra şeffaf bir şekilde bir sonlandırıcı ekleyebilir. Kayıtların kendileri, uygulamaya bağlı olarak bir özellik veya rahatsızlık olarak değerlendirilebilecek aynı satır sonlandırıcı karakterleri içerebilir. RMS yalnızca kayıtları saklamakla kalmaz, aynı zamanda kayıt ayırıcıları hakkındaki meta verileri, dosyaları daha da karmaşık hale getirmek için farklı bitlerde depolar (çünkü dosyalar sabit uzunlukta kayıtlara, bir sayımla öneklenmiş kayıtlara veya belirli bir karakterle sonlandırılmış kayıtlara sahip olabilir. ). Bitler genel değildi, bu yüzden bunu belirtebilirlerdi CRLF veya LF ya da CR satır sonlandırıcıydı, başka bir kodun yerini alamazdı.
  • Sabit hat uzunluğu bazıları tarafından erken kullanıldı ana bilgisayar işletim sistemleri. Böyle bir sistemde, örneğin her 72 veya 80 karakterde bir örtük satır sonu varsayıldı. Yeni satır karakteri saklanmadı. Dış dünyadan bir dosya içe aktarılmışsa, satır uzunluğundan daha kısa satırların boşluklarla doldurulması gerekirken, satır uzunluğundan daha uzun satırların kesilmesi gerekiyordu. Bu, kullanımını taklit etti delikli kartlar, her satırın ayrı bir kartta depolandığı, genellikle her kartta 80 sütun bulunan, genellikle sıra numaraları 73-80 arasındaki sütunlarda bulunur. Bu sistemlerin çoğu bir taşıma kontrol karakteri başlangıcına Sonraki kayıt; bu, sonraki kaydın önceki kaydın başlattığı satırın devamı mı yoksa yeni bir satır mı olduğunu veya önceki satırın üstüne basılması gerektiğini gösterebilir (bir CR). Genellikle bu, aşağıdaki gibi normal bir baskı karakteriydi # bu nedenle bir satırdaki ilk karakter olarak kullanılamaz. Bazı erken satır yazıcıları bu karakterleri doğrudan kendilerine gönderilen kayıtlarda yorumladılar.

Unicode

Unicode standart, uyumlu uygulamaların satır sonlandırıcı olarak tanıması gereken bir dizi karakteri tanımlar:[6]

 LF:    Satır besleme, U + 000A
 VT:    Dikey Sekme, U + 000B
 FF:    Form besleme, U + 000C
 CR:    Satırbaşı, U + 000D
CR+LF: CR (U + 000D) bunu takiben LF (U + 000A)
 NEL:   Sonraki satır, U + 0085
 LS:    Satır Ayırıcı, U + 2028
 PS:    Paragraf Ayırıcı, U + 2029

Bu, tüm satır sonlandırıcıları tek bir karaktere dönüştürmek gibi bir yaklaşıma kıyasla aşırı karmaşık görünebilir, örneğin LF. Ancak, Unicode, bir metin dosyasını mevcut herhangi bir kodlamadan Unicode'a ve geri dönüştürürken tüm bilgileri korumak için tasarlanmıştır. Bu nedenle, Unicode mevcut kodlamalara dahil edilen karakterleri içermelidir. NL dahildir EBCDIC kod ile 0x15ve sıklıkla eşlenir NEL, C1 kontrol setinde bir kontrol karakteri olan.[7] Bu nedenle, ECMA 48 tarafından tanımlanmıştır,[8] ve uyumlu kodlamalar tarafından tanınır ISO / IEC 2022 (ECMA 35'e eşdeğerdir).[9] C1 kontrol seti şunlarla da uyumludur: ISO-8859-1.[kaynak belirtilmeli ] Unicode standardında benimsenen yaklaşım, uygulamaların tüm olası hat sonlandırıcı türlerini tanımasına olanak sağlarken, gidiş-dönüş dönüşümünün bilgi koruma olmasına izin verir.

Şundan büyük satırsonu kodlarını tanıma ve kullanma 0x7F (NEL, LS ve PS) sıklıkla yapılmaz. Birden çok bayttır. UTF-8 ve kodu NEL olarak kullanılmıştır üç nokta () karakter Windows-1252. Örneğin:

Unicode karakterleri U + 2424 (NEWLINE İÇİN SEMBOL, ), U + 23CE (DÖNÜŞ SEMBOLÜ, ), U + 240D (TAŞIMA İADESİ İÇİN SEMBOL, ) ve U + 240A (HAT BESLEME SEMBOLÜ, ), belgenin okuyucusuna kullanıcı tarafından görülebilir bir karakter sunmak için tasarlanmıştır ve bu nedenle kendileri bir satırsonu olarak tanınmazlar.

Kaçış dizileri

Bir kaçış dizisi hiçbir metni temsil etmeyen karakterlerin birleşimidir; görüntülenmesi (metin olarak) yerine program tarafından durdurulması ve özel bir işlevin gerçekleştirilmesi beklenir. Kaçış dizileri ayrıca özel karakterleri işlemek (ayarlamak, aramak, değiştirmek vb.) İçin kullanılır.

Kaçış dizileri
Özel karakterKaçış dizisiTarafından kullanılan ...Örnekler
satır besleme nPerl, Vim, ...Vim: :% s /} /} r t / g = tüm dosyadaki her bir '}' karakterini '} yeni satır tabülatörü' ile değiştirin
satırbaşı r
tabulator t

Programlama dillerinde

Yaratılmasını kolaylaştırmak için taşınabilir programlar, programlama dilleri, farklı ortamlarda kullanılan farklı türdeki satırsonu dizileri ile başa çıkmak için bazı soyutlamalar sağlar.

C programlama dili sağlar Kaçış dizileri ' n' (yeni satır) ve ' r' (satırbaşı). Ancak, bunların ASCII'ye eşdeğer olması gerekli değildir LF ve CR kontrol karakterleri. C standardı yalnızca iki şeyi garanti eder:

  1. Bu kaçış dizilerinin her biri, tek bir dosyada saklanabilen benzersiz bir uygulama tanımlı sayı ile eşleşir. kömür değer.
  2. Bir dosyaya, cihaz düğümüne veya sokete / fifo'ya yazarken metin modu, ' n' bir karakterden daha uzun olabilen, sistem tarafından kullanılan yerel satırsonu dizisine şeffaf bir şekilde çevrilir. Metin modunda okurken, yerel satırsonu dizisi geri çevrilir ' n'. İçinde ikili mod, çeviri yapılmaz ve dahili temsil ' n' doğrudan çıktı.

C'nin geldiği Unix platformlarında yerel satırsonu dizisi ASCII'dir. LF (0x0A), yani ' n' basitçe bu değer olarak tanımlandı. İç ve dış temsilin aynı olmasıyla, metin modunda gerçekleştirilen çeviri bir işlemsiz ve Unix'te metin modu veya ikili mod kavramı yoktur. Bu, yazılımlarını Unix sistemlerinde geliştiren birçok programcının bu ayrımı tamamen görmezden gelmesine neden oldu ve bu da farklı platformlara taşınabilir olmayan kodla sonuçlandı.

C kütüphanesi işlevi fgets () ikili kipte kaçınılması en iyisidir çünkü Unix yeni satır kuralına göre yazılmayan herhangi bir dosya yanlış okunacaktır. Ayrıca, metin kipinde, sistemin yerel satırsonu dizisiyle yazılmayan herhangi bir dosya (bir Unix sisteminde oluşturulan ve ardından bir Windows sistemine kopyalanan bir dosya gibi) da yanlış okunacaktır.

Diğer bir yaygın sorun, kullanımıdır ' n' ASCII kullanımını zorunlu kılan bir İnternet protokolü kullanarak iletişim kurarken CR+LF satırları bitirmek için. yazı ' n' metin modu akışına Windows sistemlerinde doğru çalışır, ancak yalnızca LF Unix'te ve daha egzotik sistemlerde tamamen farklı bir şey. Kullanma " r n" ikili modda biraz daha iyidir.

Gibi birçok dil C ++, Perl,[17] ve Haskell aynı yorumu sağlamak ' n' C. C ++ 'da bir alternatif G / Ç modeli manipülatör nerede std :: endl bir satırsonu çıkarmak için kullanılabilir (ve akım tamponunu temizler).

Java, PHP,[18] ve Python[19] sağlamak ' r n' dizisi (ASCII için CR+LF). C'nin aksine, bunların değerleri temsil etmesi garanti edilir U + 000D ve U + 000A, sırasıyla.

Java G / Ç kitaplıkları, bunları giriş veya çıkışta şeffaf bir şekilde platforma bağlı satırsonu dizilerine çevirmez. Bunun yerine, yerel satırsonu dizisini otomatik olarak ekleyen tam bir satır yazmak için işlevler ve aşağıdakilerden herhangi birini kabul eden satırları okumak için işlevler sağlarlar. CR, LFveya CR+LF hat sonlandırıcı olarak (bkz. BufferedReader.readLine () ). System.lineSeparator () yöntem, temel satır ayırıcıyı almak için kullanılabilir.

Misal:

   Dize eol = Sistemi.lineSeparator();   Dize çizgi rengi = "Kırmızı renk" + eol;

Python, bir dosyayı okumak için açarken, modülleri içe aktarırken ve bir dosyayı çalıştırırken "Evrensel Yeni Satır Desteği" ne izin verir.[20]

Bazı diller özel yarattı değişkenler, sabitler, ve alt programlar programın yürütülmesi sırasında yeni satırları kolaylaştırmak için. Gibi bazı dillerde PHP ve Perl, ikili alıntı dahil olmak üzere tüm kaçış dizileri için kaçış ikamesi gerçekleştirmek gerekir ' n' ve ' r'. PHP'de, taşınabilirlik sorunlarını önlemek için, satırsonu dizileri PHP_EOL sabiti kullanılarak verilmelidir.[21]

Örnek C #:

   dizi eol = Çevre.Yeni hat;   dizi çizgi rengi = "Kırmızı renk" + eol;      dizi eol2 = " n";   dizi lineColor2 = "Renk: Mavi" + eol2;

Farklı yeni satır biçimleriyle ilgili sorunlar

Bir Metin dosyası ile oluşturuldu gedit ve bir ile görüntülendi onaltılık düzenleyici. Metin nesnelerinin yanı sıra, yalnızca EOL işaretçileri vardır. onaltılık 0A değeri.

Kontrol karakterleri, bir metin dosyası tarafından kullanılan karşılık gelen karakter kodlama tablosunda açık bir şekilde tanımlanmış olsa da, hala bir sorun vardır: bir satır sonu ayarlamak ve görüntülemek için farklı kurallar vardır.

Tek bir satır sonu belirtmek için, Unix programlar kullanır satır besleme, ASCII'deki onaltılık değeri 0açoğu program ortak iken MS-DOS ve Microsoft Windows kullanım satırbaşı+satır besleme, ASCII'deki onaltılık değeri 0d 0a. ASCII'de, satırbaşı farklı bir kontrol karakteridir.

Farklı satırsonu kuralları, farklı türdeki sistemler arasında aktarılan metin dosyalarının yanlış görüntülenmesine neden olur.

Yaygın olan programlarla oluşturulan dosyalardaki metin Unix benzeri veya klasik Mac OS, çoğu programda tek bir uzun satır olarak görünür. MS-DOS ve Microsoft Windows çünkü bunlar tek bir satır besleme veya tek satırbaşı satır sonu olarak.

Tersine, Windows bilgisayardan gelen bir dosyayı Unix benzeri bir sistemde görüntülerken, CR ikinci satır sonu olarak görüntülenebilir ^ Mveya as <cr> her satırın sonunda.

Ayrıca, metin düzenleyiciler dışındaki programlar bir dosyayı kabul etmeyebilir, ör. geçerli bir dosya olarak yabancı satırsonu kuralı kullanılarak kodlanmış bazı yapılandırma dosyası.

Bazı programlar yabancı satır başlarını düzgün bir şekilde ele alırken diğerleri yapmadığından sorunu tespit etmek zor olabilir. Örneğin, bir derleyici kaynak dosya görüntülendiğinde doğru görünse bile belirsiz sözdizimi hatalarıyla başarısız olabilir. konsol veya içinde editör. Unix benzeri bir sistemde komut kedi -v dosyam.txt dosyayı stdout'a (normalde terminal) gönderir ve ^ M görünür, bu da hata ayıklama için yararlı olabilir. Modern metin editörleri, genellikle CR+LF yeni satırlar ve kullanıcıların farklı standartlar arasında dönüşüm yapmasına izin verir. internet tarayıcıları genellikle metin dosyalarını ve farklı türde satırsonları kullanan web sitelerini de görüntüleyebilir.

Bir program farklı satırsonu kurallarını desteklese bile, bu özellikler genellikle yeterince etiketlenmez, tanımlanmaz veya belgelenmez. Tipik olarak, farklı satırsonu kurallarını numaralandıran bir menü veya birleşik kutu, seçimin yeni satırları yeniden yorumlaması, geçici olarak dönüştürmesi veya kalıcı olarak dönüştürmesi durumunda kullanıcılara herhangi bir gösterge olmaksızın görüntülenir. Bazı programlar örtük olarak açarken, kopyalarken, yapıştırırken veya kaydettiklerinde - genellikle tutarsız olarak - dönüşür.

Çoğu metinsel İnternet protokoller (dahil olmak üzere HTTP, SMTP, FTP, IRC ve diğerleri) ASCII kullanımını zorunlu kılar CR+LF (' r n', 0x0D 0x0A) protokol düzeyinde, ancak toleranslı uygulamaların yalnızlığı tanımasını LF (' n', 0x0A) de. Dikte edilen standarda rağmen, birçok uygulama hatalı olarak C yeni satır kaçış dizisi ' n' (LF) satırbaşı kaçış ve satırsonu kaçış dizilerinin doğru kombinasyonu yerine ' r n' (CR+LF) (bölüme bakın Programlama dillerinde Newline yukarıda). Yanlış kaçış dizilerinin bu kazara kullanımı, önerilen toleranslı yorum yerine standartların daha katı yorumuna bağlı kalan sistemlerle iletişim kurmaya çalışırken sorunlara yol açar. Hoşgörüsüz sistemlerden biri, qmail posta transfer aracısı çıplak gönderen sistemlerden gelen mesajları kabul etmeyi aktif olarak reddeden LF gerekli yerine CR+LF.[22]

Standart İnternet Mesaj Formatı[23] eMail durumları için: CR ve LF yalnızca CRLF olarak birlikte bulunmalıdır ZORUNLU; vücutta bağımsız olarak GÖRÜNMEMELİDİR.

dosya aktarım Protokolü arasında aktarılan dosyalardaki yeni satırları otomatik olarak dönüştürebilir sistemleri transfer "ASCII modunda" yapıldığında farklı satırsonu temsilleriyle. Bununla birlikte, bu modda ikili dosyaların aktarılması genellikle feci sonuçlar doğurur: bu bağlamda satır sonlandırıcı semantiği olmayan, ancak normal bir bayt dizisinin bir parçası olan yeni satır bayt dizisinin herhangi bir oluşumu, herhangi bir satırsonu temsiline çevrilecektir. diğer sistem etkili bir şekilde kullanır bozucu dosya. FTP istemcileri genellikle Sezgisel (örneğin, incelenmesi dosya adı uzantıları ) ikili veya ASCII modunu otomatik olarak seçmek, ancak sonuçta dosyalarının doğru modda aktarıldığından emin olmak kullanıcılara bağlıdır. Doğru modla ilgili herhangi bir şüpheniz varsa, ikili mod kullanılmalıdır, çünkü bu durumda hiçbir dosya FTP tarafından değiştirilmeyecektir, ancak bunlar yanlış bir şekilde görüntülenebilir.[24]

Yeni satır biçimleri arasında dönüşüm

Metin editörleri genellikle bir metin dosyasını farklı satırsonu formatları arasında dönüştürmek için kullanılır; Çoğu modern editör, en azından farklı ASCII kullanarak dosyaları okuyabilir ve yazabilir CR/LF kurallar.Örneğin, editör Vim Windows Not Defteri metin düzenleyicisiyle uyumlu bir dosya yapabilir. Vim içinde

 :Ayarlamak dosya formatı=dos:wq

Düzenleyiciler, daha büyük dosyaları dönüştürmek veya birçok dosyayı toplu olarak dönüştürmek için uygun olmayabilir. Daha büyük dosyalar için (Windows NT / 2000 / XP'de) aşağıdaki komut genellikle kullanılır:

D: >TÜR unix_file | BUL / V "" > dos_file

Dosyaları farklı satırsonu kuralları arasında dönüştürmek için özel amaçlı programlar şunları içerir: unix2dos ve dos2unix, mac2unix ve unix2mac, mac2dos ve dos2mac, ve çevirmek.[25] tr komut hemen hemen her Unix benzeri sistem ve tek karakterlerde rastgele değiştirme işlemleri gerçekleştirmek için kullanılabilir. Bir DOS / Windows metin dosyası, tüm ASCII'yi kaldırarak Unix formatına dönüştürülebilir. CR ile karakterler

$ tr -d ' r' < giriş dosyası > çıktı dosyası

veya metinde yalnızca CR yeni satırlar, tümünü dönüştürerek CR yeni satırlar LF ile

$ tr ' r' ' n' < giriş dosyası > çıktı dosyası

Aynı görevler bazen awk, sed veya içinde Perl platformda bir Perl yorumlayıcısı varsa:

$ awk '{alt ("$", " r  n"); printf ("% s", $ 0);} ' inputfile> outputfile # UNIX'ten DOS'a (GNU uzantılarına sahip olmayan Linux ve BSD tabanlı işletim sistemlerine CR'ler ekleme)$ awk '{gsub (" r", ""); Yazdır;}' inputfile> outputfile # DOS'tan UNIX'e (GNU uzantıları olmayan Linux ve BSD tabanlı işletim sistemlerinde CR'leri kaldırma)$ sed -e 's / $ /  r /' inputfile> outputfile # UNIX'ten DOS'a (GNU uzantılarını kullanan Linux tabanlı işletim sistemlerine CR'ler ekleme)$ sed -e 's /  r $ //' inputfile> outputfile # DOS'tan UNIX'e (GNU uzantılarını kullanan Linux tabanlı işletim sistemlerinde CR'leri kaldırma)$ perl -pe 's /  r?  n |  r /  r  n / g' inputfile> outputfile # DOS'a Dönüştür$ perl -pe 's /  r?  n |  r /  n / g'   inputfile> outputfile # UNIX'e dönüştür$ perl -pe 's /  r?  n |  r /  r / g'   inputfile> outputfile # Eski Mac’e dönüştür

dosya komut satır sonlarının türünü belirleyebilir:

 $ myfile.txt dosyası myfile.txt: CRLF hat sonlandırıcılarla ASCII İngilizce metin

Unix egrep (genişletilmiş grep) komutu, Unix veya DOS dosyalarının dosya adlarını yazdırmak için kullanılabilir (yalnızca Unix ve DOS tarzı dosyalar varsayılarak, Mac OS yok):

$ egrep -L ' r  n' myfile.txt # UNIX tarzı dosyayı göster (LF sonlandırıldı)$ egrep -l ' r  n' myfile.txt # DOS tarzı dosyayı göster (CRLF sonlandırıldı)

Diğer araçlar, kullanıcının EOL karakterlerini görselleştirmesine izin verir:

$ od -a myfile.txt$ kedi -e dosyam.txt$ hexdump -c dosyam.txt

Yorumlama

Yeni satırları görüntülemenin iki yolu, her ikisi de kendi kendine tutarlı, bu satırlar da mı ayrı çizgiler mi yoksa onlar bitirmek çizgiler. Bir satırsonu ayırıcı olarak kabul edilirse, dosyanın son satırından sonra yeni satır olmaz. Bazı programlar, bir satırsonu ile sonlandırılmamışsa, dosyanın son satırını işlemede sorun yaşarlar. Öte yandan, satırsonu satırının ayırıcı olarak kullanılmasını bekleyen programlar, son satır satırını yeni (boş) bir satır başlıyor olarak yorumlar. Tersine, bir satırsonu bir sonlandırıcı olarak kabul edilirse, son satır dahil tüm metin satırlarının bir satırsonu ile sonlandırılması beklenir. Bir metin dosyasındaki son karakter dizisi bir satırsonu değilse, dosyanın son satırı yanlış veya eksik bir metin satırı olarak değerlendirilebilir veya dosyanın yanlış şekilde kesilmiş olduğu düşünülebilir.

Öncelikle insanlar tarafından okunması amaçlanan metinde, kelime kaydırma özelliği, bir satırsonu karakterinin tipik olarak yalnızca bir sonraki kelimenin aynı satıra sığıp sığmayacağından bağımsız olarak bir satır sonu gerektiğinde depolanması gerekir; paragraflar ve dikey listelerde. Bu nedenle, mantığında kelime işlem ve en metin editörleri, satırsonu olarak kullanılır paragraf sonu ve kelime kaydırmayı uygulamak için dinamik olarak oluşturulan ve her görüntüleme örneğiyle değiştirilebilen "yumuşak dönüşler" in aksine "kesin dönüş" olarak bilinir. Birçok uygulamada ayrı kontrol karakteri Tek bir paragraf içinde satır sonlarını zorlamak için "el ile satır sonu" adı verilir. glif kesin dönüş için kontrol karakteri için genellikle bir pilcrow (¶) ve el ile satır sonu için genellikle bir satırbaşı okudur (↵).

Ters ve kısmi satır beslemeleri

ri, (U + 008D TERS ÇİZGİ BESLEME,[26] ISO / IEC 6429 8D, ondalık 141), baskı pozisyonunu bir satır geri hareket ettirmek için kullanılır (kağıdı ters besleyerek veya bir ekran imlecini bir satır yukarı hareket ettirerek), böylece diğer karakterler mevcut metin üzerine basılabilir. Bu, onları daha cesur hale getirmek veya alt çizgi, üstü çizili veya diğer karakterler eklemek için yapılabilir. aksan.

Benzer şekilde, PLD (U + 008B PARTIAL LINE FORWARD, ondalık 139) ve PLU (U + 008C PARTIAL LINE BACKWARD, ondalık 140) metin yazdırma konumunu dikey satır aralığının bir kısmı kadar (tipik olarak yarısı) ilerletmek veya tersine çevirmek için kullanılabilir. Bunlar, aboneler (ilerleyerek ve sonra ters çevirerek) ve üst simgeler için (tersine çevirerek ve sonra ilerleyerek) kombinasyon halinde kullanılabilir ve ayrıca aksanları yazdırmak için de yararlı olabilir.

Ayrıca bakınız

Referanslar

  1. ^ Qualline Steve (2001). Vi Geliştirilmiş - Vim (PDF). Sams. s. 120. ISBN  9780735710016.
  2. ^ "ASCII Grafiği".
  3. ^ Bray, Andrew C .; Dickens, Adrian C .; Holmes, Mark A. BBC Mikrobilgisayar için Gelişmiş Kullanım Kılavuzu (PDF). s. 103, 104. ISBN  978-0946827008. Alındı 30 Ocak 2019.
  4. ^ "RISC OS 3 Programcılarının Referans Kılavuzu". Alındı 18 Temmuz 2018.
  5. ^ IBM System / 360 Reference Data Card, Publication GX20-1703, IBM Data Processing Division, White Plains, NY
  6. ^ "UAX # 14: Unicode Satır Kırma Algoritması". www.unicode.org.
  7. ^ "ISO 6429 C1 Kontrol Karakter Seti" (PDF). 1 Ekim 1983.
  8. ^ "Kodlanmış Karakter Kümeleri için Kontrol İşlevleri" (PDF). Haziran 1991.
  9. ^ "Karakter Kod Yapısı ve Genişletme Teknikleri, 6. baskı" (PDF). Aralık 1994.
  10. ^ "ECMAScript 2019 Dil Spesifikasyonu". ECMA International. Haziran 2019. 11.3 Hat Sonlandırıcılar.
  11. ^ "ECMAScript 2019 Dil Belirtimi". ECMA International. Haziran 2019. 11.2 Beyaz Boşluk.
  12. ^ "JavaScript Nesne Gösterimi (JSON) Veri Değişim Biçimi". Mart 2014. 7. Dizeler. RFC  7159.
  13. ^ "JSON (a.k.a. JSON ⊂ ECMAScript) alt kümesi". GitHub. 22 Mayıs 2018.
  14. ^ "ECMAScript 2019 Dil Belirtimi". ECMA International. Haziran 2019. 11.8.4 Dize Değişmezleri.
  15. ^ "ECMAScript 2018 Dil Belirtimi". ECMA International. Haziran 2018. 11.8.4 Dize Değişmezleri.
  16. ^ "YAML, Biçimlendirme Dili Değildir (YAML ™) Sürüm 1.2". yaml.org. 5.4. Satır Sonu Karakterleri.
  17. ^ "binmode - perldoc.perl.org". perldoc.perl.org.
  18. ^ "PHP: Dizeler - Manuel". www.php.net.
  19. ^ "Sözcüksel analiz - Python v3.0.1 belgeleri". docs.python.org.
  20. ^ "Python 2.3'teki yenilikler".
  21. ^ "PHP: Öntanımlı Sabitler - Manuel". www.php.net.
  22. ^ "kripto".
  23. ^ "RFC 2822 - İnternet Mesaj Formatı". İnternet Mühendisliği Görev Gücü.
  24. ^ "Dosya transferi". Şüphe duyduğunuzda, ikili modda aktarın.
  25. ^ "UNIX, Macintosh, MS-DOS arasında ASCII metin dönüşümü". Arşivlenen orijinal 9 Şubat 2009.
  26. ^ "C1 Kontrolleri ve Latin-1 Eki" (PDF). unicode.org. Alındı 13 Şubat 2016.

Dış bağlantılar