GBK (karakter kodlaması) - GBK (character encoding)

Guojia Biaozhun Kuozhan (GBK)
GBK encoding.svg
GBK Düzeni (aşağıya bakınız bu diyagramın daha büyük bir kopyası için)
MIME / IANAGBK
Takma ad (lar)CP936, MS936, windows-936, csGBK
Diller)Web tarayıcıları, kod çözme GB 18030, tüm dilleri destekler, kodlama (ve diğer yazılım kod çözücüleri) öncelikli olarak Basitleştirilmiş Çince ama aynı zamanda destekler Geleneksel çince, Japonca, ingilizce, Rusça ve (kısmen) Yunan.
StandartGBK 1.0
SınıflandırmaGenişletilmiş ASCII,[a] değişken genişlikli kodlama, CJK kodlaması
UzatmalarEUC-CN
ÖncesindeGB2312
tarafından başarıldıGB 18030
  1. ^ ASCII baytları iz baytları olarak görünebileceğinden, terimin en katı anlamıyla değil.

GBK bir uzantısıdır GB2312 karakter seti için Basitleştirilmiş Çince karakterler, kullanılan Çin Halk Cumhuriyeti. Tüm birleşik içerir CJK karakterleri GB13000.1-93'te bulunan, yani ISO / IEC 10646: 1993 veya Unicode 1.1. 1993'teki ilk sürümünden bu yana GBK, Microsoft tarafından Kod sayfası 936/1386, daha sonra genişletildi GBK 1.0. GBK ayrıca Microsoft eşlemesi için IANA tescilli internet adıdır,[1] diğer uygulamalardan esas olarak tek baytlık farklı olan euro işareti 0x80'de.

GB kısaltmalar Guojia Biaozhun yani ulusal standart Çince iken K duruyor Uzantı (扩展 Kuòzhǎn). GBK, eski standart GB2312'yi yalnızca Geleneksel Çince karakterlerle değil, aynı zamanda 1981'de GB2312'nin kurulmasından sonra basitleştirilen Çince karakterlerle de genişletti. GBK'nın gelişiyle, önceden temsil edilemeyen karakterlere sahip bazı isimler, names (Róng) eski Çin Başbakanı'ndaki karakter Zhu Rongji's isim, artık temsil edilebilir.[2]

Haziran 2020 itibariyleGBK, en popüler ikinci Çin kodlamasıdır (GB2312'den sonra, muhtemelen tek ve aynı kod çözülseler de), Çin'den ve bölgelerden sunulan web sayfalarının% 3,6'sı bunu beyan eder,[3] veya küresel olarak tüm web sayfalarının% 0,2'si,[4] bu, bu şekilde işaretlendiği zamandır, ancak tüm büyük web tarayıcıları, ör. "GB 2312"veya"GB2312 "" gbk "olarak işaretlenmişlermiş gibi (hepsi" GB_2312 "olarak işaretlenmiş sayfalar için bunu yapmaz),[5] ve GBK ve alt küme kodlaması GB 2312 % 16,7'lik (veya küresel olarak% 0,6) bir paya sahiptir.

Tarih

1993 yılında Unicode Kullanılan 20.902 karakter dahil 1.1 standardı yayınlandı Çin toprakları, Tayvan, Japonya ve Kore. Bunun ardından Çin, GB13000.1-93'ü piyasaya sürdü. Guobiao standardı Unicode 1.1 eşdeğeri.

GBK karakter kümesi 1993 yılında GB2312 -80, GB2312'de bulunan kullanılmayan kod noktaları aracılığıyla GB13000.1-93 karakterlerini de içerir. Dolayısıyla GBK, GB2312 ile geriye dönük olarak uyumludur.

Microsoft, GBK'yı Windows 95 ve Windows NT 3.51 gibi Kod Sayfası 936. GBK hiçbir zaman resmi bir standart olmamasına rağmen, Windows 95'in yaygın kullanımı GBK'nın fiili standart. GBK, Unicode 1.1 ve GB13000.1-93'te tanımlanan tüm Çince karakterleri içerirken, bu standartlar farklı kod tabloları kullandı. Varlığının birincil nedeni, GB2312-80 ile GB13000.1-93 arasındaki boşluğu doldurmaktı.

1995 yılında, Çin Ulusal Bilgi Teknolojisi Standardizasyon Teknik Komitesi, Çin İç Kod Genişletme Şartnamesini (Çince : 汉字 内 码 扩展 规范 (GBK); pinyin : Hànzì Nèimǎ Kuòzhǎn Guīfàn (GBK)), Sürüm 1.0, şu adla bilinir: GBK 1.0, Codepage 936'nın küçük bir uzantısıdır. Yeni eklenen 95 karakter GB 13000.1-1993'te bulunamadı ve geçici olarak Unicode atandı PUA kod noktaları.[6]:534

Microsoft daha sonra euro işareti Kod sayfasına 936 ve 0x80 kodunu atadı. Bu, GBK 1.0'da geçerli bir kod noktası değildir.

2000 yılında GB18030 GBK 1.0 ile uyumluluğunu koruyan -2000 standardı piyasaya sürüldü. Çince karakterlerin tanımlarının sayısını ve dört baytlık karakter boşluklarının uygulanmasıyla olası karakterlerin sayısını artırdı. Bir bayt ve iki baytlık karakterlerden oluşan GB 18030 alt kümesi bazen şu şekilde de ifade edilir: GBK. Unicode'a eşleme, bazı karakterler artık Unicode'da tanımlandığı için biraz değiştirildi. Standardın en güncel şekli olan GB 18030-2005, sadece 24[7] karakterler hala Unicode PUA ile eşlenmiştir (bkz. GB 18030 # PUA.)

2002 yılında, GBK IANA karakter kümesi olarak kaydedildi; kayıt kullanır kod sayfası 936 eşlemenin yanı sıra CP936 / MS936 takma adları, ancak GBK 1.0 spesifikasyonunu ifade eder.[1] W3C 2015 yılında yayınlanan teknik tavsiye[8] tanımlar GBK kodlayıcı tek baytlık euro işaretli ve dört bayt dizileri olmayan GB 18030 kodlayıcı olarak (W3C'ler GBK kod çözücü şartnamenin böyle bir sınırlaması yoktur, GB 18030yani, tümü ile aynı harf aralığında Unicode ).

Kodlama

Bir karakter 1 veya 2 bayt olarak kodlanır. Aralıktaki bir bayt 007F tek bir bayttır, bu da aynı şeyi ifade eder ASCII. Açıkçası, bu aralıkta 95 karakter ve 33 kontrol kodu vardır.

Yüksek bit kümesine sahip bir bayt, bunun 2 bayttan ilki olduğunu gösterir. Kabaca konuşursak, ilk bayt aralık içindedir 81FE (yani, asla 80 veya FF) ve ikinci bayt 40A0 dışında 7F bazı alanlar için ve A1FE başkaları için.

Daha spesifik olarak, aşağıdaki bayt aralıkları tanımlanmıştır:

GBK Kodlama Aralıkları
Aralıkbayt 1bayt 2kod noktalarıkarakterler
GB 18030GBK 1.0Kod sayfası 936GB 2312
Seviye GBK / 1A1A9A1FE846718[6]:8–10717715682
Seviye GBK / 2B0F7A1FE6,7686,7636,7636,763
Seviye GBK / 381A040FE dışında 7F6,0806,0806,080
Seviye GBK / 4AAFE40A0 dışında 7F8,1608,1608,080
Seviye GBK / 5A8A940A0 dışında 7F192166153
kullanıcı tanımlı 1[6]AAAFA1FE564
kullanıcı tanımlı 2F8FEA1FE658
kullanıcı tanımlı 3A1A740A0 dışında 7F672
Toplam:23,94021,88721,88621,7917,445

Düzen diyagramı

Grafik formunda, aşağıdaki şekil 64K olası 2 baytlık kodların tümünün alanını gösterir. Yeşil ve sarı alanlara GBK kod noktaları atanır, kırmızı ise kullanıcı tanımlı karakterler içindir. Renksiz alanlar geçersiz bayt kombinasyonlarıdır.

GBK encoding.svg

Diğer kodlamalarla ilişki

Bir önceki bölümde GBK / 1 ve GBK / 2 olarak belirtilen alanlar, kendi başlarına alınmış, normal kodlamasında basitçe GB2312-80'dir, GBK / 1 hanzi olmayan bölge ve GBK / 2 hanzi bölgesidir. GB2312 veya daha doğru bir şekilde EUC-CN kodlaması, aralıktan bir çift bayt alır A1FE, GR'ye yüklenen herhangi bir 94² ISO-2022 karakter kümesi gibi. Bu, yukarıdaki resmin sağ alt çeyreğine karşılık gelir. Bununla birlikte, GB2312, adresinde bulunan satırlara herhangi bir kod noktası atamaz. AAB0 ve F8FE, bölgeyi gözetlemiş olmasına rağmen. GBK bu satırlara uzantılar ekledi. İki boşluğun kullanıcı tanımlı alanlarla doldurulduğunu görebilirsiniz.

Daha da önemlisi, GBK bayt aralığını genişletti. ISO-2022 GR aralığında iki baytlık karakterlere sahip olmak, 94² = 8.836 olasılık sınırı verir. Grafikler ve kontrol karakterleri için katı bölgelerin ISO-2022 modelini terk ederek, ancak düşük baytların bir karakteri ifade eden 1 baytlık karakterler ve yüksek bayt çiftleri olma özelliğini koruyarak, potansiyel olarak 128² = 16.384 konumunuz olabilir. GBK, menzili genişleterek bunun bir parçası A1FE (Her bayt için 94 seçenek) 81FE İlk bayt için (126 seçenek) ve 40FE (191 seçenek) ikinci bayt için, toplam 24.066 konum için.

Microsoft'un Kod Sayfası 936 genellikle GBK olarak düşünülür.[1] Ancak 95 PUA karakteri GBK 1.0'da eklenen Kod Sayfası 936'ya dahil değildir. Kod Sayfası 936'da ayrıca bir tek bayt vardır euro işareti 0x80'de GBK 1.0'ın sahip olmadığı.[9]

GBK'nın halefi, GB18030 -2000, ikinci bayt için kullanılabilen kalan aralığı kullanır (3039) GBK'yı bir alt küme olarak tutarken olasılıkların sayısını daha da genişletmek için.

Referanslar

  1. ^ a b c "Karakter Kümeleri". Alındı 3 Ekim 2016.
  2. ^ "Kod Sayfası 936 - PRC GBK (XGB)". Arşivlenen orijinal 2002-10-01 tarihinde. Arasındaki dönüşüm haritası Kod sayfası 936 ve Unicode. Manuel olarak seçmeniz gerekiyor GB18030 veya doğru şekilde görüntülemek için tarayıcıda GBK.
  3. ^ "Karakter Kodlamalarının Çin ve bölgeleri kullanan web siteleri arasında dağılımı". w3techs.com. Alındı 2020-06-01.
  4. ^ "Karakter kodlamalarının kullanımındaki geçmiş eğilimler, Haziran 2020". w3techs.com. Alındı 2020-06-01.
  5. ^ "Kodlama: Özetlenmiş test sonuçları". www.w3.org. Alındı 2019-11-15.
  6. ^ a b c Çin Standardizasyon İdaresi (SAC) (2005-11-18). GB 18030-2005: Bilgi Teknolojisi — Çin kodlu karakter seti.
  7. ^ GB 18030-2005 Standart s.9, 79
  8. ^ "Kodlama Standardı # gbk-kodlayıcı". W3C. Alındı 2016-10-02.
  9. ^ Scherer, Markus (4 Ocak 2002). "Re: GBK ve GB2312 ile Eğlence". Unicode Posta Listesi Arşivi. Alındı 4 Mart 2020.

Notlar

Dış bağlantılar

  • ICU'nun Yetkili GBK eşlemesi - parçası GB18030 verileri
  • GBK için Microsoft Referans sayfası
  • GBK'nın Unicode ile eşlenmesi Not: Bu, 21791 çift baytlık kod noktası, 96 tek baytlık grafik karakteri ve 33 kontrol karakteri için girişler içeren Microsoft kod sayfası 936'dır. Bu, 21886 karaktere sahip GBK ile tam olarak aynı değildir.
  • GBK Kod Tablosu N.B. Bu gbk kodlu sayfa, 23940 veya 21886'dan fazla olan toplam 32256 glif (gösterilmeyen tek baytlık ASCII kodlarıyla birlikte 32352) olmak üzere 2 yer dışında tamamen doldurulmuş kullanılabilir kodlama alanını gösterir. Bu tablonun gerçek görünümü tarayıcınızın GBK kod çözücüsüne bağlıdır.