GB2312
GB2312 ist einZeichensatz (englischCoded Character Set) fürvereinfachte chinesische Schriftzeichen, der 1980 eingeführt wurde. Er umfasst insgesamt 7.445 Zeichen, davon 6.763 chinesische Schriftzeichen.
Alle Zeichen sind in einer 94×94-Matrix angeordnet[1], somit sind maximal 8.836 Zeichen möglich. Dieses System wird auch vonJIS X 0208 undKS X 1001 verwendet.
Der erste Bereich (Zeile 1 bis 9) kodiert Satzzeichen sowie diegriechische Schrift, diekyrillische Schrift, japanischeKana,Zhuyin sowie Buchstaben fürPinyin. Die beiden anderen Bereiche enthalten chinesische Schriftzeichen: In Zeile 16 bis 55 sind chinesische Schriftzeichen nach der Pinyin-Transliteration sortiert, die Zeilen 56 bis 87 enthalten chinesische Schriftzeichen nach der Sortierung imKangxi-Wörterbuch.
Kodierung
[Bearbeiten |Quelltext bearbeiten]Vom Zeichensatz selbst ist dieKodierung (englischCharacter Encoding Scheme) zu unterscheiden.[2]
GB2312 wird normalerweise in Form vonEUC-CN verwendet. Dabei sind die beiden ZeichensätzeUS-ASCII (als 1-Byte-Zeichen) und GB2312 (als 2-Byte-Zeichen) kombiniert. Zur Unterscheidung von den ASCII-Zeichen wird zu den Zeilen- und Spalten-Nummern der GB2312-Zeichen jeweils 160 (0xA0) addiert,so dass Bytes im Bereich 0xA1 bis 0xFF entstehen. Das 1. Byte entspricht dabei der Zeilennummer, das 2. Byte der Spaltennummer.
Im Mailverkehr war auch die 7-Bit-KodierungHZ üblich.
Weiterentwicklung
[Bearbeiten |Quelltext bearbeiten]1995 wurde GB2312 durch die SpezifikationGBK erweitert, die jedoch nie offizielle Norm wurde und somit keine GB-Nummer bekam.[3] Durch die Verwendung unter Windows fand sie jedoch große Verbreitung.
2000 wurde GB2312 offiziell vonGB18030 abgelöst, wird jedoch weiterhin häufig verwendet.
Verwendung unter Windows
[Bearbeiten |Quelltext bearbeiten]UnterWindows ist GB2312 in der EUC-CN-Kodierung alsCodepage 20936 verfügbar.Dazu muss unter Windows XP die Erweiterungsoption „Dateien für ostasiatische Sprachen“ installiert sein. UnterWindows 7 ist keine Erweiterungsoption notwendig, GB2312 ist hier standardmäßig verfügbar.
An einigen Stellen wird unter Windows jedoch die Codepage 936 fälschlicherweise als GB2312 bezeichnet. In Wirklichkeit ist Codepage 936 eine Implementierung vonGBK.Im Dialog „Dateikonvertierung“ vonMicrosoft Word 2003 und Word 2010 wird Codepage 936 als „Chinesisch vereinfacht (GB2312)“ und Codepage 20936 als „Chinesisch vereinfacht (GB2312-80)“ zur Auswahl angeboten.
Weblinks
[Bearbeiten |Quelltext bearbeiten]- Zeichentabelle GB2312 beiO’Reilly (PDF; 3,6 MB) oder beiC. Wittern, Kyoto (PDF; 3,6 MB) (Anmerkung: Zeile 10 und 11 dieser Darstellung enthalten die halbbreiten Varianten der ASCII-Zeichen (aus Zeile 3) und der fürPinyin verwendeten lateinischen Sonderzeichen (aus Zeile 8). Diese Inhalte sind nachträgliche Ergänzungen.)
- Zeichentabelle in der Form von EUC-CN. Ngai Kim Hoong (englisch).
Einzelnachweise
[Bearbeiten |Quelltext bearbeiten]- ↑Ken Lunde:CJKV Information Processing. 1. Auflage. O’Reilly, 1999,ISBN 1-56592-224-7. 2. Auflage: 2009,ISBN 0-596-51447-6;App. E. (Memento desOriginals vom 22. November 2004 imInternet Archive; PDF) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäßAnleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/examples.oreilly.de (PDF; 3,6 MB)
- ↑RFC:2978 –IANA Charset Registration Procedures. Oktober 2000 (englisch).
- ↑sieheGB Standard