XML-Know How

Unicode

Die Zeit war reif für eine neue Form der Zeichencodierung, die weltweit Gültigkeit hat und keine Länder oder Kulturen ausgrenzt. Etwa 30 Jahre nach der Einführung von ASCII, nämlich schon 1991, wurde daher ein neues Codierungsschema ins Leben gerufen: Unicode.

Unicode war in seiner ursprünglichen Fassung ein reiner Zwei-Byte-Code. Das heißt, jedes Zeichen, das in den Rechner eingegeben wird, belegt nicht mehr ein Byte Speicherplatz, sondern zwei. Damit stehen rechnerisch nicht mehr 28=256 eindeutig codierbare Zeichen zur Verfügung, sondern 216= 65.536 Zeichen.

Abb. 13 Durch den Einsatz von UNICODEentfällt meist die Notwendigkeit, Sonderzeichen über Entities zu codieren: Mehr als 1 Million Zeichen sind eindeutig plattformneutral codierbar

Ziel der Entwickler war es, alle Zeichen aller gesprochenen Staatssprachen dieser Welt – und viele weitere Zeichen (mathematische Symbole, Phonetik etc.) eindeutig abzubilden. Dieses Ziel darf heute als erreicht angesehen werden und ist von nicht zu unterschätzender kulturpolitischer Tragweite: Sind doch erstmalig alle Sprachen weltweit – auch solche, die nur noch in kleinen Regionen dieser Welt gesprochen werden – völlig gleichberechtigt am weltweiten Datenaustausch beteiligt.

Abb. 14 Grafische Darstellung der Basic Multilingual Plane

Mit der Entwicklung von Unicode 2.0 (1996) gibt es nun insgesamt 17 solcher 2-Byte-Bereiche, so dass in Wirklichkeit über 1 Million Zeichencodierungsplätze zur Verfügung stehen. Die meisten davon sind noch nicht definiert.

UTF-8

Im westlichen Kulturkreis hat sich die Codierungsform UTF-8 zur Speicherung von Unicode-Zeichen durchgesetzt. UTF-8 (8-bit Universal Character Set Transformation Format) speichert die 128 Zeichen des ASCII-Codes auf nur einem Byte, die weiteren Zeichen (also die nicht-lateinischen Schriftzeichen) auf zwei bis maximal vier Bytes. Damit können alle alten ASCII-codierten Daten einfach mit »copy&paste« in eine Unicode-Datei übernommen werden, ohne dass sie erst in ein Zwei-Byte-System konvertiert werden müssten. Da außerdem in der westlichen Welt die lateinischen Grundbuchstaben die mit Abstand häufigsten Zeichen sind, führt der Einsatz von UTF-8 in unserem Kulturkreis zu besonders schlanken Daten, d. h. diese brauchen wenig Speicherplatz.

Die »neue« Form der Codierung von Webseiten, nämlich XHTML statt HTML, basiert stets auf dem UTF-8-Format.

Merke

Unicode ist ein Standard zur Zeichencodierung, der eine plattformneutrale Speicherung von Textdaten zum Ziel hat. »Plattformneutral« heißt, dass die Daten auf verschiedenen (Rechner-)Plattformen gelesen werden können, ohne konvertiert werden zu müssen. Die Plattformneutralität ist die wichtigste Grundlage des elektronischen Publizierens.

Mit Unicode haben wir also bereits eine wichtige Voraussetzung erreicht, um Verlagsinhalte auch elektronisch anbieten zu können. Doch sind wir damit noch lange nicht am Ziel: Auch Word- oder InDesign-Daten arbeiten mittlerweile intern auf Basis von Unicode – dennoch sind diese Daten weit davon entfernt, ohne Konvertierung elektronisch verwertet werden zu können. Neben dem (mit Unicode gelösten) Problem der Codierung der einzelnen Zeichen müssen wir uns also auch noch mit der Art der Speicherung ganzer Dateien auseinandersetzen.