XML-Know How

Semantische Auszeichnung in XML

Bei allen Beispielen haben wir für die Benennung der Elemente sprechende Bezeichnungen gewählt. Diese Art der Auszeichnung, die den Inhalt beschreibt, wird auch als semantische Auszeichnung bezeichnet. Sie ist nicht die einzig mögliche: Man kann Elemente auch direkt formatierungsbezogen benennen, also z. B. in einem Text alle Textteile, die fett gedruckt werden sollen, mit dem Element <fett> kodieren:

<absatz>Hier ist <fett>Meier</fett> ganz anderer Aufassung.
</absatz>

Das ist beispielsweise bei HTML, der Auszeichnungssprache des WWW, der Fall: Ein Text, der am Bildschirm fett dargestellt werden soll, muß von dem Tag <b>(...)</b> (für bold) umschlossen werden.

Diese Art, XML zur Kodierung typographischer Auszeichnungen zu verwenden, hat aber eklatante Nachteile. Eine rein typographische Auszeichnung gibt die Struktur eines Dokuments selten präzise wieder, weil sie relativ undifferenziert ist. Da es nur eine begrenzte Zahl typographischer Auszeichnungen gibt und eine übermäßige Verwendung solcher Auszeichnungen die Lesbarkeit eines Textes schnell behindert, müssen in der Regel identische Auszeichnungen für strukturell verschiedene Inhalte verwendet werden.

Nehmen wir an, in einem Werk werden alle Hervorhebungen typographisch in gleicher Weise halbfett umgesetzt. Für den menschlichen Leser, der den halbfetten Begriff im Kontext liest, ist damit eine meist hinreichend präzise Kennzeichnung von Personen, von Orten, von Werktiteln, zentrale Aussagen usw. vorgenommen. Dem Computer aber fehlt das nötige Hintergrundwissen; er kann den Kontext nicht verstehen. Damit sind die unterschiedlichen Inhalte für den Rechner nicht mehr unterscheidbar – und damit auch nicht mehr getrennt recherchierbar. Aus einer typographischen Auszeichnung kann also oft keine eindeutige sachliche Zuordnung getroffen werden.

Hingegen lässt sich aus einer beliebig komplexen sachlichen Auszeichnung immer eine typographisch einwandfreie Lösung erzeugen: den XML-Elementen <person>, <ort>, <werktitel>, <zentrale_aussage> kann bei der Druckausgabe einheitlich die Formatierung »halbfett« zugeordnet werden. Daneben sind die Inhalte computergestützt weiterverarbeitbar, z. B. für die automatische Erstellung von getrennten Personen-, Orts- und Werktitelregistern.

Der entscheidende Vorteil der semantischen Auszeichnung gegenüber einer direkten typographischen Formatierung ist daher folgender: Es lassen sich beliebige Elemente präzise kennzeichnen, unabhängig davon, ob sie typographisch hervorgehoben werden sollen. Damit ist die technische Grundlage für die automatische Weiterverarbeitung oder die gezielte Durchsuchbarkeit der Texte gegeben.

Die Auszeichnung

<absatz>Im Jahre 1924 war <personenname>Stresemann
</personenname> häufig in <ortsname>Stuttgart</ortsname> zu finden.</absatz>

erlaubt dem Rechner z. B. eine gezielte Suche nach Personen und Orten (die Anweisung für den Rechner würde hier sinngemäß lauten: »Durchsuche nur den Text, der zwischen den Zeichenfolgen <ortsname> und </ortsname> steht«), während das Tag <ortsname> möglicherweise im Satz typographisch überhaupt nicht ausgewertet wird – gleichzeitig aber im Datenbestand erhalten bleibt.

Auch um etwa ein Orts- und Personenregister automatisch aus dem Text zu generieren – sei es in Printform oder als Auswahlmenü bei der CD-ROM-Ausgabe –, kann man die als XML-Elemente kodierten Orts- und Personennamen verwenden. Um noch detailliertere Register über Autoren, historische und literarische Personen anzulegen, wären im Text entsprechend weiter differenzierte Elemente notwendig:

<absatz><autor>Goethe</autor> nutzte als Vorbild für die Figur des <literar.person>Werther</literar.person> seinen Freund <histor.person>Carl Wilhelm Jerusalem<histor.person>.
</absatz>

Die Komplexität der Strukturierung sollte dabei kein Selbstzweck sein, sondern die angestrebten Verwertungen des Datenbestandes vorbereiten. Eine wirklich vollständige Auszeichnung eines Textes ist per definitionem unmöglich. Wenn also die XML-Kodierung von Texten auch medienneutral ist, so ist sie doch nicht nutzungsneutral, sondern spezifisch auf die jeweiligen Bedürfnisse ausgerichtet.