XML-Know How

Daten strukturieren mit Auszeichnungssprachen

Strukturen statt Formatierungen

Fasst man diese Forderungen zusammen, so ergibt sich daraus eine logische Konsequenz: Der Content, über den der Verlag verfügt, muss in einer Form vorliegen, die als Quelle für alle Ausgabeformen dient. Das kann nicht eine formatierte Satzdatei sein, denn diese ist bereits auf ein Medium, in aller Regel auf das Printmedium hin, optimiert. Statt der Formatierung eines Dokuments ist vielmehr seine Struktur eindeutig zu beschreiben.

Abgrenzung Struktur ‹–› Layout

Der Strukturbegriff wird noch häufiger gebraucht werden. Grenzen wir daher zunächst einmal »Struktur« von »Formatierung« ab. Der wichtigste Unterschied ist, dass die Struktur einem Dokument aus seinem Inhalt heraus innewohnt, während die Formatierung nichts Absolutes ist – eine Überschrift ist und bleibt eine Überschrift (=Struktur), gleichgültig, wie sie typographisch umgesetzt wird (=Format). Allgemein formuliert: Ein Dokument, das eine bestimmte Struktur aufweist, kann auf die unterschiedlichste Weise formatiert werden, ohne dabei die spezifische Struktur zu verlieren. Wenn also ein Text und seine Struktur eindeutig kodiert sind, wird sich daraus eine systematische Formatierung automatisiert herstellen lassen.

Abb. 23 Das Grundprinzip von medienneutraler Datenhaltung ist die Trennung von Struktur und Layout

Dieser Gedanke ist nicht neu. Schon immer war es die Aufgabe des Schriftsetzers, die Struktur des Textes sichtbar zu machen. Er bedient sich dabei der Möglichkeiten der Typographie. Das heißt: Die Typographie dient dazu, dem Leser die Struktur des Textes (nicht nur seinen Inhalt) verständlich zu machen. Eine Überschrift beispielsweise kennzeichnet den Beginn eines Kapitels. Das ist keine typographische, sondern eine strukturelle Information, die der Autor bereits erdacht hat und die somit untrennbar zum Inhalt gehört. Erst die Umsetzung der Überschrift in fette oder größere Schrift ist Formatierung – diese ist nichts Absolutes, sondern folgt gestalterischen Regeln. Insofern ist es seit jeher Voraussetzung für gute Typographie, dass sich Hersteller/Produktioner und Schriftsetzer mit der Struktur eines Textes genauestens befassen, um sie typographisch umsetzen zu können.

Wie speichert man
Textstrukturen ab?

Es gilt nun, neben dem Inhalt auch die Struktur eines Textes in einer objektivierten und für den Rechner lesbaren Form im Dokument abzuspeichern. Der Text wird dadurch automatisiert für jede Form der Weiterverarbeitung verwendbar, und zwar in beliebiger Typographie und für die unterschiedlichsten Ausgabeformen. Damit wird dem Anspruch auf Medienneutralität Rechnung getragen.

Indem die Struktur explizit in den Daten kodiert ist, entfällt die Notwendigkeit, sie immer wieder für die verschiedenen an der Produktion beteiligten Stellen (Lektorat/Redaktion, Herstellung/Produktion, technische Betriebe) erschließen zu müssen. Die Daten sind damit über die reine Volltextsuche hinaus auch durch intelligente Suchanfragen recherchierbar (»zeige mir nur vegetarische Rezepte unter 1000 Kalorien«) und damit deutlich wertvoller. Und vor allem: Der Weg zu kostengünstiger Mehrfachnutzung ist damit frei.

Auch Informationen, die nicht im Printwerk erscheinen sollen, aber für eine elektronische Nutzung relevant sind, müssen in denselben Datenbestand eingepflegt werden: Querverweise, Verschlagwortungen, Geo-Codierung, Videoaufrufe und viele weitere Angaben gehören – je nach Verlagsprogramm und geplanter Zweitverwertung – ebenso in die Daten wie der Text selbst.

Auch darüber hinaus gehören zu einem Text sehr viel mehr Informationen, als zur rein typographischen Umsetzung benötigt werden. Diese Informationen werden gemeinhin als Metadaten bezeichnet. So lassen sich beispielsweise zu einem Bild Informationen über die Bildrechte, zu einem Lexikonartikel Angaben über den Korrekturstatus, zu einem ganzen Buch bibliographische Hinweise als Metadaten anlegen.