XML-Know How

Stolperstein 3:
Verlagsdaten enthalten überdurchschnittlich viel »Mixed Content«

Als »Mixed Content-Elemente« hatten wir diejenigen Elemente in XML bezeichnet, in denen gemäß DTD sowohl textliche Inhalte als auch weitere XML-Elemente zulässig sind. So wird in einem Absatz selten nur Text, sondern stets auch eine Kursivierung oder Hochstellung zulässig sein.

Was aber ist das Problem mit Mixed Content? Die Antwort ist frustrierend: Es ist fast unmöglich, in jedem Fall aber deutlich aufwändiger, eine DTD mit vielen Mixed Content-Strukturen im Satz vollständig auszuprogrammieren. Ein kleiner Ausschnitt aus einer Muster-DTD mag dies belegen.

Beispiel:

<!ELEMENT absatz (#PCDATA | fussnote | marginalie | fett | kursiv | tabelle)*>

<!ELEMENT fussnote (#PCDATA | fett | kursiv | tabelle)*>

<!ELEMENT marginalie (#PCDATA | fussnote | fett | kursiv)*

<!ELEMENT tabelle (#PCDATA | fussnote | fett | kursiv )*>

<!-- Das Tabellenmodell ist hier stark vereinfacht dargestellt -->

<!ELEMENT fett (#PCDATA | fussnote | marginalie | kursiv)*>

<!ELEMENT kursiv (#PCDATA | fussnote | marginalie | fett)*>

Jede einzelne der vordergründig hier in der DTD beschriebenen Strukturen ist wichtig und wird im Verlag mit Sicherheit benötigt. Warum sollte in einem Absatz keine Fussnote vorkommen? Warum sollte in einer Fussnote keine Kursivierung vorkommen? Und warum sollte in einer kursiven Textpassage kein Fussnotenaufruf stehen?

Schon an diesem sehr einfachen Beispiel sieht man, wie viele Kombinationen von Elementen im Satz ausprogrammiert werden müssen:

»fett in absatz«

»fett in kursiv in absatz«

»fett in fussnote in kursiv in absatz«

»fett in fussnote in marginalie in kursiv in absatz«

Bis hin zu den nicht beabsichtigten, aber möglichen Strukturen wie

»fussnote in fett in fussnote«

und so weiter und so weiter …

Verlagsprodukte leben vom freien Schreiben der Autoren, und es ist nicht zielführend, die Möglichkeiten der Textauszeichnung nur der leichteren Verarbeitung halber einzuschränken.

Viel einfacher mit dem automatisierten Satz tun sich weite Teile der Industrie, die Kataloge oder technische Dokumentationen aus Datenbanken heraus publizieren. Auch diese Publikationen erfolgen über XML – nur ist hier weder ein Roundtripping (siehe oben) erforderlich, noch gibt es ein freies Schreiben. Im Gegenteil, meist wird ein Datenbankfeld (z. B. die Bestellnummer eines Produktes) genau und eindeutig immer einer typographischen Umsetzung zugewiesen. Für diese Form des XML-Publishing sind auch die Layout-Systeme wie InDesign sehr gut geeignet und darauf bezieht sich auch deren Aussage, »xml-fähig« zu sein. Doch das reicht Verlagen bei weitem nicht aus – die Struktur des Contents ist hier weit komplexer (im Sinne der möglichen Vielfalt von vorkommenden Strukturen) und vor allem nicht vorhersehbar.