XML-Know How

Zweiteilung der Arbeiten

1. Die Datenstrukturierung

Das Vorhandensein einer DTD, über die alle Werke abgebildet werden können[1], führte zu einer klaren Abgrenzung von Arbeitsschritten und zum Aufbau einer neuen Arbeitsgruppe bei pagina: Dem Struktur-Team. Dieses hat die Aufgabe, alle Daten, die zu pagina zum Satz kommen, zunächst gemäß der Werksatz-DTD zu konvertieren. Hierfür stehen zahlreiche Konvertierungstools zur Verfügung; je nach Quelldatenlage wird aber auch von Hand eingegriffen, Text neu erfasst oder mit copy-paste in die gewünschte XML-Zielstruktur überführt. Die Arbeit des Strukturteams ist erst abgeschlossen, wenn das Werk fehlerfrei geparst in sauberen XML-Strukturen vorliegt.

Arbeitsumgebung im XML-Editor

Dabei besteht die Gefahr, dass »valider Nonsens« entsteht, d. h. die Strukturen zwar gemäß DTD korrekt sind, aber den Inhalt des Werkes nicht sinnvoll abbilden. Deshalb ist neben dem Parsen der Daten ein erster, vollautomatisch generierter Satzausdruck der Daten Bestandteil der Qualitätssicherung der Konvertierung. Denn jeder Fehler in den Daten, der schon jetzt entdeckt und behoben wird, beschleunigt die nachgelagerten Prozesse massiv.

Idealerweise wird dieser Kontrollausdruck bereits in der gewünschten Typographie vorgenommen. Wenn die Satzanweisung vom Verlag schon vorliegt, ist das Ausfüllen der Metadaten zur Satzsteuerung daher Bestandteil und Abschluss der Konvertierungsarbeiten. Kann dies noch nicht erfolgen, wird für das Generieren des Kontrollausdrucks auf die Voreinstellungen der Typo-DTD zurückgegriffen. In jedem Fall entsteht der Kontrollausdruck bereits in der echten Satzumgebung und stellt in sofern keine (möglicherweise fehlerbehaftete) Simulation dar.

<p class="bildlegende">Ausschnitt aus dem Protokoll des Dokumentencheckers: Auflistung aller nicht-ASCII-Zeichen und ihrer Häufigkeit im Text</p>

Zu guter Letzt werden die Daten noch mit einem ebenfalls selbst entwickelten »Dokumentenchecker« vollständig analysiert und zusammen mit dessen Ergebnisprotokoll an den Setzer übergeben. Dieses Ergebnisprotokoll beinhaltet eine Auflistung sämtlicher vorhandenen Tags und ihrer Häufigkeit, sämtlicher Sonderzeichen[2] und satztechnischer Schwierigkeiten[3]. Auch die vorgenommenen Einstellungen der Typographie werden auf einem eigenen Blatt ausgegeben und können mit der Satzanweisung des Verlages abgestimmt werden.

2. Die Satzarbeiten

Wurde die Einrichtung der Typographie korrekt und vollständig vorgenommen, so entspricht der Kontrollausdruck bereits dem Abschluss des Satzprozesses, den ein Satz-Vollautomat leisten kann. Doch jede Automatisation hat ihre Grenzen, die wir aber für anspruchsvollen Werksatz nicht akzeptieren wollen. Daher durchläuft der Auftrag nun erst die eigentlichen Satzarbeiten als eigenen Prozessschritt.

Der Setzer übernimmt die Daten, zusammen mit der vollständigen Dokumentation, vervollständigt ggf. die Metadaten zur Satzeinrichtung, überprüft den Umbruch und greift an allen Stellen ein, an denen der Automatismus kein optimales Ergebnis erzielt – und solche Stellen wird es immer geben: Hurenkinder können häufig nur durch manuelle Eingriffe vermieden werden, Abbildungen müssen umplatziert werden, auch die Vorgaben von maximaler Spatienbreite und Anzahl von aufeinanderfolgenen Trennungen werden sich häufig widersprechen.

User-Interface zur Steuerung des TUSTEP-basierten Satzprozesses

Um den durchgängigen XML-Workflow nicht zu gefährden, werden auch diese Handeingriffe ausschließlich in den XML-Daten vorgenommen, und zwar mit Hilfe von sog. Processing Instructions (PI)[4]. Diese Konstruktion in XML erlaubt es, beliebige Steuercodes in eine Datei einzufügen, ohne deren Struktur zu gefährden. Mit Abschluss der Satzarbeiten können sämtliche PIs (oder jede gewünschte Teilmenge davon) mit einem einfachen Suchbefehl wieder aus den XML-Daten eliminiert werden.


     

  1. ↑  »Alle Werke« heißt hier: Alle Werke, für die der Auftraggeber nicht eine bestimmte Struktur vorgibt bzw. die nicht so komplex sind, dass sie einen eigenen Workflow erfordern (wie z. B. historisch-kritische Werkausgaben, mehrsprachiger Parallelsatz etc.).
  2. ↑  Als »Sonderzeichen« haben wir hier alle nicht-ASCII-Zeichen definiert. Somit sieht der Setzer auf einen Blick, ob es bei dem Werk zu Schwierigkeiten mit bestimmten Schriften kommen kann.
  3. ↑  Als »Satztechnische Schwierigkeit« haben wir das Vorhandensein von Tabellen, Listen, Fußnoten, Abbildungen, Formeln, Marginalien etc. definiert. Daraus lässt sich auf die Komplexität des Titels schließen.
  4. ↑  Eine PI sieht syntaktisch wie ein normales Tag aus, beginnt und endet jedoch immer mit einem »?«. Innerhalb dieser Begrenzungszeichen können beliebige Steueranweisungen (processing instructions) stehen, die vom Satzsystem ausgewertet werden können, z. B. <?sp-10?> (»Spatienbreite um 10 / 1000 Geviert verringern«). Beim Parsen werden PIs ignoriert, so dass die Daten valide bleiben.
  5.