XML-Know How

Die Datenqualität

Der konventionelle Publikationsworkflow

Betrachten wir dafür einmal eine Kochbuchproduktion des Schlaumeier-Verlages. Hier wird »konventionell«, d. h. buchzentriert gearbeitet, so wie das heute in den meisten Verlagen üblich ist.

In diesem Fall durchläuft ein Titel folgende Produktionsworkflows:

Am Anfang steht die Buchidee. Diese wird von der Lektorin in ein Konzept überführt, das im Idealfall bereits die Belegung der einzelnen Buchseiten in Form eines Skribbles umfasst.

Abb. 15 Der konventionelle Buchworkflow: Am Anfang steht die Buchidee

Auf der Grundlage dieses Seitenbelegungs-Plans kann ein Autor beauftragt werden, die entsprechenden Rezepte zu entwickeln und als Manuskript zu liefern.

Abb. 16 Der Autor verfasst das Manuskript in beliebiger Form

Der Übersichtlichkeit halber betrachten wir im Folgenden nur einen kleinen Ausschnitt aus einem Rezept:

Zutaten:

1 frisches Huhn

Dieser kurze Text umfasst gerade einmal 24 Zeichen (er sollte also in UTF-8-Codierung auch nur 24 Byte Speicherplatz umfassen). Er soll nun einerseits in Druckform gebracht, also ansprechend formatiert werden, und andererseits auch als Grundlage für eine elektronische Fassung dienen. Zunächst einmal muss der Text erfasst werden. Das geschieht, wie allgemein üblich, in Word, dem am weitesten verbreiteten Textverarbeitungssystem.

Abb. 17 Das Manuskript wird erfasst bzw. von einem Copy Editor überarbeitet

Die Daten sind nun elektronisch gespeichert, aber in einem ganz bestimmten Format, nämlich dem internen Speicherformat von Word. Am Bildschirm steht dabei genau der kurze Wortlaut, den wir erfasst haben – doch was wurde tatsächlich auf die Festplatte des Rechners gespeichert? Ein Blick in den Quellcode der Word-Datei lässt schlimmes vermuten:

Abb. 18 Ausschnitt aus den Original-Word-Daten. Solche Daten sind nicht medienneutral!

Der eigentliche Content (»Zutaten: 1 frisches Huhn«) geht fast unter in der Menge an sonstigem Code – insgesamt weist die Datei ein Speichervolumen von ca. 20 kB (20.000 Byte) auf, also fast tausendmal so viel Code, wie wir eigentlich an Content erfasst haben.

Dieser Code wird nun an das Satzsystem (in unserem Beispiel: InDesign) übergeben.

Abb. 19 Die Daten gehen in den Satz

Durch das Layouten der Daten wird der Text dabei mit immer mehr Zusatzinformationen angereichert, wie der Blick in den Quellcode der InDesign-Datei vermuten lässt:

Abb. 20 Ausschnitt aus den InDesign-Daten. Auch diese Daten sind nicht für eine crossmediale Verwendung geeignet

Die Datei (sie enthält immer noch nur die Worte »Zutaten: 1 frisches Huhn«!) ist mittlerweile auf ein Dateivolumen von 944 Kilobyte angewachsen, d. h. das etwa dreißigtausendfache des ursprünglichen Datenvolumens.

Das Buch mag nun – nach Abschluss der Layoutphase – ein hervorragendes Produkt geworden sein; die Daten des Buches aber sind für eine automatisierte Zweitverwertung definitiv ungeeignet.

Abb. 21 Der Abschluss der konventionellen Buchproduktion: Das Printprodukt ist fertiggestellt – aber wie sehen die Daten aus?

Es stellt sich die Frage, warum das Datenvolumen so stark angeschwollen ist und welcher Art die Informationen sind, die nicht den eigentlichen Text betreffen. In der Antwort liegt das Hauptproblem der »klassischen« Buchproduktion verborgen: In der Regel werden Inhalt und Formatierung gemeinsam abgespeichert. Wird in einem der gängigen Programme (hier: Word bzw. InDesign) eine Datei abgespeichert, so wird genau eine Datei erzeugt – im Beispiel Word die .doc-Datei. Wird diese wieder geöffnet, so erwartet der Anwender nicht nur den Inhalt, den er eingegeben hat, wieder am Bildschirm zu sehen, sondern vielmehr den Inhalt in genau der Gestaltung (Satzspiegel, Schriftart, Zeilenabstand, Farbigkeit und vieles mehr), wie er ihn abgespeichert hat. In der einen Datei, die abgespeichert wurde, muss also viel mehr Information enthalten sein als nur der eigentliche Inhalt. Je nach Software sind auch noch die Angaben über die letzten vorgenommenen Arbeitsschritte in der Datei enthalten, damit der Anwender über die »Rückgängig«-Funktion alte Stände der Arbeit wieder herstellen kann.

All das ist sehr komfortabel für die Arbeit am Druckwerk – für die Weiterverarbeitung der Daten in anderen Medien sind diese Informationen in aller Regel unerwünscht. Die Vermischung von Inhalt und Layout-Information ist dabei so stark, dass häufig eine Neuerfassung der Texte günstiger ist als die Konvertierung der fertig umbrochenen Daten.