XML-Know How

Die Dokumentanalyse

Bevor man an die technische Kodierung eines Dokumentes in XML gehen kann, muss die Struktur dieses Dokumentes bekannt sein. Das Erarbeiten und Beschreiben der Struktur eines Dokumentes bezeichnet man als Dokumentanalyse. Häufig verwendete Synonyme sind Strukturanalyse, Werkanalyse oder Werkstrukturanalyse.

Struktur nennt man die Summe der Beziehungen aller eindeutig benennbaren Bestandteile eines Dokumentes. Man unterscheidet hierbei hierarchische und nicht-hierarchische Strukturen sowie lineare und nicht-lineare Strukturen.

Die hierarchische Struktur entspricht dem vertikalen Aufbau eines Dokumentes mit seinen Abschnitten auf den unterschiedlichen Gliederungsebenen (Kapitel, Unterkapitel, Untergliederung der Unterkapitel etc.). Bei der Kodierung hierarchischer Strukturen kommt es darauf an, die Gliederungsebene jedes Textabschnitts und seine Zugehörigkeit zu über ihm liegenden Ebenen eindeutig zu kennzeichnen.

Nicht-hierarchische Strukturen oder Binnenstrukturen umfassen die in einem hierarchischen Abschnitt (Kapitel, Unterkapitel u. ä.) vorkommenden Elemente, die selbst nicht hierarchisch aufgebaut sind. So befinden sich die Überschrift, die Absätze und Abbildungen eines konkreten Abschnittes auf ein und derselben Ebene. Zwar geht die Überschrift in der Regel allen Absätzen voran, aber Absätze oder Abbildungen sind keine Untergliederungen der Überschrift oder anderer Absätze oder Abbildungen, ihr Verhältnis zueinander ist mithin nicht-hierarchisch. Nicht-hierarchische Binnenelemente wie Absätze und Abbildungen können oft in beliebiger Reihenfolge nebeneinander stehen, so dass sie weder durch ihre Position in der Hierarchie noch durch ihre Reihenfolge unterschieden werden können. Elemente in nicht-hierarchischen Strukturen müssen daher nach ihrem Inhaltstyp unterschieden werden.

Strukturtypen eines Dokuments

Lineare Struktur nennt man die sequenzielle Abfolge der Elemente. Lineare Strukturen können unbestimmt (indeterminiert) sein, d. h. die Abfolge der Elemente ist beliebig (z. B. Absätze und Abbildungen eines Abschnitts), oder determiniert, d. h. die Reihenfolge der Elemente ist festgelegt (z. B. muss eine Überschrift am Anfang eines Abschnittes stehen, dann folgen meist Absätze, dann mitunter z. B. bibliographische Angaben). Bei der Kodierung von linearen Strukturen muss also die korrekte Reihenfolge der Elemente in einem konkreten Dokument wiedergegeben werden. Weiterhin sollte es möglich sein, für einen Dokumenttyp anzugeben, welche linearen Strukturen determiniert und welche indeterminiert sind.

Die nicht-lineare Struktur schließlich beeinhaltet alle Elemente eines Textes, die nicht-lineares Lesen ermöglichen, also eine Lektüre, die vor allem aus inhaltlichem Interesse nicht aufeinander folgende, sondern weiter auseinander liegende Textabschnitte rezipiert. Inhaltliche Verbindungen nicht-linearer Art werden durch Querverweise (»Hyperlinks«), Fußnoten, Register etc. repräsentiert. Eine Strukturkodierung muss auch diese »Kreuz- und Querbeziehungen« vollständig abbilden können.

Alle diese Strukturen lassen sich in XML beschreiben.

Da es bei einem XML-Projekt in der Regel nicht um ein einziges Dokument geht, sondern um viele Dokumente eines Typs, kommt es bei der Dokumentanalyse nicht darauf an, die konkreten Strukturen eines bestimmten Dokumentes zu beschreiben, sondern alle Strukturen, die in dem betreffenden Dokumenttyp auftreten können.

Meist wird man die Dokumentanalyse anhand von Beispieldokumenten durchführen. Dabei ist es nicht wichtig, den Umstand zu beschreiben, dass das Beispieldokument etwa im ersten Abschnitt fünf Absätze und im zweiten drei und eine Abbildung aufweist.

Es kommt vielmehr darauf an zu definieren, welche Abschnittstypen es gibt und welche Elemente (Absätze, Aufzählungen, Tabellen etc.) sie typischerweise enthalten. So könnte man für dieses Kompendium definieren: Abschnitte der obersten Ebene müssen eine Überschrift, einen besonderen Einführungsteil, sodann Absätze und Abbildungen in beliebiger Zahl und Reihenfolge und am Ende ein Fazit haben. Außerdem können sie Unterabschnitte enthalten. Diese Unterabschnitte dagegen dürfen nur aus Überschrift, Absätzen und Abbildungen bestehen.

Bei der Dokumentanalyse stellt sich auch die Frage, wie weit diese Beschreibung gehen soll, also durch welche Elemente das zur Bearbeitung anstehende Dokument hinreichend präzise strukturiert werden kann.

Während die Abbildung von hierarchischen Strukturen immer vollständig sein muss, stehen bei Binnenstrukturen inhaltliche und konzeptionelle Entscheidungen an. Die Kennzeichnung der Elemente »Überschrift« und »Absatz« innerhalb eines Kapitels dürfte z. B. noch unstrittig sein, da diese Elemente in jedem Fall unterschieden werden müssen. Anders sieht es bei Textteilen im eigentlichen Fließtext aus. Hier müssen die Inhaltstypen nach pragmatischen Kriterien definiert werden.

Inhaltstypen sind Textteile mit besonderem Inhalt, der sich einem Typ zuweisen lässt. Ein Inhaltstyp sind beispielsweise Personennamen. Die Kodierung aller Zeichenfolgen im Text, die Namen darstellen, kann verschiedenen Zwecken dienen. Man kann dann z. B. die Namen typographisch hervorheben oder auf Basis der im Text als solche gekennzeichneten Namen ein Namensregister erstellen. In einer CD-ROM-Anwendung könnte man auf der Grundlage eines solchermaßen aufbereiteten Datenbestandes gezielt nach Personen suchen, z. B. mittels einer Auswahlliste aller Personennamen, die im Text vorkommen.

Je nach Art des Textes und der vorgesehenen Texterschließung werden andere oder weitergehende Typisierungen nötig sein. Will man in einer literaturhistorischen Abhandlung getrennte Register über Autoren, historische und literarische Personen anlegen, sind im Text entsprechend differenzierte Kennzeichnungen der betreffenden Textteile notwendig. In einem naturwissenschaftlichen Text werden solche Textbestandteile dagegen gar nicht auftreten, und wenn sie es doch tun, nicht die Relevanz haben wie in der Geisteswissenschaft.

Die Entscheidung über den Differenzierungsgrad bei der Typisierung von Textteilen ist von eminenter Wichtigkeit. Denn das Einbringen solcher Informationen ist ein eigener redaktioneller und technischer Schritt, der immer auch mit Kosten verbunden ist. Andererseits ist es gerade die Nutzbarkeit dieser Informationen, die einen Text aufwertet und so zum Erfolg eines Publikationsvorhabens entscheidend beitragen kann.

Daher wird der Aufwand bei der Auszeichnung immer den geplanten Verwertungen des Datenbestandes folgen. Es ist wichtig, sich klarzumachen, dass die Entscheidung darüber, was alles ausgezeichnet werden soll, eine inhaltliche und keine technische Verantwortung ist, die vor der technischen Umsetzung geschehen muss.