XML-Know How

Semantisches Markup – die Dinge beim Namen nennen

Aber XML hat noch eine weitere Dimension. An den genannten Beispielen wurde schon deutlich, dass Inhalte mit XML sprachlich explizit gekennzeichnet werden können: ein Rezept kann in <rezept>-Tags gestellt werden. Die Art des Inhalts wird also »sprechend« beschrieben. Diese Art der Auszeichnung nennt man semantische Auszeichnung. Sie bringt erhebliche Vorteile mit sich.

Semantische Auszeichnung  = inhaltsbezogene Auszeichnung

Semantische Auszeichnungen sind aussagekräftiger als beispielsweise typographische, da in ihnen selbsterklärende und eindeutige Informationen abgelegt werden können. So ermöglichen semantische Auszeichnungen eine inhaltsorientierte Auswertung der Daten, die weit mehr leistet als eine reine Volltextsuche.

Ein Beispiel:
Die Volltextsuche nach einer Person mit dem Nachnamen »Bauer« wird auch den Beruf »Bauer« auswerfen, sofern dieser im Text vorkommt. Jeder, der schon einmal mit Google oder einer ähnlichen Suchmaschine nach allgemeinen Begriffen gesucht hat und von dem Überangebot an Fundstellen erschlagen wurde, kennt dieses Phänomen: Volltextsuche ist Verzweiflungssuche! Sie ist in aller Regel nicht präzise genug. Bei einer Suche in einem qualifizierten XML-Datenbestand kann – ähnlich einer Suche in Datenbankfeldern – präzisiert werden, in welchem Element der gesuchte Text stehen soll: Die Zeichenfolge Bauer etwa soll also nur angezeigt werden, wenn sie im Element <personenname> auftaucht. Die solcherart generierten Treffer sind viel präziser und damit für den Anwender wertvoller. Durch den hierarchischen Aufbau eines XML-Dokuments kann die Suche beliebig verfeinert werden.

Recherchierbarkeit von Verlagsinhalten

Elektronische Medien leben zu einem guten Teil von der schnellen und präzisen Recherchierbarkeit. Für fast jeden Verlagsinhalt lassen sich sinnvolle Suchanfragen definieren, die nur über gut aufbereitete Daten ermöglicht werden:

»Zeige den Namen ›Bauer‹ nur in Zitaten aus dem Mittelalter«
»Zeige nur vegetarische Rezepte unter 1000 Kalorien«
»Zeige nur kinderfreundliche Wanderrouten mit Einkehrmöglichkeit«

Eine Aufbereitung der Daten, die eine solche differenzierte Suche erlaubt, ist natürlich aufwändig – doch sie ist die beste Abgrenzung zu den kostenlosen Angeboten im Internet, wo in aller Regel diese Differenzierung nicht geleistet wird oder werden kann. Hier haben die Verlage also eine echte Chance, sich durch Premium-Content von den kostenlosen Angeboten im Internet abzugrenzen.

Verändern bzw. erweitern wir also das Tagging unseres Kochbuches ein weiteres Mal – dieses Mal um semantische Auszeichnungen und Attribute:

Beispiel:

<kochbuch>

<vorwort>

(…)

</vorwort>

<kapitel>

<rezept typ="fleischrezept" aufwand="mittel" kalorien="1200" kategorie="hauptgericht">

<ueberschrift1>Huhn mit Rosmarinkartoffeln</ueberschrift1>

<zutaten>

<z-angabe>

<menge>1</menge>

<zutat>frisches Huhn</zutat>

</z-angabe>

</zutaten>

</rezept>

<rezept typ="vegetarisch" aufwand="niedrig" kalorien="350" kategorie="vorspeise">

<ueberschrift1>Selleriesuppe</ueberschrift1>

<zutaten>

<z-angabe>

<menge>1</menge>

<masseinheit>Bund</masseinheit>

<zutat>Sellerie</zutat>

</z-angabe>

</zutaten>

(…)

</rezept>

</kapitel>

(…)

</kochbuch>

Die Daten haben nun bereits einen sehr hohen Grad an Auszeichnung erreicht, aus der sich viele verschiedene Produkte ableiten bzw. Fragestellungen an den Text beantworten lassen. Gleichzeitig ist diese Auszeichnung aber mit einem hohen Aufwand verbunden – denn irgend jemand muss die Informationen ja in den Content einpflegen. Oft hört man in diesem Zusammenhang das Argument, eine (sehr viel weniger aufwändige) typographische Auszeichnung der Texte reiche aus, da sie ebenfalls den Inhalt gemäß seiner Bedeutung kennzeichnet. Doch ist diese im Gegensatz zur semantischen Auszeichnung auf wenige Fälle beschränkt. Bei komplexen Inhalten müssen unterschiedliche Inhalte oft typografisch gleich dargestellt werden (z. B. Kursivstellung für Orts- und für Personennamen). Der Informationsgehalt typografischer Auszeichnungen ist dann nicht eindeutig und fast immer interpretationsbedürftig.

Merke

Aus semantisch gut strukturierten Texten kann man fast immer eine typographische Umsetzung automatisiert ableiten, umgekehrt gilt das nicht. Damit ist die semantische Auszeichnung die höherwertige – immer mehr Verlage gehen dazu über, ihre Daten so aufzubereiten.

Es ist eine große Herausforderung bei der Einführung von XML im Verlag, festzulegen, in welcher Auszeichnungstiefe die Daten ausgezeichnet werden sollen. Hier gilt es, zwischen Aufwand und Nutzen genau abzuwägen und vor allem bereits eine Vorstellung davon zu entwickeln, welche zukünftigen Produkte aus dem Datenbestand abgeleitet werden können sollen.