XML-Know How

XML als HTML-Alternative

Man kann die Auszeichnung nach XML-Konventionen aber auch auf die typografische Ebene reduzieren, indem man die Tag-Namen so wählt, dass sie keine Inhalte beschreiben, sondern direkt Formatierungsangaben darstellen.

Genau das ist bei HTML (Hypertext Markup Language), der Sprache des World Wide Web, der Fall. Wer schon einmal HTML-Quelltext gesehen hat, dem wird die für XML typische Art der Textanreicherung mit unterschiedlichen Tags bekannt vorkommen.

Im Gegensatz zum frei definierbaren XML ist bei HTML genau festgelegt, welche Tags für welchen Zweck verwendet werden müssen. HTML-Tags sind zudem bis auf ganz wenige Ausnahmen nicht inhaltsorientiert, sondern geben an, wie der markierte Text auf dem Bildschirm angeordnet werden soll oder wie er typographisch umgesetzt werden soll. So wird <p>(...)</p> etwa immer für Absätze (paragraphs) verwendet, <b>(...)</b> steht immer für fetten (bold) Text, <i>(...)</i> für kursiv (italics) und so weiter.

Der Nachteil aller typografischen Auszeichnungen, die mangelnde inhaltliche Eindeutigkeit, ist auch der entscheidende Nachteil von HTML, sobald es um eine inhaltsorientierten Auswertung der Seite geht. Internet-Suchmaschinen bringen wegen der fehlenden Eindeutigkeit sehr oft wenig hilfreiche Resultate.

Möchte man beispielsweise Weine im Internet kaufen und ist auf der Suche nach einem geeigneten Anbieter, ist lediglich eine Volltextrecherche nach Begriffen möglich, die vermutlich in einem Online-Wein-Shop auftauchen. Begriffe wie »Wein«, »Preis« und »kaufen« werden sich aber auch auf Hunderten oder Tausenden irrelevanter Seiten finden. Gleichzeitig wird es viele Shops geben, die man auf diese Weise nicht findet – die aber vielleicht interessante Angebote hätten. Der Informationsreichtum des WWW ist daher nur ungenau und lückenhaft zugänglich.

Würde der Online-Händler Tags wie <produkttyp>, <preis> etc. verwenden, wäre die Suche einfacher. Man könnte dann nach einer Website suchen, die den Begriff »Wein« im Element <produkttyp> enthält und in der es außerdem ein Element <preis> gibt. Das Suchergebnis wäre sicher präziser und vollständiger zugleich.

Um diesem Missstand abzuhelfen, entwickelte das World Wide Web Consortium XML als neue Sprache des Internet. Seit 1998 ist XML der alternative Standard zu HTML. Die Erweiterbarkeit und damit der Verzicht auf die Vorgabe von Tags war Voraussetzung für semantische Auszeichnungen. Denn da die Zahl semantischer Auszeichnungen prinzipiell unbegrenzt ist, hätten Vorgaben eine wirklich semantische Verwendbarkeit unmöglich gemacht.

Die Flexibilität von XML bringt aber auch das Problem der Uneinheitlichkeit mit sich. Da jeder Nutzer seine Tags benennen und verwenden kann, wie er will, wird XML erst dann sinnvoll nutzbar, wenn sich eine Nutzergruppe auf eine einheitliche Anwendung festgelegter Tags für bestimmte Inhalte einigt. Unsere Weinsuche würde erst dann richtig erfolgreich, wenn sich alle Internet-Weinshops auf die Verwendung von Tags wie <produkttyp> einigen würden (und auf weitere, der Warenart angemessene Tags wie <anbauregion> oder <rebsorte>). Ohne eine solche Einigung gäbe es sicher so viele Tag-Varianten für die Beschreibung des Produktes Wein, dass eine vollständig erfolgreiche Suche unmöglich bliebe. Eine Einigung über die Verwendung von semantischem Tagging im Internet ist aber bisher nur in Ansätzen erreicht worden.

Daher hat sich XML im Internet noch kaum durchgesetzt. HTML wurde zwar inzwischen formal an XML angepasst (XHTML), allerdings ist auch XHTML nicht erweiterbar. Die vielfältigen Schwierigkeiten, die sich der Einführung semantischer Auszeichnungen im Internet (meist unter dem Schlagwort semantisches Web diskutiert), entgegenstellen, werden wir im Kompendium an anderem Ort im Detail erörtern.

Die Einigung auf eine einheitliche Nutzung bestimmter Tags ist in einer Industriebranche einfacher als im WWW, das ja per Definition weltweit und dezentral organisiert ist. In einer Vielzahl von Branchen dient XML daher schon lange dem Datenaustausch auf vielen Ebenen. Diese Nutzung ist aber bisher nur in der Kommunikation innerhalb von Firmen bzw. zwischen Firmen üblich, nicht in der mit den Verbrauchern.

Es ist jedoch zu erwarten, dass sich XML auf Dauer auch als Websprache durchsetzt. In der Wirtschaftswelt nimmt die Verbreitung von XML ständig zu, so dass mehr und mehr XML-Anwendungen wie das hypothetische »Wein-XML« als Basis für XML-Internet-Anwendungen zur Verfügung stehen. Auch die gängigen Webbrowser beherrschen mehr und mehr XML und zugehörige Standards. Diese technische Hemmschwelle wird also bald nicht mehr existieren.

Entscheidend aber ist, dass sich das Nutzungsverhalten der Anwender im Internet verändert. Je größer das Informationsangebot im WWW ist, desto gezielter möchten die Nutzer nach Information suchen. Und genau in dieser Hinsicht ist XML, wie wir gesehen haben, HTML haushoch überlegen.