XML-Know How

Eine kurze Einführung in XPath

Das XML-Datenmodell

Wir haben schon gesehen: XML-Dokumente folgen einer speziellen Syntax. Im Vordergrund stehen dabei XML-Elemente, die durch Start- und Ende-Tags beschrieben werden. Diese Elemente können andere Elemente beinhalten, was zu einer Containerstruktur und damit zu einem Elementbaum führt. Somit kann ein XML-Dokument, sobald es wohlgeformt ist, als Baum aufgefasst und dargestellt werden.

Knoten

XML-Dokumente bestehen jedoch nicht nur aus Elementen. Neben den Tags und dem Text selbst sind Attribute, Kommentare und Verarbeitungsanweisungen (»Processing Instructions«, (PI)) weitere elementare Bestandteile von XML-Dokumenten, die das XML-Datenmodell charakterisieren und auch in die Baumstruktur mit einfließen. Alle diese Komponenten werden in der XML-Welt als »Knoten« bezeichnet.

Ein XML-Baum besteht also aus einer Menge von Knoten unterschiedlichen Typs, nämlich aus: Element-, Attribut-, Kommentar-, PI- und Textknoten.

Neben diesen Knotentypen hat jedes wohlgeformte XML-Dokument noch einen weiteren Knoten, nämlich den sogenannten Wurzelknoten (Root Node). Der Wurzelknoten ist etwas sehr abstraktes, er wird nämlich durch keine Codierung dargestellt. Vielmehr kennzeichnet er ein XML-Dokument als Ganzes, unabhängig von der Struktur des Dokumentes. Alle Elemente, Attribute, Texte, Kommentare und Processing-Instructions eines Dokuments liegen »unterhalb« des Wurzelknotens.

Wir haben schon anhand von Beispielen gesehen, dass bei Single Source Publishing häufig nicht das gesamte XML-Dokument veröffentlicht werden soll, sondern gezielt bestimmte Informationen ausgewählt und verarbeitet werden müssen. Alle Knoten eines XML-Dokuments sind ansteuerbare Informationen, die Sprache für die Auswahl der Knoten ist XPath.