XML-Know How

Herkunft und Zielsetzung

TUSTEP – das »Tübinger System von Textverarbeitungs-Programmen« wurde am Zentrum für Datenverarbeitung der Universität Tübingen mit dem Ziel entwickelt, ein leistungsfähiges Werkzeug für den wissenschaftlichen Umgang mit Textdaten zur Verfügung zu stellen. Hauptzielgruppe sind daher Anwender, die analytische Fragestellungen an die Texte richten und diese mit EDV-Unterstützung beantwortet haben wollen. Der Begriff Textdaten-Verarbeitung soll TUSTEP dabei von dem, was üblicherweise unter Textverarbeitung verstanden wird, abgrenzen.

Selbstverständlich gehören auch für die Dokumenten-Erstellung notwendige Funktionen wie Eingabe, Korrektur, Formatierung und Druck von Dokumenten, auch von fremdsprachlichen Texten in nicht-lateinischen Alphabeten, zum Leistungsumfang von TUSTEP. Diese Funktionen werden in vielen Wissenschaftsbereichen zum Zweck der Dokumentation und der Vorbereitung von Publikationen benötigt.

Der Anspruch, Forschungsergebnisse in typographisch oft sehr komplexer Form präsentieren zu können, hat die Entwicklung des TUSTEP-Satzprogramms bestimmt. Sein Leistungsumfang macht es zu einem vollwertigen Werksatzprogramm, das auch schwierigste Layouts und Detaillösungen bewältigt – wenn gewünscht auch mit einem sehr hohen Automatisierungsgrad.

TUSTEP wurde jedoch in erster Linie als Werkzeug für diejenigen Wissenschaften entwickelt, in denen Texte Objekte der Forschung sind: Philologien, Sprachwissenschaften, Literaturwissenschaften, historische Wissenschaften, Bibliothekswesen; Wissenschaften also, in denen nicht nur neue Texte als Produkt der eigenen wissenschaftlichen Arbeit erstellt und publiziert werden, sondern in denen schon existierende, überlieferte, schriftlich fixierte oder zu fixierende Texte durch kritische Neuedition gesichert, sprachlich und stilistisch analysiert, inhaltlich erschlossen und bibliographisch erfasst werden.

Dem tragen Grundoperationen der Textdaten-Verarbeitung Rechnung, denen jeweils eines oder mehrere TUSTEP-Programm-Module entsprechen. Diese Grundoperationen umfassen:

  • Bearbeiten von Textdaten nach vom Benutzer definierten Regeln
    zum Auswählen, Ersetzen, Umstellen, Ergänzen, Zusammenfassen,
    durch Auswertung von Zahlenangaben, die bereits im Text enthalten
    sind (z. B. Kalenderdaten) oder aus ihm gewonnen werden können
    (z. B. die Zahl der Wörter in einem Satz)
  • Vergleichen von verschiedenen Textfassungen
  • Korrigieren nicht nur interaktiv im Editor, sondern auch anhand
    vorbereiteter, auch automatisch erstellter Korrekturanweisungen
  • Zerlegen von Texten in frei definierbare Elemente (z. B. Wortformen)
  • Sortieren von Textelementen oder von längeren Texteinheiten
    nach beliebigen Alphabeten und einer Vielzahl anderer Kriterien
  • Register erstellen durch Zusammenfassen sortierter Textelemente
  • Ausgabe in beliebigen textbasierten Formaten, einschließlich
    solcher, die von anderer Software benötigt werden (z. B. zur statistischen
    Auswertung oder zur elektronischen Publikation)
  • Satzausgabe in Form von Postscript-Daten

Jedes der TUSTEP-Module umfasst ein ganzes Spektrum von Funktionen, die die Umsetzung der jeweiligen Grundoperation unter Beachtung einer Vielzahl von Aspekten ermöglicht. Dabei lassen sich alle relevanten Parameter frei definieren.

Um nur ein Beispiel zu nennen: neben einer Standardsortierung lassen sich beliebige Sortierregeln erstellen, und zwar nicht nur ein Satz von Regeln, sondern bis zu neun, denen jeweils eine eigene Rangordnung zugewiesen werden kann. Mit solchen Regeln kann nicht nur der Sortierreihenfolge unterschiedlicher Sprachen und Sprachstufen, sondern auch allen denkbaren Strukturen der zu sortierenden Einheiten Rechnung getragen werden.

Die Leistungen von TUSTEP werden ständig verbessert und erweitert, damit auch für neue Aufgabenstellungen der professionellen Textdaten-Verarbeitung Lösungsmöglichkeiten bereit stehen. So bietet TUSTEP bereits seit 1997 XML-Unterstützung, also ein Jahr, bevor XML als W3C-Recommendation verabschiedet wurde. Derzeit (2012) ist ein XML-basiertes Benutzerinterface für TUSTEP im Entstehen. Selbstverständlich werden auch neue Entwicklungen bei Hardware und Betriebssystemen berücksichtigt.