Zum Hauptinhalt springen

Wortartkodierung

Die für das gesamte Referenzkorpus Frühneuhochdeutsch abgestimmte Annotation der Wortarten berücksichtigt die besonderen Verhältnisse der historischen Sprachperiode. Verwendet wird eine Version des STTS-nahen Tagsets HiTS, das an die Erfordernisse des Frühneuhochdeutschen angepasst ist. Die Wortinformationen von HiTS sind stets hierarchisch aufgebaut, indem der erste Buchstabe auf die übergreifende Wortart verweist und weitere Buchstaben Unterklassen anzeigen.

(1)  a.   DARTB: D = Determinativa, ART = artikelartig, B = bestimmt
        b.   DPOS: D = Determinativa, POS = possessiv

Hier findet sich die Liste der Wortartinformationen, die in den syntaktisch annotierten Texten im Referenzkorpus Frühneuhochdeutsch verwendet worden sind.

Literatur

Albert, Stefanie u. a. 2003. TIGER Annotationsschema. Techn. Ber. Universität des Saarlandes, Universität Stuttgart, Universität Potsdam.

Dipper, Stefanie u. a. 2013. HiTS: ein Tagset für historische Sprachstufen des Deutschen. Journal for Language Technology and Computational Linguistics 28(1). 85–137.

Morphologische Kodierung

Drei der insgesamt 26 Korpustexte sind auch morphologisch annotiert:

  • Frankfurter, Philipp. Des pfaffen geschicht vnd histori vom Kalenberg. Heinrich Knoblochtzer: Heidelberg. 1490. [F225]
  • Hartlieb, Johannes. Buch aller verbotenen Kunst. Augsburg. 1465. [F137]
  • Kottanerin, Helene. Denkwürdigkeiten. Wien. 1445-1452. [F022]

Die morphologische Annotation folgt dem TIGER-Annotationsschema. Die hinterlegte Liste der verwendeten Flexionskategorien findet sich hier.

Literatur

Crysmann, Berthold u. a. 2005. TIGER Morphologie-Annotationsschema. Techn. Ber. Universität des Saarlandes, Universität Stuttgart, Universität Potsdam.

Syntaktische Kodierung

Die syntaktische Annotation nutzt das TIGER-Schema (Albert et al. 2003), dessen Annotationsebenen die Kodierung syntaktischer Kategorien sowie grammatischer Funktionen vorsehen. Grammatische Funktionen werden auf der Ebene von Phrasen und von Sätzen erfasst.  Im TIGER-Annotationsschema wird phrasenintern flach annotiert.  Diese Eigenschaft des Annotationsschemas ist von großem Vorteil für die teilweise sehr komplexen Ganzsätze in der Baumbank, da sie die Lesbarkeit steigert. Hier findet sich die Liste der verwendeten Knoten- und Kantenlabels.

Eine weitere Annotationsebene wird im TIGER-Annotationsschema durch die sog. sekundären Kanten eingeführt, mit deren Hilfe die Zuordnung von Argumenten in Koordinationsstrukturen korrekt dargestellt werden kann. Diese Option im TIGER-Annotationsschema ist von besonderem Interesse für das Frühneuhochdeutsche, das elliptische Koordinationsstrukturen in großer Zahl enthält. Die  sekundären Kanten sind mit der Funktion beschriftet, die das Argument im ersten Teilsatz innehat.

Dass syntaktische Informationen im TIGER-Annotationsschema sowohl in Form von Konstituenten- als auch Dependenzstrukturen dargestellt werden, zeigen die kreuzenden Kanten, mittels derer sich Abhängigkeitsverhältnisse zwischen Teilen diskontuierlicher Konstituenten abilden lassen.  Kreuzende Kanten finden sich bei der Extraposition von VP-Konstituenten ebenso wie bei dem Auftreten von Nicht-Subjekten im Vorfeld.

Die Auszeichnung des Textes durch Informationen zu Phrasen und grammatischen Funktionen erfolgte manuell im 'double keying'-Verfahren: Jeder Textabschnitt wurde von zwei Annotatoren unabhängig bearbeitet, ein automatischer Abgleich fand erst im nächsten Arbeitsschritt statt mit dem Ziel, eine konsistente Annotation für einen bestimmten Textabschnitt zu erstellen. Diese Textabschnitte wurden später zum Gesamttext zusammengefügt und anschließend in die Baumbank integriert. Als Annotationswerkzeug wurde ANNOTATE verwendet (Brants & Plaehn 2000).

Korpora, die mit syntaktischen Informationen angereichert sind, erlauben präzise Suchanfragen nach syntaktischen Mustern. Aktuell bieten sich zwei Plattformen an, die sowohl die Suche als auch die Visualisierung der Baumdiagramme erlauben: ANNIS (Zeldes 2009) und TüNDRA (Chernov et al. 2017). Beide Zugänge sind für die Suche in der Baumbank.UP angelegt worden.

Literatur

  • Albert, Stefanie u. a. 2003. TIGER Annotationsschema. Techn. Ber. Universität des Saarlandes, Universität Stuttgart, Universität Potsdam.
  • Brants, Thorsten & Oliver Plaehn. 2000. Interactive corpus annotation. In Proceedings of the Second International Conference on Language Ressources and Evaluation (LREC 2).
  • Chernov, Alexandr, Erhard Hinrichs & Marie Hinrichs. 2017. Search Your Own Treebank. In Proceedings of the Fifteenth International Workshop on Treebanks and Linguistic Theories (TLT15), 25–34. Bloomington, Indiana.
  • Zeldes, Amir u. a. 2009. ANNIS: A Search Tool for Multi-Layer Annotated Corpora. In Proceedings of Corpus Linguistics 2009, July 20–23. Liverpool/UK.