Neues aus der UP - Universität Potsdam

Prof. Dr. Ulrike Demske (Mitte) mit ihren Mitarbeiterinnen im Projekt zum „Referenzkorpus Frühneuhochdeutsch“. Foto: Karla Fritze.

Wer Frühneuhochdeutsch sprach, lebte in einer umwälzenden Epoche: Die Erfindung des Buchdrucks machte das Schreiben zu einem Massenphänomen. Juristen, Geistliche, Buchdrucker, Abenteurer, Naturforscher – es schrieben viel mehr Menschen als bisher, und sie schrieben immer häufiger auf Deutsch. Die Zahl der Textsorten explodierte förmlich: Wochenzeitungen entstanden, Kaufleute hielten Verträge schriftlich fest, Privatleute schrieben Briefe oder Tagebücher. Gleichzeitig löste das Papier das wesentlich kostbarere Pergament ab. Seit einigen Jahren arbeiten Potsdamer Linguisten an einer digitalen Datenbank – mit dem Ziel, ein repräsentatives Korpus für diese Zeit aufzubauen und mit linguistischen Informationen anzureichern. Die Menschen der Frühen Neuzeit und ihre Sprache kennenzulernen, wird mit dem „Referenzkorpus Frühneuhochdeutsch“ bald ein Stück einfacher werden.

Korpus, Annotation, Baumbank – hinter diesen Wörtern verbirgt sich ein linguistisches Großprojekt. Die drei Linguistinnen Ulrike Demske, Katrin Goldschmidt und Marianna Patak arbeiten in Potsdam an der digitalen Datenbank. „Wir schaffen eine umfangreiche Ressource für Wissenschaftler, die zur historischen Syntax des Deutschen forschen“, sagt Demske. Hinter der Idee steckt ein Problem, mit dem sich Generationen von Linguisten herumschlagen mussten: Vor jeder Bearbeitung einer sprachhistorischen Fragestellung stand ein langwieriger Prozess des Datensammelns. Demske selbst arbeitete in ihrer Dissertation zur Geschichte von modalen Infinitiven und wertete dafür neben vielen anderen Texten den Versroman „Parzival“ von Wolfram von Eschenbach aus. „In diesem langen Epos gab es nur acht einschlägige Infinitivkonstruktionen. Das war ein geringer Ertrag gemessen an dem Umfang des Textes.“ Also hieß es weitersammeln, bis in den historischen Textquellen genügend Satzbeispiele gefunden und farbig ausgezeichnet waren, dass die Forschungsthese der Arbeit überhaupt erst überprüfbar war. „Allein das Erstellen der Datengrundlage war ein immenser Zeitaufwand“, sagt Demske.

Forscher digitalisieren und annotieren Handschriften

Mit dem Referenzkorpus wird sich dieser Aufwand künftig deutlich verringern. Neben der Universität Potsdam sind zwei weitere Hochschulen an dem DFG-Großprojekt beteiligt. In Halle und Bochum transkribieren und digitalisieren Forscher zunächst die frühneuhochdeutschen Handschriften oder Drucke. Bis März 2017 sollen Texte in einem Gesamtumfang von etwa fünf Millionen Wörter inklusive ihrer Abwandlungen – Experten sprechen von Wortformen –möglichst originalgetreu digitalisiert sein. Darüber hinaus reichern die Forscher in Halle und Bochum die Texte auch mit ersten linguistischen Informationen an, d.h. sie bestimmen die Wortart für jedes Wort und ordnen jedem Wortvorkommen einen Lexikoneintrag zu. In Potsdam werden Texte im Umfang von etwa einer halben Million Wortformen zusätzlich mit syntaktischen Informationen ausgezeichnet Eine sehr zeitaufwendige Aufgabe, die die Bearbeitung sprachhistorischer Fragen jedoch spürbar erleichtern wird.

Eine Gruppe von zehn studentischen Hilfskräften ist mit dieser syntaktischen Annotation beschäftigt. Jeweils zwei Studierende annotieren unabhängig voneinander denselben Teil eines Textes und gleichen ihn computergestützt am Ende ab. Schließlich erstellen die wissenschaftlichen Mitarbeiterinnen Katrin Goldschmidt und Marianna Patak aus den einzelnen abgeglichenen Textteilen einen Gesamttext. Nur ein solches „double keying“-Verfahren kann gewährleisten, dass die syntaktische Annotation verlässlich ist und Schwächen im Annotationsprozess minimiert werden. „Unsere Hilfskräfte erstellen Baumdiagramme für jeden einzelnen Satz, der im Text vorkommt“, erklärt Marianna Patak. Ausgehend von der Wortartenbestimmung wird mithilfe der Baumdiagramme die interne Struktur von Wortgruppen und Sätzen wiedergegeben sowie die syntaktische Funktion jeder Wortgruppe bestimmt. Eine sehr verantwortungsvolle Aufgabe für die studentischen Mitarbeiter – wenn man bedenkt, dass später Forschende weltweit auf die syntaktisch annotierten Texte zugreifen werden. „Sie nehmen das sehr ernst. Eine Studentin sagte, jeder Satz sei wie ein kleines Rätsel, das man lösen möchte“, berichtet Patak.

Bevor die studentischen Mitarbeiter jedoch die einzelnen Satzstrukturen mit linguistischen Informationen anreichern können, müssen die zu annotierenden Texte erst einmal manuell in Sätze zerlegt, also „segmentiert“ werden. „Die historische Interpunktion unterscheidet sich stark von der heutigen Zeichensetzung“, sagt Goldschmidt. So wurde damals viel häufiger als der Satzpunkt die sogenannte Virgel verwendet – ein Schrägstrich, der zunächst vor allem Sprechpausen markierte, im Laufe der frühneuhochdeutschen Sprachperiode aber immer mehr die Funktion des modernen Kommas übernahm. Punkte waren deutlich seltener als heute, sodass eine automatische Segmentierung der frühneuhochdeutschen Texte in Sätze mithilfe des Punktes – anders als bei gegenwartssprachlichen Texten – ausscheidet.

Die Potsdamer Linguisten arbeiten mit dem Programm „@nnotate“, das Ende der 1990er Jahre von einem Saarbrücker Computerlinguisten entwickelt wurde. „Das Programm funktioniert halbautomatisch“, erklärt Ulrike Demske. „Je mehr linguistische Informationen durch die annotierten Texte vorliegen, desto besser werden die Vorschläge des verwendeten Programms vor allem in Bezug auf die Wortartenbestimmung und die Struktur einfacher Wortgruppen. Die oft sehr umfangreichen frühneuhochdeutschen Satzgefüge müssen die Hilfskräfte allerdings manuell annotieren. Auf der linguistischen Datenbank „ANNIS“, einer von Potsdamer und Berliner Computer- und Korpuslinguisten entwickelten Plattform, sollen die transkribierten und annotierten Texte am Ende online zugänglich gemacht werden.

Im Großprojekt sind Texte aus fast 1000 Jahren zugänglich

„Manchmal werde ich angesichts unserer Fortschritte etwas ungeduldig“, sagt die Sprachwissenschaftlerin Ulrike Demske. Am liebsten wäre es ihr, wenn noch mehr Texte noch schneller syntaktisch annotiert werden könnten und in naher Zukunft ein syntaktisch annotiertes Korpus von mehreren Millionen Wortformen für die Sprachperiode des Frühneuhochdeutschen zur Verfügung stehen würde. Doch die Erfahrung hat alle Mitarbeiter in Potsdam gelehrt, dass jeder Satz seine Zeit braucht. Umso mehr Zeit sparen all jene, die zur Erhebung ihrer Daten künftig auf das Referenzkorpus zugreifen können. „Frühneuhochdeutsche Texte aus der Zeit von 1350 bis 1650 für das Referenzkorpus zu finden, ist grundsätzlich kein Problem“, sagt Demske. „Da wir aber den Anspruch haben, ein strukturiertes Korpus zu erstellen, das repräsentativ für diese Periode der deutschen Sprachgeschichte ist, versuchen wir, für jedes Zeitfenster von 50 Jahren Texte aus allen Dialekträumen zu berücksichtigen. Das funktioniert nicht für alle Dialekträume gleich gut.“ So gibt es aus dem mährisch-böhmischen Sprachraum vergleichsweise wenige Texte, was sich unter anderem damit erklären lässt, dass Papiermühlen und Druckereien dort kaum verbreitet waren. Aber nicht jeder Text eignet sich gleichermaßen für die syntaktische Annotation: So kommen Texte in gebundener Sprache nicht infrage, weil die Wortstellung meist nicht der gesprochenen Alltagssprache entspricht. Andere Textsorten wie Urkunden oder Gerichtsprotokolle scheiden häufig deshalb aus, weil darin viele formelhafte Wiederholungen enthalten sind. „Die Syntax ist uns dann nicht vielfältig genug.“

Lesenswert sind die Texte der Frühen Neuzeit aber mit Sicherheit: „Fasziniert bin ich von den Reiseberichten aus dem 16. Jahrhundert – eine meiner favorisierten Textsorten“, sagt Demske. In einem der Texte aus dem Referenzkorpus beschreibt der Naturforscher und Arzt Leonhard Rauwolf seine Reise in den Vorderen Orient und berichtet von der dortigen Badekultur, die dem Besuch heutiger Wellnessoasen gar nicht so unähnlich gewesen zu sein scheint. Katrin Goldschmidt wiederum fällt die Geschichte des Abenteurers Hans Staden ein, der in Südamerika von einem Kannibalenstamm aufgegriffen wurde. „Er versucht dem Marterpfahl zu entkommen, indem er europäische Heilmethoden anbietet, um etwa den Häuptling des Stammes von einer Seuche zu heilen – und hat Erfolg.“ Aber eigentlich seien alle Texte spannend, da sind sich die drei Linguistinnen einig. „Das Rote Buch der Stadt Ulm“ beispielsweise ist eine der frühen Quellen, in denen die Bürger von Ulm ein Regelwerk für das Leben in der Stadt festlegten: Wen darf man heiraten? Mit wem darf man Geld tauschen? Wie muss man das Brot backen? Den Menschen dieser Zeit, ihren Gedanken und Lebensgewohnheiten, kommen die Linguisten mit der Erforschung ihrer Sprache mit Sicherheit alle etwas näher.

Das „Referenzkorpus Frühneuhochdeutsch“ ist nur ein Teil der sprachwissenschaftlichen Korpora für das historische Deutsch. Bereits abgeschlossen sind vergleichbare Projekte in Berlin, Bochum und Bonn für das Alt- und Mittelhochdeutsche, die allerdings keine syntaktischen Informationen in dem Umfang enthalten, wie sie in Potsdam in die historischen Texte eingebracht werden. Sobald die Digitalisierung und Annotation zum Frühneuhochdeutschen abgeschlossen ist, wird es Germanisten und Linguisten der ganzen Welt möglich sein, mittels ANNIS die Entwicklung der deutschen Sprache zumindest in Bezug auf ausgesuchte wissenschaftliche Fragestellungen in Texten, die zwischen dem 8. und 17. Jahrhundert entstanden, nachzuverfolgen. Mit dem Frühneuhochdeutschen wird dann erstmals auch eine historische Sprachstufe vertreten sein, für die sich syntaktische Muster über ANNIS suchen und ausgeben lassen.

Das Projekt

Unter der Leitung von Prof. Dr. Ulrike Demske von der Universität Potsdam, Hans-Joachim Solms von der Universität Halle sowie Klaus-Peter Wegera und Stefanie Dipper von der Universität Bochum arbeiten Wissenschaftler an einem „Referenzkorpus Frühneuhochdeutsch“. Sie stellen hochdeutsche Sprachdenkmäler der Frühen Neuzeit von 1350 bis 1650 zusammen, transkribieren und digitalisieren die Texte, lemmatisieren und annotieren sie syntaktisch. Die Auswahl der Texte ist durch die Kategorien Raum, Zeit, Textbereich und Überlieferungsform motiviert. Ziel ist eine umfangreiche, verlässliche und handschriften- bzw. druckausgabengetreue Datenbasis des Frühneuhochdeutschen. Die Deutsche Forschungsgemeinschaft finanziert das Projekt von 2011 bis 2017.

Die Wissenschaftlerinnen

Prof. Dr. Ulrike Demske studierte Germanistik und Geografie an den Universitäten Tübingen und Aix-en-Provence. 1993 wurde sie an der Universität Tübingen promoviert, 1999 habilitierte sie an der Universität Jena. Seit 2011 ist sie Professorin für Geschichte und Variation der deutschen Sprache an der Universität Potsdam.

Kontakt

Universität Potsdam
Institut für Germanistik
Am Neuen Palais 10, 14469 Potsdam
E-Mail: udemskeuuni-potsdampde

Katrin Goldschmidt studierte Allgemeine und Deutsche Sprachwissenschaft und Publizistik und Kommunikationswissenschaft sowie Editionswissenschaft an der Freien Universität Berlin. Von Oktober 2012 bis Dezember 2015 war sie wissenschaftliche Mitarbeiterin im DFG-Projekt an der Universität Potsdam.

Marianna Patak studierte slawische Sprachen und Literaturen und germanistische Linguistik an der Humboldt-Universität zu Berlin (BA) sowie Linguistik (MA). Seit August 2015 ist sie wissenschaftliche Mitarbeiterin im DFG-Projekt an der Universität Potsdam.

Kontakt

E-Mail: mpatakuuni-potsdampde

Text: Jana Scholz
Online gestellt: Agnes Bressa
Kontakt zur Online-Redaktion: onlineredaktionuuni-potsdampde

Back

Published

03/22/2016

Contact

Prof. Dr. Ulrike Demske

Subject

Forschung Linguistik Philosophische Fakultät Germanistik

Die Geschichte(n) der Sprache – Was Schriften aus der Frühen Neuzeit verraten

Forscher digitalisieren und annotieren Handschriften

Im Großprojekt sind Texte aus fast 1000 Jahren zugänglich

Das Projekt

Die Wissenschaftlerinnen

Kontakt

Kontakt

Published

Contact

Subject