Neues aus der UP - Universität Potsdam

Foto: Thomas Roese

Prof. Dr. Ulrike Demske, Professorin für Geschichte und Variation der deutschen Sprache
Foto: Thomas Roese

Emil Paraskevopulos (l.), wissenschaftlicher Mitarbeiter an der Professur Geschichte und Variation der deutschen Sprache
Foto: Thomas Roese

Digitalisierte Korpora lassen sich mithilfe von Software gezielt durchsuchen.

Digitalisierung und künstliche Intelligenz verändern zunehmend, wie Wissenschaft betrieben wird. Bei der Auswertung großer Datenmengen helfen entsprechend trainierte Sprachmodelle – meist Large Language Models, kurz LLMs, genannt – dabei, sehr viel Zeit zu sparen. Dabei denkt man wohl zuerst an Medizin oder Chemie, wo die KI schon jetzt eingesetzt wird, um Medikamente für bisher als unheilbar geltende Krankheiten zu entwickeln oder neue chemische Verbindungen zu entdecken. Doch auch die Geisteswissenschaften profitieren von neuen Technologien. Die Universität Potsdam ist bei den Digital Humanities ganz vorne mit dabei, etwa mit dem Netzwerk Digitale Geisteswissenschaften oder dem Drama Corpora Project. Auch am Lehrstuhl für Geschichte und Variation der deutschen Sprache wird mit modernsten Methoden geforscht: Prof. Dr. Ulrike Demske untersucht dort, wie sich die Sprache in deutschen Zeitungen seit 1600 verändert hat.

„Vor 20 Jahren haben wir mit Papierkopien von Texten gearbeitet und darin mit Buntstiften sprachliche Muster markiert, die uns interessiert haben. Zum Glück ist es inzwischen nicht mehr so“, sagt die Germanistin. Denn heute gibt es digitalisierte Korpora, die man mithilfe von Software gezielt durchsuchen kann. Ein solches hat sie nun mit ihren wissenschaftlichen Mitarbeiter*innen aufgebaut und der sprachwissenschaftlichen Welt zugänglich gemacht. „Potsdamer Zeitungskorpus – diachron“ heißt das Projekt und umfasst Ausschnitte aus deutschsprachigen Zeitungen, die zwischen 1600 und 1950 erschienen sind. Mit diesem lässt sich in der deutschen historischen Sprachwissenschaft erstmals systematisch untersuchen, wie sich die grammatische Komplexität einer bestimmten Textsorte, in diesem Fall der Zeitungssprache, über die Jahrhunderte verändert hat.

Das Zauberwort

Einer der wissenschaftlichen Mitarbeiter hat mit diesem Zeitungskorpus bereits Pionierarbeit geleistet: In seiner Masterarbeit konnte Emil Paraskevopulos zeigen, dass die Sprache in deutschen Zeitungen von 1600 bis heute strukturell tatsächlich weniger komplex geworden ist. Was beispielweise in den englischen Sprachwissenschaften schon seit Längerem untersucht wird, galt aufgrund der deutlich komplexeren Satzstruktur für das Deutsche bislang als zu schwierig. Denn um ein Korpus gezielt nach grammatischen Informationen zu untersuchen, muss dieses zunächst von Hand mit diesen angereichert werden. Sprich: In jedem Satz wird dem Einzelwort eine Wortart zugewiesen und anschließend mittels Relationen gekennzeichnet, in welcher Beziehung ein Wort zu den anderen Wörtern im Satz steht.

Grob gesprochen gilt dabei: Je geringer der Abstand zwischen zwei bestimmt Wörtern ist, desto einfacher sind Wortketten zu verarbeiten. „Wenn ein Satz beispielsweise ein Hilfsverb am Satzanfang aufweist, muss dieses so lange im Arbeitsgedächtnis bleiben, bis am Ende des Satzes dann das zugehörige Vollverb kommt. Je größer dieser Abstand ist, desto anspruchsvoller ist die Verarbeitung von Sprache. Man spricht in diesem Zusammenhang von Dependenzlänge und Dependenzlängenminimierung“, erklärt Ulrike Demske. Dieser Abstand lässt sich messen und als Zahl darstellen. Und diese hat sich in der Zeitungssprache seit dem 17. Jahrhundert tatsächlich deutlich verringert. „Dependenzlängenminimierung ist das Zauberwort, unter dem dieser Prozess in der Fachliteratur bekannt ist“, sagt Paraskevopulos.

Die Standardisierung

Ein Grund für die höheren Dependenzlängen im 17. Jahrhundert ist, dass es damals noch keine standardisierte deutsche Schreibsprache gab. Erst im späten 19. Jahrhundert zeigen sich deutliche Bestrebungen, die deutsche Schreibsprache nicht nur auf orthografischer Ebene, sondern auch in der Syntax zu vereinheitlichen. So wurde auch die Zeitungssprache im 19. und 20. Jahrhundert zunehmend standardisiert. In den frühen Zeitungen war zielgruppengerechtes Schreiben keine Priorität, nicht zuletzt, weil es dafür schlicht kein Zeitfenster gab. „Die Neuigkeiten kamen per Boten aus dem gesamten deutschen Sprachraum zu den wenigen Zeitungsdruckereien, die es damals gab. Mit diesen sogenannten Korrespondenzen mussten dann die vier zur Verfügung stehenden Seiten gefüllt und die Zeitungsexemplare anschließend jede Woche an ihre Leser*innen verteilt werden. Man hatte genug damit zu tun, dieses neue Medium zu etablieren“, erklärt die Germanistin.

Zudem gab es den Beruf des Journalisten noch gar nicht. „Die damaligen Zeitungsschreiber kamen aus den Schreibstuben des Adels und verfassten ansonsten Urkunden und Stadtchroniken. Die Komplexität der Urkundensprache hat sich oft auf die Sprache der frühen Zeitungen übertragen“, sagt Ulrike Demske. Der Trend setzte sich bis zum Ende des 19. Jahrhunderts fort, wenn auch aus anderen Beweggründen. „Auch wenn die deutsche Sprache an diesem Punkt bereits standardisiert war, blieb die Zeitungssprache komplex. Nicht weil man nicht anders konnte, sondern weil das Ziel war, die Leute zu beeindrucken. Die Zeitungsmacher wollten gar nicht, dass wirklich jeder und jede Lesekundige die Zeitung liest, sondern Adressaten waren vor allem das Bürgertum und politische Beamte.“ In gewisser Weise wurde die Sprache damit doch zielgruppenorientiert, wenn auch nicht im heutigen, inklusiven Sinne.

Die Digitalisierung

Für die Analyse der Daten im Korpus ist statistische Expertise hilfreich. Emil Paraskevopulos ist in dieser Hinsicht ein „Ausnahme-Germanistikstudent“, wie die Professorin es ausdrückt. Denn er hat Germanistik auf Lehramt mit Zweitfach Physik studiert. Dass ein Masterstudent überhaupt so tief in die Forschung einsteigt, ist ungewöhnlich, besonders für Lehramtsstudierende. „Ich kann mir gut vorstellen, auch weiterhin wissenschaftlich zu arbeiten. Darum habe ich noch einen zweiten Master angefangen und studiere jetzt Sprachwissenschaften“, sagt Paraskevopulos. Auch für den Arbeitsmarkt sind die Digital Humanities und die durch sie vermittelte Expertise im Umgang mit großen Datenmengen zunehmend attraktiv. „Eine meiner wissenschaftlichen Mitarbeiterinnen ist jetzt bei einer Behörde in Berlin und arbeitet dort mit medizinischen Daten. Die erlernten statistischen Methoden sind auf die unterschiedlichsten Themen übertragbar“, erzählt Ulrike Demske.

Auf die Idee, historische Texte nicht nur zu digitalisieren, sondern auch mit grammatischen Informationen anzureichern, kam Ulrike Demske bereits vor über 20 Jahren. Damals hatte sie ihre erste Professur in Saarbrücken. „Die Universität des Saarlandes hat eine weltweit renommierte Computerlinguistik, die zu dieser Zeit Vorreiter bei der digitalen Aufbereitung von gegenwartsdeutschen Korpora war. Und ich war neugierig, ob die Werkzeuge der Computerlinguistik nicht auch auf historische Varietäten der deutschen Sprache angewendet werden können“, erinnert sich die Professorin. Damit war sie die erste Germanistin, die historische deutsche Texte mit syntaktischen Informationen angereichert hat.

Inzwischen haben sie und ihr Team die Annotationswerkzeuge so weiterentwickelt, dass auch historische Korpora mithilfe geeigneter Algorithmen automatisch annotiert werden können. Dadurch lassen sich diese Daten nun gezielt durchsuchen und für statistische Analysen nutzen. Das erlaubt es nun auch anderen Forschenden, die diachrone Entwicklung der deutschen Grammatik zu erforschen, da das „Potsdamer Zeitungskorpus – diachron“ online frei verfügbar ist. Eine Ressource, die die historische Linguistik deutlich bereichern dürfte – nicht zuletzt, weil das Korpus den höchsten Qualitätsstandards genügt. „Das Sprachmodell wird automatisch annotiert. Anschließend wird das Ergebnis von zwei Personen unabhängig korrigiert und dann verglichen. Das Verfahren nennt sich Double-Keying und gilt wegen seiner hohen Genauigkeit als der Goldstandard der Annotation“, erklärt Ulrike Demske. „Und obendrein macht es auch ungeheuren Spaß, wenn man so was mit jemandem macht, der sich genauso wie man selbst dafür begeistert und anschließend über die Ergebnisse diskutieren kann.“

Aktuell trainiert die Sprachwissenschaftlerin auch ein eigenes Sprachmodell für das Deutsch des 17. Jahrhunderts. „Dass ich mich das traue, ist noch relativ neu. Sich in diese Methoden und die Technik einzuarbeiten, nimmt viel Zeit in Anspruch, während der man andere Dinge zurückstellen muss. Dafür lassen sich dann künftig aber sehr große Textmengen schnell verarbeiten“, erklärt Ulrike Demske. Als Nächstes plant sie, historische Reiseberichte zu annotieren. „Die kamen etwa zur gleichen Zeit auf wie die Zeitungen, in der frühen Neuzeit. Zugleich sind sie ganz anders, da hier jemand in der Ich-Form von seinen Erlebnissen sowie den Tieren und Pflanzen, die er unterwegs gesehen hat, schreibt. Und dann können wir vergleichen, wie sich die Wortartprofile dieser beiden Textsorten unterscheiden. Und natürlich auch die Dependenzlängen“, sagt die Professorin.

Weitere Informationen zum Potsdamer Zeitungskorpus – diachron: https://www.uni-potsdam.de/de/guvdds/ressourcen-sprachgeschichte/zeitungskorpus

Zurück