Zum Hauptinhalt springen

Wortwelten der Wahlprogramme

Digitale Analysen der Programme der Parteien zur brandenburgischen Landtagswahl 2019 

Von Peer Trilcke

Während die Grünen Brandenburg als »Projekt« begreifen, fühlt sich die SPD hier »Zuhause«. Während die FDP an die »Hebammen« denkt, nimmt die CDU den »Katastrophenschutz« ins Visier. Während die LINKE über »Senior(innen)« spricht, beschäftigt sich die AFD mit den »Altparteien«. Und alle Parteien finden das »Land« »gut«. – Was statistische Sprachanalysen der Wahlprogramme zur Landtagswahl in Brandenburg 2019 zu Tage fördern.


Wahlprogramme haben einen schlechten Ruf. Anders jedenfalls als die zu Köpfen und Slogans verdichteten Botschaften der Wahlplakate, mit denen die Parteien unübersehbar den öffentlichen Raum bespielen, werden Wahlprogramme kaum wahrgenommen – und kaum gelesen. Dabei sind sie eine der nächstliegenden Informationsquellen für eine reflektierte Wahlentscheidung, also für eine der grundlegendsten politischen Handlungen, die eine Bürgerin oder ein Bürger vollführen kann.

Es könnte also sinnvoll sein, sich mit den Wahlprogrammen etwas näher zu befassen. Eben dazu anregen sollen die im Folgenden präsentierten Listen mit jenen Wörter, die entweder häufig (sog. »Most Frequent Words«)charakteristisch (sog. »Keywords«) oder uncharakteristisch (sog. »negative Keywords«) sind für die Wahlprogramme der einzelnen Parteien. Vielleicht verleiten diese digital errechneten Listen ja die eine oder den anderen dazu, noch einmal genauer zu schauen, warum zum Beispiel (in umgekehrter alphabetischer Reihenfolge der Parteien) … 

  • … das Adjektiv »erfolgreich« für das SPD-Wahlprogramm charakteristisch,
  • … das Adjektiv »sozial« für das LINKE-Wahlprogramm charakteristisch,
  • … das Adjektiv »privat« für das FDP-Wahlprogramm charakteristisch,
  • … das Adjektiv »digital« für das CDU-Wahlprogramm charakteristisch,
  • … das Adjektiv »ökologisch« für das Bündnis 90 / Die Grünen-Wahlprogramm charakteristisch,
  • … das Adjektiv »deutsch« für das AFD-Wahlprogramm charakteristisch

ist (siehe dazu die Listen mit den charakteristischen Adjektiven) oder warum zum Beispiel … 

  • … Vollverben wie »unterstützen«, »brauchen«, »stärken«, »ausbauen«, »entwickeln« und Adjektive wie »gut«, »ökologisch«, »neu«, »gemeinsam«, »nachhaltig« für das AFD-Wahlprogramm uncharakteristisch sind (siehe dazu die Listen mit den uncharakteristischen Verben bzw. den uncharakteristischen Adjektiven).

In welchen Kontexten und mit welchen Intentionen die Wörter in den Wahlprogrammen verwendet werden – was ja durchaus entscheidend für deren Bedeutung sein kann –, lässt sich dabei nur durch eine Lektüre der Wahlprogramme selbst aufdecken. Die im Folgenden präsentierten, auf Postern zusammengefassten Listen können aber womöglich Fragen aufwerfen, Irritationen erzeugen, können Beobachtungen ermöglichen, die sich in näherer Auseinandersetzung mit den Wahlprogrammen prüfen lassen (und wer nicht in die Wahlprogramme schauen mag, kann vielleicht mehr mit dem »Wahl-O-Mat zur Landtagswahl 2019« anfangen)


I. Jenseits der Wortwolken, diesseits der algorithmischen Blackbox

Die Wahlprogramme digital-quantitativ zu analysieren, wie es hier geschehen ist, aus ihnen also z.B. Listen mit häufigen Wörtern oder mit charakteristischen Schlüsselwörtern zu extrahieren, bedeutet zunächst einmal, die Wahlprogramme als Daten zu betrachten, genauer: als Sprachdaten, die für die computerbasierte Analyse ebenso gut in Frage kommen wie all die anderen Daten, die heute algorithmisch analysiert werden. Gleichzeitig haben Sprachdaten ihre eigene Komplexität, die der – zunächst einmal nur Oberflächenphänomene wie Buchstaben und Wörter zählende Computer – so nicht erfassen kann. Dies bedeutet auch, dass der Output einer digitalen Analyse, wie er hier präsentiert wird, noch nicht die Interpretation ist, die Daten sind vielmehr selbst noch interpretationsbedürftig. Man hüte sich also vor vorschnellen Schlüssen und gehe sorgsam deutend mit den Listen um. 

Für die digitale Analyse stehen dabei zahlreiche Methoden zur Verfügung, die teils erhebliches mathematisches Vorwissen bedürfen. Die folgenden Analysen setzen demgegenüber bewusst einfach an, um die prinzipielle Nachvollziehbarkeit auch für die technische Laiin bzw. den technischen Laien zu gewährleisten. Es wird, anders gesagt, darauf verzichtet, Ergebnisse aus der mathematisch komplexen ›algorithmischen Blackbox‹ zu präsentieren. Zugleich geht es auch darum, zu einfache und intransparente Visualisierungstechniken – wie etwa Wordclouds – zu vermeiden. Deshalb wurde hier für die Darbietung der Ergebnisse auf die zwar etwas spröde, aber deutlich besser nachvollziehbare Form der Liste zurückgegriffen.  

Ähnliche Projekte

Die digitale Analyse von Wahlprogrammen (und anderen parteipolitischen Dokumenten) wird, groß angelegt, etwa im »Manifesto«-Projekt am Wissenschaftszentrum Berlin für Sozialforschung betrieben. Auf hohem Niveau hat Nicolas Merz – im Vorfeld der Bundestagswahl 2017 – für »Die Zeit« aus dem Projekt Ergebnisse zu den Bundestags-Wahlprogrammen präsentiert. Ebenfalls im Vorfeld der Bundestagswahl 2017 hat »Die Welt« eine schlichte Häufigkeitsanalyse durchgeführt, die mittels einer sog. »Wordcloud«, einer »Wortwolke« also (wie sie oben auch diesen Text illustriert), präsentiert wurde.

Den gleichen Ansatz hat jüngst die »Märkische Allgemeine Zeitung« (MAZ) gewählt (Artikel bisher nicht online), die diese Visualisierungsmethode auf die Wahlprogramme zur Brandenburgischen Landtagswahl 2019 angewendet hat. Wortwolken sind jedoch wenig aussagekräftig – zu Recht bezeichnet die MAZ ihre Visualisierungen als »Illustrationen«, die »keine inhaltliche Bewertung« erlauben – und darüber hinaus intransparent sind.

Die Komplexität der Wahlprogramme – basierend auf der Satzlänge und der Länge von Wörtern – hat der RBB berechnet, und dabei festgestellt, dass die Wahlprogramme komplexer sind als Kafkas »Das Schloss« oder Stefan Zweigs »Schachnovelle« (was den Literaturwissenschaftler freilich nicht verwundert: Sachtexte, die u.a. ohne Figurenrede auskommen, sind in der Regel in einem so verstandenen Sinne ›komplexer‹.)


II. Wie funktioniert die Analyse?

Hinweise zur verwendeten Software, eine Dokumentation der Datenvorbereitung (›Preprocessing‹) sowie ausgewählte Forschungsdaten finden sich im unteren Teil dieses Blogbeitrags

Grundsätzlich wurden folgende Schritte durchgeführt: 

  • Extraktion der Texte: Grundlage der Analyse sind die im Internet verfügbaren Wahlprogramme der Parteien (in der Fassung vom 8.7.2019). Aus diesen Programmen wurde jeweils der Haupttext ausgewählt: Textteile wie Titelblätter, Inhaltsverzeichnisse, Kopf- und Fußzeilen, Überschriften, Randglossen oder das Impressum wurden nicht berücksichtigt. 
  • Lemmatisierung: Der so gewonnene Haupttext in einem weiteren Schritt lemmatisiert, d.h. jedes Wort wurde auf seine Grundform zurückgeführt: Aus »ist«, »war« oder »bist« wurde so z.B. jeweils »sein«; aus »Kindes«, »Kinder« wurde jeweils »Kind«; aus »machst«, »machte« oder »macht« wurde jeweils »machen«.
  • Part-of-Speech-Tagging: In einem zweiten Schritt wurde – mit Hilfe eines sogenannten »Part-of-Speech-Taggers« – für jedes Wort automatisch die Wortart bestimmt. Aus diesen Wortarten wurden im Anschluss nur die Substantive (NN), Verben (V) und Adjektive (ADJ) extrahiert.
  • Datenbereinigung und -homogenisierung: Um die Wahlprogramme besser vergleichbar zu machen, wurden die Texte behutsam angepasst. Dies betrifft 1) das grammatikalische Geschlecht: Während einige Parteien (CDU, FDP, SPD)  Doppelformeln verwenden (z.B. »Bürgerin und Bürger«), verwenden andere (Grüne, Linke) Sternchenformen (z.B. »Bürger*in«); die AFD verwendet nur männliche Wortformen (z.B. »Bürger«). Grundsätzlich ist das ein wichtiger Befund; im Detail sorgen diese Unterschiede jedoch für Irritationen bei der Analyse. Deshalb wurde in allen Texten auf die Variante »Bürger(in)« etc. umgestellt. 2)  wurden bestimmte Wörter aus der Analyse ausgeschlossen: Dies betrifft in erster Linie Eigen- und Ortsnamen sowie Ableitungen des Landesnamens »Brandenburg«. Schließlich wurden Rechtschreibfehler korrigiert und orthografische Vereinheitlichungen vorgenommen. Erläuterungen zu diesen Schritten sind unter Punkt V.2 zu finden. Außerdem findet sich dort auch eine vollständige Liste der behutsam vorgenommenen, stets an allen Dokumenten durchgeführten und um inhaltliche Authentizität bemühten Eingriffe in die Originaltexte der Wahlprogramme.
  • Datenanalyse: Mithilfe von frei verfügbaren Computerprogrammen (Details siehe unten) wurden daraufhin zum einen nach Wortarten differenzierte Häufigkeitsanalysen (Ermittlung der »Most Frequent Words«), zum anderen nach Wortarten differenzierte Schlüsselwortanalysen (Ermittlung der »Keywords«) durchgeführt, wobei sowohl überrepräsentierte Wörter (die eigentlichen Schlüsselwörter) als auch unterrepräsentierte Wörter ermittelt wurden. 
  • Datenpräsentation: Die Ergebnisse dieser Analysen wurden schließlich für eine zusammenfassende Präsentation auf Postern gelayoutet. 
  • Das Ergebnis sind 12 Poster sowie die dazugehörigen Datensätze, die im Folgenden mit rudimentärer, vor allem technischer Kommentierung präsentiert werden. Auf eine inhaltliche Kommentierung, die vor allem Aufgabe des politischen Journalismus ist, wird weitgehend verzichtet.   


III. Analysen

III.1 Häufigste Wörter (Most Frequent Words)

Die Analyse häufiger und häufigster Wörter ist simpel. Gezählt wird schlicht, wie oft ein Wort vorkommt. Die Lemmatisierung, also die Rückführung der Wörter auf ihre Grundform, macht es dabei möglich, die unterschiedlichen Varianten eines Wortes (etwa Plural- und Singularformen) zugleich zu zählen. Durch die Wortartenerkennung können darüber hinaus gezielt die Häufigkeiten in einzelnen Wortarten gezählt werden. Die folgenden Analysen zählen 1.1) Inhaltswörter, 1.2) Substantive, 1.3) Verben, 1.4) Adjektive, wobei unter Inhaltswörtern die Summe der Substantive, Verben (ohne Modalverben) und Adjektive verstanden wird. Die Ergebnisse werden in Form von geordneten Listen präsentiert: Oben in der Liste stehen also die Wörter, die am häufigsten vorkommen. Zudem wird auf den Postern die Häufigkeit angegeben: Da die Wahlprogramme unterschiedlich lang sind, also absolute Häufigkeiten nur begrenzte Aussagekraft haben, wird die Häufigkeit zur Vergleichbarkeit normalisiert, also in Prozent angeführt. Weitere Erläuterungen finden sich auf den Postern. 

4 Poster mit den Analyse-Ergebnissen

Vier Poster mit den Analyse-Ergebnissen 

Häufigste Inhaltswörter – häufigste Substantive – häufigste Verben – häufigste Adjektive 
Zur Ansicht bitte auf eines der Poster klicken. 

 

III.2 Charakteristische bzw. überrepräsentierte Wörter (Keywords)

Häufigkeitsanalysen sind manchmal unbefriedigend, da sie meist nur die Wörter finden, die ohnehin in allen Texten häufig verwendet werden, wie es etwa oben bei den Substantiven (Poster 1.2) der Fall ist: Das von allen Parteien am häufigsten verwendete Inhaltswort ist »Land«.

Will man hingegen Wörter ermitteln, die in einem Text – im Vergleich mit anderen Texten – charakteristischhäufig oder charakteristisch selten verwendet werden, bietet sich die sog. »Keyword«-Analyse an. Mit einer solchen Analysen lassen sich die Wörter identifizieren, die besonders charakteristisch, und das heißt hier: die statistisch überrepräsentiert sind. »Keywords« (»Schlüsselwörter«) sind dabei nicht unbedingt die häufigsten Wörter. Ein Wort wie »Land« kommt z.B. in allen Wahlprogrammen sehr häufig vor, ist also für keine einzelne Partei besonders charakteristisch.

»Schlüsselwörter« eines Textes lassen sich immer nur im Vergleich mit anderen Texten bestimmen. Für die hier präsentierten Listen sind die Vergleichstexte stets die Wahlprogramme der anderen fünf Parteien. Charakteristisch sind die aufgeführten »Schlüsselwörter« also stets nur in Hinblick auf die Wörter der gewählten Wortart, wie sie in den Wahlprogrammen der anderen Parteien vorkommen. Die mathematische Berechnung der »Keywords« erfolgt mit dem statistischen »Chi-Quadrat-Test«. Eine Einführung gibt der Artikel »Understanding Keyness« von David Brown auf »The Grammar Lab«. 

Auf den Postern werden die Wörter wiederum in Gestalt geordneter Listen präsentiert: Oben stehen die Wörter, die – im Vergleich mit den anderen Wahlprogrammen – am charakteristischten für das Wahlprogramm einer Partei sind. Neben der Wörterliste wird – in der Box mit der Überschrift »Key.« – der »Keyness«-Wert aufgeführt. Dies ist ein mathematischer Wert, der angibt, wie charakteristisch ein Wort für das Wahlprogramm ist. Je höher dieser Wert ist, umso deutlicher charakterisiert das Wort das Wahlprogramm. Niedrige Werte (insbesondere solche im einstelligen Bereich) deuten hingegen auf eine nur leichte Überrepräsentation im jeweiligen Wahlprogramm hin. Zusätzlich wird – in der anderen Box mit der Überschrift »H.« – die absolute Häufigkeit angegeben, mit der das Wort in dem Wahlprogramm vorkommt. 

Um den Mechanismus der Analyse zu verdeutlichen, sei ein Beispiel gegeben: Das Wort »Katastrophenschutz« kommt im Wahlprogramm der CDU zwar nur 19mal vor, ist also so häufig nicht. Jedoch kommt es in den anderen fünf Wahlprogrammen insgesamt nur 10mal vor: Bei der SPD 2mal, bei den Grünen 3mal, bei der LINKEN 5mal. Im Vergleich ist also die 19fache Verwendung von »Katastrophenschutz« im Wahlprogramm der CDU besonders auffällig. Dies schlägt sich nun entsprechend in einem hohe »Keyness«-Wert (»78,09«) des Wortes nieder. »Katastrophenschutz« ist also ein Keyword im Wahlprogramm der CDU, ein besonders charakteristisch, statistisch überdurchschnittlich häufig verwendetes Wort. 

Keywords können durchaus recht selten vorkommen (in einzelnen Fällen liegt die absolute Häufigkeit bei den Wörtern in den Listen sogar nur bei ›2‹). Für den Keyword-Status entscheidend ist dann, dass diese Wörter in den anderen Wahlprogrammen extrem selten sind, meist kommen sie dort in solchen Fällen gar nicht vor. 

 Auch bei dieser Analyse werden die Ergebnisse für 2.1) Inhaltswörter+, 2.2) Substantive, 2.3) Verben, 2.4) Adjektive in Posterform präsentiert, wobei unter Inhaltswörtern+ die Summe der Substantive,  Verben (nun inkl. Modalverben) und Adjektive verstanden wird.

Vier Poster mit den Analyse-Ergebnissen 

Charakteristische Inhaltswörter+ – charakteristische Substantive – charakteristische Verben – charakteristische Adjektive 
Zur Ansicht bitte auf eines der Poster klicken. 

 

III.3 Uncharakteristische bzw. unterrepräsentierte Wörter (negative Keywords)

Das oben skizzierte Vorgehen bei der Ermittlung charakteristischer bzw. statistisch überrepräsentierter Wörter ermöglicht auch die Ermittlung uncharakteristischer bzw. statistisch unterrepräsentierter Wörter (»negative Keywords«). Auch hier gilt: Die uncharakteristischen Wörter eines Textes lassen sich immer nur im Vergleich mit anderen Texten bestimmen. Für die hier präsentierten Listen sind die Vergleichstexte stets die Wahlprogramme der anderen fünf Parteien. Uncharakteristisch sind die aufgeführten Wörter also stets nur in Hinblick auf die jeweilige Wortart in den Wahlprogrammen der anderen Parteien. Im Übrigen erfolgt die Deutung dieser Poster so wie die der Poster zu den charakteristischen Wörtern oben. 

Auch bei dieser Analyse werden die Ergebnisse für 3.1) Inhaltswörter+, 3.2) Substantive, 3.3) Verben, 3.4) Adjektive in Posterform präsentiert, wobei unter Inhaltswörtern+ die Summe der Substantive,  Verben (nun inkl. Modalverben) und Adjektive verstanden wird.

Vier Poster mit den Analyse-Ergebnissen 

Uncharakteristische Inhaltswörter – uncharakteristische Substantive – uncharakteristische Verben – uncharakteristische Adjektive 
Zur Ansicht bitte auf eines der Poster klicken. 


III.4 Eine Schlussbemerkungen

Bei der Interpretation der Darstellung ist, wie bereits betont, Vorsicht geboten. Wörter entfalten ihre ganze Wirkung, ja manchmal ihre spezifische Bedeutung erst im Kontext, in der Art und Weise, wie sie verwendet werden – und nicht aufgrund der Häufigkeit. Dennoch gewähren die hier präsentierten Listen einen Eindruck von den Themen, die die Parteien für wichtig und unwichtig erachten. Denn auch wenn der Kontext fehlt: Selbstverständlich sagt es etwas über das Programm einer Partei aus, wenn, um nur dieses Beispiel zu nennen, das Adjektive »ökologisch« oder das Substantiv »Behinderung« im Parteiprogramm überhaupt nicht vorkommen, wenn also diese Wörter zu den uncharakteristischen Wörter in einem Parteiprogramm gehören. – Weitere Beispiele, die sich durch Lektüre der Wahlprogramme (oder die Nutzung des »Wahl-O-Maten«) mit Kontext anreichern lassen, wird jede oder jeder selbst beim Durchgehen der Poster finden. 

Bei Kritik, Korrekturen, Hinweisen und Anregungen bitte ich, Kontakt aufzunehmen, entweder per E-Mail an trilckeuni-potsdamde oder bei Twitter @peertrilcke


IV. Sämtliche Poster

Sämtliche 12 Poster können hier als PDF heruntergeladen werden. 

V. Materialien: Workflow, Software, Daten

V.1 Workflow & Software

  • 1. Schritt: Extraktion des Haupttextes aus den PDF-Dateien der Wahlprogramme, basierend auf einer Layout-Erkennung und ggf. einer OCR. Software: Readiris Pro 16
  • 2. Schritt: Lemmatisierung und POS-Tagging mit dem DKPro-Wrapper 0.46 https://github.com/DARIAH-DE/DARIAH-DKPro-Wrapper. Verwendet wurde das im DKPro-Wrapper implementierte »coarse grained POS«, konkret die CPOS-Tags »ADJ«, »NN«, »V«. 
  • 3. Schritt: Extraktion von wortarten-differenzierten Subkorpora mit lemmatisierten Wörtern aus dem DKPro-Wrapper-Output mittels eines einfachen Python-Skripts / Jupyter-Notebook (v.a. Pandas)
  • 4. Schritt: Oxygen XML Editor für die Regex-basierte Datenkorrektur / Bearbeitung der Rohdaten
  • 5. Schritt: RStudio Desktop mit dem R-Paket quanteda für die quantitativen Analysen: Keyness / Most Frequent Words. Für Keyness: Funktion texstat_keyness", measure = "chi2", i.e. Chi-Quadrat-Test.
  • 6. Schritt: Layout der Analyse-Ergebnisse mit Scribus.

V.2 Preprocessing, Bearbeitungen der Ausgangsdaten 

Nachdem die Texte aus den PDF-Dateien der Wahlprogramme extrahiert wurden, wurden mehrere Bearbeitungsschritte vorgenommen, die dazu dienten, die Daten für die quantitative Analyse vorzubereiten. Dies waren zum einen, wie oben erwähnt, die automatisierte Lemmatisierung und die automatisierte Wortartenerkennung (»Part-of-Speech-Tagging«). Beide Verfahren liefern nicht 100% korrekte Ergebnisse, wobei die Fehlerquoten sich erfahrungsgemäß in einem Bereich bewegen, der die weitere statistische Analyse nur geringfügig beeinflusst. Ungeachtet dessen sei hier auf mögliche Fehler durch Lemmatisierung und »Part-of-Speech-Tagging« hingewiesen. Wo diese Fehler entdeckt wurden, wurden sie systematisch in allen Dateien korrigiert. 

Zum anderen wurden zwei größere Bearbeitungsschritte durchgeführt, die gezielt die Qualität der vergleichenden Analysen erhöhen sollten. Dabei wurde …

  • a) der Umgang mit dem grammatikalischen Geschlecht vereinheitlicht und
  • b) es wurden Eigennamen insgesamt sowie zusätzlich Ableitungen vom Eigennamen »Brandenburg« aus der Analyse ausgeschlossen.

Der Bearbeitungsschritt a) zielte darauf, die systematische Uneinheitlichkeit der Texte in Hinblick auf den Umgang mit dem grammatikalischen Geschlecht als systematischen Effekt auszublenden. Das soll nicht heißen, dass die Beobachtung, wie die Parteien mit dem Geschlecht umgehen, irrelevant ist, im Gegenteil. Dass einige Parteien (CDU, FDP, SPD) Doppelformeln verwenden (z.B. »Bürgerin und Bürger«), andere (Grüne, Linke) Sternchenformen (z.B. »Bürger*in«), die AFD hingegen nur männliche Wortformen (z.B. »Bürger«), ist sicher eine wichtige Beobachtung. Als systematischer Effekt in der quantitativen Analyse verstellt diese Uneinheitlichkeit der Texte jedoch eher den Zugang zu bestimmten Analyseergebnissen. 

Mit dem Bearbeitungsschritt b) wurden Eigen- und Ortsnamen ausgeschlossen, also etwa die Namen der Parteien, der Landesname »Brandenburg« oder Namen von anderen Ländern, Städten, Kontinenten etc. Aufgrund der – wie zu erwarten war – insgesamt sehr hohen Verwendung von Ableitungen des Namens »Brandenburg« (z.B. »Brandenburger(in)«, »brandenburgisch«, »brandenburger«) wurden auch diese nicht berücksichtigt. Dieser Bearbeitungsschritt zielte darauf, den Fokus der Analyse auf Themen (Substantive), Handlungen (Verben) und Einstellungen (Adjektive) zu richten.

Schließlich sind Korrekturen von Rechtschreibfehlern sowie Lemmatisierungsfehlern bzw. -unregelmäßigkeiten erfolgt sowie einige weitere Vereinheitlichungen vorgenommen worden. Eine Dokumentation der Bearbeitungen an den Rohdaten der Wahlprogramme kann hier heruntergeladen werden. 

V.3 Daten 

Da die Lizensierung der Wahlprogramm für mich nicht eindeutig ist, verzichte ich aus Rechte-Gründen auf die Veröffentlichung sämtlicher Prozessdaten aus der Analyse, insbesondere auf die Veröffentlichung der Volltexte. Zur Verfügung gestellt werden hier lediglich die Forschungsdaten im engeren Sinne, d.h. erstens die Daten, die nach der (automatischen und semi-automatischen) Vorbereitung vorlagen und als Grundlage für die MFW- und Keyness-Analyse mit dem R-Paket  »quanteda« dienten, zweitens der Output des R-Pakets »quanteda«, der als Grundlage für die Gestaltung der Ergebnislisten auf den Postern diente. Die Datenpakete können hier als zip-Archiv heruntergeladen werden

Bei Fragen stehe ich gern zur Verfügung (trilckeuni-potsdamde).

 

VI. Häufig gestellte Fragen

Frage 1: Ich finde ein Wort, das in den Analyse-Ergebnissen (auf den Postern) vorkommt, nicht im Wahlprogramm der Partei.

  • Dafür gibt es mehrere Ursachen, die häufigsten: 1) Die Wörter der Wahlprogramme wurden für die Analyse lemmatisiert (= auf die Grundform zurückgeführt), siehe die Erläuterung oben. Während in der Ergebnisansicht also z.B. der Singular ›Hebamme‹ steht, kann es sein, dass im Wahlprogramm der Plural ›Hebammen‹ verwendet wird. Oder in der Ergebnisdarstellung steht der Infinitiv ›zusammenhalten‹, im Wahlprogramm jedoch eine flektierte Form, etwa ›zusammenhält‹. 2) In der Vorbereitung der Daten wurden einige Vereinheitlichungen an den Daten vorgenommen, die oben dokumentiert sind. Dies betrifft z.B. das grammatikalische Geschlecht. Oder es betrifft sog. Partikelverben, also Verben wie ›aufbrechen‹. Hier kann es z.B. sein, dass in der Ergebnisdarstellung ›aufbrechen‹ steht, im Wahlprogramm jedoch ein Satz wie ›deshalb brechen wir auf‹. 3) Bei den Wahlprogrammen handelt es sich um teils aufwändig gelayoutete PDF-Dokumente, die u.a. mit Silbentrennung arbeiten. Für die Analyse wurden diese Layout-Effekte rückgängig gemacht; die Suche in den Wahlprogrammen kann hier jedoch auf Probleme stoßen. – In der Regel aber sollte eine Suche in den PDFs der Wahlprogramme jedoch die gewünschten Ergebnisse erbringen

Frage 2: Warum wurden nur die Wahlprogramme dieser sechs Parteien analysiert? 

  • Insbesondere die Datenvorbereitung ist ein zeitaufwändiges Unterfangen, deshalb musste aus pragmatischen Gründen eine Beschränkung erfolgen. Analysiert wurden deshalb die sechs Parteien, denen nach derzeitigem Stand eine realistische Chance auf den Einzug in den Landtag eingeräumt wird. Wer sich über die Wahlprogramme der ›kleinen‹ Parteien informieren möchte, kann dies gut z.B. über diese Info-Seite der Bundeszentrale für politische Bildung tun sowie über die Websites der einzelnen Parteien.