Zum Hauptinhalt springen

Ich sehe was, was du siehst - Kognitionswissenschaftler entwickeln Modelle zur Vorhersage von Blickbewegungen

Prof. Ralf Engbert
Foto : Tobias Hopfgarten
Prof. Ralf Engbert

Schon seit einiger Zeit widmen sich vor allem Kognitionswissenschaftlerinnen und -wissenschaftler dem menschlichen Blick, vor allem wenn es ums Lesen und das Betrachten von Bildern und Objekten geht. Immer mehr wissen wir darüber, warum wir wohin sehen und wie wir erfassen, was wir betrachten. Doch längst gehen Forschende noch einen Schritt weiter und untersuchen, ob die Bewegungen unserer Augen möglicherweise auch verraten, worauf wir sie als nächstes richten. Matthias Zimmermann hat im Selbstversuch an einem Experiment zur Blickbewegungsanalyse teilgenommen – und mit dem Kognitionswissenschaftler Prof. Dr. Ralf Engbert darüber gesprochen.

„Oben links, rechts, unten, oben, links unten, keine Ahnung.“ Immer kleiner werden die Symbole, die ungefähr fünf Meter vor mir auf dem Monitor erscheinen. Irgendwann muss ich raten. Ich frage mich, ob andere noch erkennen können, was vor meinen Augen längst verschwimmt. Als ich schon denke, ich sei durchgefallen, erklärt mir die freundliche Mitarbeiterin, meine Sehschärfe sei bestens. Glück gehabt. Immerhin bin ich heute hier, um an einem Experiment zur Blickbewegungsmessung teilzunehmen. Doch bevor es wirklich losgehen kann, wird getestet, ob ich überhaupt teilnehmen darf. Es folgen zur Abwechslung ein Kognitionstest, bei dem ich – auf Zeit – Symbole und Ziffern einander zuordnen muss, und ein Wortschatztest. Ich komme mir ein bisschen vor wie in der Schule, aber mein Ehrgeiz ist geweckt und ich hänge mich rein. Dabei hat das Experiment selbst noch nicht einmal begonnen. Anschließend heißt es wieder: Richtig gucken! Meine Augen werden völlig durchgecheckt: Fokussieren, klappt. Tiefenschärfe, vorhanden. Farbsehen, 1A. Augendominanz – rechts. Irgendwann bin ich rundum erfasst, bekomme zum Schluss noch eine Nummer zur Anonymisierung und dann bin ich bereit, meine Augen in die Kamera zu halten. Aber wozu eigentlich? Was die Forschenden sehen, wenn sie sehen, was ich sehe, weiß ich noch nicht. Hoffentlich werde ich es bald erfahren.

„Blickbewegungsmessungen sind ein methodisches Werkzeug, das sich sehr vielseitig und in verschiedenen Disziplinen einsetzen lässt“, sagt Ralf Engbert. Der studierte Physiker ist Professor für Allgemeine und Biologische Psychologie und ein Experte, was die mathematische Modellierung von Augenbewegungen und Aufmerksamkeitsprozessen betrifft. „Hier in Potsdam haben wir viele wissenschaftliche Einsatzmöglichkeiten für Blickbewegungsanalysen in der Psychologie und der Linguistik aufgebaut.“

Daher verwundert es wenig, dass Ralf Engbert in zwei DFG-Sonderforschungsbereichen der Uni an Projekten zur Blickbewegungsanalyse mitarbeitet. Im SFB 1287 „Grenzen der Variabilität der Sprache“ untersucht er zusammen mit Prof. Shravan Vasishth, was die Augenbewegungen über die Sprachverarbeitung verraten. Im SFB 1294 „Datenassimilation“ geht es vor allem darum herauszufinden, mit welchen theoretischen Modellen wir Blickbewegungen für Texte oder Bilder beschreiben können. Und wie sich künftig vorhersagen lässt, wohin wir wann schauen, wenn wir auf eine Szene blicken. „Für statische Szenen gibt es bereits funktionierende Modelle“, so der Wissenschaftler. Beispielsweise würden in der Werbebranche schon sogenannte Heat maps verwendet, die dokumentieren, welche Bereiche von Bildern, Grafiken oder Websites besonders intensiv betrachtet werden. „Wir arbeiten an dynamischen kognitiven Modellen.“ Mit deren Hilfe soll es möglich werden, nicht nur im Mittel zu rekonstruieren, sondern sogar spezifisch vorherzusagen, wohin jemand als nächstes schaut – und das nicht nur beim Betrachten eines Fotos, sondern irgendwann auch in einer realen, sich verändernden Umwelt. „Die Anwendungsmöglichkeiten für eine solche Vorhersage von Blickbewegungen in Echtzeit sind gewaltig“, sagt Engbert. „Gerade in der Mensch-Maschine-Interaktion. Ein entsprechend ausgerüstetes Assistenzsystem im Auto könnte etwa warnen, wenn man den Fußgänger am Straßenrand übersieht, weil man woanders hinschaut.“

Das Labor wirkt unspektakulär: ein nüchterner Raum, der rundherum mit schwarzen Vorhängen ausgekleidet ist. Dazu zwei Computer, Stühle und eine unauffällige graue Plastikbrille. Das war’s. Noch bin ich wenig beeindruckt. Doch das ändert sich, als der Leiter des Experiments, Daniel Backhaus, mir die Brille, die keine Gläser hat, dafür aber verkabelt ist, auf die Nase setzt und einschaltet. Auf einem der Bildschirme öffnet sich ein Programmfenster und ich sehe dort – was ich durch die Brille sehe. Ich schüttle den Kopf, die Liveübertragung wackelt mit. Das wird noch skurriler, als ich näher herantrete und nun im Bildschirm den Bildschirm sehe, darin ein noch kleinerer, noch einer und noch einer, bis sie zu klein sind, um sie noch zu erkennen. Ich fühle mich an ein Spiegelkabinett erinnert. Vorab, aber auch während der Testreihen wird die Brille immer wieder kalibriert, insgesamt bestimmt 20 Mal. Dafür muss ich auf Ansage nacheinander drei schwarze Punkte auf weißem Grund fixieren. Alles ist millimetergenau eingestellt. Sogar die Leinwand wird an meine Körpergröße angepasst, damit ich auch wirklich geradeaus und nicht hoch oder runter schaue.

Die Eyetracking-Brille ist technisches Herzstück und „allsehendes Auge“ des Experiments. Sie ist ausgestattet mit gleich mehreren kleinen Kameras, von denen einige nach vorn ausgerichtet sind und aufnehmen, was der Proband sieht. Die anderen fixieren die Pupille und registrieren deren Bewegungen – bis ins Kleinste und in Echtzeit. Miteinander kombiniert lässt sich daraus eine Blickspur erzeugen, die dokumentiert, wohin man auf dem Bild schaut. Erst die ständig wiederholte Kalibrierung stellt sicher, dass die Blickspur und das betrachtete Bild am Ende auch wirklich genau zueinander passen.

Dann geht es endlich los: Der Experimentator platziert mich auf zwei sogenannten Therapiekreiseln, runden Platten, die auf einem halben Ball montiert sind, sodass man permanent balancieren muss, um sein Gleichgewicht nicht zu verlieren. Erschwerte Bedingungen also. Rund drei Meter vor mit befindet sich eine große, weiße Leinwand, direkt über mir ein Beamer.
Wacklig wie ein Surfer beim ersten Versuch auf dem Board muss ich mir Fotos ansehen, 15 insgesamt. Ich sehe Landschaften, Straßen, Häuser – und mittendrin Tiere: Elefanten in der Savanne, Möwen im Hafen, Affen im Zoo, Hunde, Pferde, Schafe, mal einzeln, mal in Massen. Meine Aufgabe ist es zu zählen, wie viele Tiere auf den Fotos zu sehen sind. Für jedes Bild habe ich zehn Sekunden Zeit. Anschließend darf ich aus drei möglichen Antworten wählen und muss sie laut ansagen. Liege ich richtig, leuchtet die Leinwand grün auf und meinem „Experimentierkonto“ werden ein paar Cent gutgeschrieben. Habe ich falsch gezählt, gibt es zwar kein fieses „Mööp“ wie in der Spielshow, aber immerhin einen roten Bildschirm. Experiment hin oder her: Ich kann ein wenig Druck nicht verhehlen. Oft stimmt die Zahl, aber immer wieder liege ich auch daneben – und ärgere mich.

Forschung mit Blickbewegungsmessungen gebe es schon länger, erklärt Ralf Engbert. Doch bislang habe diese meist unter Laborbedingungen stattgefunden. „Visuelle Wahrnehmung dient aber dazu, Handlungen vorzubereiten. Wir schauen auf eine Tasse, um sie anschließend hochzuheben; sehen Dinge an und erläutern ihre Funktion.“ Visuelle Wahrnehmung sei stark aufgabenabhängig und könne daher auch nur in diesen Zusammenhängen sinnvoll untersucht werden. „Unser Ziel ist es, die Blickbewegungsanalyse aus dem Labor herauszuholen – und zwar ohne auf wissenschaftliche Präzision zu verzichten.“

Die Potsdamer Forschenden tun dies auf zwei Wegen. Zum einen ließen sich dank aktueller Technik endlich natürlichere Bedingungen simulieren. Während lange fest installierte Tracker eingesetzt wurden, bei denen man sein Kinn auf einer Stütze ablegen musste und den Kopf während des Experiments nicht bewegen durfte, erlauben neuere Tracking-Brillen mehr Mobilität. Stehen, den Kopf drehen – all das ist kein Problem mehr. „Natürlich ist es schon jetzt möglich, mit einem Eyetracker auf dem Kopf über den Campus zu gehen“, so Engbert. „Wir machen hier den ersten Schritt und bringen die Probandinnen und Probanden mit unseren verschiedenen Settings in Bewegung, um Bedingungen zu schaffen, unter denen wissenschaftliche Aussagen über natürliches Verhalten unserer Versuchspersonen möglich sind.“

Zum anderen „sorgen“ die Wissenschaftlerinnen und Wissenschaftler schlicht dafür, dass das Sehen der Versuchspersonen einen Sinn hat, und zwar indem sie ihnen eine Aufgabe geben. In diesem Fall: Tiere zählen. Das macht ihre Blickbewegungen nicht nur realitätsnah, sondern auch vergleichbar. Dies wiederum ist Voraussetzung für ein gutes Modell, das mit den Datensätzen gefüttert und weiterentwickelt wird. Freilich machen Experimente, die immer komplexer werden, je realitätsnäher sie ablaufen, die Sache für die Forschenden nicht leichter. „Natürliche Bedingungen stellen Herausforderungen auf vielen Gebieten“, sagt Engbert. Und meint beispielsweise die Komplexität der Modelle: Je mehr Parameter bei einem Experiment berücksichtigt werden, desto mehr Daten fließen in die Modellierung ein. „Um die Vorteile der vielen Daten nutzen zu können, ohne im Datensumpf zu versinken, hilft nur gute Theorie.“

Endlich ist die erste Runde vorbei und ich steige erleichtert von meinem „Surfbrett“. Kurz ausruhen ist angesagt, aber fertig bin ich noch lange nicht. Weitere 45 Bilder liegen vor mir. Immerhin stehe ich für die nächsten 15 Bilder fest auf meinen zwei Beinen. Kinderspiel also. Entspannen kann ich mich trotzdem nicht, die Bilder sind anspruchsvoll. Manche Tiere suche ich vergebens. Immer wieder rote Bildschirme. Zwischendurch fällt mir ein, dass das Messen von Blickbewegungen ein bisschen wie Gedankenlesen ist. Experimentator Daniel Backhaus sieht genau, wo ich hinschaue. Auch meinen flüchtigen Blick auf das langsam wachsende „Belohnungskonto“, den ich mir fortan verkneife. Ich bin ja hier, um über ein Forschungsprojekt zu berichten, nicht um Geld zu verdienen. Aber mein Kopf beginnt zu rattern: Was, wenn das ganze Experiment eine psychologische Studie ist, die untersucht, wer aufs Geld schielt und wer nicht? Ich reiße mich zusammen, ich muss Tiere zählen. Acht Schafe, keins, drei Elefanten. Falsch, Mist!

Obwohl der SFB 1294, zu dem auch „mein“ Experiment beiträgt, erst seit Herbst 2017 läuft, haben die Kognitionswissenschaftler um Ralf Engbert in ihren Teilprojekten schon viel erreicht: „Unsere mathematischen Modelle sind deutlich besser geworden“, sagt er nicht ohne Stolz. So seien die dynamischen kognitiven Modelle, die er gemeinsam mit den Partnern im Projekt erarbeitet, dank der Datenassimilation in der Lage, die sequenzielle Struktur des Sehens nicht nur abzubilden. „Mit jedem neuen Datenpunkt gelingt es uns besser, aus den aufgenommenen Sequenzen den nächsten Fixationspunkt – also etwa die Stelle auf einem Foto, wo der Betrachter als nächstes hinschaut – vorherzusagen.“

Aber das ist nicht alles: Mithilfe verbesserter Modellierung durch Datenassimilation sei es ihnen gelungen, mit weniger Datenmaterial genauere Vorhersagen zu machen. „Bislang brauchte man Messdaten von vielen Probandinnen und Probanden, um relativ statische und allgemeine Aussagen zu Blickbewegungen zu formulieren. Wir sind schon jetzt an einem Punkt, wo wir mit Datensätzen von einzelnen Versuchsteilnehmern individuelle Vorhersagen treffen können.“

Es folgen noch zwei „Foto-Runden“. Immerhin darf ich jetzt sitzen, einmal auf einer Art Barhocker, danach auf einem Stuhl an einem Tisch. Dabei muss ich meinen Kopf auf einem kleinen Stützgerüst ablegen – und darf ihn nicht bewegen, weshalb ich auch nicht sagen kann, wie viele Tiere ich sehe. Stattdessen werden mir die drei Antwortoptionen gezeigt, ich schaue auf eine der Zahlen, schließe kurz die Augen – und habe mich entschieden. Zwei Enten, blinzeln, richtig. So würde ich gern mal im Restaurant mein Essen bestellen, denke ich, und warte auf das nächste Foto.

Dass ihre Arbeit so schnell Erfolge bringt, sei nicht zuletzt dem besonders fruchtbaren Forschungsklima eines SFB zu verdanken, schwärmt Ralf Engbert. „Man tauscht sich über einen langen Zeitraum immer wieder aus – auf theoretischer und praktischer Ebene.“ Dabei zeige sich mitunter, dass manche Modellansätze mehr miteinander gemeinsam hätten, als man vorher gedacht habe – und das, obwohl sie vielleicht aus der Erdbebenforschung und der Blickbewegungsanalyse stammen. Auch vom Miteinander gestandener Forscher verschiedener Disziplinen und junger Doktoranden und PostDocs profitierten letztlich alle: „Die gemeinsame Betreuung durch zwei Prinzipal Investigators sorgt dafür, dass man sich immer wieder mit anderen Perspektiven und neuen Fragen beschäftigt. Und wenn dann junge, interessierte Leute dabei sind, die neue Dinge auszuprobieren bereit sind, lernen am Ende alle etwas.“

Schließlich ist die Testreihe geschafft, und ich bin es auch. Ein bisschen stolz bin ich schon, dass ich so viele Tiere gefunden habe, auch wenn die Aufgabe eigentlich nur eine Nebenbeschäftigung war. Zum Abschluss fragt mich Experimentator Daniel Backhaus nach meiner Strategie bei der Tiersuche. Ich überlege. Überfliegen, große Fixpunkte suchen, dann unklare Stellen intensiver anschauen, zum Schluss noch einmal alles wiederholen. Tatsächlich habe ich nach wenigen Minuten ein Vorgehen entwickelt, das mir für das „Tiersuchen in Sekunden“ am sinnvollsten erschien. Ob es andere ähnlich gemacht haben? Ich hoffe, ich werde es erfahren, wenn die Auswertung des Experiments abgeschlossen ist.

Das Projekt

Ralf Engbert ist im SFB 1294 „Datenassimilation“ an zwei Teilprojekten beteiligt. Das Projekt B03 „Parameterschätzung und Modellvergleich für dynamische Kognitionsmodelle“, das er gemeinsam mit dem Mathematiker Prof. Dr. Sebastian Reich leitet, untersucht die Datenassimilation für dynamische kognitive Modelle. Der Fokus dieses Projektes liegt auf der Verbesserung mathematischer Modelle der Blickbewegungskontrolle beim Lesen, in der Szenenwahrnehmung und bei Miniaturbewegungen der Augen. Ziel ist es, effiziente Algorithmen für Datenassimilation und Modellvergleich zu entwickeln, um letztlich, so ein Ziel, die Vorhersage von Blickbewegungen in Echtzeit zu ermöglichen. Im Teilprojekt B05 „Aufmerksamkeitsauswahl und Erkennung bei der Betrachtung von Bildern“, das Engbert gemeinsam mit dem Informatiker Prof. Dr. Tobias Scheffer leitet, werden Algorithmen und mathematische Modelle entwickelt, mit denen Augenbewegungen unter Berücksichtigung von individuellen Merkmalen des Betrachters beschrieben werden. Ein zweites Ziel besteht darin, aus solchen generativen Modellen von Fixationssequenzen diskriminative Modelle zu erzeugen, mit denen latente Eigenschaften des Betrachters aus den beobachteten Fixationssequenzen extrahiert werden können. Aus der genauen Analyse von Blickbewegungen ließe sich etwa ableiten, ob der Betrachter mit dargestellten Personen oder anderen Inhalten vertraut ist. Derartige Modelle könnten perspektivisch im E-Learning und in der Kriminologie Anwendung finden.

www.sfb1294.de

Der Wissenschaftler

Prof. Dr. Ralf Engbert studierte Physik an der RWTH Aachen. Seit 2008 ist er Professor für Allgemeine und Biologische Psychologie an der Universität Potsdam.
E-Mail: ralf.engbertuni-potsdamde

 

Dieser Text erschien im Universitätsmagazin Portal Wissen - Zwei 2019 „Daten“.