Bit für Bit

Gilles Blanchard nutzt die Statistik beim maschinellen Lernen

Foto: Gilles Blanchard

Nicht nur Menschen, auch Computer lernen. Schrift- oder Spamerkennung sind Beispiele dafür, wie Computerprogramme automatisch lernen, Vorhersagen zu treffen. Mit der mathematischen Analyse der Eigenschaften solcher Methoden beschäftigt sich die Lerntheorie, die eng mit der Statistik verbunden ist. Auf diesem Gebiet forscht Gilles Blanchard, Professor für Mathematische Statistik.

Ein künstliches System, eine Maschine, lernt aus Beispielen, um anschließend mithilfe mathematischer Modelle zu verallgemeinern. Bei der Analyse von Einzelbeispielen „erkennt“ das System Gesetzmäßigkeiten, um bisher unbekannte Daten beurteilen zu können. Anwendungen dafür sind beispielsweise automatisierte Diagnoseverfahren, Erkennung von Kreditkartenbetrug, Aktienmarktanalysen, Klassifikation von DNA-Sequenzen oder Sprach- und Schrifterkennung.

Beim maschinellen Lernen werden große Mengen von Daten, Bildern oder Texten verarbeitet. Schreiben beispielsweise verschiedene Personen die Zahl 2, entsteht eine entsprechende Anzahl von „individuellen Zweien“. Die so generierten Datenbanken sind die Grundlage für Lern- und Vorhersageprogramme. Die Maschine lernt etwa, in Briefen automatisch zu erkennen, welche Ziffern geschrieben wurden. „Das Programm wird mit Beispielen gefüttert, vergleicht die Bilder und stellt Ähnlichkeiten fest, aus den Beispielen entsteht eine Klassifikation“, beschreibt Gilles Blanchard das Vorgehen. Hilfreich ist das für die Erkennung von Adressen auf Postsendungen bei der automatischen Sortierung. Gleiches gilt für die Identifizierung von Nummernschildern. Bei gedruckter Schrift ist das Lernen für die Maschine naturgemäß sehr viel leichter als bei Handgeschriebenem. Als überaus nützlich erweist sich die Spracherkennung, so bei automatischen Übersetzungen, einem klassischen Beispiel für maschinelles Lernen. Sie sind nicht perfekt, liefern aber eine Grundstruktur. Sogar die Erkennung von Gesichtern ist auf diese Weise möglich.

Vielfache Anwendung finden die Methoden des maschinellen Lernens mittlerweile auch in der Bioinformatik: Ärzte nutzen heutzutage eine Vielzahl von Daten, wie Informationen aus Magnetresonanztomografie- oder Computertomografie-Verfahren und genetische Daten. Dabei erweisen sich Maschinen als hilfreiche Unterstützer, beispielsweise bei der Erkennung von Krankheiten wie etwa Brustkrebs.

Das Lernen ist bei Maschinen wie bei Menschen ein komplizierter und mühevoller Vorgang, da es stets sehr viele Variationen zu erfassen gibt. Häufig werden beim Programmieren Analogien zum menschlichen Gehirn hergestellt, um neue Architekturen und Methoden zu erfinden. „Es erweist sich als äußerst schwierig, logische Regeln aufzustellen, weil die Logik der Natur nicht immer zu erkennen ist“, sagt Gilles Blanchard. Es gibt viele zufällige Variationen und Fehler, sodass letztlich gerade mathematische Werkzeuge der Wahrscheinlichkeitstheorie für die Analyse geeignet sind.

Informatik, Wahrscheinlichkeitstheorie und Statistik sind Bereiche, die beim maschinellen Lernen untrennbar miteinander verbunden sind. Am wissenschaftlichen Werdegang von Gilles Blanchard sind die Verbindung dieser Bereiche und deren Entwicklung ablesbar. Er studierte Mathematik in Paris und promovierte dort. 2002 ging der Wissenschaftler zum Fraunhofer-Institut für Rechnerarchitektur und Softwaretechnik (FIRST) nach Berlin, beschäftigte sich dort vor allem mit maschinellem Lernen. Ab 2009 war Blanchard Mitarbeiter am Weierstraß-Institut für Angewandte Analysis und Stochastik in Berlin in der Statistik-Gruppe. Professor für Mathematische Statistik am Institut für Mathematik der Universität Potsdam ist er seit 2010. Reizvoll ist es für ihn, an der Grenze dieser interagierenden Wissenschaftsgebiete zu arbeiten. Deshalb kooperiert der Mathematiker auch eng mit dem Informatiker Tobias Scheffer, Professor für Maschinelles Lernen am Institut für Informatik.

Drei Jahre arbeiteten Gilles Blanchard und seine Kollegen am Projekt MASH (Massive Sets of Heuristics). Dieses war ein EU-gefördertes Projekt zur Entwicklung einer gemeinsamen Plattform für kollaboratives maschinelles Lernen. Beteiligt waren neben der Universität Potsdam vier Partnerinstitutionen aus der Schweiz, Frankreich und Tschechien. Dabei ging es um den Aufbau eines Lernsystems, an dem große Gruppen von Mitwirkenden aus vielen Bereichen mit verschiedensten Hintergründen arbeiten. „Die Grundidee des Projektes besteht darin, die Expertise vieler Individuen zu nutzen, indem man die von ihnen entwickelten Programme zur Extraktion von Merkmalen kombiniert“, sagt Doktorand Andre Beinrucker. Aus verschiedenen Handschriften und Perspektiven entstehen viele Programmteile, die letztlich zu einem großen System zusammengefügt werden.

Bei einer Anwendung der im Projekt entwickelten Lernmethoden lernt ein Roboterarm „von selbst“, zunächst durch Versuch und Irrtum, einfache Aufgaben, wie beispielsweise einen roten Würfel von den anderen Formen zu trennen. Alle am Projekt Beteiligten liefern „kleine“ Informationen, Programmstücke. „Es geht nicht darum, ein vollständiges Programm zu schreiben, das alles löst. Jede Information ist wichtig, deshalb arbeiten wir kollaborativ“, so Andre Beinrucker.