Good News – Wie Data Science dabei hilft, die Corona-Pandemie besser zu verstehen

Data Science kann helfen, Licht uns Dunkel komplexer Prozesse zu bringen | Foto: Andreas Töpfer
Quelle: Andreas Töpfer
Data Science kann helfen, Licht uns Dunkel komplexer Prozesse zu bringen.

Die durch das Coronavirus Ende 2019 ausgelöste Pandemie bestimmt ein halbes Jahr später das Leben von Milliarden Menschen weltweit. Dabei spielen reale Ängste vor der Ansteckung mit dem Virus genauso eine Rolle wie bewusst gestreute Falschinformationen. Um sich unabhängig informieren zu können, sind im Kampf gegen das Virus öffentlich zugängliche Daten wichtig. Hierbei hilft eine Gruppe von Forschenden am Hasso-Plattner-Institut (HPI) der Universität Potsdam, indem sie Erkenntnisse und IT-Werkzeuge zur grafischen Auswertung unter https://we.analyzegenomes.com/ kostenlos zur Verfügung stellt.

Wer hätte vor einigen Monaten geahnt, dass unser Alltag im Frühjahr 2020 so auf den Kopf gestellt sein würde? Ob Abstandsregeln im Alltag, Mundschutz beim Einkaufen oder Präsenznotbetrieb an den Universitäten. All das – ausgelöst durch die COVID-19-Pandemie. Am HPI arbeiten Forscherinnen und Forscher trotz der Einschränkungen daran, tagesaktuelle Daten zur weltweiten Verbreitung des Coronavirus zusammenzutragen und der Öffentlichkeit zugänglich zu machen.

Für viele Deutsche kamen die Einschränkungen durch die Pandemie abrupt und waren erst im März 2020 wirklich greifbar, als Kitas und Schulen geschlossen wurden und Kontaktbeschränkungen in Kraft traten. Bis dahin hatte sich die Berichterstattung in den Nachrichten vor allem auf eine weit entfernte Epidemie in China beschränkt. Selbst das angesehene Robert Koch-Institut hatte nur sporadisch die weltweiten Fallzahlen auf der eigenen Webseite aktualisiert. Anfang 2020 staunte man noch über den ungebremsten Eifer der Chinesen, die komplette Notfall-Krankenhäuser binnen weniger Tage aus dem Erdboden stampften.

Der Schlüssel zum Erfolg: Zugang zu aktuellen Daten

Am HPI gibt es bereits Erfahrungen bei der Erforschung von Epidemien. Beispielsweise arbeiteten   HPI-Forscher bei der Eindämmung der Ebola-Epidemie 2014 in Westafrika gemeinsam mit Wissenschaftlern aus aller Welt. Damals erwies sich das Nachverfolgen von Kontakten, das sogenannte Contact   Tracing, als besonders wichtige Maßnahme. Dabei wurden Kontaktpersonen von Infizierten über den Zeitraum der Inkubation isoliert und regelmäßig auf krankheitsspezifische Symptome befragt. Nur durch konsequentes Identifizieren von Kontaktpersonen und deren Isolation konnte das Risiko einer Ansteckung weiterer Personen reduziert werden.

Auch während der aktuellen Coronavirus-Pandemie ist das Contact Tracing ein Schlüssel zum Erfolg. Gerade bei den ersten Fällen in Deutschland wurde sehr erfolgreich mit persönlichen Interviews zu  rekonstruieren versucht, mit welchen Personen Infizierte in den vorangegangenen Tagen in Kontakt gewesen waren. Je konsequenter das Tracing erfolgte, desto schneller wurde klar, dass dafür viele Ressourcen nötig sind. Schon bei der Ebola-Epidemie 2014 hatte sich gezeigt, dass qualifiziertes Personal für das Contact Tracing rasch knapp werden kann. Daher war damals am HPI gemeinsam mit einem internationalen Wissenschaftlerteam eine App für das Contact Tracing entwickelt und vor Ort in Nigeria erprobt worden. Mithilfe der App und einer kurzen Einweisung kann jeder Mensch beim Contact Tracing helfen. Auch jetzt war das HPI bei der Entwicklung der sogenannten CovApp beteiligt, die bei der Erfassung relevanter Symptome bei Verdachtsfällen unterstützt. Der Einsatz solcher digitaler Anwendungen zeigt gerade in Zeiten knapper Ressourcen im Gesundheitswesen, wie sie effektiver genutzt werden können, damit sich medizinisches Fachpersonal um Notfälle kümmern kann.  

Neben den Daten aus dem Contact Tracing sind Behandlungsdaten aus Krankenhäusern eine wichtige Quelle. Sie können beispielsweise präzise Auskunft über die Zahl der Neuerkrankten, Gesundeten oder Verstorben geben. Doch diese Zahlen werden dezentral erhoben und liegen in verschiedenen ITSystemen  vor. Ein zentrales Register, das die Daten automatisiert ohne Verzögerung erfasst, gibt es bislang nicht. Dabei stellen landesweit erhobene Daten die Grundlage für viele wichtige Entscheidungen dar. Beispielsweise nutzen Epidemiologen aktuelle Fakten über Infizierte je Region, um die Ausbreitung einzuschätzen und passende Handlungsempfehlungen zu geben. Ebenso können neueste Pandemiedaten Aufschluss darüber geben, wie effektiv großflächige Maßnahmen, etwa die Schließung von Gastronomieeinrichtungen, sind.

Aktuelle Daten automatisch beziehen

Das HPI hat den Ernst der Lage frühzeitig erkannt und schon im Januar 2020 damit begonnen,  verfügbare internationale Datenquellen mit Fallzahlen zu SARS-CoV-2 zu identifizieren. Da zu dieser  Zeit das Zentrum der Epidemie noch in China lag, konzentrierten sich die Wissenschaftler auf chinesische Internetquellen. Als nächsten Schritt etablierten sie eine Hauptspeicherdatenbank für die weltweiten Fallzahlen. Dank der am HPI erforschten Hauptspeichertechnologie sind flexible Echtzeitanalysen von großen Datenmengen nach beliebigen Kriterien möglich. In der Datenbank werden die aktuell berichteten Fallzahlen zu Erkrankten, Gesundeten und Verstorbenen je Land oder Region zusammen mit Zeitstempeln gespeichert.

Um die Daten nicht händisch erfassen zu müssen, kommen sogenannte Crawler zum Einsatz. Dabei handelt es sich um Computerprogramme, die in regelmäßigen Abständen die Webseiten nach Fallzahlen absuchen und sie bei aktualisierten Meldungen automatisch in die Datenbank importieren. Auf diese Weise konnten die Wissenschaftler eine lückenlose longitudinale Datenbank zu den weltweiten Fallzahlen schaffen, die mittlerweile etwa 20.000 Einträge für knapp 600 Regionen und Länder weltweit umfasst.

Visualisierung ist der Schlüssel zur Interpretation von Daten

In der Auswertung lassen sich Aussagen zur aktuellen Lage treffen und retrospektiv Daten analysieren, um z.B. Trends in einzelnen Ländern oder Regionen zu erkennen. Hierbei kommen Softwaresysteme zum Einsatz, die mit interaktiven Visualisierungen die Exploration großer Datenmengen unterstützen. Abb. 1 zeigt ein Beispiel, das die Fallzahlen vom 20. April und 20. Mai 2020 je Land anhand von Kreisdiagrammen vergleicht. Zu erkennen ist, wie stark die Fallzahlen vor allem in Nordamerika, aber auch Südamerika, in Teilen Europas, sowie Russlands binnen eines  Monats zugenommen haben. Sie übersteigen die Zahlen im Ursprungsland China bei Weitem.

Der afrikanische Kontinent weist vermeintlich geringe Fallzahlen auf. Doch ist das wirklich so? Hier stoßen die Wissenschaftler auf eine weitere Herausforderung: Zwar können sie auf gemeldete Daten aus fast allen Ländern zurückgreifen, haben jedoch keinen Einfluss auf deren Qualität. Dabei geht es nicht nur um die Korrektheit der übermittelten Zahlen, sondern insbesondere um Definitionen und Annahmen je Land. Anhand welcher Kriterien wird beispielsweise entschieden, ob ein Verdachtsfall als Infizierter gemeldet wird oder nicht? Gerade zu Beginn des Jahres fehlten Kapazitäten für das flächendeckende Testen. Statt eines PCR-Tests auf Viren-RNA wurden auch andere Indikatoren, wie CT-Bilder der Lunge, zur Fallbestimmung herangezogen. Das unterschiedliche Vorgehen führt aber dazu, dass die gemeldeten Zahlen je Land mit unterschiedlichen Messfehlern behaftet sind.

In afrikanischen Ländern mit einem weniger gut aufgestellten Gesundheitssystem ist das systematische Testen von COVID-19-Verdachtsfällen extrem schwierig. Aber auch die Dokumentation von Verdachtsfällen und die Erhebung der Daten aus regionalen medizinischen Zentren ist für die Regierungen mit logistischen Hürden verbunden. Aufgrund  der Erfahrungen aus früheren Epidemien ist daher davon auszugehen, dass die öffentlich gemeldeten Zahlen nur einen Bruchteil der Realität abbilden. Hinzukommt, dass glücklicherweise nur ein verhältnismäßig geringer Teil der Infizierten mit schweren Symptomen erkrankt, die eine Hospitalisierung erforden.

Rasche Prognosen mittels KI

Für Deutschland wissen wir, dass viele Infizierte mitunter nur leichte oder gar keine Symptome zeigen, also auch bei einem Arztbesuch nicht registriert werden. Um diesen Fehler in nationalen Zahlen zu berücksichtigen, wurden in den Regionen Deutschlands, die als Corona-Hotspots gelten, flächendeckend Einwohner befragt und getestet. Aus diesen regionalen Studien hofft man eine präzisiere Prognose für die realen Fallzahlen in Deutschland und ein besseres  Verständnis für die Übertragungswege des Virus zu erhalten. Auch am HPI dient die aufgebaute Datenbank der erfassten COVID-19-Daten als Grundlage für Prognosen. So kommen Verfahren des maschinellen Lernens und der künstlichen Intelligenz zum Einsatz, um beispielsweise anhand der Entwicklungen in China  die Fallzahlen für weitere Länder zu prognostizieren  oder die Wirksamkeit von getroffenen Maßnahmen zu bewerten.

Je zeitiger man landesweit auf aktuelle Daten zurückgreifen kann, desto schneller können auch angemessene Maßnahmen im Umgang mit der Pandemie getroffen werden. Etablierte klinische Prozesse zum systematischen Testen, ein zentrales Register zur Erfassung von Verdachtsfällen sowie geeignete IT-Werkzeuge zur interaktiven und flexiblen Auswertung der Daten bilden die Grundlage dafür, dass medizinische Experten bei der nächsten Pandemie noch zeitiger reagieren können.

Der Forscher

Dr.-Ing. Matthieu-P. Schapranow ist Leiter der Arbeitsgruppe „In-Memory Computing for Digital Health“ sowie Scientific Manager Digital Health Innovations am Hasso-Plattner-Institut (HPI). Er engagiert sich ehrenamtlich u.a. in der Plattform Lernende Systeme, im Bundesverband Informationswirtschaft, Telekommunikation und neue Medien e.V. (BITKOM) in der Arbeitsgruppe e-Health, sowie in der Global Alliance   for Genomics and Health.
E-Mail: matthieu.schapranowhpide

 

Dieser Text erschien im Universitätsmagazin Portal Wissen - Zwei 2020 „Gesundheit“ (PDF).