Archiv

Suchmaschinendaten
Neuer Anlauf für die Grippeprognose

Der Big-Data-Dienst "Google Flu Trends" wollte die Verbreitung von Grippewellen in Deutschland fast in Echtzeit angeben. Nach Prognose-Pannen beendete der Konzern jedoch die Anwendung. Statistiker von der Harvard-University haben mit einem erheblich verbesserten Prognosemodell versucht, die Schwächen von "Flu Trends" auszubügeln.

Von Michael Gessat |
    Eine Frau liegt krank im Bett.
    Wer Begriffe wie "Fieber", "Schnupfen" oder "Grippe" in einer Internet-Suchmaschine eingibt, dürfte erkrankt sein. (picture alliance / dpa / J.M. Guyon)
    Wer öffentlich Vorhersagen macht, die dann aber nicht eintreffen, verliert schnell und nachhaltig an Renommee. Genauso ging das auch dem "Google Flu Trends"-Algorithmus. Sein Blick in die Zukunft beruhte auf purer Statistik: Er analysierte Suchanfragen, verglich deren Art und Häufigkeit mit tatsächlich aufgetretenen Grippefällen und versuchte also mögliche Korrelationen zu entdecken. Aber 2009 hatte das Modell das Ausmaß der H1N1-Schweinegrippe völlig unterschätzt, in der Grippesaison 2012/2013 hingegen sah es eine ernsthafte Epidemie im Anmarsch – wie sich herausstellte, ein Fehlalarm. Samuel Kou, Statistikprofessor an der Harvard University:
    "Diese gravierenden Pannen ließen die Leute nachvollziehbarerweise daran zweifeln, ob der Big Data-Ansatz hier wirklich etwas taugt. Aber für uns war das der Startpunkt, die Motivation dafür, uns an die Arbeit zu machen."
    ARGO ist flexibler als der Vorläufer
    Herausgekommen ist dabei ein komplett neues Prognosemodell namens ARGO. Rein von der Grundidee her arbeitet es wie Flu Trends. Aber ARGO ist flexibler als der Vorläufer: Ein einmal als statistisch signifikant erkannter Zusammenhang zwischen bestimmten Suchanfragen und einer bestimmten Grippehäufigkeit ist nämlich keine unveränderliche Tatsache, so die Erkenntnis der Harvard-Forscher:
    "Wir müssen die Veränderungen beim Suchverhalten berücksichtigen, dass die Leute im Laufe der Zeit andere Suchbegriffe verwenden. Wir haben deshalb versucht, dass wir beim Training unseres Modells ständig dynamisch nachjustieren."
    Und das heißt auch – das Training endet nie. ARGO holt sich kontinuierlich neues Datenmaterial aus dem Netz: Zum einen aktuelle Suchanfragen, die etwa bei "Google Correlate" und "Google Trends" öffentlich verfügbar sind, zum anderen aktuelle Informationen über registrierte Krankheitsfälle, wie sie von den amerikanischen CDCs, den Centers for Disease Control veröffentlicht werden. Kous Kollege Mauricio Santillana:
    "Immer wenn wir aktuelle neue Daten über grippeähnliche Erkrankungen von den Gesundheitsbehörden bekommen, bauen wir die in unsere Analyse ein und rekalibrieren unser Modell, sodass da ständig der komplette verfügbare Informationsstand drin steckt und es die bestmögliche Vorhersage von Grippefällen machen kann."
    Auch in Deutschland werden solche Meldungen über Atemwegserkrankungen gesammelt und zeitnah veröffentlicht, sie stammen aus einer großen Anzahl von kooperierenden Arztpraxen, den sogenannten Sentinelpraxen. Silke Buda, Influenza-Expertin vom Robert-Koch-Institut in Berlin:
    Erheblich bessere Trefferquote
    "Die Daten werden ausgewertet, zusammengestellt mit den übrigen Datenquellen, da kommen auch die Influenzameldungen, die gemäß Infektionsschutzgesetz ans Robert-Koch-Institut übermittelt werden mit rein, da kommen die Ergebnisse aus GrippeWeb mit rein, und das Ganze geht dann Mittwoch nachmittags online als Influenza-Wochenbericht. Das heißt, wir haben eine Verzögerung von drei bis maximal acht Tagen."
    Ein Prognosemodell wie ARGO hingegen liefert theoretisch eine Situationsabschätzung in Echtzeit – und das, so die Harvard-Forscher, mit erheblich besserer Trefferquote als Flu Trends oder alle anderen bislang vorgestellten Algorithmen. Wohlgemerkt aber eben nur eine Abschätzung – Silke Buda ist denn auch recht skeptisch, ob eine netzbasierte Grippeprognose in der Praxis allzu viel Nutzen hätte:
    "Also für diesen kurzen Zeitraum, der dann gewonnen würde, denke ich nein. Es ist ja einfach so, wir haben ja auch gewisse Vorstellungen erfahrungsgemäß, wie sich die Grippesituation weiterentwickelt, wir haben andere Daten und Datenquellen, und die Positiven-Rate, der Anteil der positiven Proben im Nationalen Referenzzentrum für Influenza sind ein sehr guter Hinweis, ob sich eben eine Grippewelle anbahnt."
    Aber Samuel Kou und Mauricio Santillana bleiben auch bei ihrem Big Data-Ansatz zuversichtlich, vorausgesetzt, ARGO liefert wirklich so gute Prognosen wie von ihnen erwartet:
    "Wir stehen in engem Kontakt mit den Gesundheitsbehörden, und sie sind definitiv interessiert. Das Problem liegt eben wirklich in den Prognosepannen bei Google Flu Trends, da haben die Leute im Gesundheitssystem das Vertrauen verloren. Wir müssen das jetzt wieder aufbauen und sie davon überzeugen, dass das Hinzuziehen unserer Abschätzungen eine wertvolle Sache sein kann."