Eingefleischte "Game of Thrones"-Fans, die in diesen Tagen wieder einmal atemlos vor dem Bildschirm mitfiebern, sollten sich reiflich überlegen, ob sie die Internetseite https://got.show/ aufrufen. Denn dort warten möglicherweise schockierende Zahlen: 95 Prozent Todeswahrscheinlichkeit für die eigene Lieblingsfigur, aber gute Überlebenschancen für den Schurken? Und das auch noch wissenschaftlich abgesichert? Die Idee für die Website und Todes-Prognose stammt von Guy Yachdav; das Ganze war sozusagen ein Einführungskurs in modernes Data Mining und in Maschinenlernen.
"Wir haben unsere Daten aus dem Internet-Wiki "Ice and Fire", das ist eine sehr populäre Website, auf der sich viele Fans über die Buchserie informieren. Dort haben wir dann 24 Merkmale gesammelt, mit denen sich die rund zweitausend Romanfiguren jeweils charakterisieren lassen. Zum Beispiel das Alter, das Geschlecht, ob sie verheiratet sind oder nicht, ob der Partner noch lebt, welchem Adelshaus die Figur angehört, oder in welchem Buch der Serie sie auftritt."
Korrelation ohne Kausalität
Mit dem Datenmaterial trainierten Yachdav und seine Studenten dann einen Maschinenlernalgorithmus. Vereinfacht gesagt, setzt der alle Einzelmerkmale zueinander in Beziehung und ermittelt, ob es Kombinationen gibt, die für bereits tote oder für noch lebende Figuren charakteristisch sind. Und tatsächlich wurde der Algorithmus fündig. Das Ableben in "Ice and Fire" ist offenbar nicht zufällig oder willkürlich, sondern folgt einem nicht auf den ersten Blick ersichtlichen Muster. Aber kann das denn stimmen; liegt nicht der Fortgang einer fiktiven Handlung völlig frei im Belieben des Autors?
Professor Burkhardt Rost hat das Projekt seines Mitarbeiters Yachdav und seiner Studenten mit Begeisterung mitverfolgt - aber als Pionier des Maschinenlernens sind ihm die Fallstricke sehr bewusst:
"Das klassische Modell: Ich hab so eine Figur, die Zahl der Babys, die in Niedersachsen geboren worden sind in einem gewissen Zeitraum, und dann die Korrelation mit der Zahl der Störche. Und diese Korrelation ist erstaunlich gut."
Nur steckt eben keine Kausalität dahinter. Und so könnte man auch bei dem Games-of-Thrones-Modell entsprechend ins Grübeln kommen. Welche Kausalität sollte eigentlich hier im Spiel sein? Da hilft es, sich zunächst einmal klarzumachen, was der Maschinenlern-Algorithmus denn eigentlich als Ergebnis liefert:
"Was wir da vorhersagen, ist letztlich, was im Kopf des Autors vorgeht, wir lernen sozusagen den Autor kennen." Und selbst das ist auch nur eine Annahme, eine nachträgliche Interpretation, schränkt Professor Rost ein: "Wir haben eine schwarze Box, wir wissen nicht so genau, was da eigentlich drinsteckt.
Vorurteilslose Ergebnisse
Aber der Forscher bricht natürlich eine Lanze für "sein" Verfahren:
"Was ich in meiner Karriere als Wissenschaftler erlebt habe, dass üblicherweise diese simplen Regeln, von denen wir glauben, dass wir die verstehen, dass wir uns irren. Das heißt, was wir als Kausalität oft in wissenschaftlichen Veröffentlichungen schreiben, ist in dem Sinne dann keine."
Maschinenlernen produziert hingegen vorurteilslose Ergebnisse, bietet die Chance, festgefahrene, aber letztlich falsche Lehrmeinungen zu ignorieren und dadurch zu entlarven. Das ist der positive Aspekt.
"Aber es ist extrem schwierig herauszufinden, wie genau und belastbar solche Black-Box-Ergebnisse eigentlich sind. Maschinenlernen sollte man nur anwenden auf Probleme, wo es anders eben nicht geht. Wo wir eine Intuition für die Lösung nicht haben. Sobald wir eine Intuition für die Lösung haben, ist die Intuition die Lösung."
Externe Einflüsse nicht einkalkuliert
Und auch Guy Yachdav hat noch eine Warnung oder aber gleichzeitig einen Hoffnungsschimmer für die Fans von "Game of Thrones" – seine Todes-Vorhersagen sind völlig "ohne Gewähr":
"Ganz klar könnte es jetzt externe Einflüsse auf die Serie geben, die gar nicht auf den von uns betrachteten Daten beruhen. Das ist gut möglich, und wahrscheinlich passiert es auch schon gerade. Die TV-Serie könnte sich vom Buchinhalt lösen und der Autor wäre gar nicht mehr im Entscheidungsprozess beteiligt. Eigentlich sprechen wir gar nicht darüber, was in der Zukunft passieren könnte, sondern nur über das, was wir aufgrund der bisherigen Daten für wahrscheinlich halten. Viel mehr ist es eigentlich nicht."