Der Startschuss zur vielleicht größten Schnitzeljagd der Biologie fiel spätestens 1972. Der amerikanische Biochemiker Christian Anfinsen erhielt damals den Nobelpreis, weil er erkannt hatte: Die 3D-Struktur von Proteinen ergibt sich aus der Abfolge von Aminosäuren, die wie auf einer Perlenkette aneinandergereiht sind. Damit war klar: Man muss diese so wichtige 3D-Struktur nicht mühevoll vermessen, sondern kann sie aus der Abfolge der Aminosäuren berechnen – nur wie? Das ist das Proteinfaltungsproblem, an dem sich Wissenschaftler seit 50 Jahren die Zähne ausbeißen.
Zahl der möglichen Faltungen ist gigantisch
Würde man jede mögliche Faltung eines typischen Proteins mit einem Computer durchprobieren, um die richtige zu finden, würde die Sonne sterben, bevor man auch nur ein Billiardstel der Aufgabe erledigt hätte. Man braucht also clevere Methoden, erklärte die britische Bioinformatikerin Dame Janet Thornton kürzlich auf einer Pressekonferenz: "Ich arbeite seit 50 Jahren an der Struktur von Proteinen. Und ich dachte schon, ich würde die Lösung dieses Problems nicht mehr erleben. Darum sind die neuesten Ergebnisse des CASP-Wettbewerbs so ermutigend."
Mitte der Neunziger passierten zwei Dinge zufällig parallel. Erstens: Wissenschaftler riefen den CASP-Wettbewerb in Leben. Dabei sollen Bioinformatiker die Faltung von 100 Proteinen bestimmen, deren 3D-Struktur bereits vorliegt. Am Ende wird Vergleichen: Wie gut sind sie die Berechnungen im Vergleich zu den experimentell vermessenen Strukturen? Das soll die Forschung in Schwung bringen. Zweitens: Ein Mann namens Demis Hassabis stolperte über das Problem: "Ich war Student in Cambridge. Ein Freund von mir war besessen von Proteinfaltung. Und auch in meinem Kopf setzte sich dieses fantastische Problem für viele, viele Jahre fest."
Wer hätte damals gedacht, dass dieser junge Informatiker das Problem irgendwann lösen würde? Doch genau das ist wohl passiert. Demis Hassabis gründete die Firma DeepMind, die inzwischen vom Google-Konzern aufgekauft wurde. Bereits vor zwei Jahren dominierte die KI-Schmiede mit ihrem Programm AlphaFold den CASP-Wettbewerb. Dieses Jahr waren ihre berechneten Proteinstrukturen fast alle so gut wie die experimentell bestimmten. Wie haben die KI-Experten das hinbekommen? Die Methode ist geheim – und ihre genauen Details werden es vielleicht auch bleiben. Aber es gibt ein paar Andeutungen von AlphaFold-Chefentwickler Dr. John Jumper: "Unsere Arbeit steht auf den Schultern der vielen Forscher, die über Jahrzehnte diese großen Datenbanken mit Proteinstrukturen aufgebaut haben."
KI lernt mit Hilfe von Trainingsdaten
In diesen Datenbanken stecken 170 000 Proteine, deren 3D-Struktur bereits bekannt ist, weil die Forscher sie eben mühevoll vermessen haben. AlphaFold hat diese Daten bekommen und hat damit trainiert, wie man von der Aminosäure-Sequenz auf die 3D-Struktur schließt. Das Programm geht dabei "attention based" vor. Das bedeutet: Es lernt, wo sich in den Daten die relevanten Informationen verstecken – ein aktueller Trend im Maschinellen Lernen. Und es kann sich auf einzelne Regionen des Proteins konzentrieren, erklärt John Jumper: "Wie bei einem Puzzle. Da hat man ja auch erst so einzelne Inseln, die man gelöst hat und dann erkennt man, wie man sie zusammenfügen muss."
Das fertig trainierte Programm kann nun binnen Tagen allein aus der Abfolge von Aminosäuren die 3D-Struktur eines Proteins berechnen - bisher brauchte man dafür mitunter Jahre und teures Equipment.
Its das Proteinfaltungs-Problem gelöst?
Der Durchbruch könnte das Verständnis des Lebens und die Medizin revolutionieren. Aber ist der Proteincode damit wirklich geknackt? Gunnar Schröder vom Forschungszentrum Jülich äußert sich zurückhaltend. Schließlich habe AlphaFold nur statistische Zusammenhänge erkannt: "Deswegen ist das so ein Bisschen so, als wenn ich jemanden kennen würde, der mir innerhalb von wenigen Stunden so eine Proteinstruktur bestimmen kann, der mir aber nicht sagt, wie er das gemacht hat."
Dennoch bezeichnet Gunnar Schröder das Ergebnis als "fantastisch". Auch wenn AlphaFold dadurch seltene Phänomene wie Fehlfaltungen, die etwa bei Alzheimer wichtig sein können, wohl nicht berechnen kann. Jan Kosinski vom European Molecular Biology Lab in Hamburg benennt ein weiteres Manko des Proteinfaltungsprogramms: "AlphaFold versagt bei komplexen Proteinen. Dort macht es Fehler – obwohl es dennoch viel besser ist als alles bisher Dagewesene. Und es kann noch dauern, bis es Protein-Komplexe lösen kann."
Ob DeepMind Wissenschaftlern Zugang gewährt, ist offen
So ein Proteinkomplex ist etwa das aus Tausenden Proteinen aufgebaute Tor zum Zellkern. Jan Kosinski sagt, er könne es kaum erwarten, die einzelnen Bestandteile dieses Komplexes mit AlphaFold zu berechnen, um die dortigen Angriffswege des Grippe-Virus zu verstehen. Wann er das tun kann, ist allerdings unklar. DeepMind ist ein privates Unternehmen und will jetzt erstmal überlegen, wann und wie es Wissenschaftlern Zugang zu seinem System gewährt.