Glenn Begley begrüßt das Publikum auf einer Veranstaltung der amerikanischen National Academy of Science. Er hat jahrelang an Universitäten geforscht, dann ging er in die Industrie. Jetzt erzählt er, was er erlebte, als er dort universitäre Experimente nachvollziehen wollte:
"In der Zeit, in der ich für die Forschung des Unternehmens Amgen verantwortlich war, konnten wir bei 47 von 53 akademischen Studien die Ergebnisse nicht reproduzieren. Das Extrembeispiel war ein Forscher, mit dem ich einmal zusammen frühstückte. Es ging um eine Krebsstudie, die er in der Zeitschrift "Cancer Cell" veröffentlicht hatte und ich sagte ihm: Wir haben Ihr Experiment hundert Mal nachgemacht und nie Ihre Ergebnisse bekommen. Er antwortete: Oh ja, wir haben es auch ungefähr ein dutzend Mal versucht und dieses Ergebnis einmal erreicht, sonst nicht mehr. Aber wir haben dann beschlossen, genau dieses Ergebnis in unserem Paper zu präsentieren."
Wissenschaftsmüll. Warum Forschung nicht hält, was sie verspricht. Normalerweise läuft die präklinische Grundlagenforschung relativ geräuschlos ab. Wissenschaftler suchen hier in kleineren Experimente nach Fortschritt: Greift ein Wirkstoff Krebszellen an? Mit welcher Art von Katheter lassen sich Blutgerinnsel im Gehirn auflösen? Wenn die Experimente zeigen, dass etwas funktioniert, kann es anschließend in großen klinischen Studien an Versuchspersonen getestet werden. Je besser die präklinische Forschung, desto größer die Chance, dass eine klinische Studie die Medizin voranbringt. So weit das Prinzip. Doch in den letzten Jahren häufen sich die Stimmen, die wie Glenn Begley der präklinischen Forschung große Mängel vorwerfen:
"Zwei Dinge haben mich bei dieser Geschichte besonders schockiert. Zum einen, dass mir der Krebsforscher das überhaupt erzählt hat. Er glaubte wohl einfach, das sei okay. Und zum anderen, dass die Veröffentlichung kein Wort darüber verlor, dass das Experiment trotz mehrfacher Wiederholung nicht mehr bestätigt werden konnte."
Kritiker halten 80 Prozent der präklinischen Forschung für Müll
Ein Forscherteam des Unternehmens Bayer Health Care berichtet im Jahr 2011: Nur ein Viertel der präklinischen Studien, die im eigenen Labor überprüft wurden, ließ sich dort bestätigen. Die renommierte Medizin-Zeitschrift "Lancet" widmet dem präklinischen Forschungsproblem im Jahr 2014 eine ganze Artikelserie. Der an der Stanford University arbeitende Wissenschaftler John Ioannidis bekräftigt darin seine schon vor zehn Jahren getroffene Aussage: 80 Prozent der präklinischen Forschung sei "Müll". Schätzungsweise 85 Prozent der Forschungsressourcen würden für nicht taugliche Studien verschwendet.
Der britische Gesundheitsforscher Lain Chalmers schätzt den Verlust allein für das Jahr 2010 auf 200 Milliarden Dollar. Ist das Niveau der präklinischen Forschung wirklich so schlecht?
"Das war nicht zu erwarten, ich halte die Zahlen auch nicht für realistisch."
Die Dermatologin Leena Bruckner-Tuderman. Sie lehrt an der Universität Freiburg, ist Vizepräsidentin der Deutschen Forschungsgemeinschaft und dort auch Vorsitzende der Ständigen Senatskommission für Grundsatzfragen in der Klinischen Forschung
"Es handelte sich um eine provokative Publikationsserie in der Fachzeitschrift "Lancet" von 2014. Und ich glaube, die Absicht dieser Serie und seiner Autoren und des Journals war, darauf hinzuweisen, dass es sicherlich gewisse Aspekte gibt, die man besser beschreiben muss, besser kontrollieren muss. Aber das ist nicht die realistische Situation, dass 80 Prozent nicht reproduzierbar wäre."
"Es gibt diese Statistiken darüber, dass 90 Prozent der Autofahrer der Meinung sind, sie fahren besser als der Schnitt. Mit anderen Worten: Ich sehe die anderen, die alle so katastrophale Fehler machen, aber ich, eigentlich mache ich doch alles richtig, besser als die anderen."
Arno Villringer, Direktor am Leipziger Max-Planck-Institut für Kognitions-und Neurowissenschaften.
"Und so ein bisschen ist es hier auch. Und ich finde es immer verdächtig, wenn ganze Gruppen von Forschern, aber nicht nur Forscher, wenn man quasi von vornherein sagt: Bei uns, in unserer Community, in meinem Labor, so etwas kommt bei uns überhaupt nicht vor!"
Suche nach den Ursachen
Kaum jemand bestreitet, dass es Probleme in der präklinischen Forschung gibt. Aber während die einen davor warnen, das Ausmaß zu überschätzen, fürchten andere die Gefahr der Verdrängung. Das ruft nach einer genauen Ursachenanalyse.
"Also, diese 70/80-Prozent-Zahl, die ist sicherlich sehr provokant. Und da muss man vorsichtig sein. Aber es ist richtig: Da ist viel unterwegs in der Wissenschaft, was durchaus nicht belastbar ist. Und ich bin da draufgekommen nicht erst, als das ruchbar wurde und jetzt so zum Thema wurde, sondern eigentlich schon viel früher."
Ulrich Dirnagl ist Direktor des Instituts für Experimentelle Neurologie an der Berliner Charité. Er widmet sich Schwachstellen seiner Zunft schon seit Längerem.
"Ich bin Schlaganfallforscher und im Schlaganfall-Forschungsfeld ist es so, dass wir die tollsten Sachen in unserem Labor machen, an unseren experimentellen Modellen und dabei tatsächlich in den Modellen Behandlungserfolge haben und es eigentlich so ausschauen müsste, als würden wir den Schlaganfall sehr gut behandeln können am Patienten. Haben dann aber festgestellt – und das ist ein weltweiter Prozess - dass immer, wenn versucht wurde, diese tollen Befunde aus dem Labor zum Patienten zu bringen, nichts Positives für den Patienten dabei herausgekommen ist. Es sind Hunderte von Studien gemacht worden, da sind viele viele Milliarden letztlich verprasst worden. Was dazu geführt hat, dass die Pharmaindustrie, die Forschung, sich fast ganz komplett aus dem Gebiet zurückgezogen hat."
Bisher sind die Probleme präklinischer Forschung meist nur dann ins öffentliche Blickfeld gerückt, wenn es um Tierversuche ging. Tatsächlich ist oft fraglich, ob Ergebnisse von Tieren überhaupt auf den Menschen übertragbar sind. Erst kürzlich wiesen Forscher der Universität Edinburgh darauf hin, dass Tierstudien oft methodisch schwach und nur zur Hälfte für den Menschen nützlich sind. Nun aber kommen die Methoden der präklinischen Forschung insgesamt ins Gerede.
"Und die Frage, die erlaubt sein muss meiner Meinung nach, ist, woran liegt das und ist das der normale Gang der Wissenschaft? Wir gucken hier auf einen Stapel von Ausdrucken aus ganz tollen Journalen, die also im Topbereich sind: "Nature Genetics", "Cancer Cell", "Nature" und so weiter, also toller wird es nicht mehr. Jeder Wissenschaftler in den verschiedenen biomedizinischen Bereichen würde - also, ich würde nicht sagen, dass er töten würde dafür, aber er würde viel darum geben, dort zu publizieren."
Ulrich Dirnagl sitzt am Schreibtisch seines Berliner Büros und breitet einen ganzen Packen wissenschaftlicher Veröffentlichungen aus. Er möchte anonymisiert und beispielhaft zeigen, was alles schief läuft im präklinischen Bereich.
"Wir gucken also auf so einen Ausdruck von nicht ganz zufällig, aber doch einfach aus dem Vollen herausgegriffenen Befunden von verschiedensten Arbeiten aus den Jahren 2009 bis 2012. Und man kann da sehr sehr einfach und sehr, sehr schnell zeigen, dass also auch in den höchst geschätzten Journalen vielleicht dort sogar besonders große Probleme existieren in der Präsentation der Daten."
Erste Phase: das Studiendesign
Erste Phase: das Design. Wie baut man die wissenschaftliche Studie auf, welche wissenschaftliche Hypothese wird mit welcher Methode verfolgt? Ulrich Dirnagl zieht eine Studie aus dem Papierpacken heraus. Sie untersucht, ob sich Tumorzellen mithilfe einer bestimmten Behandlung reduzieren lassen. Ulrich Dirnagl blättert herum und schüttelt den Kopf:
"Also, schon aus dem Blick auf eine Abbildung und dem, was drunter steht und dem ungläubigen Nachgucken in dem, was also in dem Paper sonst noch steht, wird bei vielen Publikationen nicht klar, wie eigentlich das Design und daraufhin die Analyse war."
Entweder, so Ulrich Dirnagl, lasse sich nicht richtig erkennen, wie die Studie aufgebaut ist. Oder Standardvoraussetzungen für gute präklinische Studien würden gleich ganz weggelassen.
"Was man dem zum Beispiel auch überhaupt nicht entnehmen kann, ist: Ist hier verblindet vorgegangen worden, also wusste derjenige, der diese Zellen gezählt hat, in welcher Gruppe - hier werden vier Gruppen gezeigt - in welcher Gruppe diese Zellen waren? Wir wissen nicht ob diese Zellen randomisiert zugeordnet wurden. Und es wurde auch nicht begründet, warum jetzt diese Zahl von Untersuchungen gemacht wurde."
Verblindung und Randomisierung sind Standardanforderungen an biomedizinische Studien. Die Wissenschaftler dürfen nicht wissen, welches Behandlungsmaterial sie gerade auswerten und wie es in die einzelnen Gruppen aufgeteilt wurde. Das soll verhindern, dass sie ihre eigene Hypothese bevorzugen und unbekannte Einflüsse die Auswertung verfälschen. Oft würden diese Standards bei präklinischen Studien genauso fehlen wie Angaben darüber, wie oft das Experiment im Labor durchgeführt wurde, fasst Ulrich Dirnagl zusammen. Manchmal würden auch keine Kontrollversuche gemacht, man würde also gar nicht kontrollieren , ob die eigene Methode besser ist als eine andere.
Arno Villringer vom Leipziger Max-Planck-Institut für Kognitions- und Neurowissenschaften, der mit Ulrich Dirnagl zusammenarbeitet, nennt noch einen weiteren Kritikpunkt. Viel zu häufig werde die zu prüfende wissenschaftliche Hypothese gar nicht am Anfang einer Studie formuliert.
"Auch in unserem Bereich gibt es zum Beispiel eine zunehmende Tendenz, sehr, sehr große Studien mit sehr, sehr vielen Daten durchzuführen. Und wenn man das nicht sehr, sehr genau definiert, was man beantworten möchte, dann ist die Versuchung für viele Wissenschaftler groß, dass man in diesem riesigen Datenwust irgendetwas findet. Dann sagt man sich: Oh, das passt ja, irgendwie stimmt es doch mit dem überein, was ich mir doch schon immer gedacht habe. Und schwupp di wupp ist eine Hypothese generiert und man hat es publiziert."
Zwar können auch solche Forschungsergebnisse manchmal Früchte tragen. Systematische, zielgerichtete und transparente Forschung aber sieht anders aus. Die Analyse von 446 Studienprotokollen in Großbritannien ergab: Nur vier Initiatoren dieser Studien hatten vorher die bisherige wissenschaftliche Literatur zum Thema systematisch durchgearbeitet. Die Folgen: Das Design der Studien baute nicht auf den alten Erkenntnissen auf. Entweder variierten oder wiederholten sie schon bestätigte Studien überflüssigerweise noch einmal. Oder sie fielen hinter die alten Studien zurück, testeten zum Beispiel unzureichendes Material oder hatten zu wenige Versuchspersonen.
"Solche Sachen, die im Alltag häufig sind, muss man besser und genauer und kritischer beobachten. Und damit ist sicherlich schon viel gewonnen."
Zweite Phase: Durchführung, Auswertung und Dokumentation
Ulrich Dirnagl mischt den Stapel der in besten Journalen veröffentlichten Studien neu. Zweite Phase: Durchführung der Experimente, Auswertung und Dokumentation der Daten. Ulrich Dirnagl zieht eine Studie aus dem Stapel vor sich auf den Tisch. Sie beschreibt, dass eine neue Substanz bei Mäusen gegen Tumoren wirkt - im Vergleich zu Mäusen in einer Kontrollgruppe, die anders behandelt wurden.
"Wenn man jetzt genauer hinschaut, sieht man, dass in der einen Gruppe, in der sogenannten Kontrollgruppe vier und in der anderen fünf Mäuse sind, das ist also schon einmal sehr auffällig wenig, ist aber ein interessanter Befund, der einen jetzt dazu bringen würde, weitere Experimente durchzuführen. Wenn man dann aber noch genauer hinschaut, dann sieht man, dass in dieser Darstellung, das ist eine sogenannte Kaplan-Meyer-Kurve, der Tod von 2,5 Mäusen verhindert wurde. Und dann fragt man sich natürlich, wie man eine halbe Maus am Leben erhalten kann."
Irritierende oder falsche statistische Auswertung und Präsentation der experimentellen Daten: Das ist einer der Hauptvorwürfe, die Ulrich Dirnagl den Autoren präklinischer Forschung macht. Die meisten Biomediziner verfügten nicht über profunde statistische Kenntnisse. Katherine Button von der University of Bristol hat dafür schlagkräftige Belege gesammelt. Sie untersuchte die statistische Power präklinischer Studien im neurowissenschaftlichen Bereich. Die statistische Power gibt an, welche Fallzahlen nötig sind, um ein aussagekräftiges Ergebnis zu erreichen.
"Wir gehen davon aus, dass man in wissenschaftlichen Studien eine statistische Power von 80 Prozent haben sollte. Das bedeutet, dass man eine achtzigprozentige Chance hat, genau den Effekt nachzuweisen, nach dem man sucht. Alles, was darunter liegt, vermindert diese Chance."
Button untersuchte 49 sogenannte Metaanalysen, die 730 neurowissenschaftliche Einzelstudien zusammenfassten. Das Ergebnis:
"Nach unserer Einschätzung lag der Durchschnittswert der statistischen Power bei den untersuchten Studien bei acht bis 21 Prozent. Damit sind wir weit von der Zielmarke von 80 Prozent entfernt. Die Hälfte der neurowissenschaftlichen Studien ist ernsthaft underpowered."
"Regression zur Mitte" heißt ein allgemeines Gesetz der Statistik. Wenn man eine Münze nur drei mal hochwirft, ist es wahrscheinlicher, dass dabei zu hundert Prozent "Kopf" herauskommt, als wenn man sie hundert Mal wirft. Erstaunliche Anfangsergebnisse bei wenigen Versuchspersonen verschwinden daher oft, wenn man die Fallzahlen erhöht. Kleinere Studien können daher oft später nicht bestätigt werden.
"Ich denke, das ist ganz wichtig jetzt, dass das Bewusstsein bei allen Wissenschaftlern, Senioren und Junioren und Studenten besser wird. Dass Leute daran denken: Ich muss auf alle diese Aspekte achten und dadurch wird die Qualität sicher schon deutlich besser."
Dritte Phase: Darstellung der Ergebnisse und ihre Begutachtung
Dritter Phase: Darstellung der Ergebnisse und ihre Begutachtung. Ulrich Dirnagl greift noch einmal eine Studie aus dem Packen und schlägt die letzten Seiten auf. Hier werden die Ergebnisse zusammengefasst und ihr Wert für die Forschung diskutiert. Allerdings oft nur dann, wenn sie Wissenschaftlern und Auftraggebern gefallen.
"Das ist ein Grundproblem, was es übrigens schwerwiegend auch in der klinischen Medizin gibt, aber möglicherweise sogar noch drastischer in der präklinischen. Das ist die Tatsache, dass wir nur Befunde lesen, die irgendetwas gezeigt haben, also wo das Ergebnis, die Hypothese, die der Wissenschaftler hatte oder zumindest behauptet hat, sie gehabt zu haben, belegen konnte."
Nach Angaben des deutschen Cochranezentrums wird von den rund 40.000 jährlich durchgeführten medizinischen Studien nur die Hälfte publiziert. Doch selbst bei den veröffentlichten Studien könne man sich nicht immer auf die Interpretation verlassen, meint Ulrich Dirnagl. Denn sie enthielten zwar jede Menge komplizierter Datentabellen, grafischer Darstellungen und mathematischer Formeln. Aber oft würde zum Beispiel nicht genau angegeben, wie viele Versuchspersonen, Versuchstiere oder Zellen während der Experimente aus welchen Gründen aus der Studie herausgefallen sind. Daher seien häufig auch die Reviewer wissenschaftlicher Zeitschriften überfordert. Sie begutachten die Studien, bevor sie veröffentlicht werden.
"Es ist naiv, zu glauben, dass ein solches Panel von Experten, selbst wenn es drei oder vier sind, was es bei solchen Topjournalen häufig sind, überhaupt in der Lage wäre, das komplett einzuschätzen, ob das alles so war und so sein sollte. .Und es hat im Wesentlichen zwei Gründe: Das eine ist, dass das Reporting, also das, was da drinnen steht, in der Regel so unscharf ist. Gleichzeitig ist es so, dass wenn man sich da reinfuchsen wollte, wenn man das in dieser Tiefe würdigen würde, in der es tatsächlich auch entstanden ist, dann müsste sich der Reviewer ein bis zwei Wochen zurückziehen. Ich übertreibe hier nicht, das ist de facto so, der kann seinen anderen Kram liegen lassen. Das kann im Grunde keiner machen, also ich habe so etwas noch nie gemacht."
Die Folge, so Ulrich Dirnagl: Viele präklinische Forschungsergebnisse würden einfach falsch eingeschätzt. Denn es sei nicht mehr erkennbar, ob eine Studie nur explorativ war, also eine neue Idee nur erstmals erkunden wollte – oder konfirmatorisch, die Idee also bereits bestätigt.
"Die heutige Situation ist die, dass wir bei präklinischen Experimenten ein Kuddelmuddel haben. Die meisten Leute haben eigentlich eine explorative Forschung, verkaufen sie dann aber - und man nimmt es ihnen sogar unter Kollegen ab - als Konfirmation, weil dann nämlich in den Abstracts und in den Schlussfolgerungen steht "Wir haben gezeigt, dass" Aber eigentlich haben sie nur gezeigt, dass es interessant wäre, weiterzumachen."
Die Stammzelltherapie ist ein Traum und eine große Hoffnung für viele Patienten. Aus vielseitigen Alleskönnerzellen sollen sich neue, gesunde Zellen für kranke Organe entwickeln. Eine Studie von Alexandra Nowbar vom Imperial College in London zeigte jedoch Anfang 2014: Von 49 klinischen Stammzellstudien waren nur fünf fehlerfrei.
Es waren diejenigen, die keinen therapeutischen Effekt gefunden hatten.
Mängel beim Design, Mängel bei der Durchführung, Mängel bei der nachträglichen Begutachtung und Kontrolle. Fatalerweise zeigen sich die dunklen Flecken der präklinischen Forschung oft erst dann, wenn ihre Ergebnisse in großen klinischen Studien weitergeführt werden. Das zerstört Hoffnungen bei Patienten und das Vertrauen in die Wissenschaft. Für Ulrich Dirnagl ist es daher gar nicht entscheidend, ob tatsächlich 70 bis 80 Prozent der präklinischen Studien schlecht und nicht reproduzierbar sind. Ihm genügt es, dass der Trend überhaupt in diese Richtung zeigt:
"Die Frage, die wir uns stellen müssen und die stelle ich mir schon ziemlich lange, ist, ob wir es effektiver machen können?"
"Wir haben hier zum Beispiel in Deutschland bei der DFG ein sehr hochqualitatives Begutachtungssystem und an diesem System kann man ja gewisse neue Kriterien anlegen."
Leena Bruckner-Tuderman, die Vizepräsidentin der Deutschen Forschungsgemeinschaft, hat bereits eine Antwort:
"Wenn ein Wissenschaftler einen Antrag stellt, haben wir jetzt zum Beispiel diskutiert, man kann gewisse Punkte, so Checkboxes, wenn Sie so wollen, überlegen: Welche Literaturrecherche wurde gemacht? Wie sind die statistischen Methoden, die hier eingesetzt werden sollen, wie ist das experimentelle Protokoll? Welche Zelllinie genau und oder welche Mäuse genau, weiblich/männlich sollen eingesetzt werden? Und so weiter. Dass das tatsächlich von Anfang an klar ist. Und dann müssen die Gutachter, die immer Wissenschaftler sind, sorgfältig prüfen, ob das alles plausibel oder erfolgversprechend ist. Und transparent auch sagen, warum sie das für gut oder weniger gut halten."
Kritiker sehen falsche Anreize im System
Ulrich Dirnagl findet das alles richtig. Aber es fehle ein Punkt. Man müsse auch an der Motivation arbeiten, gründlich und sorgsam zu arbeiten. Denn die Probleme seien Folge verfehlter Anreize und Belohnungen im Karrieresystem Wissenschaft. Das würde zwar seit Jahren immer wieder kritisiert, aber wenn es um die Berufung von Wissenschaftlern gehe, würde gehandelt wie eh und je.
"Dann zählt man nach: Wie viel Nature-Paper hast du gehabt, wie viele Paper in einem sogenannten Scholarly Journal, also was nicht ganz so hoch angesiedelt ist, aber von einer guten Reputation ist. Und wie viele Erbsen hast du noch so daneben publiziert."
Immer noch gelte Quantität vor Qualität. Schnelles Produzieren in prestigeträchtigen Journalen sei immer noch entscheidend.
"Wenn ich heute einem Studenten sage, oh, da musst du aber aufpassen, das musst du eigentlich ganz anders machen, dann ist das schädlich für den Studenten, weil der Student ja auch irgendwann einmal eine Professur will. Und die Studenten sagen dann auch zu mir: Das leuchtet mir alles ein, was Sie mir da erzählen, aber in der Arbeitsgruppe, in der ich bin, wird das ganz anders gehandhabt. Und im Übrigen, das kostet uns dann auch wieder Zeit, da muss ich die Fallzahlen erhöhen, dafür kriegen wir von der deutschen Forschungsgemeinschaft ja gar nicht das Geld. Wenn man das dann alles aufaddiert, dann kommt am Ende raus, dass es schädlich ist für den einzelnen Wissenschaftler, also tatsächlich karriereschädlich."
Der französischen Neurowissenschaftler Francois Gonon untersuchte im Jahr 2011 101 Studien, die ADHS an Mäusen aufklären wollten. Sein Ergebnis: Bei fast einem Viertel der Studien wurde die klinische Relevanz der Ergebnisse übertrieben. Die Übertreibungen traten vor allem auf, wenn die Ergebnisse in Journals mit hohem Renommee veröffentlicht wurden.
Ulrich Dirnagl meint, die Wissenschaftler müssten selbst initiativ werden und zeigen, dass Experimentieren auch anders geht. Er hat daher sein Forschungslabor von Experten zertifizieren lassen. Wie sind die Abläufe organisiert, welche Schritte sind einzuhalten, wenn ein Experiment durchgeführt wird. Alles ist inzwischen dokumentiert und damit nachprüfbar. Ein elektronisches Laborbuch tut sein Übriges.
"Das elektronische Laborbuch ist eines von den Dingen, von denen ich jetzt mal vorhersagen will, dass sie in den nächsten Jahren kommen werden. Es ist geradezu grotesk, wenn man sich überlegt, dass also jeder Wissenschaftler, jede technische Hilfskraft, die in so einem Labor unterwegs ist, permanent das Internet und Computer für alles benutzt, von der E-Mail auch bis zur Generierung der Daten, aber dann alles in so eine Kladde geschrieben wird, wie man es vor 200 Jahren gemacht hat, mit einem Kugelschreiber in ein Büchlein schreiben. Es ist praktisch keine Zusammenarbeit möglich, weil jeder arbeitet an seiner Kladde so vor sich hin. Auch die Supervision ist durchaus schwierig, dann das Ding aufzuheben für zehn Jahre zu lagern etc pp, das bringt Institutionen in große Schwierigkeiten. Der Student oder der Wissenschaftler, wenn er weggeht, hat das Ding dann nicht mehr. "
Forderung nach wissenschaftlichen Audits
Mehr Transparenz und mehr Kontrolle im gesamten Prozess des wissenschaftlichen Arbeitens. Das ist Ulrich Dirnagls Devise. Studien sollen registriert, Rohdaten aufgehoben, bereits Studienprotokolle veröffentlicht und begutachtet werden - bevor das Experiment beginnt und finanziell gefördert wird. Und die Wissenschaftler sollten sich laufend selbst kontrollieren. So sieht es auch Arno Villringer vom Leipziger Max-Planck-Institut:
"Also es ist konkret geplant, mit Herrn Dirnagl haben wir uns schon zusammengesetzt und überlegt, wie wir uns gegenseitig tatsächlich kontrollieren könnten. Ich denke, dass jemand von außen kommt und mal hineinschnuppert und ja, einfache, naive Fragen stellt, ist extrem wichtig in dem Ganzen. Und die Regeln sind noch nicht ganz klar, also an diesen Regeln arbeiten wir. Die Regel muss natürlich anders sein, ob sich das jetzt um tierexperimentelle Untersuchungen handelt, ob es sich um Untersuchungen am Menschen handelt, ob es sich um bildgebende Untersuchungen dreht, genetische Untersuchungen. Das sind alles unterschiedliche Dinge, die da eine wichtige Rolle spielen."
Gegenseitige Audits, unangekündigte Besuche und Kontrollen? Leena Bruckner-Tuderman ist skeptisch:
"Das ist prinzipiell vielleicht möglich, in gewissen Bereichen. Ich sehe die Problematik eher in der Machbarkeit, weil diese Auditoren müssten ja Wissenschaftler sein und alle Wissenschaftler sind extrem beschäftigt. Wir sehen das jetzt schon kommen, weil wenn wir Leute für Begutachtungen einladen, da sehr viele leider absagen müssen, weil sie keine Zeit haben. Ich sehe, dass es nicht sehr praktikabel ist. Besser wäre, wenn das Bewusstsein von allen schon da ist und alle bemühen sich, das so gut wie möglich zu machen. Wissenschaftsaudits finde ich ist extrem aufwendig und auch wahrscheinlich nicht notwendig."
Seit den "Lancet"-Artikeln im Jahr 2014 sei das Problembewusstsein natürlich gestiegen, räumt Leena Bruckner-Tuderman ein:
"Als Vertreterin der DFG bei den internationalen biomedizinischen Forschungsfördereinrichtungen diskutiere ich viel über diese Thematik mit den anderen Leitungen der NIH in Amerika, MIC, Wellcome Trust in England, Inselm in Frankreich. Die Tendenz ist überall in allen Ländern, durch Diskussionen, Workshops und Texte jetzt eine Verbesserung zu machen."
Aufklärung, Fortbildung, genaueres Hinsehen und Nachfragen. Das ist die Devise, mit der die großen Forschungsfördereinrichtungen dem Problem zu Leibe rücken wollen. Auch alte Ideen liegen wieder auf dem Tisch: Man könnte Replikationsstudien besser fördern, Studien also, die bereits abgeschlossene Studien wiederholen und überprüfen.
"Darüber wird nachgedacht. Und ist natürlich die Frage: Es ist teuer, wie kann das finanziert werden und ist das wissenschaftliche Ergebnis im guten Verhältnis zu den Kosten? Das sind im Moment noch ungelöste Probleme."
Andererseits: So, wie biomedizinische Forschung heute funktioniert, steht das Ergebnis auch nicht in einem guten Verhältnis zu den Kosten. Wie also soll sich die Wissenschaft reformieren? Den Schlaganfallsforschern Ulrich Dirnagl und Arno Villringer oder dem Pharmaforscher Glenn Begley reicht Pragmatismus nicht mehr. Sie fordern effektive Kontrollen und radikale Veränderungen am System Wissenschaft.
Begley: "I think we have to begin at the beginning and thats the grant funding agencies."
Villringer: "Das Unbewusste spielt uns einen Streich. Wir wollen vielleicht ein bestimmtes Ergebnis. Und obwohl wir es nicht bewusst fälschen, verändert es unsere Wahrnehmung, verändert unser Verhalten."
Begley: "Imagine, how much time we've wasted, following red herrings, when we could have done something completely different."
Villringer: "Wir sollten diesen ganzen Prozess kontrollieren und nicht erst dann, wenn eine Publikation entstanden ist."
Begley: "I stopped counting when I got 200."
Dirnagl: "Das ist eine unglaubliche Ressourcenverschwendung, die da stattfindet. Wissen wird vernichtet. Ich wundere mich, dass die Wissenschaftsorganisationen da nicht stärker hinterher sind. Letztlich der Steuerzahler müsste da hinterher sein, weil wir Steuerzahler dieses ganze Zeug bezahlen."