Archiv

Falsche Forschungsergebnisse
"Einzelnen Studien wenig Vertrauen schenken"

Psychologische Studien lieferten oft ein verzerrtes Bild der Wirklichkeit, sagte der Statistiker Thomas Schäfer im Dlf. Denn Forschungsergebnisse konnten nur in etwa einem Drittel der Fälle repliziert werden. Der Statistik-Experte rät zur generellen Skepsis gegenüber einzelnen Studien.

Thomas Schäfer im Gespräch mit Ralf Krauter |
Symbolbild zum Thema Erforschung des Gehirns, der Gefühle, der menschlichen Verhaltensweisen: Wissenschaftlerin strahlt mit einer Taschenlampe auf ein menschliches Gehirn.
Studien zu Verhaltensweisen, Gefühlen und Wahrnehmungen führen oft zu schwankenden - und damit nicht aussagekräftigen - Ergebnissen (imago / Gary Waters)
Ralf Krauter: Vor knapp einem Jahr zeigte eine große Replikationsstudie, dass das so genannte Marshmellow-Experiment, das in jedem Psychologielehrbuch beschrieben ist und bei dem Kinder einer süßen Versuchung widerstehen müssen, gar nichts darüber verrät, wie gut diese Kinder sich im späteren Leben unter Kontrolle haben. Das berühmte Experiment wurde schlicht falsch interpretiert. Den Untersuchungen von Thomas Schäfer, Professor an der Medical School Berlin, zufolge ist das kein Einzelfall. In einer Meta-Analyse im Fachmagazin Frontiers in Psychology kommt der jetzt zu dem Schluss, Zitat: "Es besteht ein nicht zu unterschätzendes Risiko, dass die Psychologie-Lehrbücher recht viele Zufallsfunde beinhalten, die gar keine Substanz haben." Ich habe den Statistik-Experten gefragt: Was läuft da schief?
Thomas Schäfer: Unsere Studie und unsere Ergebnisse bauen auf genau dieser sogenannten Replikationskrise in der Psychologie auf, die nach einem großen Projekt 2015 erstmals publiziert wurde. Wo sich also 270 Wissenschaftlerinnen und Wissenschaftler weltweit in der Psychologie zusammengesetzt haben und überlegt haben: Wir nehmen uns mal 100 prominente Effekte her aus der Psychologie - das waren Effekte aus dem Jahr 2008, aus hochrangig publizierten Fachjournalen. Und die haben versucht, die zu replizieren. Das heißt, sie haben die Originalstudien genau so wiederholt und haben geschaut: Kommt eigentlich der gleiche Effekt heraus, das gleiche Ergebnis? Und das Ergebnis dieses großen Projekts war eher ernüchternd, weil sich nur in etwa einem Drittel der Studien zeigte, dass der Effekt wiedergefunden werden konnte.
Zufallsfunde ohne Substanz
Das heißt, die meisten publizierten Originalarbeiten haben offenbar Effekte berichtet, die man so in dieser Replikationsstudie nicht wiederfinden konnte. Und das ist das, was als Replikationskrise jetzt in die jüngere Geschichte der Psychologie eingegangen ist.
Krauter: Welche Ursachen dafür konnte man dingfest machen?
Schäfer: Es gibt eine ganze Reihe von Ursachen, aber aus meiner Sicht die wichtigste Ursache ist das, was wir als Publication-Bias bezeichnen. Also eine Publikationsverzerrung, die damit zu tun hat, dass, wenn man jetzt eine Fragestellung untersuchen möchte, es typischerweise so ist, dass man selbst oder auch andere Forscherteams auf der Welt viele Studien machen, um diese Frage zu untersuchen. Und dann ist es so, dass man in Studien ja immer nur eine Stichprobe untersucht, niemals die gesamte Population. Und Stichproben sind immer zufallsabhängig. Das heißt, wenn es einen wahren Effekt gibt, den man ja gerne herausfinden möchte in einer Studie, dann führen diese Studien trotzdem zu schwankenden zufallsabhängigen Ergebnissen. Also der Effekt ist mal kleiner und mal größer, der ist vielleicht mal positiv und mal negativ.
Das größte Problem ist der 'Publication-Bias'
Und Publication-Bias bezeichnet jetzt den Effekt, dass sozusagen nur genau diejenigen Studien publiziert werden, die einen großen, signifikanten oder unerwarteten, spektakulären Effekt hervorgebracht haben. Das heißt, wenn wir jetzt in die Literatur schauen der letzten Jahrzehnte, was ist da publiziert worden, besteht jetzt genau dieses Risiko, dass wir da offenbar Studien sehen, die mehr oder weniger oft durch Zufall mal einen positiven oder signifikanten Effekt hervorgebracht haben, während sozusagen alle Studien, die einen kleinen oder nicht signifikanten oder unspektakulären Effekt erbracht hatten, einfach nicht publiziert wurden. Und die sehen wir nicht. Und deswegen liefert die publizierte Literatur ein verzerrtes Bild dessen, was wir eigentlich untersuchen wollen.
Krauter: Und Sie haben jetzt in einer Meta-Analyse quantifiziert, wie groß dieses Problem tatsächlich ist?
Schäfer: Genau. Damals dieses angesprochene Replizierbarkeitsprojekt 2015 hatte auch schon die Effekte untersucht und gezeigt: Ja, in den Replikationen halbiert sich in etwa der Effekt im Vergleich zu den Originalstudien. Und wir haben das aber nicht speziell für Replikationsstudien gemacht, sondern einfach mal für alle Studien, die wir finden konnten, also die gesamte Breite der psychologischen Forschung, die jetzt seit 2015 mit dem Verfahren der sogenannten Präregistrierung publiziert wurden. Das ist also eine direkte Reaktion auf die Replikationskrise gewesen. Präregistrierung meint, dass man die Idee einer Studie, also die Fragestellung und die Art und Weise, wie man die gerne untersuchen möchte, also die sogenannte Methodik, auch schon zusammen mit den Analysestrategien, also den Berechnungen, die man gerne verwenden würde, online registriert. Es gibt sogar die Idee, dass man die in einem Peer-Review-Verfahren schon vorher begutachten lässt. Und die Idee dieser Präregistrierung ist, dass das vermindern oder vermeiden soll, dass es diesen Publication-Bias gibt. Man kann dann nicht mehr im Nachhinein sagen, weil der Effekt klein war oder nicht signifikant, dass die Ergebnisse jetzt nicht publik gemacht werden. Oder dass man durch statistisches Herumprobieren jetzt nach signifikanten Ergebnissen sucht und die anderen unterschlägt - das soll diese Präregistrierung verhindern. Und da gibt es seit 2015 in der Psychologie etwa 100 Studien, die wir finden konnten, die mit diesem Vorgehen publiziert wurden.
Die real beobachteten Effekte sind nur halb so groß
Und die haben wir uns jetzt angeschaut und verglichen mit den Studien und Effekten, die wir aus den letzten circa 100 Jahren gezogen hatten, die also potenziell diesem Publication-Bias unterliegen. Und da kommen wir zu demselben Ergebnis: Die Effekte, die mit dieser Präregistrierung publiziert wurden, sind etwa nur noch halb so groß, wie das, was wir bisher gefunden hatten.
Krauter: Das heißt, die mögliche Relevanz von früheren Ergebnissen wurde dann doch beträchtlich überschätzt? Kann man das so zusammenfassen.
Schäfer: Das Risiko würde ich so sehen, genau. Wir finden, wenn Sie jetzt die präregistrierten Studien anschauen, wesentlich kleinere Effekte.
Krauter: Gibt es eine prominente Theorie, die vielleicht sogar jeder kennt, wo man sagt, die ist jetzt angezählt, die wackelt, weil die Statistik nicht so valide ist, wie man dachte?
Schäfer: Ja, also es gibt einen sehr bekannten Effekt, das ist der Priming-Effekt. Da geht es darum, dass man unterschwellige oder nebensächliche Informationen irgendwo einflechtet, und dann schaut, ob die einen messbaren Effekt auf Erleben und Verhalten haben. Also ganz prominent ist da eine Studie gewesen aus dem Jahr 1996, da kommen also Leute ins Labor und die kriegen Wortlisten und die sollen aus diesen Wortlisten Sätze bilden.
Ein berühmtes Experiment zum 'Priming' - nicht reproduzierbar
Im Experiment werden zwei Gruppen verglichen. Die eine bekommt relativ neutrale Wortlisten, die andere Gruppe im Prinzip auch, nur dass da vermehrt so Wörter drin sind wie zum Beispiel 'vergesslich' oder 'grau' oder 'Glatze' - also Wörter, die mit Alter assoziiert sind. Und dann wird einfach die Geschwindigkeit gemessen, mit der die Leute den Raum verlassen. Und da findet man einen großen Unterschied. Die Idee war, wenn man so Wörter liest wie 'vergesslich', 'grau' und so weiter, die also mit Alter assoziiert sind, dann führt dieses Priming dazu, dass man sein Verhalten ändert, zum Beispiel an alte Menschen denkt und dann selbst auch ein bisschen langsamer läuft. Das ist ein damals unerwarteter Effekt gewesen, der ist publiziert worden, relativ hochrangig. Der war dann auch in den Medien, weil er spektakulär wirkt. Und dann hat es aber viele Replikationsversuche gegeben, und die meisten von denen haben einfach den Effekt nicht wiederfinden können. Wenn man jetzt sogenannte Meta-Analysen macht, das heißt, alle Studien sammelt, die zu dieser Frage gemacht wurden, dann findet man: Der Effekt ist sehr, sehr klein oder gar nicht vorhanden.
Krauter: Was sollten denn Psychologen lernen, welche Schlüsse sollten sie ziehen aus Ihren Befunden?
"Man sollte immer skeptisch sein"
Schäfer: Ich glaube, der entscheidende Hinweis ist, dass man immer skeptisch sein sollte. Und um das ein bisschen praktischer auszudrücken, würde ich sagen: Man sollte einzelnen Studien wenig Vertrauen schenken - besonders dann, wenn die Studien kleine Stichproben verwenden. Das ist ja das Hauptproblem, was zu diesem Publication-Bias überhaupt führt, dass man durch Zufall mal große oder schwankende Ergebnisse bekommt. Dieser Effekt ist umso stärker, je kleiner die Stichproben sind. Wenn man eine Frage an 10.000 Leuten zum Beispiel untersucht, dann fällt der Zufall kaum ins Gewicht. Dann kann man sich relativ sicher sein, dass man den wahren Effekt gut getroffen hat. Aber in der Psychologie, da gibt es auch Untersuchungen, die zeigen, die durchschnittliche Stichprobengröße ist 30, das ist viel zu gering. Das führt zu diesen schwankenden Ergebnissen. Deswegen wäre mein Hinweis, nach großen Studien zu suchen oder nach Meta-Analysen, die viele Studien zusammenfassen.
Äußerungen unserer Gesprächspartner geben deren eigene Auffassungen wieder. Der Deutschlandfunk macht sich Äußerungen seiner Gesprächspartner in Interviews und Diskussionen nicht zu eigen.