Zur Replikationskrise in der Psychologie

Studie bietet eine weitere Erklärung dafür, warum sich nur 36 % der psychologischen Studien replizieren lassen

Zur Replikationskrise in der Psychologie

05.01.2024 Angesichts einer geschätzten Replikationsrate von nur 36 % von 100 Replikationsversuchen, die von der Open Science Collaboration im Jahr 2015 (OSC2015) durchgeführt wurden, glauben viele, dass die experimentelle Psychologie unter einem schwerwiegenden Problem der Replizierbarkeit leidet.

In ihrer eigenen Studie, die kürzlich in der Fachzeitschrift Social Psychological Bulletin veröffentlicht wurde, legen die Forscher Brent M. Wilson und John T. Wixted von der University of California San Diego nahe, dass das, was seither als „Replikationskrise“ der Psychologie bezeichnet wird, möglicherweise nicht so schlimm ist, wie es scheint.

Replikationsrate, die völlig unrealistisch ist

„Niemand stellt eine kritische Frage“, argumentieren die Wissenschaftler, „wenn in der psychologischen Wissenschaft alles in Ordnung wäre, welche Replikationsrate hätte dann beobachtet werden müssen? Die Intuition legt nahe, dass sie bei 90-95 % liegen müsste, aber eine Zahl in diesem Bereich ist völlig abwegig. Wenn dem so ist, dann beruht die Wahrnehmung einer Replikationskrise weitgehend auf einem impliziten Vergleich zwischen der beobachteten Replikationsrate von 36 % und einer nie spezifizierten erwarteten Replikationsrate, die völlig unrealistisch ist.“

In ihrer jüngsten Veröffentlichung weisen die Wissenschaftler darauf hin, dass viele Fehlschläge bei der Replikation darauf zurückzuführen sein könnten, dass die Replikationsstudien nicht ausreichend leistungsfähig waren, um die mit den ursprünglichen Versuchsprotokollen verbundenen tatsächlichen Auswirkungen zu ermitteln. Die Replikationsstudien waren sehr leistungsfähig, um die ursprünglich gemeldeten Wirkungen nachzuweisen, aber diese Wirkungen waren überhöht, wie es bei statistisch signifikanten Wirkungen sein muss.

Replikationsstudien nicht ausreichend leistungsfähig

Wie stark waren die Replikationsstudien in der Lage, die wahren (d. h. nicht aufgeblähten) Wirkungen der ursprünglichen Studien nachzuweisen? Dies ist eine Schlüsselfrage, die sich nicht allein mit Intuition beantworten lässt. Das Team kommt daher zu dem Schluss, dass es entscheidend ist, ein formales Modell zu verwenden, anstatt sich auf den derzeitigen rein intuitiven Ansatz zu verlassen.

„Die Schätzung der erwarteten Replikationsrate erfordert eine Betrachtung der statistischen Aussagekraft, d. h. der Wahrscheinlichkeit, dass ein Experiment (z. B. ein Replikationsexperiment) erneut einen wahren Effekt bei p < 0,05 nachweisen wird. Es ist offensichtlich, dass ein einzelnes Replikationsexperiment mit geringer Aussagekraft leicht fehlschlagen kann, selbst wenn das ursprüngliche Experiment einen echten Effekt gezeigt hat“, erklären die Wissenschaftler.

Aussagekraft

In ähnlicher Weise ergeben 100 Replikationsexperimente mit geringer Aussagekraft eine niedrige Replikationsrate, selbst wenn die ursprünglichen Experimente alle echte positive Ergebnisse lieferten.

Im Extremfall könnte die beobachtete Replikationsrate von 36 % in OSC2015 bedeuten, dass 64 % der Replikationsexperimente die in den Originalstudien berichteten echten Positivbefunde nicht entdeckt haben (in diesem Fall wäre die Original-Wissenschaftsliteratur in einem guten Zustand), wenn die Aussagekraft gering genug ist.

Hätten die Replikationsexperimente jedoch eine ausreichend hohe Aussagekraft, dann würde die beobachtete Replikationsrate von 36 % bedeuten, dass 64 % der Replikationsexperimente falsch-positive Ergebnisse lieferten (in diesem Fall wäre die wissenschaftliche Originalliteratur in einem schlechten Zustand).

„Von wenigen Ausnahmen abgesehen, haben die Wissenschaftler mit Begeisterung die letztere Interpretation übernommen und damit implizit angenommen, dass die OSC2015-Replikationsexperimente eine hohe Aussagekraft hatten. Diese Annahme muss jedoch durch ein formales Modell gestützt werden, da die Intuition dieser Aufgabe einfach nicht gewachsen ist“, so Wilson und Wixted.

Einem einfachen formalen Modell zufolge hatten die OSC2015-Replikationsversuche eine geringe Aussagekraft. In diesem Fall wäre die Replikationsrate von 36 % nicht besonders aussagekräftig, schlussfolgern die Forscher.

Auch wenn die Original-Wissenschaftsliteratur in einem besseren Zustand sein mag, als es die Intuition vermuten lässt, argumentieren Wilson und Wixted dennoch, dass es ein ernsthaftes Replikationsproblem gibt, das angegangen werden muss.

„Sensationsbefunde“

„Das Replikationsproblem liegt vielleicht nicht so sehr in der alltäglichen psychologischen Wissenschaft, sondern eher bei einem kleinen Prozentsatz sensationeller Ergebnisse“, so Wilson und Wixted. „Sensationelle Befunde sind wahrscheinlich falsch positiv, weil sie auf Theorien oder Ideen beruhen, die von vornherein eine geringe Wahrscheinlichkeit haben, wahr zu sein“.

Zusammenfassend argumentieren die Autoren der vorliegenden Arbeit, dass man sich weniger auf die alltägliche Forschung konzentrieren sollte, die möglicherweise in besserer Verfassung ist, als es die Intuition vermuten lässt, und dass man sich mehr auf die Durchführung unabhängiger, vorregistrierter Large-N-Replikationen unwahrscheinlicher Befunde konzentrieren sollte, die besondere Aufmerksamkeit erregen. Solche Ergebnisse sind für Nicht-Wissenschaftler erst nach einer unabhängigen Replikation geeignet, sie zu berücksichtigen.

© Psylex.de – Quellenangabe: Social Psychological Bulletin (2023). DOI: 10.32872/spb.9981

News zur Replikationskrise in der Psychologie

Wissenschaft der Psychologie rehabilitiert: Studie über Nicht-Nachvollziehbarkeit psychologischer Studien entpuppt sich als falsch

05.03.2016 Laut zwei Harvard-Professoren und ihren Mitarbeitern ist eine Studie aus dem Jahr 2015 falsch, die behauptete, dass mehr als die Hälfte aller Psychologie-Studien nicht repliziert werden können.

Replikationskrise in der Psychologie?

In ihrer Forschungsarbeit – die Nachvollziehbarkeit psychologischer wissenschaftlicher Studien zu bestimmen – versuchte ein Konsortium aus 270 Wissenschaftlern – bekannt als The Open Science Collaboration (OSC) – die Ergebnisse von 100 veröffentlichten Studien aus der Psychologie zu replizieren.

Mehr als die Hälfte der Studien waren angeblich nicht nachvollziehbar und weltweit erschienen sensationelle Schlagzeilen über die „Replikationskrise in der Psychologie“.

Schwere Fehler der Open Science Collaboration

Aber eine tiefergehende Untersuchung der Daten von Daniel Gilbert (Professor für Psychologie an der Harvard University), Gary King (Universitätsprofessor an der Harvard University), Stephen Pettigrew (Doktorand im Department of Government an der Harvard University) und Timothy Wilson (Professor für Psychologie an der University of Virginia) hat ergeben, dass die OSC einige schwerwiegende Fehler machten, die diese pessimistische Schlussfolgerung völlig unbegründet erscheinen lassen:

Die Methoden vieler der Replikationsstudien entpuppten sich als bemerkenswert unterschiedlich im Vergleich zu den Original-Studien, sagten Gilbert, King, Pettigrew und Wilson. Diese ungenauen Versuche, die Original-Studien zu replizieren, haben wichtige Konsequenzen.

Die Fehler

  • Zunächst unterschätzte die OSC deutlich, wie viele ihrer Replikationen allein aufgrund statistischer Fehler wahrscheinlich versagen würden. Würde dieser Fehler berücksichtigt werden, wäre die Anzahl der Versager in ihren Daten nicht größer als man erwarten würde, wenn alle 100 der ursprünglichen Befunde wahr wären.
  • Zweitens: Gilbert, King, Pettigrew und Wilson entdeckten, dass die Low-Fidelity-Studien viermal wahrscheinlicher scheiterten als die High-Fidelity-Studien, was nahelegt, dass, wenn die Replikatoren von den ursprünglichen Methoden abwichen, sie ihre eigenen Studien scheitern ließen.
  • Schließlich verwendete die OSC ein „low powered“ Design. Als Gilbert, King, Pettigrew und Wilson dieses Design auf eine Reihe veröffentlichter Daten anwandten – die für eine hohe Replikationsrate bekannt waren – zeigte es auch bei diesen eine niedrige Replikationsrate. Dies deutet darauf hin, dass das Forschungsdesign der OSC von Anfang an dazu bestimmt war, die Nachvollziehbarkeit der psychologischen Wissenschaft zu unterschätzen.

Jedes einzelne dieser Probleme würde schon ausreichen, um Zweifel an der Schlussfolgerung zu ziehen, die die meisten Menschen aus dieser Studie gezogen haben; aber zusammengenommen, weisen sie die Befunde der OSC völlig zurück, schreiben Gilbert und King in der Zeitschrift Science.

Beispiel

Als Beispiel beschreibt Gilbert eine Orginal-Studie mit weißen und schwarzen Studenten an der Stanford University in den USA, in der es um Diskriminierung ging.

„Also, wie haben sie versucht die Studie zu replizieren? Mit Studenten an der Universität von Amsterdam!“, sagte Gilbert.

„Sie zeigten niederländischen Studenten ein Video von englisch sprechenden Stanford-Studenten über Diskriminierung an einer Universität mehr als 5000 Meilen entfernt.“

Mit anderen Worten: Im Gegensatz zu den Teilnehmern der ursprünglichen Studie beobachteten die Teilnehmer in der Replikationsstudie Studenten an einer ausländischen Hochschule, die in einer fremden Sprache über ein Thema sprachen, das nicht in dieser Form von Bedeutung für die Niederländer war, sagte er.

Aber nach Gilbert, war dies nicht mal der beunruhigendste Teil.
Wenn Sie tief in deren Daten eintauchen, entdecken Sie noch etwas anderes, sagte Gilbert. Die Replikatoren erkannten wohl, dass die Niederlande als Ort für diese Studie ein Problem darstellte, und so beschlossen sie weise, eine andere Version davon in den USA laufen zu lassen. Und tatsächlich konnten sie das ursprüngliche Ergebnis wiederholen – die ursprüngliche Studie also bestätigen.

Und doch: Als die OSC die Reproduzierbarkeit der psychologischen Studien auswertete, schloss sie die erfolgreiche Replikation aus und nahm nur die an der Universität Amsterdam fehlgeschlagene Studie in die Auswertung auf.

Und so erfährt die Öffentlichkeit, dass „Noch eine weitere Psychologie-Studie nicht repliziert werden konnte“ statt „Eine weitere Psychologie-Studie konnte in ihren Ergebnissen gut repliziert und bestätigt werden, wenn man es richtig macht und nicht, wenn man es falsch macht“ das ist eben keine sehr spannende Schlagzeile, sagte Gilbert.

„Einige der Replikationen waren den Originalen ähnlich, aber jeder, der sorgfältig alle Replikationsberichte gelesen hat, konnte viele weitere Beispiele wie dieses finden“.

Wiedergutmachung

„Ich denke, dass Meta-Wissenschaft den Regeln der Wissenschaft gehorchen muss“, sagte King. „Wenn Sie die grundlegenden Regeln der Wissenschaft verletzen, erhalten Sie die falsche Antwort, und genau das ist hier passiert.“

„Dieser Bericht hatte eine außerordentliche Wirkung gehabt“, sagte Gilbert. Er war einer der aufsehenerregendsten und einflussreichsten Artikel im Wissenschaftsbetrieb. Er führte zu Veränderungen in der Politik in vielen wissenschaftlichen Zeitschriften, Veränderungen der Prioritäten bei Förderagenturen und er unterminierte schwer die öffentliche Wahrnehmung der Psychologie.

Es ist also nun nicht genug, im nüchternen Licht retrospektiv zu sagen, dass Fehler gemacht wurden. Diese Fehler hatten sehr schwerwiegende Folgen.

„Wir hoffen, dass die OSC nun so hart arbeitet, um die falschen Vorstellungen in der Öffentlichkeit über ihre Erkenntnisse zu korrigieren, wie sie es bei der Produktion ihrer Ergebnisse taten.“

© PSYLEX.de – Quellenangabe: Harvard Universität, Science; März 2016

Was denken Sie darüber? Oder haben Sie Erfahrungen damit gemacht?


Aus Lesbarkeitsgründen bitte Punkt und Komma nicht vergessen. Vermeiden Sie unangemessene Sprache, Werbung, themenfremde Inhalte. Danke.