Das Problem mit der Wissenschaft ist, dass so viel davon einfach nicht ist. Im vergangenen Sommer gab die Open Science Collaboration bekannt, dass sie versucht hatte, einhundert veröffentlichte Psychologieexperimente aus drei der renommiertesten Fachzeitschriften zu replizieren. Wissenschaftliche Behauptungen beruhen auf der Idee, dass Experimente, die unter nahezu identischen Bedingungen wiederholt wurden, ungefähr dieselben Ergebnisse liefern sollten, aber bis vor kurzem hatten sich nur sehr wenige die Mühe gemacht, systematisch zu prüfen, ob dies tatsächlich der Fall war. Das OSC war der bislang größte Versuch, die Ergebnisse eines Feldes zu überprüfen, und der schockierendste. In vielen Fällen hatten sie originale experimentelle Materialien verwendet und die Experimente manchmal sogar unter Anleitung der ursprünglichen Forscher durchgeführt. Von den Studien, die ursprünglich positive Ergebnisse berichtet hatten, zeigten erstaunliche 65-Prozent keine statistische Signifikanz für die Replikation, und viele der übrigen zeigten stark reduzierte Effektgrößen.
Ihre Entdeckungen machten die Nachrichten und wurden schnell ein Verein, mit dem man die Sozialwissenschaften schlug. Das Problem liegt aber nicht nur in der Psychologie. Es gibt eine unausgesprochene Regel in der pharmazeutischen Industrie, dass sich die Hälfte aller akademischen biomedizinischen Forschungen letztendlich als falsch herausstellen wird, und in 2011 entschied sich eine Forschergruppe von Bayer, dies zu testen. Siebenundsechzig kürzlich durchgeführte Arzneimittelentdeckungsprojekte auf der Grundlage präklinischer Krebsforschung ergaben, dass die veröffentlichten Daten in mehr als 75-Prozent der Fälle nicht mit ihren internen Replikationsversuchen übereinstimmten. Dies waren keine Studien, die in onkologischen Fly-by-Night-Journalen veröffentlicht wurden, sondern Blockbuster-Forschungen, die in Science, Nature, Cell und dergleichen vorgestellt wurden. Die Bayer-Forscher ertranken in schlechten Studien, und teilweise führten sie die auf mysteriöse Weise sinkenden Ausbeuten von Medikamentenpipelines darauf zurück. Vielleicht haben so viele dieser neuen Medikamente keine Wirkung, weil die Grundlagenforschung, auf der ihre Entwicklung beruhte, nicht gültig ist.
Wenn eine Studie nicht repliziert werden kann, gibt es zwei mögliche Interpretationen. Der erste Grund ist, dass sich der Versuchsaufbau zwischen der ursprünglichen Untersuchung und der fehlgeschlagenen Replikation deutlich unterschied. Diese werden umgangssprachlich als „Tapeteneffekte“ bezeichnet. Der Witz ist, dass das Experiment durch die Farbe der Tapete im Raum beeinflusst wurde. Dies ist die glücklichste mögliche Erklärung für das Versagen der Reproduktion: Es bedeutet, dass beide Experimente Fakten über das Universum enthüllt haben und wir nun die Möglichkeit haben, den Unterschied zwischen ihnen zu erfahren und eine neue und subtilere Unterscheidung in unsere Theorien aufzunehmen.
Die andere Interpretation ist, dass der ursprüngliche Befund falsch war. Leider zeigt ein ausgeklügeltes statistisches Argument, dass diese zweite Interpretation weitaus wahrscheinlicher ist. Dieses Argument, das zuerst von John Ioannidis, einem Professor an der School of Medicine der Stanford University, artikuliert wurde, beruht auf einer einfachen Anwendung der Bayes'schen Statistik. Angenommen, auf einem bestimmten Feld befinden sich einhundertundein Steine. In einem von ihnen befindet sich ein Diamant, und zum Glück haben Sie ein Diamantenerkennungsgerät, das für die 99-Genauigkeit in Prozent wirbt. Nach ungefähr einer Stunde, in der das Gerät herumbewegt wurde und die Steine der Reihe nach untersucht wurden, blinken plötzlich Alarme und Sirenen heulen, während das Gerät auf einen vielversprechend aussehenden Stein zeigt. Wie groß ist die Wahrscheinlichkeit, dass der Stein einen Diamanten enthält?
Die meisten würden sagen, wenn das Gerät eine 99-prozentuale Genauigkeit anzeigt, besteht eine 99-prozentuale Wahrscheinlichkeit, dass das Gerät einen Diamanten richtig erkennt, und eine 1-prozentuale Wahrscheinlichkeit, dass es einen falsch positiven Wert angegeben hat. Aber bedenken Sie: Von den einhundertundein Steinen auf dem Feld ist nur einer wirklich ein Diamant. Zugegeben, unsere Maschine hat eine sehr hohe Wahrscheinlichkeit, dass sie korrekt als Diamant deklariert wird. Aber es gibt noch viel mehr diamantfreie Steine, und während die Maschine nur eine 1-prozentuale Chance hat, jeden von ihnen fälschlicherweise als Diamanten zu deklarieren, gibt es Hunderte von ihnen. Wenn wir also den Detektor über jeden Stein auf dem Feld bewegen, ertönt er durchschnittlich zweimal - einmal für den echten Diamanten und einmal, wenn ein Stein eine falsche Messung auslöst. Wenn wir nur wissen, dass der Alarm ausgelöst wurde, sind diese beiden Möglichkeiten ungefähr gleich wahrscheinlich und geben uns eine Wahrscheinlichkeit von ungefähr 50 Prozent, dass der Stein wirklich einen Diamanten enthält.
Dies ist eine vereinfachte Version des Arguments, das Ioannidis auf den wissenschaftlichen Prozess selbst anwendet. Die Steine auf dem Feld sind die Menge aller möglichen überprüfbaren Hypothesen, der Diamant ist eine hypothetische Verbindung oder ein Effekt, der zufällig wahr ist, und der Diamantdetektor ist die wissenschaftliche Methode. Eine enorme Menge hängt von dem Anteil möglicher Hypothesen ab, die sich als wahr herausstellen, und von der Genauigkeit, mit der ein Experiment Wahrheit von Falschheit unterscheiden kann. Ioannidis zeigt, dass die Werte dieser beiden Parameter für eine Vielzahl von wissenschaftlichen Einstellungen und Gebieten überhaupt nicht günstig sind.
Stellen Sie sich zum Beispiel ein Team von Molekularbiologen vor, das untersucht, ob eine Mutation in einem der unzähligen tausend menschlichen Gene mit einem erhöhten Alzheimer-Risiko zusammenhängt. Die Wahrscheinlichkeit einer zufällig ausgewählten Mutation in einem zufällig ausgewählten Gen, die genau diesen Effekt hat, ist recht gering. Wie bei den Steinen auf dem Feld ist ein positiver Befund eher falsch als falsch - es sei denn, das Experiment ist unglaublich erfolgreich in der Sortierung der Weizen aus der Spreu. Tatsächlich stellt Ioannidis fest, dass in vielen Fällen eine Annäherung an 50-Prozent-True-Positives eine unvorstellbare Genauigkeit erfordert. Daher der auffällige Titel seiner Arbeit: "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind."