Ohne statistisch signifikante Werte lässt es sich in den Wirtschaftswissenschaften schwerlich publizieren. In diesem Zusammenhang spielt der p-Wert eine entscheidende Rolle. Rund um dessen präzise Interpretation herrscht allerdings eine bedenkliche Nonchalance, wie dieser Beitrag zeigt. In einer drastischen Reaktion auf die andauernde p-Wert-Krise haben die Herausgeber des Journals Basic and Applied Social Psychology Anfang 2015 die Verwendung von p-Werten in Veröffentlichungen untersagt.[ 1 ] Dieses Verbot sowie eine Vielzahl p-Wert kritischer Beiträge in hochrangigen Journalen bis hin zu Nature haben in großen Teilen der scientific community das Problembewusstsein für Fehlinterpretationen des p-Werts erhöht. In den Wirtschaftswissenschaften ist die Rezeption dieser Debatte bisher aber erstaunlich schwach.[ 2 ] Über Jahrzehnte hat sich die Konvention herausgebildet, bei p-Werten bis zu 0,05 von statistisch signifikanten Ergebnissen zu sprechen. Häufig wird der p-Wert auch als Irrtumswahrscheinlichkeit bezeichnet. Beide Begriffe sind problematisch, da sie Fehlinterpretationen Vorschub leisten. So ist es falsch, den Begriff (statistisch) "signifikant" mit "groß/wichtig" gleichzusetzen; und es ist ein Trugschluss, ein "nicht signifikantes" Ergebnis als Indiz oder gar Nachweis dafür zu werten, dass kein (bedeutender) Effekt vorliegt.
Topics:
Neueste Artikel in der Ökonomenstimme considers the following as important:
This could be interesting, too:
Swiss National Bank writes 2024-11-04 – Data portal – Important monetary policy data, 4 November 2024
Cash - "Aktuell" | News writes Börsen-Ticker: SMI leicht vorne – Dollar gibt vor US-Wahlen nach – Ölpreise legen zu
finews.ch writes Christopher Hodge: «Trump bellt mehr, als er wirklich beisst»
finews.ch writes Langjährige Safra-Sarasin-Top-Bankerin wird CEO in Asien
Ohne statistisch signifikante Werte lässt es sich in den Wirtschaftswissenschaften schwerlich publizieren. In diesem Zusammenhang spielt der p-Wert eine entscheidende Rolle. Rund um dessen präzise Interpretation herrscht allerdings eine bedenkliche Nonchalance, wie dieser Beitrag zeigt.
In einer drastischen Reaktion auf die andauernde p-Wert-Krise haben die Herausgeber des Journals Basic and Applied Social Psychology Anfang 2015 die Verwendung von p-Werten in Veröffentlichungen untersagt.[ 1 ] Dieses Verbot sowie eine Vielzahl p-Wert kritischer Beiträge in hochrangigen Journalen bis hin zu Nature haben in großen Teilen der scientific community das Problembewusstsein für Fehlinterpretationen des p-Werts erhöht. In den Wirtschaftswissenschaften ist die Rezeption dieser Debatte bisher aber erstaunlich schwach.[ 2 ]
Über Jahrzehnte hat sich die Konvention herausgebildet, bei p-Werten bis zu 0,05 von statistisch signifikanten Ergebnissen zu sprechen. Häufig wird der p-Wert auch als Irrtumswahrscheinlichkeit bezeichnet. Beide Begriffe sind problematisch, da sie Fehlinterpretationen Vorschub leisten. So ist es falsch, den Begriff (statistisch) “signifikant” mit “groß/wichtig” gleichzusetzen; und es ist ein Trugschluss, ein “nicht signifikantes” Ergebnis als Indiz oder gar Nachweis dafür zu werten, dass kein (bedeutender) Effekt vorliegt. Der Begriff “Irrtumswahrscheinlichkeit” schließlich provoziert geradezu die Fehlinterpretation, der p-Wert gebe die Wahrscheinlichkeit an, einen Irrtum zu begehen, wenn man die Nullhypothese ablehnt.
Die weite Verbreitung p-Wert bezogener Fehlinterpretationen wird in der Literatur schon seit langem kritisch diskutiert (Nickerson 2000). In der aktuellen Debatte über die Replikationskrise werden sie aber – neben einer als p-hacking bezeichneten signifikanzsuchenden Methodenwahl (Simmons et al. 2011) – zunehmend als Problem wahrgenommen (Nuzzo 2014). Anfang März 2016 hat sogar die American Statistical Association eine offizielle Erklärung abgegeben, wie p-Wert bezogene Fehler zu vermeiden sind (Wasserstein und Lazar 2016). Worum geht es?
Fälschliche Gleichsetzung von “signifikant” mit “groß”
Die Gefahr, “signifikant” mit “groß/wichtig” gleichzusetzten, ist insbesondere dann hoch, wenn das Adjektiv “statistisch” weggelassen und nur von “signifikanten” und “nicht signifikanten” Effekten gesprochen wird. In der Folge findet man häufig Formulierungen, die signifikante im Vergleich zu nicht signifikanten Ergebnissen mit dem Adjektiv “stärker” oder “mehr” belegen. Das ist falsch. Wenn eine Variable X einen “signifikanten” Einfluss auf eine Variable Y hat, bedeutet das lediglich, dass die Wahrscheinlichkeit gering ist, dass der beobachtete (oder ein stärkerer) Effekt, als Zufallsbefund in einer Stichprobe auftauchen würde, wenn er in der Grundgesamtheit gar nicht da wäre (Wasserstein und Lazar 2016).
Obwohl große Stichproben oft als vorteilhaft wahrgenommen werden, ist die Gleichsetzung von (statistisch) “signifikant” und “wichtig” gerade bei großen N ein Problem. Dies liegt daran, dass die p-Werte c.p. mit steigendem N sinken. Das heißt, jeder Effekt, egal wie bedeutungslos er ist, wird bei steigenden N irgendwann “statistisch signifikant”. Ein inhaltlich bedeutungsloser Effekt wird allerdings auch durch große Stichproben nie zu einem wichtigen Effekt.
Um sprachlich bedingte Fehlinterpretationen zu vermeiden, schlägt z.B. Colquhoun (2014) vor, in wissenschaftlichen Veröffentlichungen auf das Wort “signifikant” zu verzichten. Angesichts der langen Tradition des Begriffs ist fraglich, ob dies durchsetzbar ist. Praktikabler erscheint es, Nachwuchswissenschaftler dazu anzuhalten, das Wort “signifikant” nicht in der Bedeutung von “groß/wichtig” zu gebrauchen und es immer mit dem Zusatz “statistisch” zu verwenden, wenn die Gefahr eines Missverständnisses besteht. Auf Journalebene könnten die Gutachter explizit aufgefordert werden, irreführende Formulierungen zu korrigieren.
Fehlschlüsse bei Überschreiten des Signifikanzniveaus
Akzeptiert man die Einhaltung des Signifikanzniveaus von 0,05 als Bedingung für die Ablehnung der Nullhypothese, stellt sich die Frage, wie p-Werte oberhalb des Signifikanzniveaus zu interpretieren sind. Auch hier kommt es nicht selten zu Denkfehlern. Bei p > 0,05 lautet die präzise Formulierung:
Die Nullhypothese, dass der Regressor X keinen Einfluss auf Y hat, kann nicht mit dem üblicherweise geforderten Signifikanzniveau von maximal 0,05 abgelehnt werden.
Dies entspricht dem “Satz vom ausgeschlossenen Dritten”, nach dem eine Aussage so zu formulieren ist, dass entweder sie selbst oder ihre Verneinung zutrifft. Die Aussage “Hans ist entweder blond oder nicht blond” ist richtig. Die Aussage “Wenn Hans nicht blond ist, ist er schwarzhaarig” ist dagegen eine Verletzung des Satzes vom ausgeschlossenen Dritten, durch die eine falsche Dichotomie entsteht. Ein analoger Trugschluss droht bei der Interpretation von p-Werten über 0,05, wenn laxe Formulierungen wie die folgenden genutzt werden:
Der Einfluss von X auf Y ist nicht statistisch signifikant.
Der Einfluss von X auf Y ist statistisch nicht signifikant.
Der Einfluss von X auf Y ist nicht signifikant.
Von der letzten Formulierung aus, die bereits nahelegt, dass man gefunden habe, dass kein (wichtiger) Effekt da ist, ist es nur ein kurzer Weg zur eindeutig falschen Schlussfolgerung:
Unsere Studie zeigt, dass ein (relevanter) Einfluss von X auf Y nicht vorhanden ist.
Die Schlussfolgerung, man habe mit p > 0,05 die Nullhypothese bestätigt, ist falsch (Wasserstein und Lazar 2016). Schuld an diesem Trugschluss sind Formulierungen, die die falsche Dichotomie “entweder Ablehnung der Nullhypothese oder Bestätigung der Nullhypothese” nahelegen. Der Fehler findet sich auch in Formulierungen, bei denen er nicht auf den ersten Blick offensichtlich ist. So werden nicht signifikante Ergebnisse oft dahingehend kommentiert, dass sie im Widerspruch zu theoretischen Aussagen stehen, die die Existenz des Effekts nahelegen. Das kann man aber nicht sagen, da p > 0,05 kein Indiz dafür ist, dass der Effekt nicht vorliegt.
Da der beschriebene Denkfehler logisch einfach zu durchdringen ist, sollten Studierende und Nachwuchswissenschafter gezielt mit dem Satz vom ausgeschlossenen Dritten vertraut gemacht werden. Auf Journalebene sollten die Gutachter konsequent Formulierungen beanstanden, die bei p > 0,05 den Trugschluss “Bestätigung der Nullhypothese” nahelegen. Bei der Rezeption von Forschungsergebnissen durch die Öffentlichkeit sind falsche Dichotomien möglicherweise schwerer zu vermeiden. Politikern und Fachjournalisten, die im Kampf um die öffentliche Wahrnehmung stehen, ist eine opportune Meldung “X hat keinen Einfluss auf Y!” möglicherweise oft lieber als eine “langweilige”, aber wissenschaftlich zutreffende Aussage, dass man noch keine Aussage machen kann.
Fehlschlüsse bei Unterschreiten des Signifikanzniveaus
Ein weiteres Problem besteht darin, dass aus geringen p-Werten oft vorschnelle Schlussfolgerungen gezogen werden. Eine maßgebliche Ursache hierfür ist die unglückliche Konvention, den p-Wert als “Irrtumswahrscheinlichkeit” zu bezeichnen. Trotz dieser Bezeichnung gibt der p-Wert nicht die Wahrscheinlichkeit an, dass die Nullhypothese (kein Effekt) zutrifft. Er bezeichnet damit auch nicht die als false discovery rate bezeichnete A-posteriori-Wahrscheinlichkeit, bei Ablehnung der Nullhypothese einen Irrtum zu begehen. Der p-Wert ist lediglich die bedingte Wahrscheinlichkeit, dass in einer Zufallsstichprobe der gefundene Effekt (oder ein stärkerer) beobachtet werden würde, wenn angenommen wird, dass in der Grundgesamtheit kein Effekt da ist (Nuzzo 2014).[ 3 ]
Der Sachverhalt lässt sich an einem Münzwurfbeispiel veranschaulichen, bei dem man vorab mit 1%iger Wahrscheinlichkeit eine manipulierte Münze [P(Kopf) = 0,75] und mit 99%iger Wahrscheinlichkeit eine nicht-manipulierte Münze [P(Kopf) = 0,5] zieht. Nun wirft man die gezogene Münze fünfmal und beobachtet 5 x Kopf. Bei einer idealen Münze (= kein Effekt), wäre bei sehr vielen Wiederholungen des Experiments “fünfmaliger Münzwurf” nur in 3,125% (= 0,55) der Fälle 5 x Kopf zu erwarten. Diese bedingte Wahrscheinlichkeit entspricht dem p-Wert. Sie ist aber nicht die Wahrscheinlichkeit, bei Verwerfung der Nullhypothese “ideale Münze” einen Fehler zu machen. Hierfür muss man noch wissen, wie hoch bei der manipulierten Münze die Wahrscheinlichkeit für 5 x Kopf ist. Sie beträgt 23,73% (= 0,755).
Man muss zudem die als “Priors” bezeichneten A-priori-Wahrscheinlichkeiten von 1% und 99% berücksichtigen, dass man anfangs eine manipulierte bzw. eine ideale Münze gezogen hatte. Nach dem Satz von Bayes kommt man nach dem Wurfexperiment auf eine A-posteriori-Wahrscheinlichkeit von 92,88% [= 0,03125·0,99/(0,03125·0,99+0,237·0,01)], einen Irrtum zu begehen, wenn man die Nullhypothese “ideale Münze” verwirft (false discovery rate). Trotz des p-Werts von 0,03125 wird man also die Nullhypothese nicht verwerfen. Der Informationsgewinn durch das Experiment führt lediglich dazu, dass man die A-priori-Wahrscheinlichkeit von 99% revidiert und a posteriori (d.h. nach dem Experiment) nur noch mit 92,88%iger Wahrscheinlichkeit davon ausgeht, dass man es mit einer idealen Münze zu tun hat.
Ein zutreffendes Verständnis, was p-Werte aussagen und was nicht, ist eine unabdingbare Voraussetzung für eine realistische Einschätzung der Validität statistischer Ergebnisse. Man versteht dann, dass die Praxis, die Einhaltung eines bestimmten Signifikanzniveaus als Bedingung für die Ablehnung der Nullhypothese anzusehen, zwar eine verbreitete Konvention ist, aber nicht mit der Einhaltung einer einheitlichen und akzeptablen Obergrenze für die false discovery rate im Einklang steht. Wie das Münzwurfbeispiel zeigt, können auch geringe p-Werte mit inakzeptabel hohen false discovery rates zusammenfallen.
Der fälschlichen Gleichsetzung des p-Werts mit der false discovery rate ist schwer zu begegnen. Einerseits verführt der misnomer “Irrtumswahrscheinlichkeit” geradezu zu der Fehlinterpretation, der p-Wert bezeichne die Wahrscheinlichkeit, bei Ablehnung der Nullhypothese einen Irrtum zu begehen. Andererseits haben viele Menschen Schwierigkeiten mit dem Verständnis von (bedingten) Wahrscheinlichkeiten (Gigerenzer 2002). In der Lehre sollte deshalb durch anschauliche Beispiele das Verständnis geschärft werden, was bedingte Wahrscheinlichkeiten und damit p-Werte aussagen.
Was in der wissenschaftlichen Veröffentlichungspraxis verändert werden soll, ist weniger offensichtlich. Ein Argument dafür, alles beim Alten zu belassen, ist die “bequeme” Natur des p-Werts, der eine scheinbar klare Leitlinie zur schnellen Beurteilung von Ergebnissen verspricht. Bei ausschließlichem Rückgriff auf den p-Wert abstrahiert man allerdings von jeglichem Vorwissen. Wissenschaft und Erkenntnisfortschritt beruhen aber auf Vorarbeiten und Vorwissen, das mit den eigenen Ergebnissen zusammengeführt werden muss. Dementsprechend werden die meisten Forscher statistisch signifikante, aber überraschende Ergebnisse skeptisch beurteilen, auch wenn die Daten und Analysemethoden der Studie einer kritischen Überprüfung standhalten. Dies lässt sich als “gesundes” Misstrauen interpretieren, das darauf beruht, dass der Satz von Bayes qualitativ “mitgedacht” wird. Bei konsequenter Formalisierung ließe sich dieses Misstrauen mit dem Satz von Bayes transparent machen. Dies hätte den Vorteil, dass sowohl eine übertriebene als auch eine zu geringe wissenschaftliche Skepsis gegenüber “neuen” Ergebnissen intersubjektiv nachvollziehbar wird, da die unvermeidbar subjektiven Priors explizit dargestellt werden müssten. Man wüsste also, worüber man zu “streiten” hat (Zyphur und Oswald 2015).
Literatur
Cohen J. (1994): The earth is round (p < 0.05). American Psychologist 49(12): 997-1003.
Colquhoun, D. (2014): An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science, DOI.
Gigerenzer, G. (2002): Das Einmaleins der Skepsis. Über den richtigen Umgang mit Zahlen und Risiken. Berlin Verlag.
Krämer, W. (2011): The Cult of Statistical Significance – What Economists Should and Should Not Do to Make their Data Talk. Schmollers Jahrbuch 131(3): 455-468.
Nickerson, R.S. (2000): Null hypothesis significance testing: A review of an old and continuing controversy. Psychological Methods 5(2): 241-301.
Nuzzo, R. (2014): Statistical Errors. P-values, the ‘gold standard’ of statistical validity, are not as reliable as many scientists assume. Nature 506(7487): 150-152.
Simmons, J.P., Nelson, L.D., Simonsohn, U. (2011): False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science 22(11): 1359-1366.
Wasserstein, R.L., Lazar N.A. (2016): The ASA’s statement on p-values: context, process, and purpose. The American Statistician 70(2): 129-133.
Ziliak, S.T., McCloskey, D.N. (2008): The Cult of Statistical Significance. How the Standard Error Costs Us Jobs, Justice, and Lives. The University of Michigan Press.
Zyphur, M.J., Oswald F.L. (2015): Bayesian Estimation and Inference: A User’s Guide. Bayesian Probability and Statistics in Management Research, (Special Issue of the) Journal of Management 41(2): 390-420.
- 1 Eine ausführliche Version dieses Beitrags, in der auch das hier nicht thematisierte Problem des p-hacking angesprochen wird, ist im September 2016 in Jahrbücher für Nationalökonomie und Statistik 236(5): 557-575, erschienen.
- 2 Bedeutsame Ausnahmen sind Ziliak und McCloskey (2008) und Krämer (2011), die eine große Verbreitung p-Wert bezogener Fehlinterpretationen in Beiträgen im American Economic Review bzw. German Economic Review dokumentieren, die als Flagship Journale der ökonomischen Zunft gelten.
- 3 Treffender Weise bezeichnete Cohen (1994) die Gleichsetzung von “Irrtumswahrscheinlichkeit” und “false discovery rate” als “inverse probability error”.
©KOF ETH Zürich, 6. Okt. 2016