Sunday , November 24 2024
Home / Ökonomenstimme / (Warum) Sind die Wirtschaftswissenschaften im deutschsprachigen Raum immer noch stumm bei der p-Wert Diskussion?

(Warum) Sind die Wirtschaftswissenschaften im deutschsprachigen Raum immer noch stumm bei der p-Wert Diskussion?

Summary:
Die Diskussion über die richtige Verwendung und Interpretation des p-Werts hat sich in der jüngeren Vergangenheit intensiviert. Erste wissenschaftliche Beiträge schlagen gar einen Bann vor, nur in den Wirtschaftswissenschaften und hier vor allem im deutschsprachigen Raum scheinen die Reformbemühungen auf wenig Echo zu stoßen, wie dieser Beitrag zeigt. Nachdem die American Statistical Association (ASA) Anfang 2016 zum ersten Mal in ihrer fast 180-jährigen Geschichte eine Methodenwarnung herausgegeben hatte (zum p-Wert), veröffentlichten Frey et al. auf der Ökonomenstimme am 6.10.2016 einen Beitrag mit dem Titel Mangelhafte Rezeption der p-Wert Debatte in den Wirtschaftswissenschaften. Der Beitrag schien einen Nerv zu treffen. Er wurde über 6000-mal gelesen. Zumindest die Leser der

Topics:
Sven Grüner, Norbert Hirschauer, Oliver Mußhoff considers the following as important:

This could be interesting, too:

Cash - "Aktuell" | News writes Länder einigen sich bei Weltklima-Konferenz auf globalen Emissionshandel

Cash - "Aktuell" | News writes Selenskyj glaubt an mögliches Kriegsende 2025

Cash - "Aktuell" | News writes Was Schweizer Bäuerinnen und Bauern verdienen

Cash - "Aktuell" | News writes Schweizer Efta/EU-Delegation will Abkommen mit China optimieren

Die Diskussion über die richtige Verwendung und Interpretation des p-Werts hat sich in der jüngeren Vergangenheit intensiviert. Erste wissenschaftliche Beiträge schlagen gar einen Bann vor, nur in den Wirtschaftswissenschaften und hier vor allem im deutschsprachigen Raum scheinen die Reformbemühungen auf wenig Echo zu stoßen, wie dieser Beitrag zeigt.

Nachdem die American Statistical Association (ASA) Anfang 2016 zum ersten Mal in ihrer fast 180-jährigen Geschichte eine Methodenwarnung herausgegeben hatte (zum p-Wert), veröffentlichten Frey et al. auf der Ökonomenstimme am 6.10.2016 einen Beitrag mit dem Titel Mangelhafte Rezeption der p-Wert Debatte in den Wirtschaftswissenschaften. Der Beitrag schien einen Nerv zu treffen. Er wurde über 6000-mal gelesen. Zumindest die Leser der Ökonomenstimme sind also nicht taub auf diesem Ohr. Allerdings scheint es seither in den Wirtschaftswissenschaften im deutschsprachigen Raum recht stumm geblieben zu sein. Eine aktive Beteiligung an der p-Wert Debatte haben wir, von wenigen Ausnahmen abgesehen, nicht wahrgenommen. Auch institutionelle Reformbemühungen scheint es kaum zu geben. So wurde das Problem unseres Wissens von den Fachgesellschaften bisher nicht auf eine prioritäre Agenda gesetzt. Auch von einer gezielten Überarbeitung von Journal-Guidelines ist uns nichts bekannt. Über entsprechende Hinweise würden wir uns aber sehr freuen.

Warten die Wirtschaftswissenschafter in Deutschland also passiv ab anstelle aktiv nach Möglichkeiten zu suchen, wie man den Fehlern bei der Interpretation "Statistischer Signifikanztests" begegnen könnte? Kurz gefragt, besteht Nachholbedarf? Um eine erste Einschätzung zu ermöglichen, "was beim p-Wert insgesamt los ist", skizzieren wir die Entwicklung der Kritik in den letzten beiden Jahrzehnten sowie den aktuellen Stand der Reformbemühungen:

1996: Eine Studie von McCloskey und Ziliak (Journal of Economic Literature[ a ]) untersucht alle Artikel des American Economic Review von 1980-1989 und findet schwerwiegende Mängel und irreführende Interpretationen des p-Werts in der Mehrheit der Artikel.

1999: Die American Psychological Association denkt darüber nach, in ihrem Manual ein Verbot des p-Werts zu verankern. Sie entscheidet sich dann aber dagegen und warnt lediglich vor Fehlinterpretationen (American Psychologist[ b ]).

1999: Nelder bringt im The Statistician[ c ] die Kritik an dem seit den 1960er Jahren etablierten "null hypothesis significance testing" (NHST) wie folgt auf den Punkt. "The most important task before us in developing statistical science is to demolish the P-value culture, which has taken root to a frightening extent in many areas."

2000: Nickerson (Psychological Methods[ d ]) beschreibt in einem ausführlichen Review die Probleme des NHST und die seit den 60er Jahren mit wechselnder Intensität geführte Kontroverse.

2005: Ioannidis (PLoS Medicine[ e ]) kritisiert in seinem Aufsatz "Why Most Published Research Findings are False", der mit über 2,5 Mio. Zugriffen der am häufigsten aufgerufene Beitrag in der Geschichte der Public Library of Science ist, dass laufend "statistisch signifikante Entdeckungen" als neue Kuh durchs Dorf getrieben werden, von denen sich die Mehrzahl nicht reproduzieren lässt.

2011: Simmons et al. (Psychological Science[ f ]) weisen in einem breit rezipierten Beitrag darauf hin, dass "false discoveries" u.a. entstehen, weil es im Rahmen des "model fitting" vielfach als normal angesehen wird, "p-hacking" zu betreiben – also solange verschiedene Analysevarianten zu probieren, bis "schöne" Signifikanzen herauskommen.

2011: In Anlehnung an McCloskey und Ziliak (1996) analysiert Krämer (Schmollers Jahrbuch[ g ]) alle Artikel des German Economic Review von 2000-2010 und findet ebenfalls viele irreführende und falsche inferenzstatistische Schlussfolgerungen. Er weist zudem darauf hin, dass diese Fehler auch in einer Vielzahl von Lehrbüchern zu finden sind.

2014: Nach einer intensiven Debatte über die "reproducibility crisis" erreicht die p-Wert Kritik mit einem Beitrag von Nuzzo ("Statistical Errors. P-values, the ‘gold standard’ of statistical validity, are not as reliable as many scientists assume") das Wissenschaftsjournal Nature[ h ].

2015: Die Herausgeber Trafimow und Marks untersagen die Verwendung von p-Werten in der Zeitschrift Basic and Applied Social Psychology[ i ].

2016: Die ASA warnt im März offiziell vor Fehlanwendungen und Fehlinterpretationen des p-Werts (Wasserstein und Lazar, The American Statistician[ j ]). Die Debatte intensiviert sich.

2017: Hirschauer et al. (Zentrum für Statistik Göttingen[ k ]) veröffentlichen ein Papier, in dem die durch die p-Wert Kultur verursachen Fehler und Verzerrungen systematisch dargestellt werden.

2017: Auf der Jahrestagung der deutschen agrarökonomischen Gesellschaft (GEWISOLA) präsentieren Rommel und Weltin (ageconsearch[ l ]) eine ebenfalls von McCloskey und Ziliak (1996) inspirierte Studie, in der sie ähnliche Probleme in den 2015er Beiträgen in führenden agrarökonomischen Journalen finden.

2017: Die ASA veranstaltet im Oktober 2017 ein Symposium zum Thema Scientific Method for the 21st century: A world beyond p < 0.05[ m ], dessen Zielsetzung wie folgt beschrieben wird: "Although the problems identified in the [2016 ASA-] statement have been known for several decades, previous expressions of concern and calls for action have not fostered broad improvements in practice. Recognizing this failure and seeking to move beyond the Don’ts […] the Symposium on Statistical Inference focused attention on the Do’s […]."

2017: Im Auftrag der ASA gibt The American Statistician[ n ] (TAS) nach dem Symposium einen Special Issue Call mit dem folgenden Ziel heraus: "moving statistical analysis and evidence-based decision-making beyond «bright line rules» toward a «post p < 0.05 era»".

2017: Vor und nach dem Symposium äußern sich viele renommierte Autoren in teils großen Autorenkollektiven. Benjamin et al. (PsyArXiv[ o ]), ein Kollektiv von über 70 Autoren, schlagen bspw. vor, die übliche Signifikanzgrenze von 0,05 auf 0,005 abzusenken. Ihr Hauptargument ist, dass das verbreitete Signifikanzkonzept weiter verwendet werden könnte, aber die Anzahl von "false discoveries" reduziert werden würde.

2017: Der Vorschlag von Benjamin et al. trifft auf Kritik namhafter Autoren wie z.B. Amrhein et. al. (PeerJ reviewed[ p ]), Gelman und Carlin (Journal of the American Statistical Association[ q ]), Greenland (American Journal of Epidemiology[ r ]), McShane et al. (arXiv.org[ s ]) und Trafimow et al. (PeerJ preprint[ t ]). Diese weisen darauf hin, dass eine Absenkung der Signifikanzschwelle die Probleme dichotomer Ja/Nein Interpretationen, des p-hacking, der Überschätzung von Effektgrößen und der Unterdrückung "nicht signifikanter Negativbefunde" noch verschärfen würde. Stattdessen fordern sie die Abkehr von dichotomen Signifikanzaussagen. Der p-Wert solle als das verstanden werden, was er ist, nämlich als kontinuierliches Maß der Evidenz gegen die (häufig vollkommen irrelevante) Nullhypothese, und damit keinesfalls das, sondern allenfalls ein kleines inferenzstatistisches Hilfsmittel unter vielen.

2017: Teilweise wird auch ein vollständiger Bann des p-Werts gefordert. Berry (Journal of the American Statistical Association[ u ]) bringt dies auf den Punkt: "p-Values are fundamentally un-understandable. […] We created a monster. And we keep feeding it, hoping that it will stop doing bad things. It is a forlorn hope. […]. The only reasonable route forward is to kill it."

2017: In der Tendenz ähnlich äußert sich Andrew Gelman[ v ], einer der prominentesten Statistiker. Er will zwar p-Werte nicht verbieten, glaubt aber immer weniger daran, dass der Versuch, sie zu "reformieren", sinnvoll ist. Bei einem korrekten Verständnis seien sie i.d.R. irrelevant für Forschungsziele. Stattdessen müsse man die mit Signifikanzaussagen transportierte Scheinsicherheit aufgeben und die Unsicherheit statistischer Induktionsschlüsse akzeptieren.

01/2018: Auf die Frage, ob von der ASA auch bzgl. der Do’s eine Stellungnahme zu erwarten ist, äußert Ron Wasserstein[ w ], der Executive Direktor der ASA, in einer persönlichen Kommunikation die folgende Erwartung: "I suspect that what appears in the special issue on inference will be considered a level of guidance nearly at the level of societal endorsement. And, perhaps, once the special issue has been ‘out there’ for a little while, we’d be in a better position to officially adopt or endorse some or all of its content."

07/2018: Voraussichtliches Erscheinen des ASA/TAS Special Issues.

09/2018: "Statistical Literacy" und damit u.a. Fehlinterpretationen des p-Werts sind ein Thema der Jahrestagung der Deutschen Statistischen Gesellschaft (Statistische Woche 2018[ x ]).

Es bleibt abzuwarten, wie es weitergeht. Die obige Liste erhebt keinen Anspruch an Vollständigkeit. Trotz der notwendigerweise auszugsweisen Darstellung verdeutlicht sie aber das vergleichsweise geringe Aktivitätsniveau in den Wirtschaftswissenschaften. Dies gilt unseres Wissens auch für die meisten im deutschsprachigen Raum erscheinenden Journale. Das ist bedauernswert, da trotz der insgesamt schwachen Rezeption der p-Wert Debatte in der Ökonomie einzelne namhafte Ökonomie-Journale erste Reformbemühungen unternommen haben. Eine Anfrage bei den gemäß Scimago Journal & Country Rank[ y ] 100 Top-Journalen ergab, dass v.a. die Herausgeber der renommiertesten Zeitschriften erste Änderungen bereits vollzogen haben. So untersagen bspw. das American Economic Review, Econometrica und die vier AEJs die Verwendung von Sternchen, um dichotomen Fehlinterpretationen zu begegnen. Außerdem ist es dort Standard, in den Ergebnistabellen Standardfehler oder Konfidenzintervalle auszuweisen und p-Werte allenfalls zusätzlich in der Argumentation zu nutzen.

Wir glauben, dass weder die "Abschaffung" von p-Werten noch die Absenkung der Signifikanzschwelle noch die "Grand Vision" eines kompletten Übergangs zur Bayesschen Statistik geeignet sind, um den Fehlern beim statistischen Induktionsschluss zu begegnen. Deshalb haben wir unter dem Titel Twenty steps towards an adequate inferential interpretation of p-values[ z ] Handlungsempfehlungen zusammengetragen, die aus unserer Sicht das erfolgversprechendste Set an direkt umsetzbaren Maßnahmen darstellen und in Journal-Guidelines zum Standard gemacht werden könnten. Als Ökonomen fokussieren wir auf eine korrekte und aussagekräftige Interpretation der Ergebnisse multipler Regressionen. Als Pragmatiker beschränken wir uns zunächst auf Maßnahmen für eine korrekte Interpretation von Einzelstudien, die in der Praxis leicht umsetzbar sind, ohne dass wir uns sofort den riesigen (und vielleicht unüberwindbaren) Herausforderungen meta-analytischer und Bayesscher Ansätze bei multiplen Regressionen stellen müssen. Eine rege Diskussion unserer Vorschläge würde uns sehr freuen.

©KOF ETH Zürich, 12. Feb. 2018

Leave a Reply

Your email address will not be published. Required fields are marked *