Onderzoekers jagen veelal statistische significantie na om te kunnen publiceren in academische tijdschriften. Jack Fitzgerald, promovendus aan de Vrije Universiteit, stelt echter dat economen ook te vaak een nulresultaat claimen na het vinden van een statistisch insignificante relatie. De hele manier van testen moet op de schop.
Je proefschrift gaat over bedrijven en regulering, maar je recente working paper richt zich op statistische testen [Fitzgerald, 2024]. Hoe dat zo?
“Tijdens mijn eerste experiment vonden mijn collega’s en ik een nulresultaat. Dat is een zorgelijke uitkomst voor een onderzoeker omdat je moeilijk kunt vaststellen of dat wat zegt over de onderliggende relatie of gewoon een gevolg is van een te klein aantal observaties. Gelukkig wist ik van equivalence testing en kon ik vaststellen dat we daadwerkelijk een nulresultaat hadden gevonden. Ik kwam er toen al snel achter dat economen nauwelijks afwisten van deze handige methode om nulrelaties vast te stellen. Ik zag auteurs in andere papers, ook in de toptijdschriften, nulresultaten claimen die juist wel het gevolg waren van te weinig observaties. Deze ‘valse negatieven’ kunnen worden voorkomen met equivalence testing: ik voelde dat ik de economische wetenschap hier kon verbeteren.”
Hoe werkt equivalence testing?
“Onderzoekers kiezen vooraf een interval waarin een resultaat praktisch gelijk is aan nul. Je kan daarna met een simpele intervaltest vaststellen of een geschatte waarde zich binnen deze interval bevindt. Als dat zo is, kan een onderzoeker met een acceptabel zekerheidsniveau een nulresultaat claimen.”
Wat gaat er mis als je een nulresultaat claimt op basis van nulhypothesetoetsing?
“Statistische significantie is een maatstaaf van hoe ver een geschatte waarde in standaarddeviaties van de nul verwijderd is. Als we nauwkeurig kunnen vaststellen dat een geschatte waarde zich ver van de nul bevindt, is een variabele significant. Maar als we geen significantie vinden, betekent het niet meteen dat er geen relatie is. Het kan bijvoorbeeld ook zo zijn dat de relatie tussen twee variabelen sterk maar niet uniform is. In zo’n geval is het fout om een nulresultaat te claimen.”
Komen dergelijke valse negatieven vaak voor?
“Uit mijn paper blijkt dat veel economische onderzoekers toch een nulresultaat vaststellen via de nulhypothesetoetsing. Er worden te weinig vervolgstappen gezet om uit te zoeken of een nulresultaat wordt veroorzaakt door te weinig data of door de onderliggende relatie. Zelfs wanneer onderzoekers van tevoren verwachten geen relatie te vinden, gebruiken ze vaak alsnog nulhypothesetoetsing, een methode die is ontwikkeld om significante relaties bloot te leggen.”
Dus we jagen te veel op significantie én claimen te vaak een nulresultaat?
“Ja, het centrale punt van mijn onderzoek is dat economische wetenschappers veel vaker moeten toegeven dat er niks te concluderen valt op basis van hun onderzoek. In de economische wetenschap ligt de power – de kans dat een statistische test correct de nulhypothese verwerpt [Ioannidis et al., 2017] – schrikbarend laag. Equivalence testing is pas het begin van een noodzakelijke revolutie in statistische testen binnen de economische wetenschap. Eigenlijk moeten economen three-sided testing [Goeman et al., 2010] gaan toepassen, waarbij onderzoekers standaard testen voor een significant resultaat, nulresultaat of een twijfelachtige uitkomst die opgehelderd kan worden met meer data.”
Literatuur
Fitzgerald, J. (2024) The need for equivalence testing in economics. Institute for Replication, Discussion Paper, 125. Te vinden op research.vu.nl.
Goeman, J.J., A. Solari en T. Stijnen (2010) Three-sided hypothesis testing: Simultaneous testing of superiority, equivalence and inferiority. Statistics in Medicine, 29(20), 2117–2125.
Ioannidis, J.P.A., T.D. Stanley en H. Doucouliagos (2017) The power of bias in economics research. The Economic Journal, 127(605), F236–F265.
Auteur
Categorieën