Het wordt tijd om negatieve resultaten wetenschappelijk serieus te nemen

De huidige wetenschapsbeoefening wordt gekenmerkt door een sterke druk om te publiceren. Publicaties vormen voor universiteiten doorgaans het belangrijkste criterium waarop medewerkers beoordeeld worden en helpen dus om academisch carrière te maken. Wetenschappers zijn daarom sterk gericht op het publiceren van hun onderzoek, wat al snel leidt tot de houding van ‘publiceren om te publiceren’ (publish or perish). Dit kan leiden tot allerlei kwalijk gedrag, zoals zelfplagiaat (Horbach en Halffman, 2019a en b; Lukkezen, 2019).

Een bijkomend probleem is dat wetenschappelijke tijdschriften minder geneigd zijn om negatieve resultaten te publiceren – resultaten die hypotheses niet bevestigen – omdat die nu eenmaal minder ‘spectaculair’ zijn. Positieve resultaten worden veelal sneller geaccepteerd door tijdschriften (positive confirmation bias).

Deze trends werken elkaar in de hand, in negatieve zin: als wetenschappelijke tijdschriften minder geneigd zijn om negatieve resultaten te publiceren omdat die nu eenmaal minder ‘spectaculair’ zijn en jij als individuele wetenschapper moet zoveel mogelijk publiceren, dan zul je minder geneigd zijn om je tijd te verdoen aan het proberen publiceren van je negatieve resultaten.

Dat is problematisch. Het doel van publiceren is niet ‘publiceren om te publiceren’, maar het verspreiden van wetenschappelijke kennis. Positieve resultaten helpen de wetenschap niet beter vooruit dan negatieve resultaten. Integendeel, het wetenschappelijke proces berust juist op mislukking. Het publiceren van negatieve resultaten is van fundamenteel belang voor een accuraat beeld van de wetenschappelijke stand van zaken. Het negeren van fouten is in strijd met de aannames van onze meest voorkomende statistische modellen.

Nulhypothese significantietoetsing

De dominante methode om conclusies te trekken over gegevens op veel gebieden van de gedragswetenschappen is de nulhypothese significantietoetsing (NHST). De meeste, zo niet alle, onderzoekers zijn bekend met de basisprincipes ervan: we nemen aan dat een effect niet bestaat, voeren een experiment uit om deze nulhypothese te testen en proberen de nulhypothese te verwerpen ter ondersteuning van een alternatieve hypothese (meestal een opgesteld door de onderzoekers).

Binnen een NHST-raamwerk zijn de resultaten van een enkele studie vrijwel zinloos, omdat de waargenomen effecten probabilistisch werken. Negatieve resultaten horen erbij en zijn een essentieel kenmerk van het proces.

Want wat betekent het om de nulhypothese te verwerpen? Simpelweg dat de verkregen p-waarde onder een vooraf vastgestelde drempel ligt. Het geeft aan hoe waarschijnlijk het is dat we een bepaald effect waarnemen over een grote reeks steekproeven als de nulhypothese waar is én aan alle testaannames is voldaan (Kline, 2013). Elke sample is onderhevig aan een steekproeffout. Daarom zullen zelfs “echte” effecten in sommige samples niet-significante resultaten opleveren.

Het is dus inherent aan het statistisch systeem dat we gebruiken, dat veel van de onderzoeken negatieve (niet-significante) resultaten zullen laten zien. Een benadering van de waarheid kan op de lange termijn alleen meta-analytisch worden afgeleid uit een reeks van vele replicaties.

Wetenschappelijke misinformatie

Wat zijn de gevolgen als we negatieve resultaten onder het tapijt vegen? Kort gezegd: misinformatie. In een veld als economie, waar statistisch vermogen zelden van tevoren wordt overwogen en samples regelmatig een te lage power hebben zouden we regelmatig experimentele mislukkingen moeten zien (Grüner, 2019; Ioannidis et al., 2017). Zelfs als we aannemen dat elke onderzoeker die economie studeert absolute, echte effecten ontdekt, kunnen we deze mislukkingen alsnog verwachten als gevolg van steekproeffouten. Toch zien we dit zelden terug in de publicaties; wat we veelal overhouden, is een reeks positieve effecten die ons weinig vertellen over de ware aard van een effect (Ioannidis et al., 2017).

Het gevolg van deze positive confirmation bias is dat het vrijwel onmogelijk wordt om de ware omvang van een effect uit de literatuur af te leiden. Een enkele studie vertelt weinig over de waarheid van een effect. En een meta-analyse, die de resultaten van meerdere studies samenneemt, is gebiased.

Fundamentele verandering nodig

Dus wat zijn onze mogelijkheden? Er moet een fundamentele verandering komen in de huidige afkeer van wetenschappers voor fouten. Een wetenschap kan niet overleven op basis van ‘positieve’ bevindingen alleen. Negatieve bevindingen dragen evenveel belang met zich mee. Een paradigmaverschuiving is dus nodig, waardoor we niet alleen een tolerantie voor mislukking in de wetenschap ontwikkelen, maar veel meer nog: een omhelzing ervan.

Zo’n herziening van de status quo willen we bereiken met de Journal of Trial and Error. In plaats van methodologische mislukkingen en niet-significante resultaten te verwerpen als schandelijke smetten op het anders ongerepte gezicht van de wetenschap, omarmen we ze. We interpreteren ze en brengen ze in dialoog met verschillende denkers uit de economie, psychologie, filosofie, antropologie, enzovoorts. We doen dit niet omdat we aan de verklarende kracht van wetenschappelijke methoden twijfelen, maar omdat we die respecteren.

Als we de manier waarop wetenschap wordt beoefend willen herzien, hebben we een model van wetenschappelijk onderzoek nodig dat fouten erkent als een statistische en wetenschappelijke noodzaak. En, ja, dat zal een proces van vallen en opstaan worden.

Literatuur

Grüner, S. (2019). Sample size calculation in economic RCTs: following clinical studies?. https://dx.doi.org/10.2139/ssrn.3452918.

Horbach, S.P.J.M., & Halffman, W. (2019a) The extent and causes of academic text recycling or ‘self-plagiarism’. Research Policy, 48(2), 492–502.

Horbach, S.P.J.M., & Halffman, W. (2019b) Rejoinder to ‘Is there a Peter Nijkamp effect?’ by Jasper Lukkezen. Research Policy, 48, 505. https://doi.org/10.1016/j.respol.2018.10.024.

Lukkezen, J.H.J. (2019) Is there a Peter Nijkamp effect? A comment on The extent and causes of academic text recycling or ‘self-plagiarism’ by S.H. and W. Halffman. Research Policy, 48, 503-504. https://doi.org/10.1016/j.respol.2018.10.023.

Ioannidis, J.P., T.D. Stanley en H. Doucouliagos (2017) The power of bias in economics research. The Economic Journal, 127(605), F236–F265, https://doi.org/10.1111/ecoj.12461.

Kline, R.B. (2013) Beyond significance testing: Statistics reform in the behavioral sciences. American Psychological Association.

Auteurs

Categorieën

Wetenschap