Hoe beïnvloedt de aanwezigheid van chemische stoffen in het milieu onze gezondheid? Wat zijn de beste ingrepen om de biodiversiteit te beschermen? Onderzoek naar dit soort vragen levert niet altijd betrouwbare antwoorden op, blijkt uit een studie door wetenschappers van de Universiteit Hasselt.

De preprint, nog niet in een vakblad gepubliceerd, doorstond nog niet de bijhorende kritische toets door collega-wetenschappers. De onderzoekers nemen in de studie de data achter een duizendtal studies uit de milieuwetenschappen onder de loep. Ze komen tot de conclusie dat 59 procent van de als statistisch significant gerapporteerde vondsten dat in werkelijkheid niet zijn.

“Ons onderzoek impliceert dat studies dingen beweren die onvoldoende onderbouwd zijn”, verduidelijkt Stephan Bruns (UHasselt), milieu-econoom en statisticus. “Het gevonden effect kan echt zijn, maar op basis van hoe de studies zijn uitgevoerd, blijft dat onzeker.”

Statistische power

Dat komt doordat de statistiek achter veel studies niet deugt. De zogenoemde statistische power is een maat voor de kans dat je een bestaand effect ook daadwerkelijk detecteert. Bijvoorbeeld: als milieuvervuiling tot bepaalde gezondheidsproblemen leidt, is het experiment dat je hebt opgezet dan in staat dat effect te vinden? Hoe hoger de power, hoe groter die kans.

Uit de studie blijkt dat ruim de helft van het onderzoek een power lager dan 10 procent heeft. Minder dan 10 procent heeft een power van meer dan 80 procent. “Dat betekent dat de kans dat onderzoekers een bestaand effect detecteren klein is, en het vergroot de kans dat gerapporteerde vondsten op toeval berusten”, zegt Bruns.

Een fenomeen dat bekendstaat als ‘p-hacking’ vergroot de kans op toevalstreffers: de neiging om in de data te vissen tot je ‘iets’ vindt dat statistisch significant is.

Onder druk

Even technisch: om te bepalen of ze iets hebben ontdekt, gebruiken wetenschappers de p-waarde als een soort scheidsrechter. Vaak noemen onderzoekers een resultaat statistisch significant als de p-waarde kleiner is dan 0,05. Dat betekent dat in een wereld waarin het effect dat je onderzoekt niet bestaat – bijvoorbeeld een impact van fijnstof op het geboortegewicht – de kans dat je het louter door toeval denkt te hebben gevonden kleiner is dan 5 procent.

Omdat wetenschappers onder druk staan om statistisch significante resultaten te vinden, kunnen ze in de verleiding komen om heel veel verschillende testen te doen en enkel die met een goede p-waarde te vermelden. En hoe meer je test, hoe groter de kans op een toevalstreffer.

Om p-hacking tegen te gaan is het bij klinische studies al langer verplicht om op voorhand te registreren wat je precies wilt onderzoeken, zodat iedereen achteraf kan controleren of je niet naar andere resultaten hebt gevist. “Een aanpak die ook in de milieuwetenschappen zou kunnen werken”, zegt bioloog Olivier Honnay (KU Leuven).

Foute beleidsbeslissingen

Geograaf Gerard Govers (KU Leuven), zelf lang actief in het bodemonderzoek, is niet verbaasd door de resultaten. “Veel onderwerpen in dit domein zijn emotioneel geladen – denk aan vervuiling, ecologische landbouw en de achteruitgang van de natuur”, zegt Govers. “Dat vergroot het risico dat geëngageerde onderzoekers hun wensen voor waarheid nemen en resultaten sterker in de verf zetten.”

De milieuwetenschappen zijn echter geen apart geval. Eerder bleek ook al in onder meer de psychologie, de neurowetenschappen, de economie en de biomedische wetenschappen heel wat onderzoek te rammelen. Toen Amerikaanse onderzoekers in een spraakmakende studie bijvoorbeeld probeerden om eerder psychologisch onderzoek nog eens over te doen, vonden ze in minder dan de helft van de gevallen hetzelfde resultaat. “De milieuwetenschappen zijn er niet erger aan toe dan andere domeinen, maar wel even erg”, zegt Bruns.

“Het gevolg is dat de wetenschappelijke literatuur veel minder betrouwbaar is dan je denkt”, zegt de Nederlandse statisticus Eric-Jan Wagenmakers (Universiteit van Amsterdam), die zich al langer inzet voor hogere standaarden in wetenschappelijk onderzoek. Een mogelijk uitvloeisel daarvan is dat beleidsmakers op basis van onbestaande verbanden of overschatte effecten verkeerde beslissingen nemen.

Veldwerk

Veldwerk is vaak complex en duur, en dat maakt het opzetten van voldoende grote experimenten in de milieuwetenschappen vaak extra lastig. Maar de onderliggende oorzaken van het betrouwbaarheidsprobleem zijn grotendeels universeel. De druk om te publiceren om als wetenschapper hogerop te komen is daar een van. En dat lukt vandaag alleen als je iets statistisch significant hebt gevonden.

Wetenschappelijke vakbladen zouden daarom volgens sommigen ook onderzoek moeten publiceren dat niets vindt. Want ook weten dat iets niet werkt of dat er geen verband is tussen blootstelling aan stof x en ziekte y kan waardevol zijn. “Wat wetenschappers moeten doen om onderzoek gepubliceerd te krijgen, is helaas niet de beste manier om de waarheid te achterhalen”, zegt Bruns.

Wagenmakers wijst op een toenemende aandacht voor behoorlijke statistiek en transparantie. “Ik hoop dat wanneer onderzoekers over tien jaar weer zo’n studie doen, dat een veel rooskleuriger beeld geeft.”