Wetenschappers komen in opstand (en The Biggest Bestseller of All Time*)

‘Wetenschappers komen in opstand tegen statistische significantie’ staat boven een artikel in Nature van vorige week. Meer dan achthonderd handtekeningen staan er onder het stuk – van psychologen tot bedrijfskundigen, van computerwetenschappers tot genetici.

In opstand komen tegen statistische significantie, dat is weer eens wat anders dan een opstand tegen een tiran. Toch, met een beetje fantasie, kun je de p-waarde wel een beetje zien als een dictator.

Maar eerst: de p-watte?

De p-waarde

De p-waarde meet of een resultaat door toeval kan zijn ontstaan. De gerenommeerde statisticus Ronald Fisher zorgde er in de twintigste eeuw voor dat de p-waarde dé methode werd om te meten of een verband significant is.

Dit lijkt misschien een statistische niche-hobby, maar de p-waarde speelt een enorm belangrijke rol in wetenschappelijke studies die ook over jou gaan. Onderzoeken naar medicijnen, bijvoorbeeld, of voeding.

Stel, je wilt onderzoeken of er een oorzakelijk verband bestaat tussen het eten van groene jelly beans en acne. Je verdeelt je onderzoekspersonen in twee groepen; de ene groep laat je een maand lang dagelijks groene jelly beans eten, de andere groep geef je een groen suikerpilletje.

Van de groep die de placebo heeft gekregen, heeft aan het einde van het experiment 10 procent last van acne. Van de jellybeansgroep hebben meer mensen acne, maar dat kan natuurlijk ook gewoon toeval zijn.

Hou je vast: de p-waarde is de kans dat in het geval dat de jelly beans in werkelijkheid helemaal geen acne veroorzaken, je toch een bepaald hoger percentage acnepatiënten vindt in de jellybeansgroep.

Als die kans onder een afgesproken drempelwaarde ligt – vaak 5 procent – dan is de kans op het waarnemen van dit percentage patiënten zo klein dat je het verband ‘statistisch significant’ mag noemen.

(Vind je dit lastig, maak je geen zorgen: zelfs wetenschappers vinden het moeilijk uit te leggen wat de p-waarde is.)

Maar let op, het kan nog steeds betekenen dat jelly beans geen acne veroorzaken. Want met een p-waarde van 5 procent vind je alsnog in 5 procent van de onderzoeken een verrassend resultaat. De kans om de loterij te winnen is nog veel kleiner en ook daar zijn winnaars.

De wet van Goodhart

Nu het probleem: de p-waarde is zo’n dominante maatstaf geworden, dat die zijn doel nogal voorbijschiet. In deze strip van xkcd laat tekenaar Randall Munroe zien hoe dat werkt (je ziet meteen waar ik mijn fascinatie voor jelly beans vandaan heb).

Wat Munroe laat zien: niet significant is niet interessant. Zowel media als wetenschappelijke tijschriften publiceren het liefst significante verbanden. ‘Rode wijn is goed/slecht voor je hart’ is toch wat boeiender dan ‘Rode wijn doet helemaal niets’.

Dat heeft tot gevolg dat de wetenschappelijke literatuur scheef is, omdat bepaalde resultaten nooit het licht zien (publication bias) en omdat wetenschappers verwoed op zoek gaan naar de juiste p-waardes (p-hacking).

Voedingswetenschapper Brian Wansink – lang een lieveling van de Amerikaanse media en ooit directeur van een voedingscentrum op het Amerikaanse ministerie van Landbouw – ging wel erg ver in het p-hacken.

‘Bedenk alle manieren waarop je de data in stukken kunt hakken en analyseer subsets om te zien wanneer het verband standhoudt’, schreef hij aan een collega. Met andere woorden: bekijk alle jelly beans tot je een kleur vindt die verbonden is met acne.

(‘Data detective’ Tim van der Zee heeft op zijn website een heel dossier met alle fouten in Wansinks werk.)

Zo is de p-waarde het slachtoffer geworden van de ‘wet van Goodhart’: Als een cijfer te belangrijk wordt, dan meet het niet meer wat het moet meten. Of, de wet van Blauw: Cijfers zijn als zeepjes, als je er te hard in knijpt, glippen ze je uit de handen.

Oplossingen

De zorgen over significantie zijn niet nieuw. Al lang wordt gezocht naar alternatieven. Zo worden experimenten nu soms van tevoren geregistreerd, zodat je daarna niet zomaar kunt gaan grabbelen in de data.

Ook in het Nature-artikel wordt een oplossing aangedragen: we moeten af van de ‘dichotomanie’ of, zoals psycholoog (en statistisch meesterbrein) Daniël Lakens het noemt, het ‘bipolair p-waarde-syndroom’.

Met andere woorden: laten we gewoon ophouden met statistische significantie gebruiken als concept. Significantie is namelijk niet zoals zwangerschap – je bent het wel of niet – het is een glijdende schaal.

Bovendien kunnen de cijfers van studie tot studie variëren. Zelfs in het ideale geval kan een p-waarde de ene keer lager dan 1 procent en de andere keer hoger dan 30 procent uitvallen.

‘Omarm onzekerheid’, is dan ook het devies van de schrijvers. ‘Mensen zullen minder tijd besteden aan statistische software en meer tijd aan nadenken.’ (Lees vooral het artikel voor een gedetailleerdere uiteenzetting van de ideeën, zoals een ‘compatibility interval’.)

Niet iedereen is enthousiast. Lakens stelt op Twitter dat het advies maar weinig praktisch toepasbaar is. Maar wat je er ook van vindt, zegt hij verderop, ‘elke statisticus zou deze eindeloze discussie over p-waardes moeten zien als een van de grootste mislukkingen van hun discipline’.

Mocht je zelf met p-waardes werken: Wat vind jij van deze discussie en van de aangedragen oplossingen? Ik hoor het graag in de bijdragen.

#NerdAlert

Kijk, dat is nog eens een handige tip:

Tot slot...

...kun je je borst natmaken voor The Biggest Bestseller of All Time (With this Title). Want mijn boek wordt vertaald! Het zal in het Engels verschijnen bij Sceptre, in het Arabisch bij Arab Scientific Publishers in Libanon en in het Duits bij DVA.

Tot slot, nog even het obligate asteriskje uit de kop van de nieuwsbrief:

*With this Title

In Het bestverkochte boek ooit (met deze titel) schreef ik uitgebreid over de p-waarde. Delen van deze nieuwsbrief zijn uit het boek afkomstig.

Dit verhaal heb je gratis gelezen, maar het maken van dit verhaal kost tijd en geld. Steun ons en maak meer verhalen mogelijk voorbij de waan van de dag.

Al vanaf het begin worden we gefinancierd door onze leden en zijn we volledig advertentievrij en onafhankelijk. We maken diepgravende, verbindende en optimistische verhalen die inzicht geven in hoe de wereld werkt. Zodat je niet alleen begrijpt wat er gebeurt, maar ook waarom het gebeurt.

Juist nu in tijden van toenemende onzekerheid en wantrouwen is er grote behoefte aan verhalen die voorbij de waan van de dag gaan. Verhalen die verdieping en verbinding brengen. Verhalen niet gericht op het sensationele, maar op het fundamentele. Dankzij onze leden kunnen wij verhalen blijven maken voor zoveel mogelijk mensen. Word ook lid!