Beste,

‘Wetenschappers komen in opstand tegen statistische significantie’ staat boven in Nature van vorige week. Meer dan achthonderd handtekeningen staan er onder het stuk – van psychologen tot bedrijfskundigen, van computerwetenschappers tot genetici.

In opstand komen tegen statistische significantie, dat is weer eens wat anders dan een opstand tegen een tiran. Toch, met een beetje fantasie, kun je de p-waarde wel een beetje zien als een dictator.

Maar eerst: de p-watte?

De p-waarde

De p-waarde meet of een resultaat door toeval kan zijn ontstaan. De gerenommeerde statisticus Ronald Fisher zorgde er in de twintigste eeuw voor dat de p-waarde dé methode werd om te meten of een verband significant is.

Dit lijkt misschien een statistische niche-hobby, maar de p-waarde speelt een enorm belangrijke rol in wetenschappelijke studies die ook over jou gaan. Onderzoeken naar medicijnen, bijvoorbeeld, of voeding.

Stel, je wilt onderzoeken of er een oorzakelijk verband bestaat tussen het eten van groene jelly beans en acne. Je verdeelt je onderzoekspersonen in twee groepen; de ene groep laat je een maand lang dagelijks groene jelly beans eten, de andere groep geef je een groen suikerpilletje.

Van de groep die de placebo heeft gekregen, heeft aan het einde van het experiment 10 procent last van acne. Van de jellybeansgroep hebben meer mensen acne, maar dat kan natuurlijk ook gewoon toeval zijn.

Hou je vast: de p-waarde is de kans dat in het geval dat de jelly beans in werkelijkheid helemaal geen acne veroorzaken, je toch een bepaald hoger percentage acnepatiënten vindt in de jellybeansgroep.

Als die kans onder een afgesproken drempelwaarde ligt – vaak 5 procent – dan is de kans op het waarnemen van dit percentage patiënten zo klein dat je het verband ‘statistisch significant’ mag noemen.

(Vind je dit lastig, maak je geen zorgen: zelfs wetenschappers uit te leggen wat de p-waarde is.)

Maar let op, het kan nog steeds betekenen dat jelly beans geen acne veroorzaken. Want met een p-waarde van 5 procent vind je alsnog in 5 procent van de onderzoeken een verrassend resultaat. De kans om de loterij te winnen is nog veel kleiner en ook daar zijn winnaars.

De wet van Goodhart

Nu het probleem: de p-waarde is zo’n dominante maatstaf geworden, dat die zijn doel nogal voorbijschiet. van xkcd laat tekenaar Randall Munroe zien hoe dat werkt (je ziet meteen waar ik mijn fascinatie voor jelly beans vandaan heb).

‘Significance’ van xkcd.

Wat Munroe laat zien: niet significant is niet interessant. Zowel media als wetenschappelijke tijschriften publiceren het liefst significante verbanden. ‘Rode wijn is goed/slecht voor je hart’ is toch wat boeiender dan ‘Rode wijn doet helemaal niets’.

Dat heeft tot gevolg dat de wetenschappelijke literatuur scheef is, omdat bepaalde resultaten nooit het licht zien (publication bias) en omdat wetenschappers verwoed op zoek gaan naar de juiste p-waardes (p-hacking).

Voedingswetenschapper Brian Wansink – lang een lieveling van de Amerikaanse media en ooit directeur van een voedingscentrum op het Amerikaanse ministerie van Landbouw – ging wel erg ver in het p-hacken.

‘Bedenk alle manieren waarop je de data in stukken kunt hakken en analyseer subsets om te zien wanneer het verband standhoudt’, Met andere woorden: bekijk alle jelly beans tot je een kleur vindt die verbonden is met acne.

(‘Data detective’ Tim van der Zee heeft op zijn website met alle fouten in Wansinks werk.)

Zo is de p-waarde het slachtoffer geworden van de Als een cijfer te belangrijk wordt, dan meet het niet meer wat het moet meten. Of, de wet van Blauw: Cijfers zijn als zeepjes, als je er te hard in knijpt, glippen ze je uit de handen.

Oplossingen

De zorgen over significantie zijn niet nieuw. Al lang wordt gezocht naar alternatieven. Zo worden experimenten nu soms van tevoren geregistreerd, zodat je daarna niet zomaar kunt gaan grabbelen in de data.

Ook in het Nature-artikel wordt een oplossing aangedragen: we moeten af van de ‘dichotomanie’ of, zoals psycholoog (en statistisch meesterbrein) het ‘bipolair p-waarde-syndroom’.

Met andere woorden: laten we gewoon ophouden met statistische significantie gebruiken als concept. Significantie is namelijk niet zoals zwangerschap – je bent het wel of niet – het is een glijdende schaal.

Bovendien kunnen de cijfers van studie tot studie variëren. Zelfs in het ideale geval kan een p-waarde de ene keer lager dan 1 procent en de andere keer hoger dan 30 procent uitvallen.

‘Omarm onzekerheid’, is dan ook het devies van de schrijvers. ‘Mensen zullen minder tijd besteden aan statistische software en meer tijd aan nadenken.’ (Lees vooral voor een gedetailleerdere uiteenzetting van de ideeën, zoals een ‘compatibility interval’.)

Niet iedereen is enthousiast. op Twitter dat het advies maar weinig praktisch toepasbaar is. Maar wat je er ook van vindt, ‘elke statisticus zou deze eindeloze discussie over p-waardes moeten zien als een van de grootste mislukkingen van hun discipline’.

Mocht je zelf met p-waardes werken: Wat vind jij van deze discussie en van de aangedragen oplossingen? Ik hoor het graag in de bijdragen.

#NerdAlert

Kijk,

Tot slot...

...kun je je borst natmaken voor The Biggest Bestseller of All Time (With this Title). Want mijn boek wordt vertaald! Het zal in het Engels verschijnen bij Sceptre, in het Arabisch bij Arab Scientific Publishers in Libanon en in het Duits bij DVA.

Tot slot, nog even het obligate asteriskje uit de kop van de nieuwsbrief:

*With this Title

In schreef ik uitgebreid over de p-waarde. Delen van deze nieuwsbrief zijn uit het boek afkomstig.

Deze nieuwsbrief liever in je inbox? Als correspondent Ontcijferen onderzoek ik de getallenwereld. In mijn nieuwsbrief houd ik je op de hoogte van wat ik schrijf, zie, hoor en lees. Een vast onderdeel: #NerdAlert, voor de getallenliefhebbers. Schrijf je in voor mijn nieuwsbrief