Deze statistische fout wordt in bijna elk debat gemaakt (en zo pik je haar eruit)

Sanne Blauw
Correspondent Ouderschap
Foto: Noël Loozen (voor De Correspondent)

Er is geen statistische fout die ons leven meer beïnvloedt dan het verwarren van correlatie met causaliteit. Of het nou om de economie, vluchtelingencrisis of volksgezondheid gaat, in vrijwel elk debat over belangrijke thema’s gaat het weleens mis. De fout herkennen is dus niet zomaar voer voor statistici, maar van levensbelang voor ons allemaal.

Gaat een hoge staatsschuld samen met lage economische groei? Dan moeten we flink bezuinigen om uit de recessie te komen.

Hebben vrouwen met een borstamputatie meer kans om te overlijden? Dan kunnen artsen bij borstkanker beter kiezen voor een borstsparende behandeling.

En vertonen vluchtelingen vaker crimineel gedrag? Dan moeten we toch eens nadenken of we onze grenzen wel open willen houden.

Keer op keer worden belangrijke beslissingen gebaseerd op een misverstand: dat correlatie hetzelfde is als causaliteit. Dat landen een slechte economie hebben doordat ze veel geld uitgeven, vrouwen overlijden doordat ze een borstamputatie hebben gehad en vluchtelingen crimineel zijn doordat ze uit een ander land naar Nederland zijn gekomen.

Maar zulke ‘oplossingen’ slaan de plank mis als er geen oorzakelijk verband bestaat. Dan bezuinig je een land kapot, geef je borstkankerpatiënten de verkeerde behandeling en sluit je mensen onterecht buiten.

En toch halen journalisten, politici en wetenschappers correlatie en causaliteit vaak door elkaar. Soms door onwetendheid, soms door eigenbelang. Want een oorzakelijk verband overtuigt: als je weet hoe iets ontstaat, dan kun je het ook veranderen.

Hoe kun je beoordelen of zo’n bewering klopt? Bij dezen: de vier kenmerken van kulcausaliteit.

1. Er is geen verklaring voor het verband

Hij was van het Spaanse stadje Carballiño en voor Engelands gooi naar de organisatie van het WK voetbal in 2018. De Iraanse president Mahmoud Ahmadinejad hem ‘een symbool van alles wat er mis is in de westerse wereld.’ En toen hij op 26 oktober 2010 overleed, zijn manager Chris Davies: ‘Het is een verdrietige dag. Paul was nogal bijzonder.’

Foto: Noël Loozen (voor De Correspondent)

En of Paul de Octopus bijzonder was. Helderziende Paul voorspelde in 2010 de uitslagen van acht WK-wedstrijden. Telkens weer opende hij met zijn tentakels het juiste bakje voedsel, het bakje met de vlag van het team dat de volgende wedstrijd zou gaan winnen. En telkens weer stonden er kuddes journalisten met spanning te wachten op zijn voorspelling.

Er was dus een verband tussen Pauls voorspellingen en de uitkomsten van de WK-wedstrijden. Maar was dat wel zo bijzonder als het leek? De kans dat hij puur toevallig acht wedstrijden juist voorspelde, is gelijk aan de kans dat je acht keer kop krijgt als je een muntje opgooit: één op 256, oftewel 0,4 procent.

Die kans lijkt laag, maar wordt minder indrukwekkend als je bedenkt hoeveel voorspellingen het nieuws niet haalden. Wie kan zich zijn collegaewaarzeggers Leon het Stekelvarken, Petty het Dwergnijlpaard en Anton de Tamarins nog herinneren? Hun voorspellingen waren een stuk minder geslaagd en dus kregen ze geen aandacht.

Dat is nu juist het probleem: als je maar genoeg verbanden bekijkt, zal er altijd wel eentje toevallig kloppen. Zo is er ook een sterke samenhang tussen:

Maar er is - afgezien van toevalligheid - geen enkele reden voor die samenhang. Laat staan dat er een oorzakelijk verband bestaat.

Dus, het eerste kenmerk van kulcausaliteit: er is geen verklaring voor het verband.

2. Het is andersom

Sommige verbanden zijn goed te verklaren. Als het regent, zie je bijvoorbeeld veel paraplu’s op straat. In dit geval is ook duidelijk wat oorzaak is en wat gevolg. Niemand zal parapludragers de schuld geven van een stortbui. Maar in andere gevallen is de oorzakelijke richting een stuk minder helder.

Foto: Noël Loozen (voor De Correspondent)

Een voorbeeld. staat in de te lezen. Die bewering is niet zomaar een politieke overtuiging, maar wordt onderschreven door van Carmen Reinhart en Kenneth Rogoff. Zij lieten met data zien dat een hoge staatsschuld samengaat met een lage En al beweren de auteurs nergens in het artikel dat dit verband oorzakelijk is, in de media ‘te veel schuld betekent dat de economie niet kan groeien.’

Ziedaar een van de pijlers van het kabinetsbeleid van de afgelopen jaren: snoeien om te groeien.

Maar kan het niet andersom? Leidt lagere groei juist niet tot een hogere staatsschuld? Tijdens een recessie komt er minder belasting binnen en moet er meer uitgekeerd worden aan mensen die hun baan zijn verloren.

Om dat te weten te komen, moet je vragen: wat kwam er eerst, de hoge staatsschuld of de slechte economie? Econoom Arindrajit Dube dook in de data van Rogoff en Reinhart en lage economische groei is een goede voorspeller voor hogere staatsschuld in de toekomst, en

opgebouwde schulden hardnekkig? In ieder geval niet zo hardnekkig als de zogenaamde feiten over staatsschuld. Want in de Miljoenennota 2015 - toen de kritiek allang was geuit - werd er nog altijd verwezen naar het artikel van Reinhart en Rogoff.

3. Er ontbreekt een factor

kopte het op 15 december. schreef over een ‘baanbrekend onderzoek’ en besprak of de preventieve borstamputatie van filmster Angelina Jolie dan misschien onnodig was geweest.

Foto: Noël Loozen (voor De Correspondent)

Al deze berichten verwezen naar een onderzoek onder meer dan met een vroeg stadium van borstkanker. Patiënten die een borstsparende behandeling hadden ondergaan bleken vaker in leven te blijven dan patiënten met een borstamputatie. En het verschil was niet gering: de eerste groep had 21 procent meer kans om tien jaar later nog te leven.

De studie bij patiënten en oud-patiënten. Borstkankervereniging Nederland werd overspoeld door vragen van bezorgde vrouwen. Was hun borstamputatie een vergissing geweest? Moesten ze niet alsnog bestraald worden?

Borstkankervereniging Nederland werd overspoeld door vragen van bezorgde vrouwen. Was hun borstamputatie een vergissing geweest?

Algauw bleek: de conclusie was veel te voorbarig. Er zijn namelijk een hoop factoren die verband houden met zowél de overlevingskans áls de keuze voor een bepaalde behandeling. Zo wordt er bij oudere vrouwen vaker gekozen voor een amputatie, maar heb je op hogere leeftijd ook meer kans om te sterven. Ook worden borsten vaker gespaard als de tumor bepaalde gunstige kenmerken heeft, maar die kenmerken betekenen tegelijkertijd dat de kans op overlijden kleiner is.

Nu hielden de onderzoekers wel degelijk rekening met leeftijd en andere ‘verstorende factoren.’ Maar een aantal belangrijke aspecten werd niet meegenomen. Als een patiënt bijvoorbeeld een heeft - denk aan hartfalen - dan Dat die groep vaker sterft heeft dan niet met de operatie te maken, maar met de slechtere algemene gezondheid.

Op 17 december kwamen de onderzoekers met een waarin ze de kanttekeningen onderschreven. ‘Wij hebben als onderzoekers nooit de bedoeling gehad ophef of onrust te veroorzaken.’

Helaas is angst wegnemen moeilijker dan hem veroorzaken.

4. Er spelen belangrijke onmeetbare factoren

Het probleem in het borstkankeronderzoek wordt genoemd. Twee groepen verschillen niet alleen van elkaar op het gebied van wat je wilt onderzoeken, maar ook op andere vlakken. Als dergelijke onderscheidende kenmerken zowel de oorzaak - de keuze voor een bepaalde borstkankerbehandeling - als de uitkomst - de overlevingskans - beïnvloeden, ben je de pineut.

Foto: Noël Loozen (voor De Correspondent)

Je hebt dus gegevens nodig over zulke ‘derde factoren’ om rekening te houden met hun effect. Helaas zijn zulke data niet altijd beschikbaar. Zo hadden de borstkankeronderzoekers geen informatie over hartaandoeningen en andere ernstige ziektes.

Meer en betere data helpen, maar lossen selection bias niet per se op. Soms spelen factoren mee die moeilijk of onmogelijk te meten zijn, zoals in het volgende voorbeeld.

Het werd de ‘silver bullet’ van de armoedebestrijding genoemd en Muhammad Yunus won er de voor: microkrediet. Kleine leningen voor arme mensen Eind 2013 ontvingen meer dan 200 miljoen mensen wereldwijd zo’n minilening.

En inderdaad: data laten zien dat mensen met een microkrediet meer inkomen hebben dan degenen zonder. Maar of dat aan de lening ligt? Dat maakt zo’n simpele voor-na-vergelijking niet duidelijk, omdat er andere factoren in het spel zijn. Sommige daarvan - leeftijd, geslacht - zijn nog wel te meten, maar andere zijn moeilijk in cijfers uit te drukken.

Foto: Noël Loozen (voor De Correspondent)

Ga maar na: wie vragen een lening aan én zetten een succesvol bedrijfje op? Ondernemende types. Mensen die ideeën hebben, die risico durven nemen, die sociale vaardigheden hebben. Mensen die sowieso al meer kans van slagen hebben dan hun minder ondernemende tegenhanger - ook zonder lening. Maar hoe meet je zoiets als ‘ondernemingsdrang’?

Een ander voorbeeld is de kennis die een microkredietorganisatie gebruikt om te bepalen of iemand kredietwaardig is. Naast meetbare factoren baseert de organisatie haar keuze ook op vakkennis, onderbuikgevoel en inschattingsvermogen. Daardoor kiest ze uit twee ogenschijnlijk gelijke mensen misschien net degene die een succesvolle ondernemer wordt.

Om dit soort factoren uit te sluiten, doen onderzoekers steeds vaker experimenten. Kies willekeurig een groep mensen die je een lening geeft en vergelijk ze met een groep die geen lening Uit blijkt keer op keer: het succes van microkrediet is overdreven. Het zorgt niet voor een hoger inkomen. Al zijn er een ‘silver bullet’ tegen armoede is het niet.

Wanneer weet je genoeg?

‘Is het mogelijk dat longkanker (...) een van de oorzaken is van het roken van sigaretten?’ schreef de beroemde statisticus Ronald Fisher in 1958. Of, stelde hij, was er iets - je genen - wat bepaalde of je rookte én of je longkanker kreeg?

Noël Loozen (voor De Correspondent)

Fishers opmerkingen klinken nu misschien vreemd, maar hij stelt precies de vragen die in dit artikel aan bod zijn gekomen. Is het niet andersom? Zijn er geen derde factoren? En toch zal niemand vandaag de dag ontkennen dat roken leidt tot longkanker.

Want na kun je

  • Epidemiologische studies lieten zien dat rokers vaker longkanker kregen.
  • In dierenproeven kregen muizen tumoren als ze ingesmeerd waren met de gifstoffen in sigarettenrook.
  • Pathologen vonden ook op celniveau schadelijke gevolgen van roken.
  • En er werd aangetoond dat sigarettenrook chemische stoffen bevatte die kanker veroorzaken.

Ondanks de opeenstapeling van wetenschappelijk bewijs bleef Fisher verdedigen dat het verband niet was aangetoond. Misschien lag dat aan zijn starre statistische opvattingen. Of aan zijn eigen rookverslaving.

Of hij bleef zijn standpunt verdedigen omdat hij werd betaald door de tabaksindustrie. Maar dat kan natuurlijk ook gewoon toeval zijn.

Met dank aan Eline Gumbert, die het borstkankeronderzoek nader te bekijken. En aan die als externe meelezer een conceptversie heeft becommentarieerd.

Eerdere artikelen in deze serie: