Wat gaat er mis met coronagrafieken?
De Council of Economic Advisers van het Witte Huis tweette vorige week het volgende grafiekje.
En ja hoor, Twitter was te klein. Of, nou ja, het hoekje van Twitter waar ik graag rondhang.
‘Iedereen op ook-maar-een-beetje-aan-statistiek-grenzend Twitter is geschokt hierover’, schreef Laura Bronner (die ‘quantitative editor’ is, een baan waar ik nog nooit van had gehoord maar nu al fan van ben).
‘Dit is misschien wel het diepste punt in de 74-jarige geschiedenis van de Council of Economic Advisers’, stelde Harvard-hoogleraar Jason Furman. Saillant: Furman was voorzitter van de CEA onder Obama.
Ophef, ophef... Maar wat was nu precies het probleem?
Vandaag is rood
Oké, nog even de grafiek in het groot. Het gaat hier over het aantal covid-19-doden. De zwarte lijn geeft de daadwerkelijke data, de rest zijn projecties.
Mijn eerste blik ging uit naar dat zwarte lijntje. Hadden ze dat er met Paint in getekend? Esthetisch misschien wat onverantwoord, maar dat was niet het probleem met dit plaatje.
De blauwe, de gele en de groene lijn zijn gebaseerd op het model van het IHME. Dat is het Institute for Health Metrics and Evaluation aan de Universiteit van Washington, Seattle, een belangrijke raadgever voor Trumps beleid. Nu krijgt het IHME veel kritiek uit epidemiologische hoek, maar ook dat was het probleem niet hier.
Waar het wel om ging: het rode lijntje – de ‘cubic fit’.
Fitten
Het idee achter die cubic fit is om een gladde lijn te trekken door de datapunten – de daadwerkelijke sterfgevallen. Dat is op zich geen gek idee, want je weet dat dagelijkse data grillig kunnen zijn. Door toeval zal het aantal soms wat hoger en soms wat lager uitvallen. Als je een lijn ‘fit’ door die data, kun je een beter idee krijgen van het algemene patroon.
Maar dan is de vraag: welke lijn? Want door dezelfde data kun je een hoop verschillende lijnen trekken. Dat liet striptekenaar Randall Munroe al eens zien in dit stripje van xkcd.
Het gevaar ligt altijd op de loer dat je gaat ‘overfitten’, zoals in de linker onderhoek. Dan volg je de data té precies, en neem je ook alle ruis mee die je juist eruit wilde filteren.
Dat is extra gevaarlijk met data zoals die van covid-19-sterfgevallen. Kijk maar eens naar die zwarte lijn in de CEA-grafiek, die gaat extreem op en neer. Niemand gelooft dat dit de échte sterfgevallen zijn. De dalen in de grafiek liggen op zondagen, zoals 26 april. Want in het weekend wordt er nu eenmaal minder geregistreerd.
Als we de legenda mogen geloven, koos de CEA dus voor de ‘cubic fit’. Een lineaire fit is een rechte lijn, een kwadratische fit is een parabool en een cubic fit gaat nog een stapje verder. Die volgt een derdegraads vergelijking. Als je niet weet wat dat is, het belangrijkste is: de lijn krijgt nog ietsje meer vrijheid om op sommige plekken te buigen.
Maar was het eigenlijk wel een cubic fit? Epidemioloog Carl T. Bergstrom stelde dat het eigenlijk een cubic spline was, een iets ingewikkelder manier van fitten. Socioloog Kieran Healy dacht dat de cubic fit negatief zou worden in mei, dus dat ze er op het eind met de hand maar een paar stippeltjes in hadden getekend. Bergstrom kwam later terug met de opmerking dat ze de exponentieel van een kwadratische functie hadden genomen.
O, de niches van het internet...
Lekker excellen is niet genoeg
Maar wat de methode precies was, doet er eigenlijk niet toe. Want zomaar een lijn fitten op dit soort data is idioot. Je moet aannames maken over hoe data eruitzien. Hoe zijn de cijfers verzameld? Waarom zitten die pieken en dalen erin? Waar komt de ruis vandaan? Hoeveel wordt er getest?
Dat is echt ingewikkelder dan een standaardfunctie in Excel gebruiken. Daar heb je een epidemiologisch model voor nodig.
In dit geval is het extra schadelijk, omdat de lijn de indruk geeft dat het aantal sterfgevallen in de VS half mei al op nul zal liggen. Dat lijkt erg onwaarschijnlijk. Al stelde de CEA later dat het niet de bedoeling was om een voorspelling te doen, zo werd het door veel twitterati wel gelezen.
Zoals Bronner stelde: ‘Ik denk dat een groot deel van de frustratie hier is dat dit enorm beleidsrelevante model lijkt te zijn gebaseerd op iets waarvan ik in mijn derde statistiekles al leerde dat ik het niet moest doen (...).’
Het blijft opletten met coronagrafieken. Dit Vox-filmpje legt goed uit wat er mis kan gaan bij een andere veelgeziene grafiek.
#coronavrij
Gisteren zou Florence Nightingale tweehonderd jaar zijn geworden. Je kent haar misschien wel als de bekendste verpleegkundige uit de wereldgeschiedenis. Maar ze was ook iets anders: een cijfernerd.
Nightingale was een van de eersten die grafieken gebruikten voor sociale verandering. Met deze infographic liet ze zien dat tijdens de Krimoorlog de meeste soldaten niet overleden aan oorlogsgeweld, maar aan ziektes die voorkomen hadden kunnen worden. Als het maar wat hygiënischer was in de barakken.
Nightingale wist uiteindelijk met haar cijfermateriaal de autoriteiten te overtuigen. In de jaren 1880 waren veel problemen opgelost: soldaten kregen beter te eten, hadden meer mogelijkheden om zichzelf te wassen en hun barakken waren schoner dan ooit.
Daarmee liet ze zien: met cijfers kun je levens redden. Vandaag relevanter dan ooit.
Wil je hier meer over lezen? In Het bestverkochte boek ooit (met deze titel) schrijf ik uitgebreid over Nightingale, in Hoofdstuk 1. Het is ook (gratis) te beluisteren in het podcastkanaal Het bestbeluisterde boek ooit (met deze titel).
Tot slot...
...schreef ik in mijn vorige nieuwsbrief over het reproductiegetal R. Die tekst heb ik nu uitgebreid tot een explainer. Ook verkrijgbaar in het Engels!