Beste,

Maar wat is die k dan?

Het was een veelgelezen vraag na over dit getal (een uitgebreide versie van mijn vorige nieuwsbrief). En inderdaad: eigenlijk legde ik helemaal niet uit wat het was.

Ik verwees wel naar Adam Kucharski, in The Guardian: ‘De algemene regel is: hoe kleiner de k-waarde is, des te meer de verspreiding van een kleinere groep besmettelijke mensen komt. (...) Als k onder de 1 ligt, dan is er kans op superspreading.’

En het coronavirus heeft zo’n k-waarde onder de 1. Dus, er is kans op supersverspreiding van het virus. Er dat tussen de 10 en 20 procent van de geïnfecteerden verantwoordelijk is voor zo’n 80 procent van de besmettingen.

Dat was de belangrijkste boodschap van mijn stuk: in beleid moeten we rekening houden met dat feit, door bijvoorbeeld clusters snel de kop in te drukken.

Dan blijft de vraag staan: wat is die k precies? De k is minder intuïtief dan het reproductiegetal. Om een technische uitweiding te voorkomen, koos ik ervoor in het artikel niet in detail uit te leggen wat het is.

Maar in deze nieuwsbrief zijn we niet vies van een beetje technisch spul. Dus, daar gaan we.

Het verraderlijke van het reproductiegetal

Zoals ik in het stuk al uitlegde, is het reproductiegetal een gemiddelde. Belangrijk om de verspreiding van een virus te meten, maar het gaat voorbij aan de verschillen tussen mensen.

Om die variatie te meten, heb je een andere maatstaf nodig: de ‘dispersion’-parameter, de mate van spreiding. Daarvoor moet je eerst data op een rij zetten van secundaire besmettingen. Dat kan bijvoorbeeld door goed bron- en contactonderzoek te doen.

Per geïnfecteerd persoon kijk je hoeveel anderen die heeft besmet. Stel nu dat je een ziekte te pakken hebt die zich heel regelmatig verspreidt. Elke geïnfecteerde persoon steekt drie mensen aan. Hieronder zie je, met een fictief voorbeeld van honderd personen, dat de secundaire besmettingen heel erg geclusterd zijn.

Maar nu een ander scenario: 80 procent van de mensen steekt niemand aan, terwijl 20 procent ieder vijftien personen aansteekt.

Nu zie je ineens dat er een spreiding aanwezig is: de grafiek loopt van 0 tot 15.

Deze twee voorbeelden laten het verraderlijke van het reproductiegetal zien. Want in allebei de gevallen is de R gelijk aan 3. Gemiddeld genomen besmetten geïnfecteerde personen in beide scenario’s drie personen.

Ga maar na: in scenario 1 besmetten honderd mensen elk drie personen. Dat zijn dus driehonderd besmettingen, verdeeld over honderd personen. Voilà: een gemiddelde van drie.

In scenario 2 besmetten tachtig mensen helemaal niemand. Twintig mensen besmetten elk vijftien personen. Dat is dus driehonderd personen in totaal (20*15=300). Verspreid je die over honderd personen, dan kom je weer op drie.

Maar dat reproductiegetal verhult heel verschillende werelden.

Een scheve verdeling

In werkelijkheid valt de bevolking zelden zo netjes uiteen in twee bakjes. Hieronder zie je een voorbeeld van een onderzoek in Hong Kong naar het coronavirus, uit in Nature Medicine van Dillon Adam en co-auteurs.

(Ditmaal staat niet het aantal personen op de verticale as, maar de proportie. Dat maakt de interpretatie niet veel anders.)

Ook hier zie je weer een ‘scheve’ verdeling, met veel personen die weinig mensen besmetten en een paar uitschieters die veel anderen aansteken.

Wat onderzoekers vervolgens doen, is een aantal karakteristieken van die verdeling meten. Ze nemen het gemiddelde, maar willen ook de spreiding kwantificeren. Daarvoor trekken ze een lijn door die balkjes, zoals je ook op het plaatje van Hong Kong kunt zien.

Ze proberen de lijn op zo’n manier te trekken dat het overeenkomt met een verdeling die al bekend is. Er zijn veel van die verdelingen. Misschien heb je weleens van de ‘normale verdeling’ gehoord, met een bult in het midden en uitlopers naar links en rechts.

Lichaamslengte van Nederlandse vrouwen of mannen is bijvoorbeeld normaal verdeeld: een hoop mensen clusteren rond het gemiddelde, met wat lange en korte mensen daaromheen.

Maar die verdeling past overduidelijk niet bij de verdeling van coronabesmettingen. Die is hartstikke scheef, niet symmetrisch zoals een normaalverdeling.

Negatief binomiale verdeling

Epidemiologen gebruiken dan ook liever een andere verdeling: de negatief binomiale verdeling. lees je er meer over, inclusief wat meer wiskunde.

De negatief binomiale verdeling is een variatie op – verrassing – de binomiale verdeling, waar het geweldige YouTube-kanaal 3Blue1Brown een goed filmpje over maakte.

YouTube
3Blue1Brown: ‘Binomial distribution’

Laten we het er voor nu op houden dat de negatief binomiale verdeling een vorm heeft die goed past op de grafiekjes zoals we hierboven zagen en dat er twee knoppen zijn waar we aan kunnen draaien: het gemiddelde (R, het reproductiegetal) en de spreidingsparameter (k).

Laten we het gemiddelde op drie houden, zoals in het eerdere voorbeeld. Adam Kucharski wat er gebeurt als je de spreidingsparameter verandert.

Is k gelijk aan 1.000, erg hoog, dan zie je wel wat variatie maar niet zoveel. Er zijn geen enorme uitschieters met veel besmettingen, de meeste liggen rond het gemiddelde van drie (de stippellijn).

Deze grafiek is afkomstig van Adam Kucharski (Twitter).

Maar draai je k omlaag, naar 0.2, dan zie je dat het aantal secundaire besmettingen veel verder uitgespreid is. De horizontale as loopt maar tot 20, maar de lijn loopt nog verder door.

Deze grafiek is afkomstig van Adam Kucharski (Twitter).

Zo draaien onderzoekers aan de knoppen om te kijken welke waarde voor R en k het beste past op hun data. In het geval van Hong Kong kwamen ze op een R gelijk aan 0,74 en een k gelijk aan 0,33.

Weer onder die magische grens van 1 dus, en daarmee is er ruimte voor superverspreiding.

Hoeveel mensen veroorzaken 80 procent?

Terwijl het reproductiegetal een duidelijke en intuïtieve definitie heeft, is dat bij k niet het geval. Je kunt nog verder in de grotten van statistische verdelingen afdalen, maar het blijft lastig te interpreteren.

Het wordt weer wat inzichtelijker als je die k weer terugrekent naar iets wat begrijpelijker is. Kucharski berekende voor een aantal waarden van k hoeveel procent van de geïnfecteerde mensen verantwoordelijk zou zijn voor 80 procent van de besmettingen.

Je ziet: hoe lager de k hoe minder mensen verantwoordelijk zijn voor 80 procent van de besmettingen. Bij een k van rond de 0,3, zoals in het voorbeeld van Hong Kong, zie je dat dat maar 21 procent is.

En zo lijkt het coronavirus weer een voorbeeld te zijn van het vernoemd naar de socioloog Vilfredo Pareto, dat stelt dat 80 procent van de uitkomsten verklaard kan worden door 20 procent van de oorzaken.

Tot slot...

...was ik dinsdag bij Spraakmakers op NPO Radio 1. Ik vertelde waarom vrouwelijke leiders niet per se beter zijn in het bestrijden van het coronavirus, waarom ik me zorgen maak over de testpositiviteit in Nederland en waarom de k (daar is-ie weer) belangrijk is.

Deze nieuwsbrief liever in je inbox? Als correspondent Ontcijferen onderzoek ik de getallenwereld. In mijn wekelijkse mail houd ik je op de hoogte van wat ik schrijf, hoor en lees. Een vast onderdeel: #NerdAlert, voor de getallenliefhebbers.
Schrijf je in voor mijn nieuwsbrief