67
Facebook
Twitter
LinkedIn
Whatsapp
E-mail
Wat hebben een donut en een dino met elkaar gemeen? Meer dan je denkt. En ze vertellen je een hoop over de zin en onzin van statistiek.

Na deze 4 grafieken kijk je nooit meer hetzelfde naar het gemiddelde

Gemiddelden zijn overal. Zo’n Tussen 1 januari en 2 juli 2017 zijn 13.007 Tweede Kamerstukken gepubliceerd. Als je filtert op “gemiddeld” krijg je 1.087 resultaten. Dat is zo’n 8,4 procent - ongeveer een op twaalf. Bron: Tweede Kamerstukken (gefilterd op "gemiddeld") - van Bron: Brandstofverbruik en de CO2-emissie van voertuigen tot Bron: Marktscan ggz 2016

Ook in de media regeert het gemiddelde. Zo berichtte de NOS afgelopen weekend over het gemiddeld bezoekersaantal van de website van het ministerie van Buitenlandse Zaken Bron: Wereld voor reizigers weer iets gevaarlijker geworden de gemiddelde stijging van de Wet Waar­de­ring On­roe­ren­de Za­ken; de waarde van huizen dus. Bron: Aantal bezwaren tegen WOZ-waarde sterk gestegen en de gemiddelde leeftijd van de basis van het Chileense voetbalteam Bron: Vidal: als we winnen, zijn we de beste van de wereld

Het gemiddelde reduceert een warrige hoop data tot een concreet getal. Handig, maar door die simplificering laat hij sowieso informatie achterwege. Daarom vangt hij niet alleen de werkelijkheid, maar vervangt haar ook.

Hoeveel zegt het cijfer dan nog? In die vraag In mijn nieuwsbrief plaatste ik eerder een oproep over het gemiddelde. bijt ik me al een tijdje vast. Vandaag alvast een stukje van de puzzel: waarom je verder moet kijken dan het gemiddelde.

Even rijk, even gelukkig, even overtuigd

Vaak gebruik je het gemiddelde om te vergelijken. Dat Bron: Gemiddelde inkomen twintigers gedaald Of dat Bron: World Happiness Report 2017

Is het gemiddelde van twee groepen hetzelfde, dan zijn ze hetzelfde: even rijk, even gelukkig of even overtuigd dat Lees hier meer over de (flut)peiling over html. html een seksueel overdraagbare aandoening is. Toch?

Not so fast. Hetzelfde gemiddelde kan hele verschillende verhalen verhullen.

Eén gemiddelde, vier verhalen

Vier grafieken: een dinosaurus, een donut, een ster en een matrix. Wat hebben ze met elkaar gemeen, denk je?

Op het eerste gezicht weinig. Je ziet telkens punten in een patroon, verder is er weinig wat de grafieken bindt.

Maar als je de achterliggende data bekijkt, lijken ze meer op elkaar dan je ziet. Want: de gemiddelden zijn voor alle vier hetzelfde. Tot wel Het gemiddelde is 54,26 op de de horizontale as, 47,83 op de verticale as.

Elke grafiek vertelt een ander verhaal, maar in een gemiddeld nieuwsbericht waren ze niet te onderscheiden geweest.

Nog twee klassiekers

Het wordt nog gekker. Want ook als we verder kijken dan het gemiddelde, lijken de grafieken griezelig veel op elkaar.

Neem een statistische evergreen: De standaarddeviatie (ook wel standaardafwijking) is een maatstaf voor de mate van spreiding van een bepaalde variabele, bijvoorbeeld van inkomen. Hoe lager de standaarddeviatie, des te dichter liggen de data over het algemeen bij het gemiddelde. Is de standaarddeviatie hoog, dan zijn de datapunten sterk verspreid. Je berekent de standaarddeviatie als volgt: voor elk datapunt bereken je het verschil met het gemiddelde en dat getal doe je in het kwadraat. Van al die kwadraten neem je het gemiddelde - je telt ze bij elkaar op en deelt ze door het aantal datapunten. Dat heet de ‘variantie.’ Als je daar weer de wortel van neemt, heb je de standaarddeviatie. Wikipedia: Standard deviation Die is handig als je geïnteresseerd bent in de spreiding. Als je bijvoorbeeld niet alleen het gemiddelde inkomen wil weten, maar ook hoe die inkomens verdeeld zijn.

Hoe zit dat hier? Liggen de punten in de ene grafiek verder uit elkaar dan in de andere?

Nope. Ook op de standaarddeviatie scoren de vier De standaarddeviatie is 16,76 op de de horizontale as, 26,93 op de verticale as.

Nog een klassieker dan: Met de correlatiecoëfficiënt bereken je de sterkte van een lineair verband tussen twee variabelen, bijvoorbeeld tussen geld en geluk. De coëfficiënt ligt tussen -1 en 1. Is hij (bijna) gelijk aan nul, dan is er geen verband. Een positieve coëfficiënt geeft een positief verband aan (bijvoorbeeld, mensen met meer geld zijn gelukkiger), een negatieve een negatief verband (rijkere mensen zijn juist ongelukkiger). Wikipedia: Correlatiecoëfficiënt Daarmee bereken je In dit stuk vertel ik meer over correlatie en causaliteit. hoe sterk een verband is. Tussen geluk en inkomen, bijvoorbeeld. Of tussen bbp en CO2-uitstoot.

Is het verband in de ene grafiek sterker dan in de andere? Je ziet hem al aankomen: nee, ook de correlaties zijn De correlatiecoëfficiënt is gelijk aan -0,06.

Kortom, de grafieken zijn in veel statistische opzichten identiek. Alsof je een broodje kaas, een dame blanche, een zeewierburger en een Thaise curry eet, en ze smaken allemaal precies hetzelfde.

Meer voorbeelden

Het bovenstaande viertal is slechts één voorbeeld. Lees hier Anscombes artikel uit 1973. In 1973 publiceerde Francis Anscombe vier grafieken die ook visueel verschillend maar statistisch identiek zijn.

Geïnspireerd door ‘Anscombe’s kwartet’ Hier leggen Matejka en Fitzmaurice hun methode uit. bedachten onderzoekers Justin Matejka en George Fitzmaurice een methode om meer van dit soort grafieken te vinden.

Ze beginnen met een dataset en verleggen vervolgens de punten stukje bij beetje - zonder de statistische eigenschappen te veranderen - tot ze op hele andere data uitkomen. Op die manier kwamen ze van de Datajournalist Alberto Cairo bedacht de dinosaurus om te laten zien hoe belangrijk datavisualisatie is. Eigenlijk, merkte datajournalist Maarten Lambrechts op, zou je hem de ‘Anscombosaurus’ moeten noemen. Bron: Download the Datasaurus: Never trust summary statistics alone; always visualize your data op de donut, de ster en de matrix.

Naast de vier grafieken van het begin, produceerden ze nog eens negen grafieken die óók dezelde statistische eigenschappen hadden. En met hun algoritme kun je nog veel meer variaties vinden.

Nogal wat voorbeelden dus, waar gemiddelden en andere statistiekjes je niet verder helpen. Moeten we dan maar kappen met die berekeningen? Nee, vond Anscombe. ‘Maak zowel berekeningen als grafieken,’ schreef hij in 1973. ‘Beide dragen bij aan het begrip.’

Met andere woorden: data kunnen niet zonder visualisatie. Maar ook niet zonder statistieken.

Dus?

De belangrijkste boodschap van Anscombe en consorten: een cijfer vertelt nooit het hele verhaal. Dezelfde getallen kunnen volslagen verschillende werelden verhullen. Werelden die je alleen ziet als je goed kijkt.

Dus lees je morgen iets over een gemiddelde in de krant? Kijk verder. Misschien vind je wel een dino.

Wil je op de hoogte blijven van mijn artikelen? Als correspondent Ontcijferen onderzoek ik de getallenwereld. In mijn wekelijkse mail houd ik je op de hoogte van wat ik schrijf, zie, hoor en lees. Een vast onderdeel: #NerdAlert, voor de getallenliefhebbers. Schrijf je in voor mijn wekelijkse mail

Verder lezen...

Mijn TEDx-talk: Zo verdedig je jezelf tegen cijfergeweld in het nieuws Wat doe je als je een peiling in het wild tegenkomt? Hoe zet je een grafiek op haar plek? En hoe zorg je ervoor dat je niet verdrinkt in de eindeloze stroom dieetadviezen? Daar sprak ik onlangs over bij TEDxMaastricht. Bekijk hier mijn TEDx-talk Deze statistische fout wordt in bijna elk debat gemaakt (en zo pik je haar eruit) Er is geen statistische fout die ons leven meer beïnvloedt dan het verwarren van correlatie met causaliteit. Of het nou om de economie, vluchtelingencrisis of volksgezondheid gaat, in vrijwel elk debat over belangrijke thema's gaat het weleens mis. De fout herkennen is dus niet zomaar voer voor statistici, maar van levensbelang voor ons allemaal. Lees mijn verhaal hier terug Dit is de vloek van olie: als je er eenmaal afhankelijk van bent, dan blijf je dat Waarom heeft Latijns-Amerika nauwelijks een industrie opgebouwd, terwijl Europa, Amerika en Azië dat wél deden? Dat is geen toeval, maar een wetmatigheid. En die heeft alles te maken met de vloek van olie in de bodem. Ecuador laat zien hoe die een land in zijn greep krijgt. Lees het verhaal van Jelmer hier terug

In gesprek:
Sanne Blauw
Correspondent Ontcijferen De grafieken in dit stuk gaven een heel ander inzicht dan de statistische berekeningen. Ken jij voorbeelden waar dit ook het geval is?
De grafieken in dit stuk gaven een heel ander inzicht dan de statistische berekeningen. Ken jij voorbeelden waar dit ook het geval is?