Beste,

Laat ik het maar toegeven: ik ben een sucker voor online ratings.

Zoek ik naar een goede serie of film, dan kijk ik altijd even naar het gemiddelde cijfer op IMDb. Ben ik op wandelvakantie, dan kijk ik op Google Maps hoeveel sterren de camping heeft. En ga ik uit eten, dan wil ik het liefst een restaurant met een 8 of hoger op Iens

Ironisch, want achter de ratings gaan twee fouten schuil waar ik al vaak over heb geschreven.

1. De steekproef is niet representatief

Het is een veelgehoorde klacht over peilingen: ‘Mij hebben ze niets gevraagd’. Die gaat niet op bij ratings, want in principe is iedereen gevraagd. Wie toegang tot internet heeft, kan een recensie achterlaten op IMDb, Google of The Fork.

Dat betekent niet dat iedereen dat ook doet. Ikzelf heb in mijn hele leven één keer een review geschreven (voor een Amerikaans motel waarin de muur van elke kamer een schildering van een bekende kloof liet zien. Ik was erg te spreken over mijn Bryce Canyon-kamer).

Een goede truc voor het op waarde schatten van een recensiescore, is om even te kijken hoeveel beoordelingen er achter zijn gelaten. Is het een handjevol, dan vaar ik niet op de rating. De kroeg bij mij op de hoek kreeg bijvoorbeeld nog geen tachtig reviews, het café ertegenover meer dan vierduizend. Die laatste vertrouw ik toch meer.

Toch betekent een grote steekproef niet per se dat de groep reviewers ook representatief is. Ter vergelijking: 4,6 miljoen Europeanen deden mee aan een onderzoek van de Europese Unie waaruit bleek dat

Bijna vijf miljoen respondenten, dat klinkt indrukwekkend. Eén probleempje: 70 procent van hen kwam uit Duitsland.

Hetzelfde kan gebeuren met reviewers. Nee, dat zijn niet per se allemaal Duitsers, maar het kan goed dat de mensen die een rating achterlaten heel anders zijn dan de mensen die géén rating achterlaten.

Er zitten bijvoorbeeld bovenmatig veel zuurpruimen tussen of juist veel enthousiastelingen. Misschien trekt de website veel deftige eters die hogere eisen stellen dan jij. Of veel romcomhaters, terwijl jij – net als ik – juist gek bent op romantische films en niet vies bent van een cliché.

Onderzoek naar de representativiteit van dit soort ratings ken ik niet, maar online peilingen – wat ratings effectief zijn –

2. De wet van Goodhart

Je hebt het vast weleens meegemaakt. Je bestelt een pizza en de bezorger vraagt je om wel even een 10 te geven op Thuisbezorgd.nl. Of de medewerker van de telefonische helpdesk vraagt je na afloop om een goede score achter te laten bij de enquête die je zo meteen in je inbox krijgt.

Ratings zijn intussen zo belangrijk geworden dat mensen erop worden afgerekend. Zo mag je als Uberchauffeur En werden bij de Bijenkorf een tijdlang verkopers

Maar waar een cijfer te belangrijk wordt, geldt – – de wet van Goodhart: het cijfer meet dan niet meer wat het moet meten. Of, ik blijf ’m pluggen, de wet van Blauw. Cijfers zijn als zeepjes:

Neem deze foto die ik doorgestuurd kreeg (helaas van slechte kwaliteit):

Bij een autodealer wordt gevraagd om een cijfer te geven aan de service. Alleen: er staat niets lager dan een 6. Om je nog extra de goede kant op te duwen zijn de 9 en 10 groen gemaakt en prijkt er een grote 10 bovenaan de banner. En als je toch een laag cijfer wilt geven, loop je dan even langs de servicebalie?

Nog een voorbeeld. Journalist Oobah Butler vertelt hoe hij ooit een baantje had waarbij hij positieve reviews moest schrijven: voor 10 pond pende hij een beoordeling voor een restaurant waar hij niet had gegeten. (Vervolgens haalde Butler uit. Niet lezen als je van plan bent om naar te komen!)

Met dit soort praktijken, meet de rating niet meer goed wat hij oorspronkelijk moest meten: de kwaliteit van een dienst. Manipulatie dus, nog een reden waarom beoordelingscijfers behoorlijk misleidend kunnen zijn.

Ik ben nog niet zo bekend met het onderzoek naar ratings. Weet je iets? Deel het in de bijdragen. En schroom niet om over jouw (grappige, irritante, verontrustende) ervaringen te vertellen.

Over bijdragen gesproken

Zoals je misschien weet kunnen we op De Correspondent interessante ledenbijdragen uitlichten. Maar sommige gesprekken zijn zo goed dat we wel bezig kunnen blijven. Zo ging het onder

Mocht je het gemist hebben: vorige week schreef ik over de p-waarde. Dit is de belangrijkste maatstaf voor statistische significantie. Onlangs verscheen een artikel in het wetenschappelijk tijdschrift Nature met meer dan achthonderd handtekeningen van wetenschappers. Het punt: laten we stoppen met statistische significantie.

Het gesprek dat onder mijn nieuwsbrief ontstond is uitermate boeiend. Zo onderzoeker risicocommunicatie Jan Gerrit Schuurman zijn eigen ervaringen. ‘In mijn proefschrift was het rapporteren van p-waarden nagenoeg onvermijdelijk’, schrijft hij. ‘Anders was het schier onmogelijk te promoveren.’

En wetenschapsjournalist Arnout Jaspers voor een Bayesiaanse benadering, die hij samenvat als: ‘extraordinary claims require extraordinary evidence’.

Het lezen waard, zowel het uitgelichte als het niet-uitgelichte commentaar!

Tot slot...

...zijn er nog kaarten voor mijn theatercollege. Kom je ook of

Met dank aan Daniëlle van Doorn, die me de foto doorstuurde van de autodealer.

Deze nieuwsbrief liever in je inbox? Als correspondent Ontcijferen onderzoek ik de getallenwereld. In mijn nieuwsbrief houd ik je op de hoogte van wat ik schrijf, zie, hoor en lees. Een vast onderdeel: #NerdAlert, voor de getallenliefhebbers. Schrijf je in voor mijn nieuwsbrief