De tirannie van online ratings

Laat ik het maar toegeven: ik ben een sucker voor online ratings.

Zoek ik naar een goede serie of film, dan kijk ik altijd even naar het gemiddelde cijfer op IMDb. Ben ik op wandelvakantie, dan kijk ik op Google Maps hoeveel sterren de camping heeft. En ga ik uit eten, dan wil ik het liefst een restaurant met een 8 of hoger op Iens (ahum, The Fork).

Ironisch, want achter de ratings gaan twee fouten schuil waar ik al vaak over heb geschreven.

1. De steekproef is niet representatief

Het is een veelgehoorde klacht over peilingen: ‘Mij hebben ze niets gevraagd’. Die gaat niet op bij ratings, want in principe is iedereen gevraagd. Wie toegang tot internet heeft, kan een recensie achterlaten op IMDb, Google of The Fork.

Dat betekent niet dat iedereen dat ook doet. Ikzelf heb in mijn hele leven één keer een review geschreven (voor een Amerikaans motel waarin de muur van elke kamer een schildering van een bekende kloof liet zien. Ik was erg te spreken over mijn Bryce Canyon-kamer).

Een goede truc voor het op waarde schatten van een recensiescore, is om even te kijken hoeveel beoordelingen er achter zijn gelaten. Is het een handjevol, dan vaar ik niet op de rating. De kroeg bij mij op de hoek kreeg bijvoorbeeld nog geen tachtig reviews, het café ertegenover meer dan vierduizend. Die laatste vertrouw ik toch meer.

Toch betekent een grote steekproef niet per se dat de groep reviewers ook representatief is. Ter vergelijking: 4,6 miljoen Europeanen deden mee aan een onderzoek van de Europese Unie waaruit bleek dat 84 procent de omschakeling van zomer- naar wintertijd wilde afschaffen.

Bijna vijf miljoen respondenten, dat klinkt indrukwekkend. Eén probleempje: 70 procent van hen kwam uit Duitsland.

Hetzelfde kan gebeuren met reviewers. Nee, dat zijn niet per se allemaal Duitsers, maar het kan goed dat de mensen die een rating achterlaten heel anders zijn dan de mensen die géénrating achterlaten.

Er zitten bijvoorbeeld bovenmatig veel zuurpruimen tussen of juist veel enthousiastelingen. Misschien trekt de website veel deftige eters die hogere eisen stellen dan jij. Of veel romcomhaters, terwijl jij – net als ik – juist gek bent op romantische films en niet vies bent van een cliché.

Onderzoek naar de representativiteit van dit soort ratings ken ik niet, maar online peilingen – wat ratings effectief zijn – zijn notoir als het gaat om representativiteit.

2. De wet van Goodhart

Je hebt het vast weleens meegemaakt. Je bestelt een pizza en de bezorger vraagt je om wel even een 10 te geven op Thuisbezorgd.nl. Of de medewerker van de telefonische helpdesk vraagt je na afloop om een goede score achter te laten bij de enquête die je zo meteen in je inbox krijgt.

Ratings zijn intussen zo belangrijk geworden dat mensen erop worden afgerekend. Zo mag je als Uberchauffeur niet meer werken als je score te laag is. En werden bij de Bijenkorf een tijdlang verkopers aangesproken op de recensie die ze van klanten kregen.

Maar waar een cijfer te belangrijk wordt, geldt – daar is-ie weer – de wet van Goodhart: het cijfer meet dan niet meer wat het moet meten. Of, ik blijf ’m pluggen, de wet van Blauw. Cijfers zijn als zeepjes: als je er te hard in knijpt, glippen ze uit je handen.

Neem deze foto die ik doorgestuurd kreeg (helaas van slechte kwaliteit):

Bij een autodealer wordt gevraagd om een cijfer te geven aan de service. Alleen: er staat niets lager dan een 6. Om je nog extra de goede kant op te duwen zijn de 9 en 10 groen gemaakt en prijkt er een grote 10 bovenaan de banner. En als je toch een laag cijfer wilt geven, loop je dan even langs de servicebalie?

Nog een voorbeeld. Journalist Oobah Butler vertelt hoe hij ooit een baantje had waarbij hij positieve reviews moest schrijven: voor 10 pond pende hij een beoordeling voor een restaurant waar hij niet had gegeten. (Vervolgens haalde Butler een fantastische stunt uit. Niet lezen als je van plan bent om naar mijn theatercollege te komen!)

Met dit soort praktijken, meet de rating niet meer goed wat hij oorspronkelijk moest meten: de kwaliteit van een dienst. Manipulatie dus, nog een reden waarom beoordelingscijfers behoorlijk misleidend kunnen zijn.

Ik ben nog niet zo bekend met het onderzoek naar ratings. Weet je iets? Deel het in de bijdragen. En schroom niet om over jouw (grappige, irritante, verontrustende) ervaringen te vertellen.

Over bijdragen gesproken

Zoals je misschien weet kunnen we op De Correspondent interessante ledenbijdragen uitlichten. Maar sommige gesprekken zijn zo goed dat we wel bezig kunnen blijven. Zo ging het onder mijn vorige nieuwsbrief.

Mocht je het gemist hebben: vorige week schreef ik over de p-waarde. Dit is de belangrijkste maatstaf voor statistische significantie. Onlangs verscheen een artikel in het wetenschappelijk tijdschrift Nature met meer dan achthonderd handtekeningen van wetenschappers. Het punt: laten we stoppen met statistische significantie.

Het gesprek dat onder mijn nieuwsbrief ontstond is uitermate boeiend. Zo deelt onderzoeker risicocommunicatie Jan Gerrit Schuurman zijn eigen ervaringen. ‘In mijn proefschrift was het rapporteren van p-waarden nagenoeg onvermijdelijk’, schrijft hij. ‘Anders was het schier onmogelijk te promoveren.’

En wetenschapsjournalist Arnout Jaspers pleit voor een Bayesiaanse benadering, die hij samenvat als: ‘extraordinary claims require extraordinary evidence’.

Het lezen waard, zowel het uitgelichte als het niet-uitgelichte commentaar!

Tot slot...

...zijn er nog kaarten voor mijn theatercollege. Kom je ook op 16 april naar Den Haag of op 29 april naar Utrecht?

Met dank aanDaniëlle van Doorn, die me de foto doorstuurde van de autodealer.

Dit verhaal heb je gratis gelezen, maar het maken van dit verhaal kost tijd en geld. Steun ons en maak meer verhalen mogelijk voorbij de waan van de dag.

Al vanaf het begin worden we gefinancierd door onze leden en zijn we volledig advertentievrij en onafhankelijk. We maken diepgravende, verbindende en optimistische verhalen die inzicht geven in hoe de wereld werkt. Zodat je niet alleen begrijpt wat er gebeurt, maar ook waarom het gebeurt.

Juist nu in tijden van toenemende onzekerheid en wantrouwen is er grote behoefte aan verhalen die voorbij de waan van de dag gaan. Verhalen die verdieping en verbinding brengen. Verhalen niet gericht op het sensationele, maar op het fundamentele. Dankzij onze leden kunnen wij verhalen blijven maken voor zoveel mogelijk mensen. Word ook lid!