Zo herken je een (on)betrouwbare peiling

De macht van peilingen

Dank dat je wilde meedoen aan deze peiling! Waarschijnlijk voelde je je bij de tweede vraag in een hokje geduwd: er stond geen enkel negatief antwoord tussen. De Correspondent kan er alleen maar goed van afkomen in deze peiling. Dat is mooi voor ons, want de resultaten kunnen we vervolgens gebruiken in onze reclamecampagnes: ‘8 op de 10 Nederlanders vinden De Correspondent een onmisbare toevoeging op het Nederlandse medialandschap.’ Dat zou een advertentie zijn, verpakt in een vragenlijst, die vervolgens weer als advertentie kan worden gebruikt.

Deze fictieve peiling lijkt misschien een absurd voorbeeld, maar is dat allerminst. Een nagenoeg identieke peiling van het oliebedrijf BP verscheen op verschillende Amerikaanse nieuwswebsites, waaronder die van The Washington Post.

Zulke slechte peilingen zijn geen zeldzaamheid. ‘Heel veel opinieonderzoek is volkomen flut,’ zegt peilingexpert Jelke Bethlehem.

Dit is nogal wat. Peilingen spelen namelijk een grote rol in het publieke debat. Of het nu verkiezingstijd is of niet, de politieke peilingen vliegen je om de oren. Zo peilt Maurice de Hond elke week politieke voorkeuren in zijn ‘Nieuw Haags Peil.’ Vorige week stonden de media nog bol van zijn laatste bevindingen: een record van 38 zetels voor de PVV.

‘Heel veel opinieonderzoek is volkomen flut’

Ook niet-politieke peilingen kunnen veel invloed hebben. Misschien herinner je je nog de peiling van het onderzoeksbureau Motivaction, waaruit bleek dat 90 procent van de Turkse Nederlanders het eens was met de stelling ‘Nederlandse moslims die in Syrië meevechten zijn helden.’ Lodewijk Asscher was ‘verontrust’ over de resultaten. ‘Ik had al eerder zorgen over wat er zich afspeelde in de Turkse gemeenschap,’ zei hij tegen Nu.nl. ‘Ik merkte een gevoel dat men zich hier minder thuis voelt. Nieuw is dat het zich vertaalt in deze denkbeelden.’

Al snel barstte de kritiek los en besloot Asscher onderzoek te laten doen naar de kwaliteit van de peiling. Wat bleek? De peiling deugde totaal niet. Maar hoe kun je dat beoordelen? Bij dezen: de drie belangrijkste kenmerken van een flutpeiling.

1. De peiling is niet representatief

Ik heb de resultaten van mijn verzonnen peiling nog niet gezien, maar ik durf er een goede fles om te verwedden: iedereen is bekend met De Correspondent. Het zou zo in onze reclamecampagne kunnen: ‘100 procent van de Nederlanders kent ons platform!’

Dit is natuurlijk idioot: je kunt De Correspondentlezers moeilijk als een goede afspiegeling van de Nederlandse samenleving zien. En dat is het eerste kenmerk van een flutpeiling: de groep respondenten is niet representatief voor de groep waarover je iets wilt zeggen.

Wil je weten wat Nederlanders vinden, dan moet je zorgen voor een groep die lijkt op ‘de’ Nederlanders. Dat betekent dat je mannen en vrouwen vraagt van alle leeftijden, met verschillende inkomens- en opleidingsniveaus en uit alle delen van het land.

Stel dat de groep mensen die mijn enquête beantwoordt voldoet aan al deze criteria. Dan nóg is het een flutpeiling. De respondenten hebben namelijk een kenmerk dat hoe dan ook niet representatief is voor de Nederlanders: ze lezen allemaal De Correspondent.

Iets vergelijkbaars ging er mis bij de peiling onder Turks-Nederlandse jongeren waar Asscher zo verontwaardigd over was. De deelnemers werden aangesproken op bepaalde plekken, zoals een moskee of een supermarkt. De onderzoekers zorgden ervoor dat de groep een juiste afspiegeling was qua leeftijd, opleiding, geslacht en etniciteit. Maar het was volstrekt onduidelijk of de ondervraagde groep een goede afspiegeling was van de meningen over Syriëgangers. Wie nooit bij een moskee of supermarkt kwam, was immers niks gevraagd.

2. De ondervraagde groep is te klein

‘Kankermedicijn werkt beter met cola,’ kopte de Volkskrant een paar weken geleden. Het veelgebruikte longkankermedicijn erlotinib bleek sneller op te lossen door de frisdrank en werd zo beter opgenomen in het bloed. De conclusie was snel getrokken: laat dat glaasje water maar staan en drink lekker cola als je deze pil in moet nemen.

Maar dan nu de pijnlijke vraag: hoeveel mensen waren er gevolgd voor dit onderzoek? Het antwoord: vierentwintig. Deze kop was gebaseerd op een klaslokaaltje patiënten. Ziedaar het tweede kenmerk van een flutpeiling: de groep is te klein. Een statistische stelregel is dat onderzoek minder betrouwbaar wordt naarmate de onderzochte groep kleiner is. In een kleine groep is de kans op uitschieters namelijk groter: het komt vaker voor dat alle patiënten beter worden of dat het juist bij helemaal niemand werkt.

Het is daarnaast belangrijk dat - van de mensen die benaderd worden - genoeg mensen daadwerkelijk meedoen aan het onderzoek. In het Motivactiononderzoek was bijvoorbeeld helemaal niet duidelijk hoeveel jongeren ‘nee’ hadden gezegd tegen de enquêteurs. Wellicht zijn de weigeraars wel heel andere types dan degenen die willen meewerken: ze vinden Syriëgangers maar droeftoeters, ze ergeren zich aan de vragen van de onderzoeker of ze interesseren zich überhaupt niet voor het onderwerp.

3. De vragen zijn slecht

Stel: je hebt een grote en representatieve groep gevonden voor je peiling. Dan nog kun je het flink verpesten. Neem mijn nepenquête: door de vraagstelling kon je alleen maar positieve antwoorden geven. Het derde kenmerk van een flutpeiling is dan ook dat de vragen gewoon slecht zijn.

Dit voorjaar bleek: ‘7 op 10 Nederlanders vinden einde statiegeld prima.’ TNS NIPO had een flinke groep Nederlanders gevraagd (1.035) en had ervoor gezorgd dat de groep zo representatief mogelijk was. Toch was de uitkomst vreemd: hetzelfde bureau had nota bene in 2011 een peiling gedaan waaruit bleek dat 73 procent tegen de afschaffing van statiegeld was.

Het mysterie wordt opgehelderd als je ziet op welke vraag de uitspraak werd gebaseerd:

Maakt het voor u iets uit als de statiegeldflessen in de toekomst met de overige plastic verpakkingen kunnen worden ingeleverd in plaats van in de supermarkt?

Handig, zou je kunnen denken. Ik kan voortaan mijn statiegeldflessen in de container op de hoek inleveren. Het lijkt kortom weinig te maken hebben met de afschaffing van het statiegeldsysteem.

Waarom werd het dan toch op die manier de wereld in gebracht? Het antwoord is simpel: het persbericht werd gepubliceerd op de website van Plastic Heroes, een alternatief systeem voor het recyclen van plastic. Plastic Heroes zou statiegeld kunnen vervangen, iets wat producenten en importeurs maar al te graag willen. En laten die partijen nou net verenigd zijn in het Afvalfonds Verpakkingen, de opdrachtgever van het TNS NIPO-onderzoek.

Vragen kunnen je in de richting van bepaalde antwoorden duwen. Dat kan heel subtiel gaan. In Amerika werd in 2014 door zowel mediabedrijf CNN als onderzoeksbureau Gallup tegelijkertijd een peiling uitgevoerd over hetzelfde onderwerp: terrorisme. De groepen waren ongeveer even groot en representatief. En toch: bij CNN vond 14 procent terrorisme een groot probleem, bij Gallup was dit maar 4 procent.

Het subtiele verschil zat hem in de vraagstelling. Bij CNN werd een gesloten vraag gesteld: ‘Welke van de volgende kwesties is de belangrijkste waar ons land nu mee te maken heeft?’ Tussen de alternatieven – zoals de economie en het klimaat – stond ook terrorisme. Bij Gallup werd daarentegen een open vraag gesteld: ‘Wat vind jij de belangrijkste kwestie waar ons land nu mee te maken heeft?’ Omdat er geen antwoorden werden gesuggereerd, dachten mensen minder snel aan terrorisme.

Niet alleen de vraag kan iemand een bepaalde richting opsturen; ook de voorgaande vragen hebben invloed op het antwoord. Als je mensen bijvoorbeeld vraagt naar hun mening over de regering - en die is negatief - dan zullen ze op de volgende vragen ook negatiever reageren.

En dan maakt het ook nog eens uit hoe de vragen gesteld worden. In het Motivactiononderzoek werd dat voornamelijk face to face gedaan. Zeker als het gaat om een gevoelig onderwerp als jihadisme kan dat verschil maken. Als je tegenover een mens in plaats van een computer zit, geef je misschien liever een sociaal wenselijk antwoord. Of juist het tegenovergestelde: je geeft een heftig antwoord om te provoceren.

Welke peilingen deugen dan wel?

Als je ziet wat er allemaal mis kan gaan met peilingen, is het weinig verbazingwekkend dat er zoveel troep tussen zit. Maar hoe bepaal je of een peiling deugt? Met deze vier vragen kom je al een heel eind:

1. Wie zit er achter de peiling?

De BP-advertentie en de statiegeldenquête laten zien: als de opdrachtgever belang heeft bij een bepaald resultaat, dan kan de peiling onbetrouwbaar zijn.

Een peiling zegt pas iets als ze op zijn minst honderd respondenten heeft

2. Zijn de respondenten willekeurig gekozen?

De peiling moet zo zijn uitgevoerd dat uit de doelgroep - of het nu Turks-Nederlandse jongeren of Amerikanen zijn - iedereen een kans heeft om gekozen te worden voor het onderzoek. Alleen dan kun je daadwerkelijk iets zeggen over de groep als geheel. Er moet een ‘aselecte steekproef’ worden getrokken, wat betekent dat je - van een lijst waar iedereen uit de doelgroep op staat - met een loting deelnemers selecteert.

3. Hoeveel respondenten hebben geantwoord?

Hoe meer, hoe beter. Maar een vuistregel is: een peiling zegt pas iets als ze op zijn minst honderd respondenten heeft. Daarnaast geldt: hoe meer mensen hebben geweigerd de vragen te beantwoorden, des te onbetrouwbaarder zijn de resultaten. Kijk vooral uit met peilingen waar minder dan 50 procent van de benaderde personen ook daadwerkelijk meedeed aan het onderzoek.

4. Zijn de vragen duidelijk en zo neutraal mogelijk gesteld?

Stel je voor dat jij de vraag zelf zou moeten beantwoorden. Snap je de vraag? Durf je eerlijk antwoord te geven? Is de vraag neutraal, ofwel: word je niet in de richting van een bepaald antwoord geduwd? Zeg je drie keer ‘ja,’ dan is de vraag waarschijnlijk in orde.

Houd ze in de gaten, die peilingen

Mijn punt is niet dat we geen peilingen moeten gebruiken. Ze geven een stem aan degenen die normaliter in het publieke debat worden overstemd, omdat ze niet zo hard roepen als anderen. Op die manier kunnen peilingen ontwikkelingen blootleggen die anders niet zouden zijn opgemerkt.

Maar dat neemt niet weg dat een beetje meer achterdocht geen kwaad kan. Een flutpeiling is namelijk zelden onschuldig - voor je het weet is het statiegeld afgeschaft, drinken patiënten veel te veel cola en blijken 9 van de 10 Nederlanders dit artikel een onmisbare toevoeging aan de berichtgeving over peilingen te vinden.

Ik heb voor dit artikel dankbaar gebruikgemaakt van tips van lezers en PeilingPraktijken, het blog van Jelke Bethlehem over goede en slechte peilingen.