Zo hebben we het trackeronderzoek uitgevoerd

Dimitri Tokmetzis
Correspondent Surveillance & Technologie
Deze foto werd gemaakt bij het eerdere verhaal over het trackeronderzoek in oktober 2013. Foto: Rein Janssen (voor De Correspondent)

Voor de scan van bijna 500 Nederlandse websites op cookies hebben we een nieuwe methode gebruikt. In dit stuk beschrijf ik hoe ik te werk ben gegaan en presenteer ik nog meer data.

Voor dit onderzoek hebben we een nieuwe techniek gebruikt om het aantal cookies per bezochte website te meten, namelijk het is ontwikkeld door onderzoekers van het Center for Information Technology Policy van Princeton. Deze software is ontwikkeld om het scannen zo veel mogelijk te automatiseren.

Allereerst heb ik een lijst met de 500 meest populaire websites in Nederland opgevraagd bij Alexa. Die webservice is niet heel betrouwbaar, maar gezien het hoge aantal websites is te verwachten dat de belangrijkste Nederlandse sites er wel tussen staan. Vervolgens ben ik handmatig door die lijst gegaan om een aantal sites te verwijderen, bijvoorbeeld Poolse, Russische en Turkse websites, die er duidelijk niet tussen hoorden. Dat heeft geresulteerd in een lijst met 456 sites.

Ik heb het OpenWPM framework geïnstalleerd op een laptop met Ubuntu 14.04, een populaire Linuxdistributie (de software draaide niet goed op de nieuwste versie va Ubuntu, 16.04). Ik heb het programma de opdracht gegeven met drie browsers alle sites te bezoeken en op iedere site op vier willekeurige links te klikken.

De eerste resultaten waren niet bemoedigend, aangezien de software niet kon omgaan met de vele cookiemuren op Nederlandse sites. Met name op nieuwssites moet je eerst expliciet toestemming geven voordat er cookies worden geladen. De eerste run van de software heeft deze sites daarom niet gescand.

Bij de tweede run heb ik de scan automatisch uitgevoerd, maar handmatig telkens alle cookies geaccepteerd. De uitkomst is weggeschreven in een SQLite-database, die het type cookie (request, response en profile) classificeerde. Ik heb naar alle drie gekeken (en alle overlap weggefilterd.)

Vervolgens heb ik gekeken naar alle domeinen, dus internetadressen, vanwaaruit een cookie is geplaatst. Dat waren er 470. Daarna heb ik gezocht naar de eigenaars van die domeinen. Deels moest dat handmatig. Omdat er zoveel domeinen waren, heb ik ervoor gekozen mij te richten op alle domeinen die meer dan vijf keer in de dataset stonden. Dat leverde een lijst van 103 bedrijven op.

In onderstaande grafiek zie je de gevonden bedrijven en het aantal cookies in mijn database.

In deze grafiek zie je het aantal gevonden cookies per site.

Meer hierover?

Lees verder: