Hoe wij de webtrackers hebben onderzocht
Met speciale tools hebben wij onderzoek gedaan naar de bedrijven die informatie verzamelen van de bezoekers van de honderd populairste sites in Nederland. In dit artikel leggen wij uit hoe we te werk zijn gegaan.
De afgelopen vier weken heb ik samen met collega Dimitri Tokmetzis en stagiair Lucien Hordijk onderzoek gedaan naar de wereld van online trackers - applicaties die bedrijven achterlaten op websites om internetgebruikers in de gaten houden. We hebben voor dit onderzoek gebruik gemaakt van verschillende tools en samengewerkt met twee onderzoekers van de Universiteit van Amsterdam. De komende tijd blijven wij publiceren over dit onderwerp. Hier beschrijf ik onze werkwijze en een aantal eerste, interessante resultaten.
Hoe zijn we te werk gegaan?
Wij richtten ons in dit onderzoek op de zogenaamde third party trackers, bedrijven die voor commerciële doeleinden gegevens verzamelen over internetgebruikers. Er bestaan ook trackers van een website zelf (de zogenaamde first party trackers) die het browse-gedrag van mensen binnen één site in kaart brengen. Overigens worden cookies - een veel voorkomende technologie voor tracking - ook gebruikt voor andere doeleinden dan tracken. Bijvoorbeeld om taalinstellingen van een website te onthouden, of om te onthouden dat iemand is ingelogd bij een e-maildienst.
Om het voor gebruikers onzichtbare web van bedrijven in kaart te brengen hebben wij samengewerkt met twee onderzoekers van de Universiteit van Amsterdam, Lonneke van der Velden en Anne Helmond. Beiden zijn betrokken bij het Digital Methods Initiative van de universiteit, waar zij met collega’s de Tracker Tracker tool hebben ontwikkeld. Hiermee is het mogelijk om een site te scannen en zo de aanwezige trackers te identificeren en in kaart te brengen. ‘We kennen het internet als een verzameling van sites en links die je kunt bezoeken en aanklikken,’ zegt Helmond. Haar collega Van der Velden vult aan: ‘Met deze tool ziet het internet er opeens heel anders uit: als een verzameling van bedrijven die onze data verzamelen en met elkaar uitwisselen.’
Samen keken we naar de honderd meest populaire websites in Nederland. Uiteindelijk bleken 89 sites geschikt voor dit onderzoek. Daar kwamen we 866 trackers tegen. Sommige daarvan waren op meerdere sites actief; in totaal bleken er 215 unieke trackers actief te zijn op de populairste websites in Nederland.
Dit hebben we vervolgens gekoppeld aan de bedrijfsinformatie en privacy policies van de bedrijven zelf. Op die manier konden we per site niet alleen zien welke trackers de adverteerders gebruiken, maar ook wat de trackers zelf zeggen te doen met de data. De informatie uit de privacy policies wordt handmatig verzameld door Ghostery en Privacychoice.org. Het kan dus gebeuren dat sommige privacy policies in de tussentijd zijn aangepast.
De resultaten
Een aantal sites springt eruit als het gaat om aantal en mate van indringing door trackers: zalando.nl, voetbalzone.nl, nu.nl, volkskrant.nl, tvgids.nl, geenstijl.nl, telegraaf.nl, yahoo.com en groupon.nl. Deze sites laten trackers toe die gebruikersdata enkele jaren opslaan, naast anomieme gegevens ook persoonsgegevens verzamelen zoals telefoonnummer en die informatie doorverkopen aan andere partijen. Als het gaat om zeer langdurige opslag van gegevens - meer dan drie jaar - dan komen we veel trackers tegen op pornosites, zoals youporn.com, pornhub.com en xvideos.com.
Opvallend is dat enkele tientallen trackers niet aangeven wat ze met onze data doen. Ze vertellen in hun privacy policy niet hoe lang ze data bewaren en wat ze precies opslaan. Dat maakt het voor consumenten nog moeilijker, zo niet onmogelijk om te controleren wat er met hun data gebeurt.
De technologie
De bedrijven verzamelen die gegevens met behulp van verschillende technologieën, waarvan cookies de bekendste zijn. Een cookie is een tekstbestandje dat op een computer worden achtergelaten op het moment dat iemand een site bezoekt. De cookie kent een unieke code toe aan de computer. Met behulp van een cookie kan de computer herkend worden als een website voor de tweede keer wordt bezocht. Als een tracker samenwerkt met meerdere websites, kan de tracker op al die websites de computer herkennen. Zo kan iemands browse-gedrag gevolgd worden. Bedrijven kunnen bijvoorbeeld registreren welke websites de gebruiker allemaal heeft bezocht, hoe vaak hij op links en advertenties klikt, of wat zijn IP-adres is.
Er zijn verschillende typen cookies, zoals Flash Cookies, die veel meer informatie kunnen verwerken dan gewone cookies en moeilijker te detecteren en te verwijderen zijn. De technologieën die bedrijven en adverteerders gebruiken worden steeds geavanceerder en dragen namen als evercookies, beacons, en fingerprinting. Voor dit artikel gaat het te ver om in te gaan op de (grote) verschillen tussen deze trackingtechnologieën. Het is genoeg om te constateren dat ze hetzelfde doel nastreven: informatie verzamelen over de internetgebruiker - wie hij is, waar hij zich bevindt, wat hij doet, hoe hij zich gedraagt en waar hij van houdt.
De trackers
Achter de trackers zitten veel verschillende bedrijven. Hier lichten we drie type bedrijven uit. De komende tijd zullen we ook andere typen beschrijven.
Verreweg de grootste tracker is Google. Op 73 van de 89 sites kwamen wij het bedrijf van Google tegen. Wie online is, kan eigenlijk niet ontkomen niet aan trackers van de zoekgigant. Google is niet alleen die fijne zoekmachine of die handige e-maildienst, het bedrijf is bovenal een advertentiebedrijf. Meer dan 95% van de inkomsten van Google komt uit advertenties. Dat gebeurt op grofweg twee manieren: als een gebruiker naar een auto zoekt in de zoekmachine en een advertentie van Toyota te zien krijgt. En Google bemiddelt tussen sites en adverteerders. Dat komt er in het kort op neer dat Google adverteerders de mogelijkheid biedt een bepaalde groep mensen of type website te bereiken. Om dat goed te doen, verzamelt Google heel veel gegevens over gebruikers. Daarvoor heeft Google twee diensten: Adsense en Doubleclick, waarvan we op respectievelijk 31 en 46 sites trackers tegenkwamen. Maar de meest aanwezige tracker van Google is Google Analytics. Die vonden we op 73 van de 89 sites. Deze dienst, die Google aan websitehouders aanbiedt, registreert hoeveel bezoekers een website heeft, waar ze vandaan komen, wat voor apparaten ze gebruiken, welke provider ze hebben en via welke zoektermen ze op de site terecht zijn gekomen. Interessant is een recente uitspraak van het Commissie Bescherming Persoonsgegevens. Volgens het CBP vallen de gegevens die Google via Analytics verzamelt onder de Wet Bescherming Persoonsgegevens en zijn de privacyvoorwaarden van Google Analytics te vaag - het is onduidelijk hoe lang de gegevens worden bewaard en wat er mee gebeurt - waardoor eigenlijk iedereen die van de dienst gebruik maakt de Nederlandse privacywetgeving schendt.
Databrokers
Een bijzondere categorie bestaat uit de zogenoemde databrokers, makelaars in persoonsgegevens. Deze vooral Amerikaanse bedrijven verkopen gedetailleerde informatie over consumenten door aan adverteerders en marketeers. Wil je weten wie er in een bepaald gebied zwanger is? Wie gescheiden is en wie graag dure televisies koopt? Of juist een lijst van notoire wanbetalers of mensen die alleen maar op goedkope aanbiedingen ingaan? Een databroker kan het je vertellen. Tegen betaling uiteraard.
In totaal kwamen wij 51 databrokers tegen in ons onderzoek. Voetbalzone.nl was ook hier de ‘winnaar’, die laat zeven verschillende databrokers toe op de site. Op hyves.nl vonden wij een tracker van het Amerikaanse bedrijf Acxiom. Deze bekende databroker (de omzet over 2012 was 1,15 miljard dollar) belooft in het bezit te zijn van gedetailleerde informatie over meer dan 700 miljoen consumenten wereldwijd die ‘continu wordt geüpdated’. Acxiom combineert gegevens die het online verzamelt met offline gegevens uit andere bronnen, zoals informatie over de woonsituatie of de burgelijke stand. Op 23 september maakte Acxiom bekend dat het in staat is om ‘master profiles’ op nu.nl, hyves.nl en voetbalzone.nl vonden we trackers van het Amerikaanse bedrijf Datalogix, dat ook gegevens van het online en offline gedrag van gebruikers combineert. Datalogix is gespecialiseerd in de analyse van aankoopgedrag van consumenten. Op de site van Datalogix is bijvoorbeeld informatie te koop over mensen die geregeld dieetpillen kopen of in de winter vaak verkouden zijn en daar medicijnen voor aanschaffen. Ook kunnen adverteerders bij Datalogix terecht als zij geïnteresseerd zijn in personen die wel eens geld geven aan een goed doel, vrouwen die voldoen aan het profiel ‘Soccer mom’ of vaak naar talkshows kijken. Die koppeling met ‘real life’ data is goud waard. Het bedrijf werkt samen met Facebook en Twitter om te kijken welke gebruikers die een bepaalde advertentie hadden gezien, dat product ook daadwerkelijk hadden gekocht. Het afgelopen jaar is er in de VS veel kritiek gekomen op databrokers. Eind vorig jaar startte de Amerikaanse Federal Trade Commission een groot onderzoek naar de manier waarop databrokers hun informatie verzamelen en hoeveel zeggenschap individuen daar zelf over hebben.
Retargeters
Een ander type trackers zijn de zogenaamde retargeters. Dit zijn trackers die cookies achterlaten bij gebruikers die door hun websitebezoek interesse hebben getoond in een bepaald product of dienst. Vervolgens krijgen deze mensen tijdens hun tocht op het internet advertenties van dit product te zien. Een bekend bedrijf dat gespecialiseerd is in retargeting is het Franse Criteo. We vonden trackers van dit bedrijf op onder andere autoscout.nl. beslist.nl, booking.com en voetbalzone.nl. En we vonden het ook op een site die heel veel gebruik maakt van retargeting: Zalando. Wie naar de site van Zalando gaat en daar schoenen bekijkt maar niet koopt, krijgt geheid even later, op een andere site een gepersonaliseerde advertentie van precies dezelfde schoenen te zien. Daar zorgen bedrijven als Criteo voor. Criteo geeft overigens aan dat het gegevens een jaar tot anderhalf jaar bewaart.