Een verregende vakantie, drie zomers terug, was een mooi moment om een antwoord te vinden op een vraag waar ik al een tijd mee rondliep: is het mogelijk om de aard en omvang van de prostitutie in Nederland in kaart te brengen? In deze nieuwsbrief zet ik op een rij hoe mijn onderzoek tot nu toe verloopt.

Sinds de opheffing van het bordeelverbod aan het begin van het vorige decennium heb ik veel over prostitutie geschreven. Het is altijd erg moeilijk geweest om ontwikkelingen binnen deze sector in kaart te brengen, omdat gedegen kwantitatief onderzoek zeldzaam is. En ondanks de legalisering, speelt een groot deel (hoe groot is onbekend) zich af in het grijze circuit van de escort en thuisontvangst.

Maar leve het internet. Wie als prostitué(e) haar of zijn diensten aanbiedt, zal klanten moeten werven. En velen doen dat tegenwoordig via gespecialiseerde websites zoals kinky.nl, of via online contactadvertenties van kranten, zoals speurders.nl.

In zo’n advertentie (zie hieronder) zit veel interessante informatie, zoals:

  • de (werk)naam van de sekswerker;
  • de locatie waar de dienst wordt aangeboden;
  • de activiteiten die worden aangeboden;
  • contactgegevens, waaronder 06-nummers;
  • informatie over nationaliteit;
  • wanneer de advertentie is geplaatst en soms ook door wie;
  • prijzen;
  • en nog meer informatiesnippers.
Een screenshot van een escortadvertentie op Kinky.nl.

Tijdens die kleddernatte vakantie kreeg ik een eenvoudige gedachte: waarom die data niet gestructureerd binnenhalen en analyseren? Daar moeten belangwekkende inzichten in schuilen die journalistiek relevant zijn.

Bijvoorbeeld: Is er iets te vertellen over de achtergrond van sekswerkers, bijvoorbeeld van het aandeel prostituees uit Oost-Europa of Nigeria? En hoe zit het met gemeenten die geen prostitutie toestaan?

In een eerste verkenning van de data zag ik dat er veel aanbod van escort en thuisontvangst was in gemeenten die gelegen waren in de Biblebelt. Werd hier een oogje dichtgeknepen door de betreffende gemeenten, of waren ze zich er niet van bewust?

Vieze data vereisen veel schoonmaakwerk

Het idee was dan misschien simpel, de uitvoering is een stuk ingewikkelder. Er zijn enkele tientallen sites waarop dit soort advertenties staan. Het scrapen van deze sites (met software gestructureerd data van deze sites ‘schrapen’) is makkelijk. Maar iedere site heeft weer een eigen manier om de informatie te presenteren. En op sommige sites is de informatie nauwelijks gestructureerd. Daarin staat de meest relevante informatie (naam, nationaliteit, prijzen, locaties) verstopt in tekst die de sekswerker zelf heeft ingevoerd, soms in het Engels en vaak met veel spelfouten.

Mijn laatste paar zomervakanties zijn daarom deels besteed aan het aanleren van goede schoonmaaktechnieken. Hiervoor gebruikte ik vooral een handige gratis tool die speciaal ontwikkeld is voor het opschonen van datasets, in combinatie met een op het oog onbegrijpelijke programmeertaal waarmee je onder andere naar patronen in tekst kunt zoeken.

Desondanks bleef het een tijdrovende klus om iedere keer handmatig al die bestanden op te schonen, ongeveer een week om tien websites te verwerken.

Prostitutiedata als netwerk

Ik had het project dan ook al bijna opgegeven toen ik het werk van Pedro Szekely ontdekte. Deze Amerikaanse computerwetenschapper gebruikt dezelfde soort data, maar met een veel specifieker doel en een veel slimmere methode. Zijn doel is het opsporen van mensenhandel. Zijn methode is het automatiseren van het binnenhalen en analyseren van de data.

Nog interessanter: Szekely hanteert een netwerkbenadering. Volgens hem kun je een advertentie zien als een netwerk van eigenschappen die met elkaar samenhangen. Een advertentie heeft bijvoorbeeld een locatie, contactgegevens, een naam, een aanbieder. Als nu blijkt dat een telefoonnummer door veel aanbieders wordt gedeeld en dat die aanbieders telkens op andere locaties zijn, zou dat kunnen duiden op mensenhandel.

Een aantal politiediensten maakt inmiddels al gebruik van zijn onderzoek, dat gefinancierd is door DARPA. Ik kan je zeker aanraden om een hierover te bekijken. Het is zeer interessant.

Een screenshot van een praatje van Szekely waarin een advertentie als netwerk wordt gepresenteerd.

Szekely lost twee problemen op waar ik mee worstelde: automatisering en een potentieel doeltreffende manier om de verkregen informatie te analyseren.

Deze vakantie (ben net terug van een rondreis in Hongarije) heb ik mij op het eerste probleem gestort. Ik pretendeer niet het werk van Szekely over te kunnen doen, maar kan een deel van het schoonmaakwerk wel automatiseren. Ik verdiep mij al een tijd in Python (een zeer populaire en krachtige programmeertaal) en Pandas (een populair data-analysepakket in Python). Deze vakantie heb ik software geschreven die het schoonmaakwerk met één druk op de knop voor me doet. Het is nog rommelige code die ik nog niet vrij wil geven (pas na publicatie van mijn artikelen), dus wie alvast een kijkje wil nemen, moet me maar even mailen.

In ieder geval kan ik nu gerust iedere drie maanden een rondje langs de websites doen en die in een uurtje schoonmaken. Er veranderen altijd weer dingen waardoor ik de code een beetje moet aanpassen. De uitkomst is, als het goed is, een nette tabel van seksadvertenties in Nederland en België (die heb ik meteen maar even meegenomen).

Er moet nog veel gebeuren voordat ik überhaupt kan nadenken over een concreet artikel:

  1. De data omzetten in een netwerk. Hiervoor kan ik Neo4j gebruiken, waar ik al een paar keer over geschreven heb, of het binnen Python. Mocht een van jullie nog een tip hebben, laat het me vooral weten. En mocht je interesse hebben in de analyse van de data, laat het me ook even weten: het is altijd prettig als een expert even meekijkt.
  2. Nu het project serieus wordt, ben ik ook bezig met een ethische verantwoording (het zijn zeer gevoelige data). Daarover meer in mijn volgende nieuwsbrief.
  3. Ik heb alleen nog de data uit 2017 schoongemaakt. Ik heb ook nog data uit 2015 en 2016 die ik met andere scrapers heb verzameld en dus weer op een andere manier schoongemaakt moeten worden. Dat zal ik in de avonduren moeten doen, dus dat gaat niet zo snel. Ik hoop voor het einde van het jaar (ik heb veel andere projecten lopen) met de eerste resultaten te komen.

Wil je bijlezen over prostitutie in Nederland, die Marijn Heemskerk vorig jaar voor ons schreef.

Tot snel.