In mijn schreef ik online advertenties voor prostitutie te verzamelen. Veel vrouwen en mannen bieden hun diensten aan op gespecialiseerde fora.

Door die advertenties te verzamelen en te structureren, kan ik een interessante blik krijgen in de wereld van de prostitutie en hoe die verandert.

Op mijn vorige nieuwsbrief kreeg ik een verontruste mail van een prostituee. Ja, ze wist dat dit soort gegevens gewoon online stonden (ze plaatste zelf ook advertenties). Toch vond ze het creepy dat dit soort data zo nauwgezet worden geanalyseerd. Wordt ze nu niet herkend?

Tijd het over de ethiek van dit project te hebben.

Een tijd terug heb ik een vragenlijst ingevuld van een handige tool die door de Utrecht Data School In deze nieuwsbrief wil ik enkele vragen aanstippen. Ik ben benieuwd wat jullie vinden van de gekozen analyse en oplossing.

De vragen van de Ethische Data Assistent

Wat voor data gaat u gebruiken?

Advertenties op een aantal websites. Zoals: kinky.nl, speurders.nl, girls4u.nl, escortservicegids.nl en andere.

Kunt u iets vertellen over de kwaliteit van de data?

Die kwaliteit is laag. De belangrijkste problemen zijn:

  1. Aanbieders van contactadvertenties zijn niet altijd eerlijk (liegen over naam, leeftijd en meer).
  2. Sommige contactadvertenties worden ingevoerd met een formulier, waardoor de antwoorden heel gestructureerd zijn. Andere zijn vrije tekst waar een computer maar moeilijk chocola van kan maken.
  3. Aanbieders adverteren vaker op dezelfde site, of op meerdere sites, soms onder een andere naam. Het aantal duplicaten is daarom onbekend.
  4. Sinds de eerste dataverzameling in 2015 is een aantal websites verdwenen. Dat maakt analyses over tijd extra moeilijk.

Waarom denkt u dat de data gepseudonimiseerd of geanonimiseerd zouden moeten worden?

Hoewel de sekswerkers zelf de data publiceren, zijn er identificerende gegevens beschikbaar, zoals (valse) namen en telefoonnummers. Maar de betreffende sekswerkers hebben er misschien niet bij stilgestaan dat die namen en nummers gebruikt kunnen worden voor grootschalige analyse, en mogelijk tot identificatie kunnen leiden.

Wanneer zal de data geanonimiseerd worden?

Na het schoonmaken.

Hoe worden de data opgeslagen?

Op één computer. De bestanden zijn versleuteld.

Hoe worden de gegevens gevisualiseerd?

Dat weet ik nog niet. Waarschijnlijk worden de statistische gegevens gevisualiseerd in overleg met een beeldredacteur. Daarnaast worden de data omgezet naar een Neo4j-database en/of via de networkx-library in Python, die een aantal visualisatiemodules bevatten.

Deze modules zijn vooral bedoeld voor analyse en niet voor presentatie van het materiaal. Presentatie zal altijd geschieden in overleg met een beeldredacteur.

Welke (delen van de) data zouden kunnen worden hergebruikt?

De geaggregeerde data zijn geschikt voor hergebruik.

Onder welke voorwaarden kan deze data worden hergebruikt?

Alle identificerende gegevens moeten zijn verwijderd.

Welke gevaren ziet u in het hergebruik van de data?

  1. Identificatie van sekswerkers.
  2. Misbruik van de gegevens door mensen die een moreel bezwaar hebben tegen sekswerk of stalkers.
  3. Gebruik door de politie.
  4. Problemen met websites over databankrecht en/of copyright.

Welke wetten, voorschriften of richtlijnen zijn er van toepassing op uw project?

  1. Wet bescherming persoonsgegevens
  2. Databankrecht
  3. Auteursrecht

Bestaat het gevaar dat bepaalde mensen of groepen gediscrimineerd zouden kunnen worden door uw project?

Ja. Prostitutie is voor veel mensen geen normaal beroep.

Bestaat het risico op publieke verontwaardiging?

Ja.

Waarom bestaat het risico op publieke verontwaardiging?

  1. We maken een mogelijke privacyinbreuk, dat gezien het profiel van de auteur groter is.
  2. Verontwaardiging van sekswerkers.
  3. Verontwaardiging van politie, handhaving en/of hulpverleners indien data en scripts niet gedeeld worden.

Wat zou de kans op publieke verontwaardiging kleiner kunnen maken?

Transparantie. Duidelijke afspraken met hoofdredactie. Terughoudendheid in publiceren van data.

Wat voor gevoelige data is er betrokken bij uw project?

Seksuele voorkeuren, informatie over nationaliteit en etniciteit.

Welke resultaten verwacht u persoonlijk?

Inzicht in het aanbod van sekswerk in Nederland. Mogelijk aanwijzingen voor mensenhandel en gedwongen prostitutie.

Heeft u een vaag of onbestemd gevoel over dit project?

Ja.

Zou u dit gevoel kunnen omschrijven?

Of op basis van deze data überhaupt betrouwbare uitspraken gedaan kunnen worden (bijvoorbeeld statistisch). Over delen van de data met o.a. politie. Enerzijds is de politie nodig voor dit project, anderzijds is het niet mijn taak om bij de opsporing van sekswerkers te assisteren.

Is het sample dat u gebruikt in uw project een waarheidsgetrouwe representatie van de populatie?

Nee.

Wie mist er of is niet zichtbaar in uw dataset?

Ik heb het idee dat ik de belangrijkste sites heb gescrapet, maar de kwaliteit is niet overal even goed. Ook zijn er sites verdwenen, waardoor het moeilijk is uitspraken te doen over ontwikkelingen door de tijd heen.

En nu?

Het voordeel van deze tool is dat die je dwingt om over alle aspecten rekenschap te geven, behalve veiligheid, daar wordt niet echt over doorgevraagd.

Ik ben benieuwd wat jullie hiervan vinden, of jullie nog ethische bezwaren zien.

Tot slot nog een paar leestips:

  • Collega Maurits stuurde me verhaal over hoe opsporingsdiensten mensenhandelaren kunnen opsporen door middel van netwerkvisualisatie en het analyseren van bitcoinadressen.
  • Lezer Ben Brandenburg stuurde me toe uit het fenomenale Quanta Magazine (als je dat tijdschrift nog niet kent: lezen!). Het gaat over hoe een natuurkundige sociale netwerken (zoals IS) analyseert. Fascinerend.