Kom naar onze hackathon en help met dataonderzoek naar prostitutienetwerken
Voor een groot internationaal project over Europese prostitutienetwerken zoeken wij handige hackers en productieve pythonista’s. Kom je ook op zaterdag 24 augustus naar onze hackathon?
Update: 17 juli 17.30 uur: We hebben besloten dat de hackathon niet doorgaat. Onze overwegingen kun je lezen in deze notitie.
Update 12 juli 20.01 uur: Via Twitter en de bijdragensectie kregen wij vandaag veel terechte vragen over onderstaande oproep. Voordat je de originele oproep hieronder leest, delen wij [de hoofdredactie] graag een noot vooraf. We vinden bij nader inzien dat de toon van deze oproep de plank misslaat. En dat we niet duidelijk genoeg zijn over de journalistieke en ethische afwegingen van dit onderzoek. Vragen en kritieken worden nu verzameld via post@decorrespondent.nl. Dimitri is al meerdere jaren in contact met belangengroepen, hulpverleners en sekswerkers. Heeft hij cruciale belanghebbenden niet gesproken, dan horen we via dat adres graag van je. Wanneer alle reacties zijn verzameld, zullen we delen wat we ervan geleerd hebben en wat we ermee doen.
Veel van de sekswerkers en prostituees die in Nederland werken, komen uit andere landen. Vaak uit andere lidstaten van de EU, zoals Roemenië, Bulgarije, Griekenland en Spanje. Soms van verder, zoals Oekraïne, Latijns-Amerika of Noord- en West-Afrika.
Er is dus niet alleen een Nederlandse prostitutiemarkt, maar ook een Europese en zelfs internationale. En eigenlijk weten we maar weinig over hoe deze markten werken.
Daarom is de dataredactie van De Correspondent bezig om een groot samenwerkingsproject op te zetten met buitenlandse media om de Europese prostitutiemarkt te onderzoeken. Een aantal media heeft al toegezegd mee te willen doen.
Dit zijn onze hypotheses
Wij onderzoeken de volgende hypotheses:
- Er is zoiets als een Europese prostitutiemarkt, waar vraag en aanbod zich niet beperken tot de nationale grenzen.
- Er zijn verschillende migratiestromen tussen landen, in ieder geval: 1. Mensen die uit eigen beweging betaald sekswerk aanbieden in andere landen, soms tijdelijk, soms permanent. 2. Mensen die gedwongen worden, door anderen, organisaties of omstandigheden, sekswerk aan te bieden in andere landen en daar onder lijden.
- Hoewel het nationale prostitutiebeleid van alle lidstaten onderling erg verschilt, heeft dat beleid maar een kleine invloed op de vraag en het aanbod van prostitutie en sekswerk. Dat beleid heeft wel invloed op de leef- en werkomstandigheden van de prostituees en sekswerkers waarbij, over het algemeen, geldt dat hoe repressiever het beleid, hoe slechter deze werk- en leefomstandigheden zijn.
- Het beleid in de lidstaten en in de Europese Unie is niet gestoeld op harde informatie, omdat die vaak ontbreekt. Het beleid wordt daarom vaak ingegeven door emoties en niet door feiten.
- Advertenties van sekswerkers en prostituees bevatten zeer veel informatie die tot nu toe nauwelijks worden gebruikt. Mits goed verzameld, bewerkt en geanalyseerd, kunnen die advertenties inzicht bieden in de werking van de Europese prostitutiemarkt, de migratiestromen van verschillende groepen die betaalde seksuele handelingen aanbieden, de gevolgen van nationaal beleid en de leef- en werkomstandigheden van sekswerkers en prostituees.
De basis van ons onderzoek zijn dus data, of om preciezer te zijn, advertenties waarin betaalde seksuele handelingen wordt aangeboden, via escortdiensten, thuisontvangst, werk in clubs, et cetera. Die advertenties staan op gespecialiseerde websites, maar het werven van klandizie gebeurt ook via populaire apps, zoals Tinder, Grindr en Instagram.
Wat we willen doen met data uit advertenties
Om inzichten uit die advertenties te kunnen halen, moet er veel gebeuren. Onze developer Heleen Emanuel werkt hard aan een geavanceerde datapipeline waarin de volgende stappen plaatsvinden:
- Het betrouwbaar vergaren van data in verschillende Europese landen.
- Normaliseren van deze data, zodat we data over tijd en tussen verschillende landen kunnen vergelijken.
- Structureren van deze data in een graph database.
- Visualiseren en analyseren.
Waar we hulp bij nodig hebben
Er zijn nog een paar flinke stappen nodig, daarom vragen we jullie hulp.
Ruwweg zijn er twee taken.
Voor de eerste taak hebben we vele extra handen nodig om scrapers te bouwen in Python (op basis van Scrapy). Iedere website is weer anders en in totaal willen we tientallen sites langdurig volgen. De basis is gereed – de modules zijn geschreven, de server-infrastructuur staat als een huis – maar er is praktisch nog veel te doen.
Dit is niet het meest spannende werk, gewoon een kwestie van code kloppen. Maar het moet gebeuren. En als het eenmaal staat, hebben we een indrukwekkende stofzuiger gebouwd die een waarlijk unieke dataset langdurig kan binnenslepen en verrijken.
De tweede taak is wat spannender. We willen graag in een aantal groepjes een paar hardnekkige problemen oplossen, zoals:
- Er is ook aanbod van betaalde seks op een aantal apps, zoals Tinder, Grindr en Instagram. Hoe kunnen we die aanbiedingen (geautomatiseerd) vinden en scrapen? We hebben hier wel wat ideeën over, maar horen graag verschillende perspectieven.
- We staan voor de uitdaging om de data van veel sites in veel verschillende Europese talen te normaliseren. Ook hier geldt: wat zijn goede methoden om dit te doen, zonder dat het meteen de omvang van een promotieonderzoek krijgt?
- De kunst wordt om verbanden te vinden tussen verschillende advertenties op dezelfde site, of op verschillende platforms. Als één telefoonnummer bijvoorbeeld bij veel verschillende advertenties opduikt, kan dat van belang zijn (misschien zit daar één persoon achter). Er zijn interessante onderzoeken gedaan om met relatief behapbare machine learning te achterhalen welke advertenties door dezelfde persoon zijn geschreven.* Ook hier geldt: we zijn benieuwd welke mogelijkheden jullie zien.
- Ook kunnen we nog hulp gebruiken bij het herkennen van entiteiten in de advertenties. Dus: hoe je uit zeer slordige tekst kunt herkennen in welke stad betaalde seks wordt aangeboden. Om een Nederlands voorbeeld te gebruiken: ‘Rotterdam’ kun je op verbazingwekkend veel manieren schrijven (010, R’dam, rdam, rotdam, rotjeknor, et cetera).
- Tenslotte, maar dat is voorlopig nog even een extraatje, zijn we benieuwd welke belangwekkende informatie we kunnen verkrijgen uit afbeeldingen en metadata. We hebben weinig ervaring op onze dataredactie met image recognition, terwijl daar al veel, redelijk laagdrempelige mogelijkheden voor bestaan.
Dus mocht je een van deze onderwerpen interessant vinden, of je Python-vaardigheden een dagje aan ons willen uitlenen om een paar scrapers te bouwen, geef je dan op voor deze hackathon. Het wordt interessant en hopelijk ook gezellig.
Wil je meedoen, stuur dan een berichtje naar dataredactie at decorrespondent punt nl en vertel welke vaardigheden je wilt toevoegen aan deze dag. Onze ervaring is dat het belangrijk is een goede balans van verschillende vaardigheden te zoeken: dan krijg je echt interessante gesprekken waar iedereen van leert. We kunnen daarom niet iedereen die wil komen uitnodigen, al zouden we dat graag willen.
Dan nog even de praktische zaken op een rij:
Wat: Hackathon prostitutiedata
Waar: Op onze redactie aan Barentszplein 7, vrij centraal in Amsterdam (goed bereikbaar met OV, beperkt aantal gratis parkeerplekken beschikbaar)
Wanneer: Zaterdag 24 augustus vanaf 10.00 uur, totdat we het zat zijn
Wie: Iedereen die bijvoorbeeld Python, graph databases, machine learning beheerst of ervaring heeft met het semantic web of app development.
Waarom: Het is onbetaald, maar leerzaam, gezellig en vooral ook nuttig.
Hoe: meld je aan door een mailtje te sturen naar dataredactie at decorrespondent punt nl.
Hoe verder?
Deze hackathon is het startschot voor dit onderzoek. De data zijn belangrijk, maar natuurlijk een deel van het verhaal. We zoeken samenwerking met andere mediapartners om juist ook veel onderzoek ter plaatse te kunnen doen, zodat we de wereld achter de advertenties ook goed leren kennen.
Daarnaast betrekken we ook andere belanghebbenden bij ons onderzoek, in de eerste plaats de sekswerkers zelf, maar ook hulpverleners. Op verschillende momenten in het onderzoek voeren we een ethische toets uit om te zorgen dat we op een verantwoorde manier met deze gevoelige data blijven omgaan.