Een verantwoording: Zo heb ik het porno-onderzoek uitgevoerd
Bij een groot onderzoek hoort ook een methodologische verantwoording. Hoe heb ik het onderzoek naar de aard, omvang en veranderingen van de porno-industrie uitgevoerd? En daarnaast de warme oproep: jat mijn data.
Tegen de zomer ontstond het idee bij adjunct-hoofdredacteur Karel Smouter en mij om onderzoek te doen naar de pornosector. De reden was simpel: de porno-industrie levert een product dat velen van ons gebruiken, maar waarvan we eigenlijk niet weten hoe dat tot stand is gekomen. Daarnaast lag er een prikkelende vraag voor de hand: hoe verdien je geld met een product dat gratis verkrijgbaar is?
Karel en collega-correspondent Vera Mulder hebben zich vooral op de menselijke kant gericht en bijvoorbeeld met acteurs, producenten en gebruikers gesproken. Ik heb mij van meet af aan vooral gericht op cijfers, netwerken van sites en bedrijven, verdienmodellen en economische ontwikkelingen.
Allereerst hebben we een hackathon georganiseerd die op 2 augustus plaatsvond op onze redactie in Amsterdam. Terwijl Karel met seksuologen, ervaringsdeskundigen en sociologen de ins en outs van pornografie besprak, ging ik met een aantal hackers aan de slag om data te vinden en te ordenen.
Voor het verhaal van vandaag hebben we daar bijzonder veel van gebruikt. Ik beschrijf nu wat ik daarmee heb gedaan, welke mitsen en maren daarbij horen en welke keuzes ik heb gemaakt. Feedback is zeer welkom.
Allereerst heb ik het onderwerp beperkt tot online pornografie. De pornosector is vrij breed. Er wordt niet alleen content geproduceerd voor het internet, maar ook voor bijvoorbeeld video on demand en dvd’s (al zijn die niet meer echt belangrijk).
Adult sites met porno of cabaretiers
Om een goed beeld te krijgen van de omvang van de online porno-economie heb ik eerst een lijst verzameld van websites. Ik ben begonnen met Alexa, een site die het verkeer naar websites in kaart brengt. Het probleem van Alexa is dat de meetmethoden nogal onbetrouwbaar zijn en de categorisering van websites (ik zocht naar adult) gebrekkig. Zo zaten er veel sites in de lijst van Amerikaanse cabaretiers. Daarom heb ik ook SimilarWeb gebruikt. Ook daar zijn de meetmethoden niet ideaal, maar door de twee te combineren, heb ik een redelijk complete lijst kunnen samenstellen.
Vervolgens heb ik de lijst met websites door de database van Who.is gehaald om te kijken welke andere sites de eigenaars hadden. Bij Who.is wordt data geleverd over wie een domeinnaam bezit of beheert en, soms, over het historische bezit daarvan. Bij elkaar leverde dat een lijst op van 8.936 pornografische websites.
Deze lijst heb ik vervolgens weer door de database van SimilarWeb gehaald om de schattingen van het aantal bezoekers van de maand juli 2014 te krijgen. Dit is geen ideale maand, omdat een deel daarvan in de vakantie valt en het verkeer dus mogelijk lager uitvalt. Een andere maand nemen was te tijdrovend, omdat ik daarvoor code moest schrijven.
Uit de Who.is-database heb ik ook informatie gehaald over de eigenaars van de site, al is eigenaars een sterk woord: veel websites worden door anderen dan de eigenaars geregistreerd, bijvoorbeeld door gespecialiseerde bureautjes die het eigenaarschap afschermen. Soms stond er ook alleen maar de naam van de persoon die de domeinnaam registreerde en niet de naam van de organisatie.
371 sites handmatig bezocht
Alle sites met meer dan 100.000 bezoeken per maand (371) heb ik handmatig bezocht om eigendomsinformatie te vinden. Dat leverde ook een aantal namen op van bedrijven. Al die namen heb ik vervolgens door de database van Opencorporates.com gehaald. Opencorporates.com is een fraaie website die alle openbare en gedigitaliseerde bedrijvenregisters ter wereld bundelt. Waar nodig heb ik de nationale handelsregisters geraadpleegd en akten opgevraagd. Dat leverde een hele lijst bedrijfsnamen en hun bestuurders op. Van alle bestuurders heb ik vervolgens bekeken wat ze nog meer bezitten.
De 150 meest bezochte sites heb ik geanalyseerd met behulp van debuggingsoftware Charles. Daarmee kan ik zien met welke servers mijn computer communiceert als ik een bepaalde website open. Omdat ik een vals beveiligingscertificaat gebruik, kan ik ook beveiligd verkeer analyseren, al vond het meeste ip-verkeer onbeveiligd plaats.
Alle ip-adressen die mijn gesurf naar de 150 websites had opgeleverd, heb ik vervolgens door de database van MaxMind Geo-IP gehaald. Dit bedrijf levert informatie over wie een bepaald ip-adres beheert of bezit. Op die manier kon ik zien van welke internet-infrastructuur de grote pornosites gebruikmaken.
Vervolgens heb ik alle data genormaliseerd met Excel, Access en Open Refine en klaargemaakt voor enkele visualisatieprogramma’s, waaronder Tableau, Gehpi en NodeXL.
Kritiek op verkeersgegevens
Uiteraard heb ik de data nog aan een paar insiders voorgelegd. Die hadden kritiek op de verkeersgegevens van SimilarWeb. Sommige bedrijven, waaronder PB Webmedia kwamen daar nogal bekaaid vanaf. De cijfers voor de grote tubesites (zoals YouPorn en xHamster) leken wel te kloppen.
Hier doemt het probleem op dat deze cijfers de enige min of meer openbare cijfers zijn. Ik heb besloten ze toch te gebruiken. De focus van mijn verhaal ligt op de grote spelers. Die cijfers kloppen redelijk. Daarnaast is er simpelweg, voor zover ik weet, nog nooit een dergelijke analyse gemaakt. Met inachtneming van een foutmarge (die onbekend is) is het totaalbeeld wel waardevol.
Jat mijn data
Mocht je gebruik willen maken van de data, doe dat gerust als het voor niet-commerciële doeleinden is. Wil je het wel voor commerciële doeleinden gebruiken, neem dan even contact met mij op. Mocht je met de data aan de slag gaan, laat het me even weten, want ik ben erg benieuwd wat anderen eruit weten te krijgen. Er zit nog meer dan genoeg in om te visualiseren en te analyseren.
Bedankt
Rest me nog een aantal mensen te bedanken die aan deze productie hebben meegeholpen: Daniela, Anne, Guillaume, Steyn, Rieky, Liesbet, Charlotte, Frederik, Mayra, Anna, Bernard, Marleen, Hannah, Rico, Irene, Emiel, Ronald, Giegie, Lauren, Yvette, Bastiaan, Tom, Marjolein, Felienne, Maartje, Leonie, Gerwi, Ernest en Karel.