Deze assistent helpt je na te denken over de ethiek van je dataproject
Een paar weken geleden was er wat ophef over mijn nieuwsbrief. Ik presenteerde daarin de voorlopige resultaten van exploratief onderzoek naar de Twittergemeenschap rondom Erkenbrand, een zichzelf alt-right noemende studiegroep.
Ik keek in die nieuwsbrief onder andere naar welke media en accounts de (Twitter-)volgers en -vrienden belangrijk leken te vinden. Ik noemde netjes alle mitsen en maren. Nee, je kunt nog geen conclusies trekken op basis van dit soort onderzoek. En ja, het is maar Twitter - een heel klein en nogal vervormd stukje van de werkelijkheid.
Hoewel deze nieuwsbrieven bedoeld zijn als kijkje achter de schermen en als conversatie met leden, worden ze blijkbaar niet zo gelezen. Een aantal mensen dat ik bij naam noemde, was not amused dat ik ze in verband bracht met Erkenbrand (wat ik dus eigenlijk niet deed, maar die discussie laat ik liever rusten). Een aantal mensen ter linkerzijde zag in mijn stuk de bevestiging de genoemde personen inderdaad extreemrechts zijn - iets wat je op basis van de data absoluut niet kunt concluderen.
Kortom: missie mislukt.
Waar een assistent kan helpen
Hoewel ik altijd probeer in te gaan van alle ethische aspecten van de data die ik gebruik, de onderzoeksmethoden die ik hanteer en de vorm waarin ik resultaten presenteer, gaat het dus nog weleens mis.
Ik was dan ook blij dat ik vorige week bij de Utrecht Data School op bezoek was. De school had mij gevraagd data te leveren voor haar summerschool: data waarmee medewerkers een week lang hun technieken konden bijvijlen.
Het was voor mij ook leerzaam, omdat ik er kennismaakte met een tool die de Utrecht Data School heeft ontwikkeld: De Ethische Data Assistent, oftewel DEDA.
Deze assistent is een vragenlijst die je helpt om alle ethische aspecten van je dataverzameling, -gebruik en -visualisatie in beeld te krijgen. Op basis daarvan kun je een plan van aanpak maken dat rekening houdt met jouw onderzoeksbelangen, maar vooral ook van de belangen van de mensen van wie je data verzamelt en gebruikt.
De tool is een vragenlijst op een grote poster, die je als team afloopt. Dat ziet er zo uit:
De vragen dwingen je je dataproject scherp te omschrijven en na te denken over kwesties die misschien niet op je netvlies staan. Zoals: is er iemand in het team die kan uitleggen hoe het gebruikte algoritme werkt?
Andere vragen:
- Heeft u de kwaliteit van de dataset gecontroleerd?
- Hebben de data een houdbaarheidsdatum?
- Is het nodig de data te anonimiseren of pseudonimiseren?
- Hoe worden de gegevens gevisualiseerd? (De manier waarop je dat doet, de kleuren die je kiest, de dingen die je wel laat zien, de dingen die je weglaat, zijn allemaal keuzes die de interpretatie kunnen beïnvloeden.)
- Wat zou een andere manier van visualiseren zijn?
- Wie heeft toegang tot de dataset? (Daar bleek voor ons nog wel wat te verbeteren: te veel mensen konden bij de data, uiteindelijk is besloten een dataset op een computer te zetten die niet op internet is aangesloten.)
- Hoe wordt toegang gemonitord?
- Wat zijn de mogelijkheden van hergebruik?
- Welke gevaren ziet u in het hergebruik van de gegevens?
- Krijgt u door middel van de data inzicht in de persoonijke levenssfeer van burgers?
- Welke resultaten verwacht u persoonlijk?
- Wat verwachten andere teamleden?
- Is de steekproef een waarheidsgetrouwe representatie van de werkelijkheid?
De meest vragen liggen redelijk voor de hand. Maar wat fijn is aan DEDA is dat je ze systematisch afloopt, dat het jou en eventuele medewerkers dwingt om het gesprek aan te gaan en dat je al doende betere keuzes maakt. De weerslag van zo’n sessie is al bijna een verantwoording waarmee je naar buiten kunt treden.
Ik kan iedereen die geregeld met data van anderen werkt van harte aanraden deze tool eens te bekijken. Hij kan onnodige zeperds voorkomen en maakt je werk beter. Ik ga mij er in ieder geval voor inzetten om dit bij De Correspondent standaard te gebruiken.
En dan nog dit
Ondertussen ben ik met heel andere dingen bezig. Ik gaf een update van onderzoek naar de export van surveillanceapparatuur door Europese surveillancebedrijven. Twee van de drie verhalen die ik tipte, bouwen voort op onderzoek dat we met een groep Europese journalisten hebben gedaan naar dit soort export.
Nu werk ik aan een verhaal over een ander soort export, namelijk hoe de Italiaanse maffia zijn werkterrein heeft verlegd naar de rest van Europa. Ik schrijf dit niet zelf, maar bewerk het verhaal van enkele Italiaanse journalisten waar we mee samenwerken, zodat het ook voor ons geschikt is.
En wellicht heb je het meegekregen: de nieuwe tapwet is vorige week door de Eerste Kamer gekomen. Collega Maurits Martijn schreef samen met Matthijs Koot een erg goede analyse over deze wet.
Tot slot: dank voor de vele ideeën en bijdragen over de definitie van extreemrechts en bijzondere dank aan hen die de podcasts van Erkenbrand aan het transcriberen zijn.