Dus ik heb 200.000 extremistische video’s. En nu?
Een tijdje geleden vertelde ik dat ik een mooie database heb gemaakt met daarin de socialemediagegevens van enkele honderden Europese radicale en extreemrechtse bewegingen. Denk aan Twitteraccounts, Facebookpagina’s, Instagramaccounts en YouTubekanalen.
Een van de eerste projecten met deze data gaat over YouTube. Ik kan er nog niet te veel over zeggen - sorry, ik wil geen concurrenten wakker schudden - maar over één aspect kan ik wél concreet zijn.
Ik heb een lijst met ruim zeshonderd radicaal- en extreemrechtse bewegingen en vloggers (met de focus op Europa) die een kanaal hebben op YouTube. Van de tweehonderd meest populaire kanalen heb ik informatie over alle geplaatste video’s verzameld. Het gaat om meer dan 200.000 filmpjes, in zo’n beetje alle Europese talen.
Stel je nu voor dat je per filmpje, per kanaal, per taalgebied en per land het onderwerp kunt benoemen. Dan kun je over de tijd zien waar radicaal- en extreemrechtse groepen op YouTube over praten, welke onderwerpen controversieel zijn, welke thema’s aanslaan, hoe die verschillen tussen taalgebieden en landen en hoe die veranderen. Tof toch?
Python is mijn redding
Ik denk dat ik dit soort informatie uit mijn dataset moet kunnen krijgen. Per filmpje is namelijk bekend:
- wanneer het is geüpload;
- hoe vaak het is bekeken;
- hoeveel comments er zijn (op het moment dat ik de data heb verkregen);
- hoeveel likes en dislikes er zijn;
- de titel;
- en de beschrijving.
Al die video’s bekijken is geen optie, maar met die titels en beschrijvingen kan ik wel aan de slag, want gelukkig is er Python, een populaire programmeertaal.
Ik ben nu aan het experimenteren met topic modelling. Dat werkt, zeer simpel gesteld, zo: je stelt een corpus samen, een verzameling tekst. Vervolgens laat je daar een algoritme op los (om precies te zijn het ‘Latent Dirichlet allocation algoritme’). Dat gaat zoeken naar patronen in het corpus: waar staan woorden, in welke combinaties komen ze voor, hoe zeldzaam of talrijk zijn ze? Als het algoritme klaar is, spuugt het een aantal onderwerpen uit die het heeft gevonden.
Niks begrijpend lezen: dit is gewoon statistiek.
Wat ik nou zo bijzonder vind, is dat dit soort software beschikbaar is voor simpele alfa’s als ik. Ik hoef alleen maar een paar zogenoemde libraries te downloaden en in mijn code toe te passen. Al de ingewikkelde statistiek wordt dan voor me gedaan. Ik hoef voorts alleen maar wat code te schrijven zodat mijn corpus op een juiste manier aan het algoritme wordt gevoed.
Klopt het?
Zelfs de verschillende talen zijn geen probleem. Die laat ik gewoon automatisch vertalen door Google. En heel fijn, Google levert ook een ‘confidence score’ mee met de vertalingen, zodat ik daar rekening mee kan houden. Recentelijk hebben onderzoekers laten zien dat het algoritme daar prima resultaten mee behaalt.
In het gemak schuilt natuurlijk ook een gevaar, want in hoeverre kan ik doorgronden wat er precies gebeurt in dat algoritme? En hoe weet ik zeker dat de uitkomst klopt?
De meeste tijd gaat dan ook zitten in het checken van de resultaten, dus continu bijstellen van de instellingen van het algoritme en de uitkomsten vergelijken met de beschrijvingen in mijn dataset. Ook wil ik deze methode met een andere vergelijken, om zeker te weten dat mijn uiteindelijke analyse klopt. Uiteraard leg ik mijn werk tussendoor steeds aan enkele experts voor, om de betrouwbaarheid te waarborgen.
Wil je meekijken of meehelpen? Hier vind je een notebook en data die ik gebruik. Mijn Python is nog niet optimaal, dus als je suggesties hebt, hoor ik het graag.
En dan nog over de Hague Security Delta
Samen met Follow the Money schreven we een update over een onafhankelijk onderzoek naar de Hague Security Delta. Naar aanleiding van kritische verhalen van Follow the Money en van ons over het nut en de noodzaak van deze gesubsidieerde Haagse veiligheidslobby werd een onderzoek uitgevoerd in opdracht van de gemeente Den Haag. De resultaten waren nogal teleurstellend: de belangrijkste vragen werden niet gesteld, laat staan beantwoord. Lees hier de update.
En nog even over privacy
Morgen is het referendum over de nieuwe Wet op de inlichtingen- en veiligheidsdiensten (Wiv). Op het moment dat ik dit schrijf, weet ik ook nog niet wat ik ga stemmen. Ik zie de nodige problemen met deze wet, maar een nieuwe wet is ook noodzakelijk en de nieuwe Wiv is in veel opzichten een verbetering van de oude wet. Ik ga dan ook geen stemadvies geven.
Wel kan ik je verwijzen naar enkele stukken die we hebben geschreven waarin we kijken naar de argumenten die voor- en tegenstanders hanteren. En collega Maurits Martijn schreef samen met gastauteur Matthijs Koot een uitgebreide exegese van de wet. Misschien dat deze verhalen je kunnen helpen met het bepalen van je stem?
Mocht je nog een goede opfrisser kunnen gebruiken voor waarom privacy zo belangrijk is, dan kun je uiteraard het boek lezen dat Maurits en ik hebben geschreven: Je hebt wél iets te verbergen. We hebben net een geactualiseerde versie uitgebracht, met een nieuw voorwoord. Dus zoek je inspiratie, of nog een leuk cadeau voor iemand, overweeg dan de nieuwe versie van dit boek.
Tot de volgende keer,
Dimitri