Deze tool helpt je een heuse Twitteranalist te worden
Vorige week vertelde ik over hoe ik de netwerkdatabase Neo4j gebruik om het extreemrechtse netwerk in Nederland in kaart te brengen. Dank voor alle tips en reacties.
Het mooie van Neo4j is de flexibiliteit van het programma. Je kunt mensen, groepen, locaties, servers, websites, sociale media en nog veel meer met elkaar in verband brengen en de relaties daartussen heel goed beschrijven. Heb je nieuwe informatie? Dan kun je die zo toevoegen. Met behulp van netwerktheorie, zo is de gedachte, kun je vervolgens interessante aanwijzingen voor verhalen vinden.
De database die ik tot nu toe heb samengesteld is nog heel simpel, vooral een vingeroefening om de syntax van Neo4j in de vingers te krijgen en om te zien wat voor model ik uiteindelijk moet opzetten. Je krijgt dan dit soort plaatjes, waar ik nog niet echt veel mee kan.
De komende tijd ga ik mijn database aanvullen met nog veel meer informatie.
Ik denk ook al na over stap 2: het toevoegen van socialemediadata, in het bijzonder Twitterdata. En in deze nieuwsbrief wil ik je kennis laten maken met de tool die ik daarvoor gebruik. Mocht je zelf interesse hebben in Twitteranalyse, dan kan ik deze tool van harte aanbevelen.
Maar eerst, waarom zou je überhaupt aan Twitteranalyse willen doen? Als je het goed doet, en dat is een grote ‘als,’ dan kan deze analyse zeer waardevol zijn, denk ik. De inhoud van een tweet, of verzameling tweets, kan natuurlijk heel interessant zijn. Maar als je kijkt naar wie met wie communiceert, op wat voor manier (retweets, mentions, favorites) en wie met wie bevriend is, kun je communicatiepatronen blootleggen. Dat zijn patronen waar de betrokken mensen zich vaak niet bewust van zijn. Je kunt met die patronen een netwerk bouwen van mensen die iets met elkaar gemeen hebben.
De ‘als’ waar ik het net over had, zit ’m hierin: het is lastig om grote conclusies aan die patronen te hangen. Het feit dat twee personen veel Twittercontact hebben, betekent niet dat ze vrienden zijn. Het zou ook kunnen dat ze vijanden zijn, of elkaar lopen te trollen.
Daarnaast moet je ergens een grens bepalen wat een belangwekkend communicatiepatroon is. Leg je die grens te laag, bijvoorbeeld dat er sprake is van een relatie als twee mensen elkaar twee keer mentionen, dan krijg je een enorm netwerk zonder cohesie. Leg je die grens te hoog, dan hou je alleen de theekransjes over van mensen die continu met elkaar lopen te kleppen. Er is geen gouden regel - de juiste balans vinden is een kwestie van trial and error en verschilt per onderwerp.
In het verleden heb ik vaker Twitteranalyse gebruikt en ook de mitsen en maren beschreven.
Goed, dan nu over de tool
Aan de Universiteit van Amsterdam is een interessante onderzoeksgroep verbonden, het Digital Methods Initiative, dat toffe tools maakt om online informatie te verzamelen. Een van die tools is DMI-TCAT, de Digital Methods Initiative Twitter Capturing and Analysis Tool (ja, op de sexy namen moeten ze nog even oefenen), geschreven door Erik Borra, Bernhard Rieder en Emile den Tex.
Deze tool stelt iedereen in staat om een grote hoeveelheid tweets automatisch te verzamelen en te analyseren. Je kunt de software vrij makkelijk zelf installeren. Ik heb daarvoor voor vijf euro per maand een Ubuntuserver aangemaakt bij Digital Ocean, een aanbieder van serverruimte. Vervolgens is het een eitje om DMI-TCAT te installeren - vrijwel het hele installatieproces is geautomatiseerd.
Daarna kun je een lijst met Twitter-ID’s (unieke nummers die iedere gebruiker krijgt toegewezen) aan DMI-TCAT voeren. Die ID’s zijn wat lastiger te krijgen, want dat zijn niet de Twitternamen, zoals @tokmetzis, of @decorrespondent. Ik heb even een Python-scriptje gemaakt dat op naam zoekt in de Twitterdatabase en dan de ID van het meest waarschijnlijke account teruggeeft.
Hoe gebruik ik DMI-TCAT voor mijn project?
Voor mijn project over rechtsextremisme ben ik eerst naar kafka.nl gegaan. Deze site is van het onderzoekscollectief Kafka, dat al heel lang rechtsextremistische groepen en personen in kaart brengt. Ik heb alle namen van personen en groepen gescrapet. Die heb ik vervolgens door mijn Python-scriptje gehaald, waarop ik ongeveer 600 Twitter-ID’s terugkreeg. Een aantal was niet relevant: Adolf Hitler bijvoorbeeld, of Heinrich Himmler. Ja, ook die hebben een Twitteraccount.
Deze ID’s heb ik in DMI-TCAT gegooid en vervolgens heb ik in april alle tweets van deze accounts verzameld. Het resultaat? Dat is niet bruikbaar. Het is een enorme puinhoop van 200.000 tweets en tienduizenden accounts waar die 600 gebruikers mee hebben gecommuniceerd. Als je een voorstelling wilt maken van hoe dat eruitziet, denk aan een driftige baby, een bord spaghetti en een witte muur.
Ik ga dus wat kleiner beginnen, met ongeveer vijftig accounts die relevant zijn voor mijn onderzoek en een verzamelperiode van een week of twee. Als ik dit heb gedaan, zal ik daarover wederom rapporteren.
En nu?
Twitter is natuurlijk leuk, maar eerlijk gezegd is Facebook interessanter. Het probleem is dat Facebook minder data beschikbaar maakt dan Twitter, dus daar moet ik nog iets op verzinnen. Ik sta uiteraard open voor goede suggesties. Mocht je zelf met DMI-TCAT aan de gang gaan, laat dan weten wat je doet en wat de resultaten zijn. In onderstaande video wordt uitgelegd hoe je de resultaten met behulp van netwerksoftware Gephi kunt analyseren.
Tot slot nog een paar verhalen van mijzelf en een paar andere leestips:
- Rufus Kain schreef een interessant verhaal over gendergelijkheid in de popmuziek. Ik hielp hem met de data-analyse. Naar aanleiding van het verhaal zijn zeker tien lezers met de data aan de slag gegaan. Ik hoop binnenkort een aantal analyses van hen te delen.
- Er is inmiddels wat meer bekend over de WannaCry-ransomware. Ik hoop deze week tijd te vinden om van het stuk een update te schrijven. Wil je niet zo lang wachten, dan raad ik dit stuk aan van Krypt3ia, waarin hij ‘patient zero,’ de eerste besmetting, probeert te achterhalen. Of dit stuk van thegrugq op Medium. Hij heeft een wat cryptische manier van schrijven, maar is goed ingevoerd.
- Collega’s Huib Modderkolk en Tom Kreling hadden een mooi verhaal in de Volkskrant deze zaterdag over de jacht op ’s werelds meest gezochte hacker Evgeniy Bogachev (die volgens de stijlgids van de Volkskrant Bogatsjov heet). Ze reisden af naar Apana, een badplaats in Rusland, waar de maker van geavanceerde malware zich schuil zou houden. Een aanrader. En als je toch bezig bent, lees dan mijn verhalen over de bijzondere coalitie die de infrastructuur van Bogachev offline heeft gehaald.
- Tot slot: ik luister weer lekker vaak lezingen. Deze van de London School of Economics and Political Science vond ik fijn om in de auto te luisteren, een meanderend praatje over kapitalisme en de lessen van Marx en Engels.