Beste,

Vorige week over hoe ik de netwerkdatabase Neo4j gebruik om het extreemrechtse netwerk in Nederland in kaart te brengen. Dank voor alle tips en reacties.

Het mooie van Neo4j is de flexibiliteit van het programma. Je kunt mensen, groepen, locaties, servers, websites, sociale media en nog veel meer met elkaar in verband brengen en de relaties daartussen heel goed beschrijven. Heb je nieuwe informatie? Dan kun je die zo toevoegen. Met behulp van netwerktheorie, zo is de gedachte, kun je vervolgens interessante aanwijzingen voor verhalen vinden.

De database die ik tot nu toe heb samengesteld is nog heel simpel, vooral een vingeroefening om de syntax van Neo4j in de vingers te krijgen en om te zien wat voor model ik uiteindelijk moet opzetten. Je krijgt dan dit soort plaatjes, waar ik nog niet echt veel mee kan.

Een afbeelding van de Neo4j-database. Hier zien we de relatie tussen groepen en gebeurtenissen.

De komende tijd ga ik mijn database aanvullen met nog veel meer informatie.

Ik denk ook al na over stap 2: het toevoegen van socialemediadata, in het bijzonder Twitterdata. En in deze nieuwsbrief wil ik je kennis laten maken met de tool die ik daarvoor gebruik. Mocht je zelf interesse hebben in Twitteranalyse, dan kan ik deze tool van harte aanbevelen.

Maar eerst, waarom zou je überhaupt aan Twitteranalyse willen doen? Als je het goed doet, en dat is een grote ‘als,’ dan kan deze analyse zeer waardevol zijn, denk ik. De inhoud van een tweet, of verzameling tweets, kan natuurlijk heel interessant zijn. Maar als je kijkt naar wie met wie communiceert, op wat voor manier (retweets, mentions, favorites) en wie met wie bevriend is, kun je communicatiepatronen blootleggen. Dat zijn patronen waar de betrokken mensen zich vaak niet bewust van zijn. Je kunt met die patronen een netwerk bouwen van mensen die iets met elkaar gemeen hebben.

De ‘als’ waar ik het net over had, zit ’m hierin: het is lastig om grote conclusies aan die patronen te hangen. Het feit dat twee personen veel Twittercontact hebben, betekent niet dat ze vrienden zijn. Het zou ook kunnen dat ze vijanden zijn, of elkaar lopen te trollen.

Daarnaast moet je ergens een grens bepalen wat een belangwekkend communicatiepatroon is. Leg je die grens te laag, bijvoorbeeld dat er sprake is van een relatie als twee mensen elkaar twee keer mentionen, dan krijg je een enorm netwerk zonder cohesie. Leg je die grens te hoog, dan hou je alleen de theekransjes over van mensen die continu met elkaar lopen te kleppen. Er is geen gouden regel - de juiste balans vinden is een kwestie van trial and error en verschilt per onderwerp.

In het verleden heb ik vaker Twitteranalyse gebruikt en ook de mitsen en maren beschreven.

Retweet me en ik zal zeggen wie we zijn Twitter lijkt vooral een vergaarbak van geklets en geklaag. Maar die 140 tekens die we honderden miljoenen keren per dag de wereld insturen, leveren inmiddels bijzondere nieuwe inzichten op. Of de Olympische Spelen digitaal verbroederen bijvoorbeeld. Of: welke muziek door gaat breken. Welkom in de wondere wereld van de netwerktheorie. Lees verder De kansen, mitsen en maren van Twitteronderzoek We hebben met Twitter de sociale interactie van de atleten op de Olympische Spelen in kaart gebracht. Hoe hebben we dit onderzoek uitgevoerd, wat kunnen we ervan leren en welke mitsen en maren kleven eraan? Een verantwoording. Lees verder Dreigdwergen, haatsmurfen en de Roze Khmer: hoe Twitter een slagveld werd Vorig jaar werd een Nederlandse twitteraar veroordeeld voor een uit de hand gelopen ruzie. Maar die ruzie is meer dan dat: het is onderdeel van een langdurige oorlog op Twitter en in de blogosphere. Andersdenkenden worden daar al lang niet meer met alleen woorden bestreden – ze worden opgejaagd. Ik reconstrueerde de Twitteroorlog aan de hand van een netwerkanalyse van 1,2 miljoen tweets. Lees verder Zo heb ik 1,2 miljoen tweets geanalyseerd Voor het verhaal over de Twitteroorlog heb ik veel data gebruikt. In dit stuk licht ik bij wijze van journalistieke verantwoording toe hoe ik dat heb gedaan en welke keuzes ik daarbij heb gemaakt. Lees verder

Goed, dan nu over de tool

Aan de Universiteit van Amsterdam is een interessante onderzoeksgroep verbonden, het Digital Methods Initiative, dat om online informatie te verzamelen. Een van die tools is de Digital Methods Initiative Twitter Capturing and Analysis Tool (ja, op de sexy namen moeten ze nog even oefenen), geschreven door Erik Borra, Bernhard Rieder en Emile den Tex.

Deze tool stelt iedereen in staat om een grote hoeveelheid tweets automatisch te verzamelen en te analyseren. Je kunt de software vrij makkelijk zelf installeren. Ik heb daarvoor voor vijf euro per maand een Ubuntuserver aangemaakt bij Digital Ocean, een aanbieder van serverruimte. Vervolgens is het een eitje om DMI-TCAT te installeren - vrijwel het hele installatieproces is geautomatiseerd.

Daarna kun je een lijst met Twitter-ID’s (unieke nummers die iedere gebruiker krijgt toegewezen) aan DMI-TCAT voeren. Die ID’s zijn wat lastiger te krijgen, want dat zijn niet de Twitternamen, zoals @tokmetzis, of @decorrespondent. Ik heb even een Python-scriptje gemaakt dat op naam zoekt in de Twitterdatabase en dan de ID van het meest waarschijnlijke account teruggeeft.

YouTube
In deze video legt Erik Borra uit hoe DMI-TCAT werkt.

Hoe gebruik ik DMI-TCAT voor mijn project?

Voor mijn project over rechtsextremisme ben ik eerst naar kafka.nl gegaan. Deze site is van het onderzoekscollectief Kafka, dat al heel lang rechtsextremistische groepen en personen in kaart brengt. Ik heb alle namen van personen en groepen gescrapet. Die heb ik vervolgens door mijn Python-scriptje gehaald, waarop ik ongeveer 600 Twitter-ID’s terugkreeg. Een aantal was niet relevant: Adolf Hitler bijvoorbeeld, of Heinrich Himmler. Ja, ook die hebben een Twitteraccount.

Deze ID’s heb ik in DMI-TCAT gegooid en vervolgens heb ik in april alle tweets van deze accounts verzameld. Het resultaat? Dat is niet bruikbaar. Het is een enorme puinhoop van 200.000 tweets en tienduizenden accounts waar die 600 gebruikers mee hebben gecommuniceerd. Als je een voorstelling wilt maken van hoe dat eruitziet, denk aan een driftige baby, een bord spaghetti en een witte muur.

Ik ga dus wat kleiner beginnen, met ongeveer vijftig accounts die relevant zijn voor mijn onderzoek en een verzamelperiode van een week of twee. Als ik dit heb gedaan, zal ik daarover wederom rapporteren.

En nu?

Twitter is natuurlijk leuk, maar eerlijk gezegd is Facebook interessanter. Het probleem is dat Facebook minder data beschikbaar maakt dan Twitter, dus daar moet ik nog iets op verzinnen. Ik sta uiteraard open voor goede suggesties. Mocht je zelf met DMI-TCAT aan de gang gaan, laat dan weten wat je doet en wat de resultaten zijn. In onderstaande video wordt uitgelegd hoe je de resultaten met behulp van netwerksoftware Gephi kunt analyseren.

YouTube
Een tutorial van Gephi en Twitterdata van het Digital Methods Initiative.

Tot slot nog een paar verhalen van mijzelf en een paar andere leestips:

Op de hoogte blijven van mijn verhalen? Elke dinsdag vertel ik waar ik mee bezig ben, wat ik gelezen, gehoord en gezien heb én vraag ik jullie om hulp bij mijn producties. Schrijf je hier in voor mijn wekelijkse mail