De kansen, mitsen en maren van twitteronderzoek
We hebben met Twitter de sociale interactie van de atleten op de Olympische Spelen in kaart gebracht. Hoe hebben we dit onderzoek uitgevoerd, wat kunnen we ervan leren en welke mitsen en maren kleven eraan? Een verantwoording.
Twitter is uitermate geschikt om sociale netwerken en interactie bloot te leggen. Om dit aan te tonen, heb ik een experiment uitgevoerd in samenwerking met Daniela van Geenen en Maurits van der Goes (van de Utrecht Data School) en Erik Borra (onderzoeker aan de UvA en hoofdprogrammeur van het Digital Methods Initiative). We wilden onderzoeken of het mogelijk is via twitterverkeer te zien of de Olympische Spelen inderdaad tot internationale verbroedering leidden.
Er was een aantal beperkingen. Ten eerste, niet geheel onbelangrijk, wat is verbroedering precies? In een ideale situatie zie je aan het einde van de Spelen Russische en Amerikaanse atleten elkaar huilend in de armen vallen. In ons, reductionistische experiment, meten we verbroedering met behulp van de interactie tussen atleten op Twitter.
Als atleten van verschillende landen elkaar volgen of met elkaar praten, is er mogelijk sprake van toenadering. Er is in ieder geval sprake van sociale activiteit. Veel van mijn ‘vrienden’ op Twitter zijn geen vrienden in de fysieke wereld, maar het is ook niet zo dat deze mensen mij geheel koud laten. Ik volg ze omdat ik ze interessant, grappig of gewoon aardig vindt (en zij mij hopelijk om die redenen ook).
De Chinezen doen niet mee
Een tweede, zeer belangrijke beperking, is de gemankeerde representativiteit van Twitter. De officiële site van de Olympische Spelen leverde informatie over 1930 atleten. Er deden echter 2900 atleten mee. Uiteindelijk hebben we van 801 sporters een twitteraccount gevonden. Nog geen derde van het totaal. Ook zijn niet alle nationaliteiten even goed vertegenwoordigd. Chinezen ontbraken grotendeels (in China wordt Weibo gebruikt). Van de 78 deelnemende landen waren er uiteindelijk maar 35 vertegenwoordigd in ons onderzoek.
Ook tussen westerse landen waren er grote verschillen. Nederlanders zijn bijvoorbeeld vrij goed vertegenwoordigd op Twitter, zowel qua aantal accounts en qua activiteit. Duitsers juist weer niet. De Verenigde Staten en Canada zijn zeer dominant. De Verenigde Staten zijn verantwoordelijk voor 30 procent van alle tweets (253.173) over de gemeten periode (5 tot en met 26 februari). Canada volgt met 21 procent. Nedederland staat met nog geen 5 procent op de vierde plaats.
Toch geven deze vertekende data inzichten in hoe verschillende nationaliteiten met elkaar omgaan. In de data zien we heel duidelijk dat de Angelsaksische landen naar elkaar toetrekken. Ze communiceren veel onderling. Nederlanders communiceren vrij veel met Canadezen en Amerikanen, maar ook met Noren.
Technologie als black box
Een ander probleem van dit soort visualisaties is dat de gebruikte technologie beperkingen heeft die de analyse beïnvloeden. Voor het verzamelen van de tweets hebben we gebruik gemaakt van een tool die door Erik Borra en het Digital Methods Initiative is ontwikkeld, de zogenoemde DMI-TCAT. Deze, inmiddels open source, tool verzamelt tweets en maakt het mogelijk ze te analyseren en tweets en analyses vervolgens te exporteren. Het verzamelen van tweets ging over het algemeen goed. Alleen op 21 februari hadden we een kleine glitch: toen zijn er van enkele tientallen sporters geen data opgehaald.
Met de tweets hadden we nog geen informatie over de atleten zelf. Die informatie hebben we gescraped (automatisch opgehaald) van de website van de Olympische Spelen. Niet alle atleten stonden daar met hun account op. We hebben handmatig naar ontbrekende atleten moeten zoeken. Het kan dus zijn dat we er een aantal over het hoofd hebben gezien.
De data hebben we vervolgens gecombineerd (in MySQL en Excel) en ingevoerd in het open source-programma Gephi. Gephi is een visualisatieprogramma dat ons de nodige hoofdbrekens heeft gekost. Hoe het netwerk eruitziet, hangt af van het algoritme dat je kiest om het te visualiseren. In dit geval hebben we gekozen voor Force Atlas 2, omdat veel onderzoekers dat gebruiken. Maar de keuze had ook op een andere algoritme kunnen vallen, zoals Force Atlas, of Fruchterman Reingold. Het is moeilijk te doorgronden wat deze algoritmen precies doen, hoe ze de presentatie van het netwerk, en daarmee de analyse precies beïnvloeden. In de praktijk is het vooral een kwestie van trial and error, wat werkt wel, wat niet?
Overige vondsten
We hebben een aantal analyses gedaan. Ten eerste hebben we de veranderingen in volgrelaties bekeken, dus wie volgt wie. De gedachte was dat atleten elkaar zouden gaan volgen gedurende de Spelen. Dat effect zagen we nauwelijks terug. We hebben dit bekeken op het niveau van atleten (waarbij iedere atleet een node is) en op het niveau van landen (waarbij we de data van alle atleten hebben geaggregeerd tot nationaal niveau). Dat bleek weinig uit te maken: er waren al veel volgrelaties voorafgaand aan de Spelen. Op zich is dat logisch. De atleten zitten al jaren in een internationaal circuit en kennen elkaar vaak al.
Ten tweede hebben we gekeken naar de mention-netwerken, dus wie noemt wie. Dat kan zijn in de vorm van een reply, een gewone mention (dus dat iemand aangesproken of genoemd wordt) en een retweet (iemands tweet doorsturen). Dit leverde interessante informatie op. Hieruit blijkt dat sporters toch vooral veel contact hebben met sporters uit eigen land. Voor sommige sporten geldt dat er wel meer internationale contacten zijn, in het bijzonder voor ijshockey, snowboarden en freestyle skieën.
Al met al denk ik dat het een nuttige exercitie was. Het nodigt uit tot verder onderzoek. Van politici bijvoorbeeld. Of journalisten. Die zitten namelijk bijna allemaal op Twitter. Ook denk ik dat het interessanter is dit soort groepen een langere tijd te volgen. En wellicht kunnen we een iets minder ambitieuze, maar wel scherpere vraagstelling formuleren.