De Olympische Spelen gaan over strijd en verbroedering. De afloop van de strijd kun je meten aan de hand van het aantal plakken dat landen, teams en atleten weten binnen te slepen. Maar hoe zit het me de verbroedering, kunnen we die ook meten?

Wij denken van wel.

‘Wij’ zijn in dit geval Erik Borra, onderzoeker aan de Universiteit van Amsterdam, studenten Daniela van Geenen en Maurits van der Goes van de Utrecht Data School en ik. Samen willen we een proefje uitvoeren.

Sociale media maken het mogelijk om met relatief weinig data vrij uitgebreide netwerkanalyses te maken van groepen mensen. Dit soort analyses zijn een mooie aanvulling op het journalistieke Als je wilt weten hoe de atleten op de Spelen van Sotsji met elkaar omgaan, kun je natuurlijk proberen het olympische dorp binnen te komen om van zo veel mogelijk sporters informatie te ontfutselen. Je kunt ook hun digitale sporen volgen. Idealiter doe je beide.

Hoe gaan we te werk? 

Eerst hebben we natuurlijk data nodig. Om deze te verzamelen gebruiken we Twitter. Het voordeel daarvan is dat het een vrij, open medium is. Het bedrijf maakt het mogelijk om allerlei tweetinformatie geautomatiseerd op te Ruim één derde van de atleten in Sotsji zit op Twitter. We hebben toegang tot de inhoud van hun tweets en kunnen het tijdstip van verzending achterhalen, de locatie (als deze functie is aangezet door de atleet), de naam van de atleet, wie de atleet volgt, door wie hij wordt gevolgd, evenals zijn communicatie met anderen (via ‘mentions’, ‘retweets’ en ‘reply’s’).

Het Digital Methods Initiative van de UvA, waar Borra hoofdprogrammeur voor is, heeft een mooie tool ontwikkeld waarmee je deze data eenvoudig binnenhaalt en meteen kunt analyseren; de Het is een zeer fraai programma dat binnenkort gratis zal worden aangeboden. Hiermee kunnen we alle data meteen goed structureren en zodoende ook analyseren. Zo kunnen we interacties tussen de atleten onderzoeken, maar bijvoorbeeld ook ‘sentimentanalyses’ uitvoeren (in vijftien verschillende talen); hoe gaan atleten om met verlies en winst?

Dit klinkt misschien als NSA’tje spelen. Van belang is het dus om te benadrukken dat het hier om openbare informatie van publieke figuren gaat: we gebruiken alleen informatie die de atleten zelf al publiek hebben gemaakt. Het is ons bovendien niet te doen om individuele atleten, maar om de groepsdynamiek. 

Is het zo simpel?

Nee, zeker niet. Zoals iedere methode, heeft ook deze de nodige beperkingen.

Allereerst: het is maar Twitter. Het merendeel van de atleten gebruikt dat medium niet. Chinezen bijvoorbeeld gebruiken het microblog Weibo, een soort Twitter. Voor zover bekend zijn Weibo-data moeilijker te verkrijgen. Dat is jammer voor ons. Het zou namelijk interessant zijn om ook China mee te nemen in onze analyse.

We denken er daarom over ook van Facebook-data gebruik te maken. Op zich kan dat, maar het maakt het vergaren van data en daarmee de analyse wel een stuk ingewikkelder. Ieder medium produceert zijn eigen typen data in een geheel andere context. Statusupdates van Twitter zijn bijvoorbeeld voor iedereen zichtbaar. Updates voor Facebook voor een beperkte kring. Die kun je niet zomaar samenvoegen.

Ten tweede zet Twitter een rem op wat je aan data binnen kunt halen. Het hangt een beetje af van het type data, maar doorgaans kun je hun database maar een aantal keer per uur bestoken met omvangrijke verzoeken. Wil je meer, dan moet je daarvoor betalen − en niet weinig ook. Voor de hoeveelheid die wij nodig hebben, ben je zo een paar duizend euro kwijt.

We willen iedere dag bekijken welke nieuwe relaties er binnen de groep van circa tweeduizend atleten zijn ontstaan. Om daar achter te komen moeten we de database heel vaak bevragen, of een slimme manier vinden waarop ons programma DMI-TACT de atleten van de niet-atleten kan scheiden. 

Derde probleem: is een volgrelatie op Twitter ook een vriendschapsrelatie? Dat zal per persoon verschillen. Het merendeel van de mensen die ik volg, heb ik in het echt nooit ontmoet, laat staan dat ik er bevriend mee ben. Aan de andere kant is een mention, retweet of reply wel een soort stem die je aan iemand geeft, positief dan wel negatief. In de analyse houden we rekening met deze onzekerheden.

De beperkingen die Twitter oplegt, vragen dus om extra inzet van ons en daarbij moeten we continu afwegingen maken. Het liefst zouden we per uur de nieuwe vriendschappen in kaart brengen, maar dat is niet te 

Wat kunnen we met de data?

Als alles goed verloopt, kunnen we zien hoe ‘vriendschappen’, elkaars volgers, zich op Twitter ontwikkelen. We hopen in ieder geval de vraag te beantwoorden of er tijdens de Spelen meer interactie is gekomen tussen atleten uit verschillende landen. 

Die analyse kunnen we vervolgens verfijnen. We kunnen specifieke landen tegen elkaar afzetten, maar ook verschillende sporten met elkaar vergelijken, of groepen landen. Daarnaast hebben we veel biografische data zodat we ook kunnen kijken of mannen en vrouwen op een andere manier vriendschapsverbanden aangaan, en of er bijvoorbeeld verschil is tussen jonge sporters en oude rotten.

We zien dit onderzoek zelf nadrukkelijk als een experiment. Of de uitkomst van onze analyse de werkelijkheid benadert, blijft speculeren - gezien de genoemde methodologische mitsen en maren. De ontwikkeling van dit soort instrumentarium is echter te interessant om te laten liggen. We worden bovendien steeds beter in het toepassen ervan. En wie weet vinden we een relevant antwoord op onze vraag, en kunnen we straks echt aantonen dat de Olympische Spelen

zeker wel

absoluut niet

een klein beetje 

verbroederen.

We hopen eind februari een eerste antwoord te kunnen geven.