29.04.14 Verhaal van de dag 9-12 min

Retweet me en ik zal zeggen wie wij zijn

Correspondent Surveillance & Technologie

Illustratie: Esther Aarts (voor De Correspondent)

Twitter lijkt vooral een vergaarbak van geklets en geklaag. Maar die 140 tekens die we honderden miljoenen keren per dag de wereld insturen, leveren inmiddels bijzondere nieuwe inzichten op. Of de Olympische Spelen digitaal verbroederen bijvoorbeeld. Of: welke muziek door gaat breken. Welkom in de wondere wereld van de netwerktheorie.

Dit verhaal over de waarde van Twitter begint in 1736 (geen typefout). In dat jaar loste de Zwitserse wiskundige Leonhard Euler een ingewikkelde puzzel op: de puzzel van de zeven bruggen van Koningsbergen.

De Pruisische stad, thans Kaliningrad, ligt in de monding van rivier de Pregel. Tussen de oevers liggen twee eilandjes, die met zeven bruggen aan elkaar en aan de rivieroevers verbonden waren. De puzzel was: kun je alle bruggen bewandelen zonder een brug tweemaal te betreden? Vermoedelijk zijn in de zoektocht naar het antwoord heel wat schoenen en landkaarten versleten.

Maar Euler had genoeg aan een pen, papier en het inzicht dat het probleem eigenlijk wiskundig van aard was.

Hij bracht het namelijk terug tot de kern. Dus weg met de oevers, de eilanden, het water, de keien, de steegjes en de geuren, kleuren en geluiden van Koningsbergen. Vanuit abstract oogpunt bestond de puzzel uit vier locaties (de twee oevers en de twee eilanden) en de zeven verbindingen ertussen. Volgens Euler was het bruggenprobleem te visualiseren als een netwerk, ook wel een graaf genoemd. Vrij simpel rekenwerk toonde vervolgens aan dat het wiskundig onmogelijk was alle bruggen eenmaal aan te doen. Om een nieuwe brug te bereiken, moest je altijd een reeds betreden brug over.

Eulers oplossing zou de wetenschap tweehonderd jaar later op zijn grondvesten doen schudden. Hij had de grafentheorie bedacht.

Het centrale idee van grafentheorie is dat onder haast alle natuurlijke en sociale fenomenen een wiskundige structuur ligt, waarbij objecten (nodes) met elkaar verbonden zijn (via edges). Die objecten kunnen bijna alles zijn: mensen, neuronen, planeten, computers, wetenschappelijke publicaties, documenten, websites; alles wat op de een of andere manier een relatie met iets anders kan aangaan. Een verzameling nodes en edges vormt een graaf, een netwerk.

Hoe sterk is mijn relatie?

Het grote voordeel van een wiskundige netwerkbeschrijving is dat je er heel gemakkelijk berekeningen op los kunt laten. Je kunt bijvoorbeeld uitrekenen hoe en wanneer een paar gevallen van griep een epidemie zullen vormen. De nodes zijn dan besmette en (nog) gezonde mensen, de edges de relaties tussen hen. Hoe dikker de edge, hoe vaker deze personen elkaar zien. Aan de structuur van het netwerk kun je zien welke nodes en relaties je moet isoleren om een epidemie te voorkomen. Bijvoorbeeld de nodes die twee bijna losstaande sociale groepen met elkaar verbinden:

Netwerktheorie maakt het mogelijk de kracht en transformatie van relaties te meten. In 1973 publiceerde de Amerikaanse socioloog Mark Granovetter een baanbrekend onderzoek met de titel The Strenght of Weak Ties, de kracht van zwakke relaties. Hij onderzocht hoe mensen hun sociale netwerk gebruikten om aan werk te komen. Zijn bevinding: banen werden meestal gevonden door tips en hulp van vage kennissen en niet via hechte vrienden en familie. Als je al close bent met bepaalde mensen, deel je waarschijnlijk grotendeels dezelfde informatie. En dat is niet nuttig voor het vinden van werk dat zich buiten je directe kring bevindt (anders had je er al wel van gehoord).

Nu, in tijden van LinkedIn, Facebook en het internet in het algemeen nemen we het denken in relaties en netwerken voor lief. In de jaren zeventig was dit baanbrekend.

De waarde van Twitter

Denken in termen van netwerken brengt ons bij Twitter en de waarde die het microblog heeft. Die waarde is groot voor sociologen, pr-bedrijven en computerwetenschappers.

Twitter maakt namelijk sociale netwerken zichtbaar. We kunnen zien wie met wie communiceert, hoe sterk die relaties zijn en hoe ze veranderen. Ga maar na. Twitter telt 250 miljoen actieve gebruikers die dagelijks 500 miljoen tweets versturen. Soms is dat onopgemerkt geouwehoer en geklaag in de digitale leegte. Vaker vinden er conversaties plaats tussen mensen die elkaar online of in de fysieke wereld kennen en die, hoe loszandig ook, een gemeenschap vormen.

Een retweet of reply is een sociale interactie. Je spreekt je steun uit voor een idee. Je wilt met iemand geassocieerd worden. Of juist niet

In dit sociale netwerk zijn een retweet en reply meer dan het doorsturen van iemands tweet of een antwoord erop. Een retweet of reply is een stem voor of tegen een idee of persoon: een sociale interactie. Je spreekt je steun uit voor een idee. Je wilt met iemand geassocieerd worden. Of juist niet.

Het grote voordeel van Twitter is dat de data heel actueel en toegankelijk zijn. Met dat laatste doel ik op de technische infrastructuur: tweets worden voor buitenstaanders ontsloten door middel van een API, een Application Programming Interface. Deze software maakt het mogelijk rechtstreeks en heel gericht data op te vragen uit een database. Je hoeft dus niet van een website te tellen en turven. Ook maakt de API het mogelijk de data heel gestructureerd op te slaan, waardoor je meteen aan het rekenen en analyseren kunt slaan.

Leiden de Olympische Spelen tot meer verbroedering?

Met twee studenten van de Utrecht Data School en onderzoeker Erik Borra (UvA, Digital Methods Initiative) heb ik onderzocht of we met behulp van twitterdata konden bepalen of de Olympische Spelen onder atleten tot meer internationale verbroedering leidden; een belangrijk ideaal van het sportevenement.

Met behulp van de Twitter-API hebben we alle tweets van zo’n achthonderd atleten (ongeveer één derde, de rest zit niet op Twitter) verzameld tussen 5 en 26 februari. We kregen daarmee de inhoud van de tweets, de interactie tussen gebruikers (mentions, retweets en replies) en nieuwe ‘vriendschappen.’ Uit de analyse bleek al snel dat er tijdens de Spelen weinig nieuwe volgrelaties op Twitter ontstonden.

Maar met de tweets konden we wél een sociaal netwerk visueel construeren, waarbij de atleten nodes zijn en hun interactie (mentions, retweets en replies) de edges. Dit leverde een sociale structuur en daarmee enkele nieuwe inzichten op. In onderstaand filmpje zie je dit zogenoemde mention-netwerk. Met eenvoudig rekenwerk is inzichtelijk te maken dat de meeste atleten toch vooral met atleten uit hun eigen land communiceren. Het antwoord op de vraag of de Spelen - in deze specifieke digitale zin dan - verbroederen is dus een voorzichtige nee.

Maar we zagen ook dat sommige atleten wel degelijk een brugfunctie vervullen tussen nationaliteiten. Zij hebben veel interactie met zowel landgenoten als buitenlandse atleten. Een algoritme kijkt in dit geval naar de structuur van het netwerk en berekent voor iedere atleet de zogenoemde ‘betweenness centrality’-waarde. Die waarde drukt uit in hoeverre iemand verschillende losse groepen met elkaar verbindt.

De Amerikaanse schaatser Denny Morrison blijkt daarin de hoogste waarde te hebben en vervult kennelijk een brugfunctie tussen nationaliteiten. Ook de Amerikaanse kunstschaatser Alex Shibutani scoort hier heel hoog. Dit is opvallend, want vooral Shibutani heeft matig gepresteerd. Uiteraard is hiermee niet aangetoond of weerlegd dat de Spelen in algemene zin verbroederen. Maar als ik een verhaal over internationale verbroedering tijdens de Olympische Spelen zou schrijven, weet ik nu wel dat je het beste bij déze atleten kunt beginnen.

Wie heeft de meeste invloed?

Leuk die theorie, maar wat zijn de praktische toepassingen van dit soort twitteranalyses?

Marketingmanager Rens Dietz van het Eindhovense sociale mediabureau Coosto heeft daar wel een antwoord op. Coosto verzamelt sinds 2009 alle Nederlandse tweets en verkoopt data en analysetools door aan - vooral grote -bedrijven. Al ons geklets houdt er zestig man aan het werk. Met zoveel data valt namelijk veel te rekenen.

Als een groot bedrijf in een publicitaire storm terechtkomt, zoals de recente privacyzeperd van ING, is het ondoenlijk overal op te reageren. ING kan in zo’n geval kijken welke mensen op sociale media invloedrijk zijn en die proberen te beïnvloeden om het sentiment te keren. Dat zijn niet per se de mensen met de meeste volgers; iemand kan veel volgers hebben, maar niet actief zijn. Of iemand kan veel volgers hebben die allemaal in dezelfde sociale groep zitten.

Mensen wier tweets het meest worden gedeeld, of die verschillende sociale netwerken met elkaar verbinden, zijn interessanter. Dit zijn twitteraars die een boodschap potentieel ver kunnen verspreiden (overigens zonder dat ze zich daar altijd bewust van zijn).

Het voordeel van Twitter is dat het context biedt over de gebruikers, zegt Dietz. ‘Je kunt als bedrijf live volgen hoe mensen over je praten en van gebruikers meteen zien wie ze zijn, hoe invloedrijk ze zijn en wat ze in het verleden hebben gezegd.’

Om zijn punt kracht bij te zetten, laadt Dietz een aantal zoekopdrachten uit in Coosto’s database. Bij iedere twitteraar staat wie het is, hoeveel berichten hij of zij heeft gestuurd, het aantal volgers, maar ook hoe invloedrijk iemand is.

Coosto probeert optimaal gebruik te maken van een analyse van het netwerk, dus de structuur (wie zegt iets en is die persoon belangrijk) en inhoudelijke analyse (wat zegt iemand).

Zoeken naar de inhoud

Inhoudsanalyse is vrij moeilijk bij Twitter, omdat alles in maximaal 140 tekens gezegd moet worden. Adverteerders willen gepersonaliseerde reclames plaatsen die relevant zijn voor de gebruiker. Hoe meer informatie over iemand beschikbaar is, hoe relevanter de advertentie kan zijn, zo is de gedachte.

Als iemand ‘lekker in een volle veewagon, #bedanktNS’ tweet, is het misschien niet zo’n goed idee een NS-advertentie te tonen

Google heeft massa’s zoekopdrachten en e-mails en daarmee veel tekst en sporen om te ontdekken waar klanten mee bezig zijn. Facebook heeft comments en vind-ik-leuks die veel over mensen verradentot zijn beschikking. Twitter moet het met 140 tekens doen per tweet. Dan is het moeilijk te bepalen waar iemand precies mee bezig is, wat hij denkt, of wat voor persoon hij is. Een favorite is veel beperkter dan een vind-ik-leuk. Niet zelden zijn tweets ook nog eens sarcastisch of ironisch. Computers hebben erg veel moeite dat te herkennen. Als iemand ‘lekker in een volle veewagon, #bedanktNS’ tweet, is het misschien niet zo’n goed idee om een NS-advertentie te tonen.

Twitter probeert wel zo relevant mogelijk te zijn voor adverteerders. Sinds een jaar biedt het platform zogenoemde ‘promoted products,’ waarmee bedrijven hun tweets hoog in de tijdlijn, trends en aanbevolen accounts kunnen plaatsen. Daarvoor gebruikt Twitter een eigen algoritme, de zogenoemde Interest Graph. Die deelt gebruikers in naar sekse, kijkt inhoudelijk naar keywords en hashtags, probeert locaties te achterhalen en naar welke tv-show iemand kijkt (en live becommentarieert).

De Interest Graph klinkt high-tech, maar is kinderspel vergeleken met wat Google en Facebook kunnen met hun algoritmes. Adverteerders zijn in ieder geval nog niet overtuigd. In een recent verslag aan de Amerikaanse beurswaakhond SEC schrijft Twitter: ‘Advertentiebureau’s en potentiële nieuwe adverteerders zien onze Promoted Products mogelijk nog als experimenteel en onbewezen. Mogelijk moeten we hen meer uitleggen hoe onze producten en services werken.’ Dat klinkt niet goed.

Met tweets de toekomst voorspellen

Betekenis halen uit een tweet is dus dé uitdaging voor wetenschappers, vooral uit de informatica.

Hoogleraar informatieprocessen Maarten de Rijke gebruikt Twitter bijvoorbeeld om zijn algoritmes te ontwikkelen, ze slimmer en autonomer te maken. Op zijn sobere werkkamer op het UvA Science Park in Amsterdam geeft hij een demonstratie van hoe hij Twitter gebruikt. Hij sluit zijn laptop aan op een groot scherm en surft naar streamwatchr.com . Onder Now playing on the planet staat een teller. Die houdt bij hoeveel muziektweets geanalyseerd zijn (meer dan 150 miljoen) en hoeveel artiesten er zijn gevonden (meer dan 450 duizend). Daaronder is een portrettengalerij van muzikanten en bands.

Dit is waar de wereld op dit moment naar luistert. Als je op een van de portretten klikt, krijg je statistieken te zien waar en wanneer het liedje nog meer geluisterd is en kun je het meteen via YouTube streamen.

Door streamwatchr loopt De Rijke twee tot drie weken voor op de billboards in het voorspellen van toekomstige hits

De wetenschap zit hierin: er komt geen mens aan te pas. Alles is geautomatiseerd en dat is waanzinnig knap. Het analyseren van tweets, het herkennen van liedjes en bands en het linken naar het betreffende liedje op YouTube, het genereren van de statistieken en natuurlijk de presentatie op de website - het is van een ongekende complexiteit. Vooral dat herkennen is moeilijk. De Rijke: ‘Als in een tweet gesproken wordt over Flo Rida wordt dan de Amerikaanse staat Florida of de rapper Flo Rida bedoeld?’ Betekenis geven aan ambigue tekst moet in code gevangen worden. De Rijkes algoritmes zijn zelflerend. ‘We geven ze voorbeelden en daarna moeten ze het maar zelf doen. Dit onderscheid kunnen ze inmiddels maken.’ En dat lijkt wonderwel goed te gaan.

Het interessante is, doceert De Rijke, dat je met een verzameling tweets, op een gegeven moment steeds betrouwbaardere voorspellingen kunt doen. ‘In het begin van het Twitteronderzoek, zo rond 2009, werd vooral gekeken in hoeverre de echte wereld een weerklank had op Twitter. Als mensen bij een concert waren geweest, kon je op Twitter terugzien wat ze ervan vonden. Nu is het onderzoek steeds meer op voorspelling gericht. Kun je op basis van wat online gebeurt iets zeggen over wat er offline staat te komen?’ Door streamwatchr loopt De Rijke twee tot drie weken voor op de billboards in het voorspellen van toekomstige hits. ‘We kunnen met zo’n 80 tot 85 procent zekerheid zeggen of een liedje in de toptien eindigt.’

Wat we doen en wat we nog gaan doen, zowel online als in de fysieke wereld om ons heen, ligt dus verborgen in de datastroom die we genereren. Maar kennis over onszelf en onze (toekomstige) handelingen liggen ook in de structuren van het netwerk besloten. We zijn daarbij geen passieve toeschouwers, maar nodes die met hun geklets en geklaag, gegrap en gescheld edges vormen en zo het netwerk bouwen en continu weer veranderen.

En al doende verraden we veel over onszelf. Of we invloedrijk zijn. Of we voor bedrijven aantrekkelijk zijn. Of we, zoals in het geval van de Olympische atleten, internationaal gericht zijn, of juist liever met onze landgenoten samenklonteren. Met iedere triviale tweet bouwen we mee aan een netwerk dat wetenschappers meer inzicht biedt in hoe we samenleven. Misschien goed om nog eens aan terug te denken als je weer in 140 tekens een tweet de wereld instuurt.

Veel dank aan Daniela van Geenen, Maurits van der Goes en Erik Borra die veel werk hebben verzet met het onderzoek naar de Sotsji-atleten.

Dit verhaal heb je gratis gelezen, maar het maken van dit verhaal kost tijd en geld. Steun ons en maak meer verhalen mogelijk voorbij de waan van de dag.

Al vanaf het begin worden we gefinancierd door onze leden en zijn we volledig advertentievrij en onafhankelijk. We maken diepgravende, verbindende en optimistische verhalen die inzicht geven in hoe de wereld werkt. Zodat je niet alleen begrijpt wat er gebeurt, maar ook waarom het gebeurt.

Juist nu in tijden van toenemende onzekerheid en wantrouwen is er grote behoefte aan verhalen die voorbij de waan van de dag gaan. Verhalen die verdieping en verbinding brengen. Verhalen niet gericht op het sensationele, maar op het fundamentele. Dankzij onze leden kunnen wij verhalen blijven maken voor zoveel mogelijk mensen. Word ook lid!