Hoe het wereldwijde web zorgt voor betere data uit ontwikkelingslanden

Sanne Blauw
Correspondent Ouderschap
Buenos Aires, Argentinië. Hoe doe je onderzoek naar inflatie als de overheid niet eerlijk is over de cijfers? Foto: HH

Data uit ontwikkelingslanden zijn vaak van slechte kwaliteit. Daarom ging ik op zoek naar nieuwe technologieën om betere data te verzamelen. In deel drie van deze serie: online winkels, Twitter en Google.

The Economist in 2012. Het tijdschrift deed een verrassende mededeling: het zou geen cijfers meer plaatsen van het Argentijnse statistische bureau. Want: ‘We zijn het beu om onvrijwillig deel uit te maken van een ogenschijnlijk opzettelijke poging om kiezers te misleiden en investeerders op te lichten.’

Sindsdien staat er bij Argentinië een dikke streep in de met economische statistiekjes.

Toch bespreekt The Economist regelmatig de inflatiecijfers van het land. Waar ze die gegevens vandaan halen? Van ’s werelds vruchtbaarste informatiebron: het internet.

Technologie voor betere data

Eerder schreef ik dat we eigenlijk veel minder weten van ontwikkelingslanden dan we denken. Data uit die landen zijn vaak slecht of bestaan überhaupt niet.

Ik ging aan de slag met de vraag: hoe kan technologie helpen om betere data te verzamelen?

Technologie is natuurlijk maar een deel van de oplossing: met een snelle gadget heb je nog niet armoede, conflict of corruptie opgelost. Toch zijn er veelbelovende toepassingen, zoals satellieten en mobiele telefoons.

Deze week: hoe het wereldwijde web kan bijdragen aan betere data.

1. Met online prijzen de koopkracht berekenen

Om erachter te komen hoe The Economist aan de Argentijnse inflatiecijfers kwam, gaan we terug naar 2005. In dat jaar begon als promovendus aan Harvard. ‘Het leek me interessant om onderzoek te doen naar prijzen in Argentinië,’ vertelt hij over de telefoon, ‘daar kom ik immers vandaan.’ Als prijzen van goederen en diensten snel stijgen - de inflatie neemt toe - heeft dat grote invloed op de koopkracht van Argentijnse huishoudens. ‘Ik wilde dus beter begrijpen hoe die prijzen zich ontwikkelen.’

Maar zijn enthousiasme werd algauw de kop ingedrukt. ‘Data waren moeilijk te krijgen. Bovendien gingen er geruchten dat de overheid de officiële cijfers manipuleerde,’ legt Cavallo uit. ‘Ik dacht: dan doe ik het zelf wel.’ Hij begon data te verzamelen van de grootste winkels in het land. Niet in de winkels, maar online. Op websites vond hij prijzen van een hele reeks producten: van stofzuigers tot spijkerbroeken, van thee tot koffietafels. Met die gegevens berekende hij de inflatie.

Zijn methode bleek een succes. ‘On- en offline prijzen mogen dan verschillend zijn, de trends zijn hetzelfde: als prijzen in winkels stijgen of dalen, veranderen ze op het internet op dezelfde manier.’

Al snel richtte Cavallo het op waarin hij zijn methode begon toe te passen in andere landen. Wegens vele begon hij in 2011 een bedrijf: PriceStats heeft ondertussen data van 22 landen, die worden verkocht aan allerlei ondernemingen. Een daarvan: The Economist.

2. Met Twitter voedselcrises voorkomen

Ook via andere wegen komt prijsinformatie online. Kijk maar naar deze tweet, vertaald uit het Bahasa:

De regering was druk! Retweet @promoasyik: Loopt op tot 100 duizend Rupiah per kg, rode chili is gelijk aan de prijs van vlees http://bit.ly/1pUmUmo

Het bericht maakte deel uit van een experiment van een die zich bezighoudt met Big Data. Onderzoekers analyseerden meer dan veertigduizend tweets met voedselprijzen. Wat bleek? De trends leken sterk op de echte voedselprijzen.

Neem de prijs van uien:

De prijs van uien fluctueert behoorlijk. Toch zie je dat het model redelijk dicht bij de officiële prijs komt. De grafiek laat ook meteen de kwetsbaarheid van de methode zien: vanaf september 2013 zit de schatting er behoorlijk naast. In die tijd waren er een stuk minder tweets over uienprijzen. De methode werkt dan ook beter voor kip, waar drie keer zo vaak over wordt getwitterd.

Wat heb je aan zo’n methode, als er toch al gegevens over de voedselprijzen bestaan? De Twitterinformatie is bijna realtime, waardoor je de ontwikkelingen bijna live kunt volgen. Traditionele prijsdata verschijnen vaak slechts maandelijks, terwijl overheden behoefte hebben aan snelle informatie. Zo kunnen ze voorkomen dat mensen honger gaan lijden als gevolg van snel stijgende prijzen zoals gebeurde tijdens

Bovendien hebben lang niet alle landen zulke degelijke data als Indonesië. Goede systemen ontbreken waardoor het moeilijk is om prijsdata te verzamelen en in de gaten te houden. In landen - zoals Brazilië of de Filipijnen - kan de methode een uitkomst bieden.

3. Met Google migratiestromen in kaart brengen

Soms geven mensen op een indirectere manier informatie. Bijvoorbeeld door naar bepaalde termen te zoeken. Neem Abishek, een jonge Indiase man uit Delhi. Hij heeft besloten naar Australië te migreren. Voordat hij gaat, typt hij op Google in: ‘banen in Melbourne.’

Gooi dergelijke zoekopdrachten op een hoop en je krijgt een goed idee van de stroom migranten die er aankomt:

laat zien dat de Googlezoekopdrachten – afgezien van wat pieken rond Oud en Nieuw – de echte gegevens vrij goed benaderen.

Nu bestaan in Australië redelijk goede migratiedata en kunnen we ze vergelijken met de Googleresultaten. Maar in veel landen is dat niet het geval: migratiedata zijn berucht vanwege de slechte kwaliteit. Ze zijn vaak verouderd, worden slechts jaarlijks bijgehouden en demografische aspecten - zoals geslacht - ontbreken vaak. En in sommige landen bestaan de data simpelweg niet.

Onderzoek schiet vaak rijkelijk tekort als het op migratie aankomt. Hoeveel illegale immigranten zijn er? Wat voor invloed heeft migratie op de economie? En hoeveel mensen zullen gaan verhuizen als gevolg van klimaatverandering? Allemaal vragen die onbeantwoord blijven als je geen goede data hebt.

En dat terwijl migratie een van de belangrijkste wereldwijde ontwikkelingen is. Alleen met goede informatie kunnen overheden goed inspelen op veranderingen, bijvoorbeeld door hun sociale voorzieningen of infrastructuur erop in te richten.

Blijf uit je Windows kijken

Natuurlijk staan of vallen al deze methodes bij het gebruik van internet. Als er in een land weinig wordt getweet of gegoogeld, zullen de data je weinig nuttigs vertellen. Bovendien moet je ermee rekening houden dat soms alleen bepaalde mensen - rijk, hoogopgeleid - gebruikmaken van dit soort technologie.

En dan nog iets: in het verleden behaalde resultaten voor de toekomst. Misschien gaan migranten opeens banen zoeken via Facebook in plaats van Google. Of merken Indonesiërs dat de overheid hun tweets gebruikt voor subsidiebeleid en gaan ze

Het is dan ook belangrijk om te ‘groundtruthen,’ om maar een buzzword te gebruiken. Dat betekent dat je de data blijft staven met de werkelijkheid, bijvoorbeeld door met lokale mensen en experts te praten.

Want innovatie is mooi, maar je moet wel uit je Windows blijven kijken.

Lees verder: