In technologiekringen gaat een aforisme rond als er over Big Data wordt gesproken: als de berg mest maar groot genoeg is, vind je uiteindelijk wel een keer een gouden munt. Met andere woorden, als je genoeg data doorploegt, vind je altijd wel iets interessants.

Big Data - om onverklaarbare redenen altijd met hoofdletters geschreven - wordt het digitale goud, roepen de technologieprofeten. De datarevolutie zal onze economie en samenleving fundamenteel ontwrichten. Bestaande industrieën kwijnen weg (denk aan media, winkels, eigenlijk alles wat tussen producent en consument in staat). Wetenschap zal, volgens techno-extremisten, geen nood meer hebben aan theorieën. Als de datasets maar groot genoeg zijn, vinden we vanzelf verbanden tussen allerlei fenomenen. Iedereen met basale computervaardigheden kan straks kennis uit data halen. Iedereen gelijk. Iedereen blij.

Maar wat is Big Data precies? 

Laat ik beginnen met een definitie. Die is er niet. Tenminste, er is geen definitie waar consensus over bestaat. De data kunnen van alles zijn als het maar digitaal is: video, audio, tekst, cijfers. Sommigen scharen alle data die niet meer op één pc passen onder Big Data. Anderen vinden dat data pas Big worden als ze het niveau van meerdere servers ontstijgen. Grote bedrijven hebben enorme serverfarms om hun online diensten te hosten of om hun dagelijkse operaties te kunnen uitvoeren. De wereld komt vol te hangen met sensoren - toegangspoorten, camera’s, telefoons, meetapparatuur - die continu registreren en data opslaan, die wij vervolgens weer kunnen gebruiken. De digitale wereld en de fysieke wereld worden steeds meer één lichaam en data is het bloed.

Wat wel overeenkomt in deze definities is dat Big Data een omvang van een verzameling data beschrijft. Dit jaar zou 600 miljard gigabyte aan data door de leidingen van het internet gieren: lolcatz, netflix, het geklets op Twitter en Facebook. Wekelijks stroomt, volgens Cisco, een miljoen jaar aan videomateriaal over het net. Deeltjesversneller Large Hadron Collider produceert bijvoorbeeld één petabyte aan data per seconde (ongeveer 10.000 gigabyte) om dat ene ongrijpbare Higgs-boson, het god-deeltje, te vinden. 

Maar steeds vaker hoor je dat Big Data geen omvang beschrijft, maar een ontwikkeling. Het bevat namelijk twee componenten. Allereerst de computertechnologie: de steeds geavanceerder hard- en software die het mogelijk maakt meer data te verzamelen, te bewerken en te bewaren. Het tweede component is de statistiek die het mogelijk maakt om in een verzameling losse data betekenis te vinden. 

Is Big Data nieuw?

Nee. Grote bedrijven en wetenschapsinstellingen hebben altijd al veel data verzameld. De Engelse hoogleraar wiskunde en statistiek David Hand gaf recentelijk een lezing bij de Koninklijke Nederlandse Academie voor Wetenschappen in Amsterdam. Hij wees het publiek er fijntjes op dat een supermarktketen als Walmart al in de vroege jaren negentig 7 miljard transacties per jaar verwerkte en analyseerde. Mobil Oil gebruikte meer dan 100 terabytes aan data (een terabyte is bijna 1000 gigabyte) voor zijn operaties. Dus hoezo zou Big Data nieuw zijn?

Volgens hem en andere onderzoekers wordt de populariteit van Big Data vooral gedreven door slimme marketingjongens. Big Data apelleert aan het gevoel in een nieuwe wereld te zijn beland vol mogelijkheden. Een nieuwe wereld vol economische kansen. We laten zoveel datasporen achter, dat die marketingjongens kunnen zien wanneer ze ons het beste kunnen verleiden. 

Is Big Data een hype?

Ja. Maar geen inhoudsloze. De twee componenten van Big Data (hard- en softwarecapaciteiten en statistiek) leiden tot een explosie van nieuwe toepassingen op het gebied van zogenoemde predictive analysis - dus: toekomstvoorspellingen. 

Het meest aansprekende voorbeeld hiervan is warenhuis Target, een soort Amerikaanse V&D. Die kan op basis van haar enorme database met historisch en actueel koopgedrag inschatten of een klant zwanger is of niet. dat Target een aanbieding voor kinderspullen stuurde naar een tienermoeder in spe en dat haar ouders er op die manier achterkwam dat ze zwanger was. Pijnlijk. 

Big Data wordt vooral gebruikt om correlaties te vinden tussen fenomenen, personen en gebeurtenissen. Op basis van die correlaties worden vervolgens beslissingen genomen. De reclassering in Baltimore maakt bijvoorbeeld gebruik van risicoprofielen die voor iedere vrijgelaten gevangene de kans aangeven of die dader of slachtoffer wordt van een levensmisdrijf. Op basis daarvan wordt iemand meer of minder in de gaten gehouden.

Als je er oog voor hebt, zie je die toepassingen van Big Data overal. Verzekeraars gebruiken bergen informatie om risico’s van individuele klanten in te schatten. Beurshandelaren voeden hun modellen met tientallen, soms duizenden datastromen om handelsrisico’s en buitenkansjes vroeg te zien aankomen. Geheime diensten, denk aan de NSA, speuren in vele hooibergen naar mensen die in potentie - ze hebben het immers nog niet gedaan - een aanslag plegen. 

De belofte van Big Data is dat die analyse steeds meer in het hier en nu plaatsvindt. Neem de nieuwe webservice Google Now. Die monitort zoveel mogelijk data rondom jouw persoon: wat je online doet, de inhoud van je e-mails, met wie je belt, waar je je bevindt en waar je naartoe gaat. Uit talloze andere online bronnen haalt Google informatie die voor jou relevant zou kunnen zijn. Het algoritme "weet" dat je vandaag op reis gaat en "weet" dat het vliegtuig vertraagd is. Zonder dat je hoeft te zoeken, krijg je een bericht hierover zodat je nog even thuis kunt relaxen. Een persoonlijke assistent die je door het dagelijks leven loodst. Dat is nog eens een belofte.

Dat klinkt indrukwekkend, maar ook een beetje eng. Tijd om ons zorgen te maken?

Ja en nee. 

Ja, Big Data en dan vooral de toepassingen op het gebied van predictive analysis hebben de potentie om diep in ons leven te dringen. Daarnaast kan het ook tot discriminatie leiden. Steeds vaker zal je behandeld worden op basis van je risicoprofiel. Mag je ergens wel of niet door? Krijg je wel of geen lening? Als het profiel niet klopt, is het genomen besluit ook onjuist. En probeer je maar eens te verweren tegen een beslissing van een algoritme, als je überhaupt al weet dat er een profiel van je bestaat.

En nee. Er is nog steeds te veel hijgerigheid rondom Big Data. De moderne Big Data-sets gaan vooral over het nu en de nabije toekomst: transacties van de afgelopen jaren, tweets die sinds 2006 zijn gestuurd, Facebookposts die sinds 2005 zijn geplaatst, tolbetalingen op de autoweg sinds 2003. Ze zeggen weinig over wat ooit was. Als de data ouder zijn, komen er allemaal problemen bij die het moeilijk maken ze te analyseren. Definities veranderen over tijd - wie als arm wordt gezien bijvoorbeeld - waardoor je historische data niet met huidige data kunt vergelijken.

Meer Big Data is ook niet altijd beter. Twitter heeft bijvoorbeeld miljarden tweets beschikbaar. Daar kan je inhoudelijke analyses op loslaten, maar ook netwerken van mensen mee in kaart brengen. Maar hoe representatief is Twitter? Hoe veralgemeniseerbaar zijn die data? Vaak niet. Omvang, goede soft- en hardware en de beste statistiek nemen dit soort beperkingen niet weg.

Daarnaast treedt een effect op wat onderzoekers Danah Boyd en Kate Crawford apophenia noemen: maak de schaal groot genoeg en je vindt altijd wel iets interessants. Er is bijvoorbeeld een correlatie aangetoond tussen de resultaten van een American Football-team en de prestaties van de Amerikaanse economie. Maar niemand zal het in zijn hoofd halen een oorzakelijk verband te leggen.

Dat onze informatiemaatschappij steeds meer data driven wordt, daar twijfel ik niet aan. Dat die informatie-explosie ons dagelijks leven meer en meer zal beïnvloeden, neem ik zo aan. Maar de uitdaging voor Big Data-profeten wordt wel om aan te tonen dat er tussen die enorme hopen mest echt een gouden muntje ligt, en niet een paar koperen stuivers.