Dit gaat er mis als een computer bepaalt of je een lening krijgt
Belastingdiensten, veiligheidsdiensten en bedrijven als Google en Facebook zeggen op basis van data eerlijkere beslissingen te kunnen nemen. Princetononderzoeker Solon Barocas is het daar niet mee eens. Met hem loop ik vijf problemen van die benadering door (en twee oplossingen).
Je solliciteert op een baan bij een groot ziekenhuis, maar wordt niet uitgenodigd voor een gesprek. Je belt personeelszaken op om opheldering te vragen, want je denkt dat je de juiste kwalificaties hebt. Komt het door je leeftijd of je afkomst? Volgens de personeelsmanager niet. De selectie is namelijk door een computer gemaakt. Op basis van grote hoeveelheden data zijn de kandidaten uitgenodigd die het beste bij het gevraagde profiel passen. Kortom: de afwijzing is het gevolg van een volkomen rationeel proces. Er is geen menselijk vooroordeel aan verbonden.
Zou je denken. Want volgens Solon Barocas kunnen computers wél bevooroordeeld zijn. En discrimineren.
Barocas doet aan Princeton University onderzoek naar de relatie tussen Big Data en discriminatie. Zijn werk trekt veel aandacht van juristen en privacyonderzoekers, want Barocas doet iets wat veel collega’s niet kunnen: hij kan zelf dataminen. Zo wil hij de technische processen leren doorgronden en die vervolgens vanuit een juridisch en ethisch perspectief beschrijven. Dat resulteerde vorig jaar in een invloedrijk artikel: ‘Big Data’s Disparate Impact’ dat hij samen met collega Andrew Selbst schreef. In dat artikel prikken de auteurs een veelgehoorde belofte door, gemaakt door belastingdiensten, veiligheidsdiensten en de Googles en Facebooks van deze wereld: dat Big Data zouden leiden tot rationele en daarmee eerlijker beslissingen.
Nu zijn Big Data een lastig concept. Een concept dat op verschillende manieren begrepen kan worden. Barocas richt zich op Big Data als een manier om inzicht te krijgen uit grote hoeveelheden data. Op machine learning.
Hoe dat werkt? ‘Als je de computer wilt leren om een hond te herkennen, hoef je bij machine learning niet al zijn eigenschappen te beschrijven, je laat hem gewoon honderd miljoen hondenfoto’s zien. En dat werkt: na het zien van zoveel miljoen foto’s begint een computer te begrijpen wat een hond tot een hond maakt.’
‘Deze manier van leren is de laatste vijf jaar zeer succesvol gebleken. Niet doordat computerwetenschappers ineens zoveel slimmer zijn geworden, maar omdat er zoveel data beschikbaar zijn om de computer te trainen.’ Om een voorbeeld te geven: Facebook is in korte tijd heel goed geworden om mensen in foto’s te herkennen en te identificeren.
Wat daar dan problematisch aan is? ‘Er zijn bedrijven die telefoondata gebruiken om de kans op terugbetaling te berekenen en zo beslissen of het verstandig is iemand een lening te verstrekken. Zij hebben bijvoorbeeld een dataset van de belgeschiedenis van 10.000 telefoonabonnees én ze hebben een dataset met het kredietverleden van die mensen. Die voegen ze samen, waarop ze de computer vragen: als je nu kijkt naar hoe telefoons worden gebruikt, wat valt je dan op bij de mensen die hun schulden niet afbetalen? De computer zoekt en vindt patronen en komt met een antwoord. Bijvoorbeeld: ‘Deze kandidaat moet je een lening verstrekken. Iedereen die zijn telefoon op die manier gebruikt, heeft in het verleden zijn leningen netjes terugbetaald.’’
Het punt is: vaak heeft de computer gelijk. Maar soms zit hij er ook finaal naast. In het artikel dat hij met Selbst schreef, benoemt Barocas vijf problemen van machine learning. Ik loop ze met hem door omdat ze goed blootleggen waar het mis kan gaan met geautomatiseerde besluitvorming.
1. Een berekening is nooit neutraal
Kredietscores zijn sterk in opkomst in Nederland en Amerika. Met die score kun je bepalen wat de kans is dat iemand de afbetalingstermijn van een lening mist, ook wel kredietwaardigheid genoemd. Ziedaar het bezwaar van de twee onderzoekers: is het missen van een afbetalingstermijn wel de enige maatstaf voor het bepalen of iemand het waard is om krediet te verlenen?
Hoe je een doel definieert, bepaalt waar je naar zoekt
Dit probleem wordt verergerd doordat de kredietscore steeds vaker als indicator voor betrouwbaarheid komt te staan. Zo eisen huurbazen in New York dat je een goede kredietscore kunt laten zien voordat je in aanmerking komt voor een woning, schiften bedrijven sollicitanten op basis van hun kredietscore en bepalen verzekeraars soms aan de hand van kredietscores de hoogte van de premie.
Wat de twee maar willen zeggen: hoe je een doel definieert, bepaalt waar je naar zoekt en hoe je je data bekijkt en behandelt.
2. De voorbeelden bepalen de uitkomst
Onlangs baarde onderzoeker Latanya Sweeney opzien met een studie naar Google-advertenties. Het bleek namelijk dat mensen die een niet-westers klinkende naam hadden (zoals Latanya) een grotere kans hadden op advertenties over schuldhulpverlening en borgtochtbedrijven dan mensen met een westers klinkende naam. Bij navraag bleek dat de adverteerders deze advertenties niet bewust voorschotelden, maar dat het algoritme van Google AdSense blijkbaar via andere data een verband had gevonden tussen niet-westers klinkende namen en interesse voor het gevangeniswezen.
Tot slot is er het probleem van onvolledige data. Een voorbeeld zijn politiecijfers, waarin bepaalde minderheden oververtegenwoordigd zijn. Die oververtegenwoordiging kan ertoe leiden dat de politie vooral gaat surveilleren in wijken waar die minderheden zich bevinden. Doordat de politie dáár surveilleert en niet elders, zal ze daar relatief veel criminaliteit vinden. Die komt weer in de statistieken, waardoor de positie van de minderheden daarin weer onevenredig groter wordt, et cetera, et cetera.
Kortom: de voorbeelden bepalen de uitkomst die de computer geeft.
3. Er worden te weinig variabelen meegenomen
De complexiteit van het alledaagse leven wordt sterk versimpeld als dataminers aan het rekenen slaan. Ze proberen al een versimpeld doel te meten (zie het eerste bezwaar van Barocas en Selbst), maar ze gebruiken daarvoor ook nog eens beperkte data.
Het beeld zal altijd een sterke versimpeling van de werkelijkheid zijn
Als je kijkt naar kredietwaardigheid zijn er verschillende data die je kunt gebruiken. De hoogte van je inkomen is een belangrijke, maar dat gegeven op zich zegt niet zoveel: ook rijke mensen kunnen in de schulden raken. Of, zoals in het voorbeeld hierboven: is je telefoongedrag echt de beste graadmeter?
Waarschijnlijk krijgen dataminers het beste beeld als ze heel veel variabelen meenemen. Die zijn echter lang niet altijd beschikbaar. Het beeld zal dus altijd een sterke versimpeling van de werkelijkheid zijn.
4. Onschuldig lijkende data kunnen tóch gevoelige informatie prijsgeven
‘Sommige dingen die je op Facebook liket, lijken onschuldig. Bijvoorbeeld een tv-programma dat je leuk vindt, of een bepaald soort eten. Dat kan van alles zijn. Maar die paar datapunten kunnen vertellen dat je homoseksueel bent, simpelweg omdat er bij een heel grote hoeveelheid mensen een verband bestaat tussen wat je liket en je seksuele geaardheid.’
Die onvermoede verbanden zijn heel geniepig, meent Barocas. ‘Wat jij ziet als onbelangrijke informatie, kan voor een computer een duidelijke aanwijzing zijn over je seksuele geaardheid, gezondheid of andere gevoelige informatie. We krijgen daarmee een wereld waarin je geen stap meer kunt zetten zonder dat je heel veel van jezelf verraadt.’
5. Datamining kan slechte intenties verbergen
Datamining kan ook bestaande discriminerende praktijken goedpraten. Als ook de uitkomst van een geautomatiseerd proces tot een ongelijke uitkomst leidt, kan dat voor sommigen een rechtvaardiging zijn van hun eigen vooroordelen. Die mening lijkt dan gestaafd door harde wetenschap, terwijl dat in de praktijk niet het geval is.
Machine learning is over tien jaar overal
Tijdens zijn onderzoek merkte Barocas dat bedrijven en instanties heus niet willen discrimineren. Toch zullen ze volgens hem meer actie moeten ondernemen: ‘Machine learning is over tien jaar overal. In heel veel apparaten zal software zitten die allerlei taken veel beter kan dan wij. Maar hoe die apparaten werken en beslissingen nemen, zal dus van grote invloed zijn op ons leven.’
Hoe moet het dan?
‘Er zijn verschillende benaderingen mogelijk. Ten eerste moeten we kijken hoe we systemen kunnen ontwerpen waarin er regels zijn die een eerlijke uitkomst van een beslissing garanderen. Voordat een systeem ontworpen wordt, moeten we al nadenken over wat we eerlijk vinden en wat niet.’
‘Ten tweede moeten we goed nadenken over welke data geschikt zijn om te gebruiken. Als je bijvoorbeeld uit bepaalde data, zoals kijkgedrag op Netflix, iemands seksuele voorkeur kunt opmaken, dan moet je die data misschien uitsluiten.’
‘Dit is niet alleen een taak voor bedrijven. Er is veel ongelijkheid in onze samenleving, er is institutioneel racisme dat zich door middel van datamining en machine learning kan versterken. Je kunt bedrijven niet verantwoordelijk houden voor dit soort grote maatschappelijke problemen. Wat we wel van ze kunnen vragen, is dat ze inzicht hebben in hoe hun computers beslissingen nemen en dat ze die beslissingen ook altijd kunnen uitleggen.’