Door deze technologie bellen de oplichters van de toekomst met de stem van je moeder
In de komende jaren moeten we niet vreemd opkijken als we Donald Trump zien verklaren dat hij een atoombom heeft losgelaten boven China. Hopelijk niet vanwege zijn roekeloosheid, maar wel omdat de levensechte manipulatie van audio en video dichterbij komt.
Het is niet begonnen met een roddel over een pizzeria waar kinderen door Hillary Clinton werden geëxploiteerd als seksslaven. Misleiding, oplichting en nepnieuws zijn wijdverbreid, maar allesbehalve nieuw. Zo dankte Fidel Castro de verovering van Cuba voor een belangrijk deel aan de valse geruchten die hij verspreidde over de omvang van zijn troepenmachten.
Wat wel recent veranderde is de technologie waarover oplichters beschikken en de manier waarop we de wereld interpreteren. De algoritmes van Google en sociale media hebben de informatievoorziening fundamenteel gewijzigd en ervoor gezorgd dat informatie die je bereikt meer dan ooit is toegespitst op je ‘profiel.’
Een programma als Photoshop heeft een hoop fictie toegevoegd - fotoshoppen werd zelfs een werkwoord - tegelijkertijd is het de vraag of we wel argwanend genoeg zijn geworden gezien het succes van Geert Wilders’ nepfoto van Alexander Pechtold, demonstrerend tussen de radicale moslims.
En dan hebben we het slechts over Photoshop. Onderzoekers van het Max Planck instituut en de universiteiten van Erlangen-Nuremberg en Stanford creëerden vorig jaar een techniek waarmee je iemands gezicht in een filmpje in real-time kunt overnemen en plooien naar elke gewenste gezichtsuitdrukking.
Ondertussen werkt Adobe, het bedrijf dat bekend werd door Photoshop, aan software waarmee je op basis van 20 minuten stemmateriaal een persoon iets kunt laten beweren wat hij nooit heeft gezegd.
Combineer deze technieken en een persconferentie wordt denkbaar waarin Donald Trump een hand haalt door zijn geverfde haar, zijn blik over de zaal laat glijden en zegt dat het gaat gebeuren, echt waar, die atoombom gaat vallen op China, want Chinezen zijn allemaal heel, heel slechte mensen.
Natuurlijk is het nog niet zo ver en moet de eerste nepvideo nog verschijnen. Toch vergt het weinig fantasie om de gevaren voor te stellen van levensechte manipulatie van audio- en videomateriaal. Een robotstem van Mark Rutte die een ambtenaar vraagt een dossier te versnipperen. Kim Jong-Un die Noord-Korea door buitenlandse leiders laat uitroepen tot ‘de grootste natie op aarde’.
En wanneer deze technologieën op elke smartphone beschikbaar worden, zal dat zowel ingrijpende gevolgen hebben voor de nieuwsvoorziening als de wereld waarin we leven.
Hoeveel zorgen moeten we ons maken?
Hoe de technologieën werken
Face2Face, de naam van de software, vereist slechts een laptop en webcam. Als je bijvoorbeeld een filmpje gebruikt van de Turkse president Recep Tayyip Erdogan wordt er een reconstructie gemaakt van de vormkenmerken van zijn gezicht. Tegelijkertijd worden in real-time zijn en jouw gezichtsuitdrukkingen geanalyseerd. De software kiest telkens één frame uit het filmpje waarvan Erdogans mond het meest overeenkomt met die van jou. Zonder dat zijn uiterlijk verandert, wordt dit samengevoegd en verschijnen jouw uitdrukkingen en mondbewegingen op zijn gezicht.
De ontwikkelaars verwachten dat deze technologie binnen twee jaar breed beschikbaar wordt, ook als app voor onze telefoons.
Adobe Voco is het Photoshop voor audio. Op basis van 20 minuten stemmateriaal breekt de software woorden op in fonemen – alle individuele klanken die deel uitmaken van een taal – en creëert een stemmodel van de spreker. De verzamelde informatie maakt het vervolgens mogelijk om de volgorde van woorden te wijzigen, woorden toe te voegen of volledig nieuwe zinnen te formuleren. Je hoeft alleen maar te typen.
Project Voco verkeert nog in de testfase en de woordvoerder van Adobe laat weten dat het nog onbekend is of het product naar buiten wordt gebracht. Het bedrijf werkt in de tussentijd aan een watermerk, een manier om gemanipuleerde audio te kunnen herkennen.
Zelfs de uitvinders maken zich zorgen
Justus Thies van de universiteit Erlangen-Nuremberg is een van de vijf grondleggers van Face2Face. Hoewel er patent is aangevraagd op de software, benadrukt hij per mail dat het puur gaat om een onderzoeksproject en dat er geen commerciële plannen bestaan, het zal blijven bij het prototype stadium. ‘Maar,’ zegt Thies, ‘ik verwacht dat bedrijven weinig tijd nodig hebben om de techniek te kopiëren.’
Uit diverse hoeken werd interesse getoond voor de techniek, vertelt Thies. Het enthousiasme in de filmindustrie is het grootst, omdat Face2Face kan leiden tot de goedkopere productie van animatiefilms. De reclame-industrie heeft ook aangeklopt, want zij zien in de techniek een oplossing voor de monden die niet synchroon lopen met de boodschap in een andere taal. Daarnaast toonden grote techbedrijven zich geïnteresseerd en zien tv-shows de satirische potentie.
Thies erkent dat de techniek een gevaarlijke kant heeft, zeker als de kleine imperfecties uit de software gehaald worden en de beelden niet meer van echt zijn te onderscheiden. ‘Wij hebben laten zien hoe makkelijk het is om video te manipuleren. De toekomstige combinatie met audiomanipulatie baart zorgen. We proberen dan ook een manier te ontwikkelen waarmee je videomanipulatie kunt herkennen. Ik hoop dat ons werk leidt tot een brede discussie in de media en dat de bewustwording van de gevaren toeneemt.’
De ontwikkelaars van de technologie zijn niet de enige die de gevaren ervan lijken in te zien. Hans Folmer, brigadegeneraal van het Defensie Cyber Commando, stelde onlangs dat het in real-time manipuleren van videobeelden één van de grootste zorgen is voor de toekomst.
Staten, politieke groeperingen, non-gouvernementele organisaties, burgers, militairen, bedrijven, terroristen en lobbyisten kunnen met gemanipuleerde audio en video verwarring zaaien, tegenstanders in diskrediet brengen of eigen misstappen op beeld corrigeren.
Audio- en videomanipulatie zijn ook nieuwe instrumenten om identiteitsfraude te plegen. Het is niet ondenkbaar dat de oplichters van de toekomst bellen met de robotstem van je moeder. Ze vraagt wanneer je op vakantie gaat. Als je terugkomt is je huis leeggeroofd.
Wat wordt hiertegen gedaan?
Ondanks de zorgen van Folmer blijkt er bij navraag bij Defensie, het ministerie van Veiligheid en Justitie en de AIVD niemand bezig te zijn met het thema. Een AIVD-medewerker deelde wat algemene speculaties, maar noemde dat ‘common sense.’
Wel zei Defensiewoordvoerder Paul Bezuijen dat het niet de vraag is of maar wanneer audio- en videomanipulatie een vlucht gaat nemen. Een interessante vraag is wat daarbij de rol wordt van Facebook en Google. Dat zijn immers de grootste globale nieuwsvoorzieners geworden.* Rachid Finge, woordvoerder van Google, zegt dat het bedrijf hard werkt aan het bestrijden van onjuiste informatie, onder andere door de algoritmes continu te verbeteren. Google volgt de ontwikkelingen op het gebied van audio- en videomanipulatie maar heeft hierop geen ‘specifiek commentaar’.
Nadat Facebook heftige kritiek kreeg over zijn rol in de verkiezing van Donald Trump, kondigde het bedrijf in december 2016 een serie maatregelen aan om de verspreiding van nepnieuws tegen te gaan.
In Nederland is het platform een samenwerking aangegaan met nu.nl en nieuwscheckers van de universiteit van Leiden. Over toekomstige audio- en videomanipulatie zegt woordvoerder Tineke Meijerman dat Facebook nieuwe technologieën nauwlettend in de gaten houdt en ‘waar nodig’ de strategie aanpast.
Het is positief dat Google en Facebook meer journalistieke verantwoordelijkheid nemen. Toch zijn hun inspanningen in essentie symptoombestrijding, want het verdienmodel van Facebook en Google leidt ertoe dat nepnieuws zich kan verspreiden.
Dus: wat als de robot belt?
Het is niet moeilijk om zwarte scenario’s te schetsen waarin een vloedgolf van gemanipuleerde audio en video het vertrouwen in informatie totaal afbreekt, de mondiale groep die door nepnieuws in een alternatieve realiteit leeft alsmaar groeit, rechters niet meer op beeld en geluid kunnen vertrouwen, Facebookfilmpjes internationale crises veroorzaken en iedereen zich over de telefoon of webcam voordoet als een ander.
Een enkele nepvideo kan enorme schade aanrichten. Laaggeletterden zullen extra vatbaar zijn voor toekomstig bedrog omdat ze meer zijn aangewezen op beeld en geluid en minder - of helemaal niet - in aanraking komen met geschreven informatie. Ook zorgt de dynamiek van sociale media ervoor dat als Erdogan een leugen twittert, de correctie door een ander niet hetzelfde publiek zal bereiken, omdat de twee groepen niet op elkaar zijn aangesloten. Het is bovendien opvallend dat de benaderde overheden nog niets ondernemen tegen deze technologie, die toch aanzienlijke gevaren in zich bergt.
Maar kwaliteitsjournalistiek blijft een belangrijke tegenkracht, goed onderwijs maakt mensen minder vatbaar voor misleiding en bewustwording kan leiden tot een andere houding tegenover beeld- en geluidsmateriaal. Hoewel het om werk in uitvoering gaat, is het hoopgevend dat zowel de makers van Face2Face als Voco zich bewust lijken te zijn van de gevaren van de technologie en werken aan een watermerk dat manipulatie kan blootleggen. Daarnaast kunnen aangepaste algoritmes de verspreiding van bedrog inperken.
En ja, misschien moet er een codewoord komen voor als de robot belt.
Dit artikel is tot stand gekomen in samenwerking met programmeur Tom Westerhout.