Hé Siri, waar ga je heen met mijn stem?

Zeno Siemens-Brega
Cultuurwetenschapper
Illustraties door Andrew Tseng (voor De Correspondent)

Nog even en er zijn meer luisterende apparaten dan luisterende mensen. Ze doen wat jij wilt (‘hé Alexa, zet die jazzplaat aan en die schemerlamp op standje romantisch’). Handig? Zeker. Maar achter deze vriendelijke benadering van de spraakassistent gaat een berg AI-gestuurde slimheid met jouw stem aan de haal.

Nog even en er zijn meer luisterende apparaten dan luisterende Er zijn nu al meer dan apparaten op de wereld waar je een gesprek mee kunt voeren. Iedere zich zelf respecterende techgigant heeft inmiddels waar die fors in investeert. Alleen al aan Amazons Alexa werkten vorig jaar

Het idee van de spraakassistent is simpel: je praat tegen je telefoon, computer, auto en het apparaat voert jouw commando uit. Maar achter de vriendelijke benadering van je ‘slimme’ apparatuur gaat een berg onzichtbare AI-gestuurde slimheid met jouw stem aan de haal. Die zorgt dat er gebeurt wat je zegt – of dat nu je moeder bellen is of het weer checken. 

En vergis je niet, dit is pas het begin. Als het aan de techreuzen ligt, gebruiken spraakassistenten onze stemmen gecombineerd met andere data om onze en onze behoeften Hiermee infiltreren de luisterende apparaten steeds meer onze en onze dagelijkse Dat doen ze als onopvallende dienstbare hulpjes, maar dat zijn dus wel hulpjes waar steevast een microfoon in zit. 

En zelfs als die microfoons alleen aan staan als je tegen ze praat, dan geldt: we zijn constant omringd door microfoons.

Hoeveel van onze dagelijkse geluidsomgeving we bereid zijn weg te geven, hebben we nu nog grotendeels zelf in de hand. Maar in een wereld waarin er straks meer machineoren dan mensenoren zijn, wordt het lastig nog langer te bepalen wat of wie meeluistert.

Nu kunnen we nog vraagtekens zetten bij de ontwerpkeuzes achter deze apparaten, bij de manieren waarop ze onze interacties sturen, of hoe ze zich in onze privéruimtes nestelen. Al kun je zelfs nu, als je wilt, de hele dag, vanaf het moment dat je wakker wordt tot het moment dat je gaat iets in de buurt hebben dat meeluistert. Tijd om stil te staan bij wat dat ‘iets’ is, en hoe dat (mee)luistert.

Oké Google, hoe luister je precies naar mij?

Om te begrijpen wat er met je stem gebeurt als je met zo’n apparaat praat, moet je weten hoe zo’n apparaat precies luistert. 

Stel, ik heb geen zin om te typen, en ik vraag iets simpels aan mijn laptop: ‘Wat is De Correspondent?’

Als ik praat, maak ik geluid dat door een microfoontje wordt opgenomen. Daar wordt dat geluid omgevormd naar een digitaal signaal en vervolgens als eerst in gehakt: w-a-t i-s d-uh k-oh-r-è-s-p-oh-n-d-è-n-t. 

Maar digitaal geluid is en lastig te lezen. Daarom worden die spraakbrokjes omgezet in een veel efficiëntere, gestandaardiseerde vorm van data: geschreven tekst. Dit proces kun je in actie zien als je tegen een spraakassistent als Siri of Google op je computer of telefoon praat: je ziet de woorden op je scherm verschijnen, terwijl ze worden herkend.  

Maar niemand praat precies hetzelfde. Dialect, uitspraak, snelheid, accent, intonatie en woordenschat variëren enorm tussen personen – om maar niet te spreken over ingewikkelde gebruiken als sarcasme of non-verbale communicatie. Hier hebben spraakrobotprogrammeurs een vernuftige oplossing op gevonden: in plaats van talen in al hun complexiteit aan robots te leren, gebruiken ze statistiek. 

In het geval van de spraakassistenten komt dit voornamelijk neer op twee systemen waarbij kunstmatige intelligentie (AI) een hoofdrol speelt. De een herkent spraak, en koppelt spraakbrokjes aan de meest waarschijnlijke letters, klanken en De ander interpreteert de spraak door te berekenen welke woordvolgorde het meest voor de hand

Spraakassistenten werken op basis van zulke patroonherkenning. Net als hoe YouTube kan voorspellen wat je waarschijnlijk leuk zult vinden op basis van je kijkgeschiedenis (en die van vele anderen), proberen spraakherkenningsapparaten te voorspellen wat je waarschijnlijk zult zeggen op basis van jouw spraakgeschiedenis (en die van vele anderen). 

En je reacties, net als je clicks en je kijktijd op YouTube, zijn ook weer data, die worden gebruikt om nog betere voorspellingen te kunnen doen. Dit hele proces heet ook wel het idee is dat als je genoeg juiste data in het programma invoert – genoeg verschillende ‘cor’-klanken – het in staat zal zijn om zichzelf te om uiteindelijk jouw ‘cor’ te herkennen uit duizenden, of zelfs miljoenen. 

Wat er gebeurt met de spraakbrokjes die je aan Alexa, Siri en Google voert

Maar waar gebeurt dit allemaal? 

Serf Doesborgh en Jurriën Hamer, onderzoekers van het leggen het mij in een videogesprek uit. Volgens Doesborgh werken spraakassistenten met zogenaamde wake words: ‘hé Alexa’, ‘oké Google’. ‘De spraakassistent staat altijd aan, hoewel die alle opnames weggooit waar geen wake word tussen zit. Als de assistent geactiveerd wordt, gaat je opname meteen naar de cloud, naar de van het bedrijf dat de software maakt, waar alle analyse plaatsvindt.’ 

Hiermee is ook de vraag beantwoord waar je stem naartoe gaat als je met een spraakassistent praat. De opname belandt ergens, opgeknipt als leesbare data, op een server, waar jouw stemgeluid zo veel mogelijk connecties maakt met andere spraakbrokjes, om de boel uiteindelijk efficiënter te maken. 

Doesborgh legt uit dat er nog steeds een belangrijke rol weggelegd is voor meeluisterende mensen om de spraaksoftware zo goed mogelijk te trainen. Hamer: ‘De beste algoritmes en de slimste AI moeten worden gevoed. En gecontroleerd.’ 

Dus als mijn stemopnames niet verdwijnen in de oneindige brij van zo’n server, kunnen ze ook terechtkomen in de koptelefoon van een doodnormaal persoon, op een doodnormaal kantoor, die honderden van zulke geluidsopnames per dag voor de spraakassistenten corrigeert.

In 2019 kwam naar buiten dat en alle drie zonder (duidelijke) toestemming geluidsopnames van hun gebruikers doorstuurden, ook als die hun wake word niet hadden gesproken. Zo luisterde bijvoorbeeld een flexwerker in België in opdracht van Google mee naar opnames van en kregen medische geschiedenissen, financiële gegevens, sekspartijen en drugsdeals te Gebruikers gechoqueerd, bedrijven schoorvoetend in privacyinstellingen

Nu zijn we een jaar verder, waarin Siri ontving en honderden miljoenen ‘slimme’ apparaten werden Apparaten die voorlopig nog afhankelijk blijven van mensen die ze een handje helpen bij het classificeren van menselijk stemgeluid.

Wat er allemaal in een stem zit

Volgens Doesborgh en Hamer zijn de meer privacyvriendelijke ontwikkelingen een stap in de goede richting, maar gaan ze nog te veel uit van een soort ideale gebruiker die én goed geïnformeerd is én actief bezig met privacybescherming. ‘Dat zal echt niet elke gebruiker kunnen of willen opbrengen.’ En of mensen de privacyoverwegingen precies begrijpen of niet’, zegt Doesborgh, ‘als mensen zich in de gaten gehouden voelen, gaan ze uiteindelijk hun gedrag aanpassen, en daarmee gaat altijd iets van zelfexpressie

Bovendien introduceert spraaktechnologie een heel nieuw privacyrisico. Hamer: ‘Het spannende en zorgelijke is dat er straks niet alleen maar tekstuele informatie wordt verzameld, maar ook het geluid van mijn stem. En wat je daaruit kunt halen.’

Techbedrijven werken aan van alles en nog wat dat ze misschien ooit van je stem kunnen afleiden: je   of je boos of gefrustreerd bent (vooralsnog kan alleen Amazons en dan wel in het Engels). Of je lijdt aan de ziekte van , een of zelfs De mogelijke toepassingen van deze zogenoemde van de stem in de zorg, het onderwijs, toerisme, winkelen, callcenters, advertenties, en identificatieprocessen zijn legio.

Hamer voegt snel toe: ‘We zijn hier nog niet, maar we zijn wel op weg naar een samenleving waarin grote techbedrijven dit allemaal van ons willen weten. En het zou best kunnen dat ze daar over een paar jaar toe in staat zijn.’ 

En nu?

De onderzoekers pleiten voor een sterkere regulering vanuit de overheid: bijvoorbeeld door alleen specifieke instellingen als ziekenhuizen of banken vergunningen te verstrekken voor biometrische analyse – en pas als die bewijzen er degelijk mee om te kunnen gaan.

Ook moet de overheid volgens hen een antwoord geven op de marktmacht van de grootste bedrijven en investeren in een nationale stemdatabase, zodat iedereen hun spraaksoftware kan trainen op de Nederlandse taal.

Uiteindelijk willen Doesborgh en Hamer de aandacht vestigen op de grote vraag over de toekomst van pratende apparaten: wat gebeurt er als er straks tussen iedere menselijke interactie een computer zit? 

Zelfs als robots onze diepste gevoelens kan volgens Hamer de inzet van deze technologie wel hebben. ‘Stel dat je bij een sollicitatieprocedure matige emotieherkenning Dat heeft nog steeds echte gevolgen, als het betekent dat iemand om die reden wel of niet een baan krijgt. En veel bedrijven zullen echt niet zeggen wat het onzekerheidspercentage is van hun methode.’ 

Wat er nog allemaal in ons stemgeluid verborgen blijkt, en wat dat over ons zegt, valt nog te bezien. Er wordt in ieder geval op fors om technologie te ‘ waar menselijke keuzes aan voorafgaan, maar vooral ook heel veel menselijke voorbeelden voor nodig zijn.

Heel fijn als ik daarmee mijn telefoon efficiënter kan bedienen, maar dit beantwoordt ook de vraag wat er gebeurt nadat mijn stem verwerkt is door het apparaat. Het staat meteen klaar om nog meer input te ontvangen: een luisterend oor, altijd paraat, tot mijn dienst. 

Lees ook: