26.06.23 Interview 4-5 min

Mijn boek is waarschijnlijk trainingsmateriaal voor ChatGPT. Mag dat?

Correspondent Beter internet

Zijn de gehypte AI-modellen gebouwd op onrechtmatige roofzucht? Gevoelsmatig: een volmondig ja. Maar als je naar het auteursrecht kijkt is die vraag lastiger te beantwoorden.

Terwijl de toekomstige gevaren van kunstmatige intelligentie het debat bepalen, suddert er op de achtergrond een boeiende vraag: mag het eigenlijk wel?

Want de AI-modellen die de afgelopen maanden tot zo veel opwinding leidden, schuren ook nu al met de werkelijkheid – onder andere met de werkelijkheid die auteursrecht heet. Ja, die is wat saaier dan een losgeslagen AI die de mensheid vernietigt maar wel, ehm, werkelijkheid.

Op een aanzienlijk deel van de content waarmee deze AI-toepassingen zijn getraind zit namelijk auteursrecht. Teksten, plaatjes, beelden, boeken. Er zit bovendien gigantisch veel illegale content tussen. Zoals miljoenen e-books die gedownload kunnen worden op illegale sites. Of: de meestgebruikte Nederlandstalige bron van sommige chatbots, de site docplayer.nl – een piratensite vol met illegale content. Een bedrijf als OpenAI bouwt nu commerciële producten op dat werk. Mag dat wel van de wet?

Ik vraag het aan specialist João Pedro Quintais van het Instituut voor Informatierecht aan de Universiteit van Amsterdam.

Ik leg hem ook voor dat ik mij als rechthebbende genaaid voel. Mijn boek uit 2016 kon illegaal gedownload worden op een site die onderdeel is van de grote database waar onder andere De Groene Amsterdammer en The Washington Post onderzoek naar deden. Grote kans dus dat mijn boek als trainingsmateriaal dient. In principe ben ik een groot voorstander van het vrijelijk beschikbaar stellen van informatie – mits het voor de publieke zaak is en niet voor de private zakken van OpenAI en Microsoft.

Het is moeilijk te zeggen wat er allemaal gescrapet wordt

‘Ik begrijp dat het oneerlijk en extractief voelt,’ zegt Quintais.

Maar met ‘voelen’ kan een auteursrechtjurist verder niet zo veel.

Hij legt uit dat in de Europese wetgeving vooral de auteursrechtrichtlijn uit 2019 relevant is – de Copyright in the Digital Single Market (CDSM) Directive. Met name twee artikelen die beschrijven onder welke voorwaarden er uitzonderingen kunnen worden gemaakt op auteursrechtschendingen.

Zo mag er zogenoemd ‘tekst- en datamining’ (TDM) worden toegepast op beschermd materiaal – voor wetenschappelijke doeleinden (artikel 3) en voor bredere toepassingen, waaronder commerciële (artikel 4). Het trainen van grote AI-modellen valt onder ‘tekst- en datamining’.

Die uitzonderingen zijn nuttig, legt Quintais uit. Hij vertelt dat bijvoorbeeld het coronavaccin mede zo snel ontdekt is door het soort ‘datamining’-onderzoek dat deze bepalingen toestaan. ‘Het was mogelijk om allerlei onderzoeksartikelen samen te voegen en daar enorme datasets van te maken en zo patronen en correlaties te genereren.’

Het gebruikmaken van auteursrechtelijk materiaal voor commerciële AI-toepassingen mag volgens artikel 4 in theorie ook, legt de onderzoeker uit. Maar alleen onder een aantal voorwaarden.

Pas als rechters zich uitspreken, kan duidelijk worden welke argumenten houtsnijden

Een daarvan is dat de data die gescrapet worden lawfully accessed moeten zijn. In het geval van mijn boek dat op een illegale site wordt aangeboden lijkt dat evident niet het geval te zijn. Ik heb geen toestemming gegeven, het is niet legaal online gezet, dus dat voldoet niet. Toch?

Zo simpel is het niet, zegt Quintais. Een tegenwerping van de AI-schrapers zou kunnen zijn: wij mogen van deze bepaling het web scrapen, maar als wij het web scrapen weten we niet altijd wat er allemaal gescrapet wordt. We kunnen niet alle inhoud op deze sites checken. ‘Dit is nog niet echt in rechtszaken uitgemaakt’, zegt Quintais. Met andere woorden: pas als een rechter zich hierover uitspreekt, is duidelijk of dit argument van de scrapers houtsnijdt. Voor nu blijft het theoretiseren.

Tweede voorwaarde: mensen moeten de mogelijkheid hebben om te voorkomen dat hun werk wordt binnengeslurpt. Problematisch bij de AI-toepassingen is dat mensen dan wel moeten weten dat hun werk gebruikt is. En dat is onmogelijk als je niet weet welke sites en content er gebruikt worden. Om deze wettelijke bepaling te laten werken, vertelt Quintais, zouden de datasets die partijen als OpenAI gebruiken toegankelijk moeten zijn.

Belanghebbenden zouden toegang moeten hebben tot trainingsdata

Het is belangrijk om te realiseren, voegt Quintais toe, dat deze wetgeving in 2019 is aangenomen en in de jaren daarvoor is geschreven. Toen waren deze generatieve AI-toepassingen nog niet publiek, laat staan dat deze auteursrechtkwesties speelden.

In Brussel wordt nu geprobeerd dit op te vangen door het in andere wetgeving te gieten. Daar wordt al tijden gewerkt aan de AI Act – wetgeving voor kunstmatige intelligentie. In de tekst die in mei door het Europees Parlement is aangenomen, krijgen de bouwers van de zogenoemde generatieve AI-modellen zoals GPT de verplichting om transparant te zijn over de data, door ‘een voldoende gedetailleerde samenvatting te documenteren en openbaar beschikbaar te maken van het gebruik van trainingsgegevens die beschermd zijn onder het auteursrecht’.

Quintais is kritisch en noemt deze verplichting ‘ofwel onuitvoerbaar ofwel onbruikbaar’. Onuitvoerbaar als dit betekent dat aanbieders al het beschermde werk uit hun trainingsmateriaal moeten identificeren. Onbruikbaar als dit betekent dat ze alleen maar een samenvatting moeten geven.

‘Ik ben voor een transparantieverplichting, maar als je miljoenen websites doorzoekt en miljoenen items met auteursrechten verzamelt, en je moet daar een samenvatting van maken, waar bestaat die dan uit? En wat hebben rechthebbenden zoals jij daar dan aan?’

Een rechthebbende, zegt Quintais terecht, moet op de een of andere manier toegang krijgen tot de trainingsdata en daarin kunnen zoeken. Maar hoe? ‘En terwijl hierover nagedacht wordt, ontwikkelen de modellen zich verder en parasiteren zij op jouw werk.’

De ironie: AI steelt werk om vervolgens werk te stelen

Wat deze auteursrechtkwestie nog prangender maakt is dat beeldmakers en tekstschrijvers vrezen dat sommige AI-producten voor hen een bedreiging zijn. Dat de AI-modellen die – zonder toestemming noch vergoeding – op hun werk zijn getraind, uiteindelijk (een deel van) hun werk gaan vervangen. Dat journalistieke organisaties bijvoorbeeld minder menskracht in zullen zetten voor schrijfwerk en beeldredactie. Die angst is niet onterecht: op 19 juni kondigde de best verkopende krant in Europa aan mensen te ontslaan ‘die taken hebben die in de digitale wereld uitgevoerd worden door AI’.

Wat nu dan?

Er zijn snel heel duidelijke wettelijke verplichtingen of gerechtelijke uitspraken nodig om te voorkomen dat makers en kunstenaars straks verliezen

Quintais hoopt op rechtszaken. Als rechters zich uitspreken over deze nieuwe AI-modellen kunnen de juridische onduidelijkheden opgehelderd worden.

De jurist wil daar niet op vooruitlopen. Wel zegt hij het ‘opvallend’ te vinden dat Big Tech zich nog niet vol op deze nieuwe markt in Europa heeft gestort. ‘Bedrijven als Google, die het Europese juridische landschap goed kennen, zijn voorzichtig met het publiek maken van deze modellen met auteursrechtimplicaties’, zegt Quintais.

Hij besluit: ‘Mijn persoonlijke mening – en dus geen juridische opinie – luidt: ik zou deze bedrijven niet vertrouwen dit zelf op te lossen; in het hele idee van zelfregulatie door grote techbedrijven geloof ik niet. Er zijn snel heel duidelijke wettelijke verplichtingen of gerechtelijke uitspraken nodig om te voorkomen dat makers en kunstenaars straks verliezen, en in de AI-race niet meer dan een paar remsporen zijn die op de weg zijn blijven liggen.’

Dit verhaal heb je gratis gelezen, maar het maken van dit verhaal kost tijd en geld. Steun ons en maak meer verhalen mogelijk voorbij de waan van de dag.

Al vanaf het begin worden we gefinancierd door onze leden en zijn we volledig advertentievrij en onafhankelijk. We maken diepgravende, verbindende en optimistische verhalen die inzicht geven in hoe de wereld werkt. Zodat je niet alleen begrijpt wat er gebeurt, maar ook waarom het gebeurt.

Juist nu in tijden van toenemende onzekerheid en wantrouwen is er grote behoefte aan verhalen die voorbij de waan van de dag gaan. Verhalen die verdieping en verbinding brengen. Verhalen niet gericht op het sensationele, maar op het fundamentele. Dankzij onze leden kunnen wij verhalen blijven maken voor zoveel mogelijk mensen. Word ook lid!

Het is moeilijk te zeggen wat er allemaal gescrapet wordt

Belanghebbenden zouden toegang moeten hebben tot trainingsdata

De ironie: AI steelt werk om vervolgens werk te stelen

Word boekenlid van De Correspondent