De wassen neus van ‘open’ kunstmatige intelligentie
Veel bedrijven die met kunstmatige intelligentie bezig zijn, noemen zichzelf ‘open’: ze zijn transparant over wat ze doen en hun software is voor iedereen gratis toegankelijk. In werkelijkheid is dat vooral een marketingstrategie. ‘Alsof je een vliegreis duurzaam noemt omdat de maaltijd aan boord vegetarisch is.’
Als kunstmatige intelligentie echt ‘de nieuwe systeemtechnologie’* is die de samenleving fundamenteel zal veranderen, vergelijkbaar met elektriciteit en de computer, dan is het belangrijk dat we die technologie goed begrijpen.
Helaas laat veel AI zich niet makkelijk doorgronden. De bouwers ervan bewaren de tech achter slot en grendel, als goed bewaakte recepten. Dit maakt het onmogelijk om onafhankelijk onderzoek te doen en antwoorden te krijgen op basale vragen als: hoe werkt het? Hoe wordt het gemaakt? Wat gaat erin en waarom komt eruit wat eruit komt?
Maar nu is daar Llama2 * van Meta, het bedrijf achter Facebook. Llama2 is – anders dan concurrent ChatGPT van OpenAI/Microsoft en anders dan andere grote taalmodellen van techbedrijven – niet gesloten maar ‘open’.
Meta, zegt Meta, maakt zijn technologie toegankelijk voor ‘individuen, makers, onderzoekers en bedrijven’ om er zelf mee te kunnen bouwen. Gratis en voor niets.
Openheid is goed voor iedereen – en voor Meta, zegt Meta
Niet dat Mark Zuckerbergs bedrijf opeens een altruïstische club is geworden, nee, deze openheid is in het eigen belang van het bedrijf – aldus het bedrijf – omdat het tot ‘betere producten, snellere innovatie en een florerende markt’ zal leiden.
Een mooie bijkomstigheid van deze openheid is – aldus Meta – dat ze AI ‘veiliger’ zal maken, omdat openheid leidt tot ‘transparantere discussies’, een ‘grotere alertheid voor potentiële bedreigingen’ en een snellere ontwikkeling van ‘verantwoorde AI-tools en -technologieën’.
Meta’s stap was dan ook groot nieuws. ‘Meta deelt zijn antwoord op ChatGPT gratis uit’, schreef Wired.* ‘He [Zuckerberg] is giving it away’, volgens The New York Times.* ‘Meta gooit [...] de luiken open’, aldus het Financieele Dagblad.*
Zuckerberg en Meta gebruiken zelf consequent de term ‘open source’ en dat wekt – bewust? – hoge verwachtingen. Want open source betekent niet alleen dat de broncode van de technologie, zeg maar de receptuur, openbaar is, maar impliceert ook dat die zonder voorwaarden en door iedereen gedeeld, verspreid en gebruikt kan worden.
Zou Meta zijn heetste nieuwe product daadwerkelijk opensourcen? Meta, je weet wel, van Facebook, ongeveer het tegendeel van transparant en open?
Veel media en tech-watchers gingen enthousiast mee met het ‘open source’-frame. Meta wijst ons de weg naar een geweldige transparante AI-toekomst!
Nu blijkt: aan Llama2 is precies niets open source.
De duurzame vliegreis van Meta
Dat is de ondubbelzinnige conclusie van een onderzoeksproject* van drie taalwetenschappers van de Radboud Universiteit in Nijmegen. Andreas Liesenfeld, Alianda Lopez en Mark Dingemanse onderzoeken* hoe ‘open’ AI-taalmodellen zijn. Ze scoorden zo’n dertig verschillende modellen op dertien variabelen.
Llama2 scoort zeer, zeer beroerd.
Zo blijven de data waarop het model is getraind geheim en is Meta minimaal scheutig met de onderliggende computercode. Er is geen erkende wetenschappelijke onderbouwing van het model en de technische uitleg haalt een ruime onvoldoende. In de techwereld zijn dit allemaal gebruikelijke standaarden waaraan je moet voldoen, wil je met goed fatsoen het label ‘open source’ kunnen dragen. Llama2 voldoet aan geen enkele.
‘De term open source hiervoor gebruiken is alsof je een vliegreis duurzaam noemt omdat de maaltijd aan boord vegetarisch is’, zegt onderzoeker Mark Dingemanse. Llama2 óógt open* maar nadere inspectie toont dat het niet echt open ís – een conclusie die gedeeld wordt door het Open Source Initiative:* ‘Meta verwart “open source” met “sommige gebruikers krijgen onder bepaalde voorwaarden toegang tot bepaalde delen van het bronmateriaal”.’
Meta maakt slechts een klein deel van zijn model beschikbaar, niet voor iedereen en niet voor ieder doeleinde. ‘Een cynische en succesvolle marketingtruc’, zegt Dingemanse. ‘Niet alleen het recept is geheim, je kent de ingrediënten niet eens, je mag zéker geen blik in de keuken werpen en o ja, je moet ook nog even tekenen dat je alles volgens de voorwaarden van de kok doet. Maar er wordt wel gratis een ondefinieerbare worst opgediend, en Mark Zuckerberg zegt heel luid “OPEN SOURCE” terwijl hij met zijn pink wijst, dus het zal wel goed zijn!’
Waarom bedrijven zich 'opener' voordoen dan ze zijn
Meta is niet het enige techbedrijf dat zich graag met ‘open source’ afficheert. Een uitstekend, nog niet gepubliceerd paper maakt aannemelijk dat het geen marketingtrucje maar bewuste strategie is van techbedrijven om zich opener voor te doen dan ze zijn. Het kan reputatiepunten en concurrentievoordeel opleveren om te zeggen dat je superopen en -transparant opereert, terwijl je in feite de strikte regie houdt over wat je openzet en wat niet. ‘Openwashing’, in de woorden van de auteurs.
Hét voorbeeld daarvan is OpenAI (de maker van ChatGPT), dat ooit werd opgericht als alternatief voor gesloten bolwerken als Google en Facebook. Inmiddels is OpenAI zelf zo gesloten als een oester: van de dertig modellen die de onderzoekers van de Radboud langs de meetlat legden, scoorde alleen ChatGPT slechter dan Llama2.*
Écht open modellen zijn een goed idee
Los van de rookgordijnen van de techindustrie valt er veel te zeggen vóór écht open AI-taalmodellen. Als de trainingsdata openbaar zijn, kunnen rechthebbenden uitzoeken of hun werk – of hun persoonsgegevens – er onderdeel van uitmaakt. Als duidelijk wordt wat er precies nodig is om zo’n groot taalmodel te maken, te trainen en te onderhouden, dan kunnen de daadwerkelijke energiekosten inzichtelijk worden gemaakt.
Als onderzoekers echt toegang krijgen tot de worstenmachines en zwarte dozen van de AI-fabrieken, dan kunnen zij uitzoeken hoe de taalmodellen precies werken, waarom de antwoorden van die modellen na verloop van tijd soms zo uiteenlopen,* onder welke voorwaarden ze ‘hallucineren’, of daar iets aan te doen is, en of de mooie praatjes van de techbedrijven wel stroken met de werkelijkheid.
Want uit het Nijmeegse onderzoek blijkt maar weer eens dat die techbedrijven zelf ook met regelmaat uit hun nek kletsen.