Waar heeft uw AI dat geleerd?

Er zijn steeds meer mensen die generatieve artificiële intelligentie (AI) gebruiken voor hun werk. Even snel een paar paragrafen tekst oppoetsen of een illustratie toevoegen aan een presentatie is voor dat soort programma's steeds makkelijker. En er zijn ook steeds meer bedrijven die dat soort diensten aanbieden, zowel gratis als tegen betaling. Maar wie generatieve AI wil gebruiken, moet wel rekening houden met hoe het programma getraind is.

Een vergelijking tussen de oorspronkelijke profielfoto van Elizabeth Laraki, en de interpretatie van generatieve AI.
Beeld: ©Elizabeth Laraki / Elizabeth Laraki

Een AI bestaat uit twee delen, de dataset en het model. De dataset is, zoals de naam suggereert, de volledige data waarover een AI kan beschikken. Bijvoorbeeld de afbeeldingen van MidJourney of de tekst van ChatGPT. Het model bestaat uit de algoritmes die conclusies trekken en output leveren op basis van de data, om zo de vraag die de gebruiker aan de AI stelt te beantwoorden.

Deze vragen kunnen beantwoord op basis van tekst, zoals de vraag ‘hoe vaak komt de letter R voor in het woord aardbei?’ of in de vorm van een afbeelding. Wie aan MidJourney vraagt om een afbeelding te genereren met een prompt als ‘een Ferrari, in de stijl van Vincent van Gogh’, krijgt als antwoord een afbeelding van MidJourney, waarvan het algoritme denkt dat het het meest nauwkeurige antwoord is op de vraag 'hoe zou Vincent van Gogh een Ferrari schildren?'

Provocatief

Maar bedrijven die generatieve AI-diensten aanbieden zijn niet altijd duidelijk waar hun data vandaan komt, en dat kan grote gevolgen hebben. Dat blijkt uit de ervaringen van Elizabeth Laraki. Ze is een van de sprekers op Upscale Conf, een conferentie over generatieve AI die in November wordt gehouden. Op X (het voormalige Twitter) beschrijft ze hoe ze onlangs een advertentie voor deze conferentie voorbij zag komen, en hoe de promotiefoto die daarbij gebruikt werd niet leek te kloppen. Op de foto bleek haar blouse namelijk verder open dan ze zich van de promotiefoto kon herinneren. Ook was er een stuk onderkleding zichtbaar. Daarnaast waren ook details van de blouse veranderd, en was haar halsketting verwijderd.

Het bleek een fout te zijn die ontstond uit het verkeerd gebruik van generatieve AI. De promotiefoto die ze voor de conferentie had aangeleverd was verticaal. Voor de opmaak van de website van Upscale Conf was deze bijgesneden tot een vierkant. Voor de advertentie was echter een verticale foto nodig, en de social media medewerker die deze advertentie moest opzetten had alleen toegang tot de al bijgesneden foto. Om een foto te krijgen van het formaat dat voor de advertenties nodig was, gebruikte ze generatieve AI. Ze voerde de foto in in een programma, en vroeg het programma om op basis van de vierkante foto een verticale portretfoto te genereren.

Het eindresultaat was dus uitdagender en minder professioneel dan de originele foto was, tot grote verbazing van mevrouw Laraki. Ze nam gelijk contact op met de conferentie. Uiteindelijk bleek het om een misverstand te gaan. Het was niet een poging om het principe van 'sex sells' toe te passen, maar een iets te enthousiaste generatieve AI die, op basis van de dataset waarop het getraind was, besloot de foto iets pikanter te maken dan deze daadwerkelijk was.

Voorbeeld van AI-gegenereerde kunst

Dataset

Problemen met de dataset zijn al langer een valkuil bij de generatieve AI. Hoe groter deze datasets, hoe meer en nauwkeuriger de AI kan beantwoorden. Maar deze datasets worden vaak samengesteld uit tekst en afbeeldingen die online openbaar beschikbaar zijn. Voor een dienst die afbeeldingen genereert zijn miljarden afbeeldingen nodig om van daaruit te extrapoleren. En wat voor afbeeldingen de AI in de dataset heeft, bepaalt wat de uitkomst is. Een afbeeldingsgenerator die alleen de werken van Picasso in de dataset heeft, kan alleen in de stijl van Picasso afbeeldingen genereren.

Er is natuurlijk een enorme bron van data waaruit een dataset kan worden opgebouwd - het internet. Een vrijwel oneindige bron van tekst en afbeeldingen. Maar wie niet selectief is op welke data wordt opgenomen in de dataset, kan grote problemen veroorzaken. In het geval van Elizabeth Laraki kon het bijvoorbeeld gebeuren dat haar foto meer sexy werd gemaakt dan deze daadwerkelijk was, omdat het dacht, op basis van de foto's in de dataset, dat vrouwen meer sexy horen te zijn.

Dat is pijnlijk, maar de problemen met datasets zijn veel groter. Zo is copyright al langer een heet hangijzer. Omdat iets publiek beschikbaar is online, betekent het nog niet dat het ook eindeloos voor alles gebruikt mag worden. Er lopen momenteel enkele rechtszaken tegen grote aanbieders van generatieve AI, van artiesten die geloven dat het opnemen van hun werk in de dataset een schending is van hun auteursrecht. Daarnaast bestaat ook onzekerheid omtrent de auteursrechten op materiaal dat geproduceerd wordt op basis van generatieve AI. Diensten als MidJourney en ChatGPT claimen dat zij, en niet de gebruiker, het auteursrecht hebben op alles dat met AI gegenereerd is, maar dat lijkt lang niet zeker.

Illegaal

Maar de problemen gaan verder dan dat. In december 2023 voerden onderzoekers van de Stanford universiteit een analyse uit van LAION-5B, de dataset waarop onder andere Stable Diffusion en MidJourney, twee van de grootste aanbieders van generatieve AI voor afbeeldingen, hun diensten trainden. Binnen dit model van miljarden afbeeldingen bleken honderden illegale afbeeldingen van seksueel kindermisbruik te zitten. En hoewel de bedrijven zeggen beperkingen binnen de algoritmes te hebben ingebouwd om het aanmaken van seksueel expliciet materiaal onmogelijk te maken, kunnen deze afbeeldingen dus wel invloed hebben op de output van de programma's.

Bovendien is het maken van seksueel expliciet materiaal van een bestaand persoon, ook door gebruik van AI, in Nederland verboden. Artikel 254ba van het Wetboek van Strafrecht, in de volksmond de wet tegen wraakporno, stelt dat iemand die "opzettelijk en wederrechtelijk van een persoon een visuele weergave van seksuele aard vervaardigt", ofwel een seksueel getinte afbeelding van iemand maakt zonder toestemming van deze persoon, strafbaar is. Dat geldt ook voor personen die deze afbeeldingen bezitten of verspreiden.

Dat deze wet ook van toepassing is op materiaal geproduceerd op basis van generatieve AI, blijkt uit de zaak van Welmoed Sijtsma. In november 2023 legde de rechtbank in Amsterdam een voorwaardelijke taakstraf op aan een man die AI had gebruikt om haar gezicht te plaatsen op een pornovideo, om het zo te laten lijken dat zij degene was die de handelingen op de video uitvoerde. De rechtbank oordeelde dat met het maken en verspreiden van de video de man schuldig was, een ernstige schending vormde van de seksuele autonomie en seksuele privacy van de presentatrice. De man is schuldig bevonden aan het schenden van artikel 139h van het Wetboek van Strafrecht. Deze is op 1 juli 2024 vervangen door artikel 254ba.

En omdat Welmoed Sijtsma een publiek persoon is, zijn online veel afbeeldingen van haar te vinden. Maar sommige van dit soort AI-diensten gaan nog verder dan dat, en kunnen, met een handvol foto's van een gezicht aangeleverd door de gebruiker, ook afbeeldingen van private personen maken. Bovendien zijn op het internet ook advertenties te vinden van allerlei dubieuze diensten die beweren dat gebruikers hun software kunnen gebruiken om foto's van individuen in te lezen, en vervolgens op basis van die foto's een naaktfoto te genereren.

Wetgeving

Om verantwoord gebruik van AI af te dwingen, is in 2024 de AI-verordening aangenomen. Deze wetgeving moet ontwikkelaars en exploitanten van AI-diensten aan geharmoniseerde regels binden die misbruik onmogelijk maken zonder innovatie in te perken. Deze wet is echter alleen van toepassing op diensten en bedrijven die actief zijn binnen de EU. Het internet houdt echter niet op bij de grenzen van de Europese Unie.

Generatieve AI heeft veel mogelijkheden om productiviteit te vergroten. Er zitten echter nog veel haken en ogen aan deze diensten, van problemen rond copyright tot illegaal materiaal in de dataset. Om verantwoordelijk gebruik te maken van generatieve AI, moet de gebruiker weten wat er in de dataset zit, en hoe dit materiaal verkregen is. Een vervuilde dataset kan leiden tot ongewenste resultaten, van foto's die pikanter zijn dan de bedoeling is en copyrightschendingen, tot materiaal dat simpelweg illegaal is.