Voice cloning

Voice cloning

Ik was uitgenodigd om te spreken op de alumnidag van de Erasmus Universiteit. Aan boord van de S.S. Rotterdam nam ik het publiek mee in de wereld van AI, Deep fakes en zelfrijdende auto’s. Een en ander was inspiratie voor de volgende column.

“Ja, maar vindt meneer Gommers dit wel goed?” De vraag komt van een bezorgde mevrouw uit het publiek. Ik was uitgenodigd om op de alumnibijeenkomst van de Erasmus Universiteit een lezing te verzorgen over kunstmatige intelligentie. Het had de organisatie een goed idee geleken als ik daarbij zo praktisch mogelijk zou zijn. Op die manier zou ik aansluiting vinden met het publiek.

Het tegendeel bleek echter waar. Op dit moment in de presentatie heb ik een groot deel van het publiek van mij verwijderd, juist door heel praktisch te worden. Wat was het geval? Ik demonstreerde zojuist de technologie van het bedrijf ElevenLabs. Zij bieden tegen betaling software aan waarmee iedereen zijn stem kan klonen. Het werkt heel simpel. Je neemt een paar minuten van je eigen stem op via je telefoon en uploadt dit naar de servers van ElevenLabs. Zij gebruiken vervolgens AI om uit dat geluidsfragment de essentie van jouw stem te destilleren. Dat gaat onder meer over de klankkleur (heb je een zware stem, nasale klank of gebruik je veel lucht), over de intonatie (spreek je hoog, laag, gevarieerd, in welk ritme) tot en met je regionale accent (Brabantse G, Rotterdamse O, Achterhoekse ‘N).

Deze analyse duurt slechts enkele minuten. Daarna verschijnt een leeg tekstveld waarin je als gebruiker een tekst kan typen. Vervolgens geloof je je eigen oren niet! Door de luidsprekers van je laptop klinkt dan jouw stem die zinnen uitspreekt die jij zelf nooit hebt uitgesproken. Desgewenst kun je nog aan wat digitale schuifjes en regelaars draaien om de gekloonde stem te perfectioneren. 

Nu gaat luisteren naar je eigen stem al vrij snel vervelen. Daarom heb ik in mijn dashboard van ElevenLabs ook een aantal andere stemmen geïmporteerd. Het enige wat je nodig hebt is twee of drie fragmenten van iemand die een aantal minuten aan het woord is. Gelukkig staan er van publieke figuren genoeg lezingen of interviews op internet. Zo heb ik de afgelopen weken (al dan niet in hun bijzijn) de stemmen gekloond van Klaas Knot, Lousewies van der Laan, Robbert Dijkgraaf, Sander Schimmelpenninck en nu dan Diederik Gommers. 

De proefpersonen zelf vinden het over het algemeen geweldig. Ook omdat ik hen geen schokkende uitlatingen laat doen of dingen laat zeggen waar ze niet achterstaan. In dit geval liet ik de gekloonde Diederik Gommers een stukje uit de troonrede voorlezen. “Leden van de Staten-Generaal”, klinkt het door de luidsprekers in de voor hem zo typerende stem. Het publiek denkt dat ik een grapje maak. Diederik Gommers staat later op het programma, dus neemt men aan dat-ie heeft meegewerkt aan de demo. Daarom vraag ik de aanwezigen spontaan wat onderwerpen te verzinnen. Iemand roept iets over stikstof, een ander over Dordrecht. Ik tik de zinnen live in en druk op “generate”. Een paar seconden later horen we AI-versie van Gommers zeggen dat de stikstofcrisis in Dordrecht nijpend is en dat er echt iets moet gebeuren om daar verandering in te brengen. 

Op de voorste rij steekt iemand haar hand omhoog. “En wat vindt meneer Gommers hiervan? Mag dit zomaar?” De vraag of het überhaupt mag is alleen met een omweg te beantwoorden. Immers, toen ik het geluidsfragment van de originele Gommers uploadde heb ik aangevinkt dat ik de de rechthebbende was van de opname én dat ik toestemming had om dit fragment ook daadwerkelijk te gebruiken. Daar heb ik dus gejokt. Mocht meneer Gommers een boze brief schrijven naar ElevenLabs zullen zij hem zonder aarzeling naar mij doorverwijzen voor klachten en claims. Ik zou dan als verdediging iets opbrengen over citaatrecht. De fragmenten komen uit interviews van de publiek omroep of uit een toespraak die Gommers zelf op Youtube heeft geplaatst. Het klonen van een stem lijkt wat dat betreft meer op een sample uit de popindustrie, of op een internetmeme waarin bekende mensen op de hak worden genomen. 

“Juristen zullen hier een veel betere uitleg over kunnen geven”, geef ik de zaal mee. Het allerbelangrijkste is dat we aan bewustwording werken. We leven nu in een tijd dat je je oren en ogen op internet niet meer kan geloven. Dingen die echt lijken, kunnen nep zijn. Als je je daar niet van bewust bent, kun je het slachtoffer worden van phishing, oplichting of identiteitsfraude. Criminelen zijn ook zeer innovatief en staan te popelen om generatieve AI voor hen het vuile werk te laten doen.

Oorspronkelijk gepubliceerd in het FD van 6 oktober 2023.