Social Proof

Deepfake-stemmen: hoe AI stemtechnologie transformeert

Speechify is de #1 AI Voice Over Generator. Maak in real-time voice-over opnames van menselijke kwaliteit. Vertel teksten, video's, uitlegvideo's – alles wat je hebt – in elke stijl.

Op zoek naar onze Tekst-naar-spraak lezer?

Uitgelicht In

forbes logocbs logotime magazine logonew york times logowall street logo
Luister naar dit artikel met Speechify!
Speechify

Je hebt vast wel eens gehoord van deepfake-stemmen, maar wat zijn ze precies? Deze gids vertelt je alles wat je moet weten over deze AI-technologie en hoe het zich verhoudt tot TTS.

Deepfake-stemmen en tekst-naar-spraak

Dankzij vooruitgang in kunstmatige intelligentie (AI) en deep learning kunnen mensen nu hoogwaardige en realistische synthetische media creëren. Deze technologie heeft de deuren geopend naar veel nieuwe creatieve technologieën die veel industrieën beïnvloeden. Een van deze technologieën is deepfakes, ook wel synthetische stemmen genoemd en stemklonen.

Wat zijn deepfake-stemmen?

Deepfake betekent synthetische media, ook bekend als stemklonen. Met AI is het mogelijk voor gebruikers om videodeepfakes te genereren die iemands uiterlijk op het scherm verwisselen met dat van een ander of iemand iets laten zeggen wat hij nooit zou zeggen, vaak aangeduid als stemklonen. Stel je voor dat je een Arnold Schwarzenegger-stem kunt laten herhalen wat je wilt.

Het proces vereist speciale software voor het analyseren van gezichten, het verwerken van stem uit tekstscripts en het modelleren van de beweging van de mond in een driedimensionale ruimte.

Er zijn enkele geavanceerde toepassingen voor deze technologie, maar stemklonen is er een van. Bijna iedereen, zelfs als ze geen techneuten zijn, is wel eens een deepfake-schandaal tegengekomen. Onlangs is er echter een postume documentaire over Tony Bourdain uitgebracht die het publiek verraste omdat hij nog steeds kon vertellen in

IT-start-ups hielpen het productiebedrijf om Bourdains stem te recreëren om een vleugje realiteit aan het verhaal te geven. Dit is ongetwijfeld een prestatie, maar het roept veel morele kwesties op. Immers, men heeft alleen een computer met de juiste software nodig om gemanipuleerde beelden of misleidende geluiden over iemand anders te produceren.

Hoe worden deepfakes precies gemaakt?

Eerst verzamel je genoeg voorbeelden van iemands stem. Invoer kan komen van sociale media, opgenomen telefoongesprekken, televisie, enz. Vervolgens combineert software die op AI-algoritmen draait de voorbeelden om een nepstem te produceren. 

Dit is een basisoverzicht van het complexe proces, maar uiteindelijk gebruiken AI-tools de verzamelde gegevens om natuurlijk klinkende stemmen te creëren die digitale tekst kunnen lezen. Om deze reden zijn deepfakes nauw verwant aan tekst-naar-spraak (TTS) technologie. 

De integratie van deepfake-stemmen in tekst-naar-spraak

Gebruikers kunnen kenmerken zoals toonhoogte, leeftijd en accent manipuleren door gebruik te maken van deepfake-stemtechnologie geïntegreerd in tekst-naar-spraak-systemen. Dergelijke mensen kunnen zelfs gesynthetiseerde stemmen ontwikkelen die lijken op hun gewenste toon en stijl, bijvoorbeeld in het geval van vocale beperkingen. Deze aanpassing zal hun vermogen om te communiceren en hun levenskwaliteit in het algemeen aanzienlijk verbeteren.

Met deepfake-stemmen creëren ze aantrekkelijkere audiocontent die volgers en loyaliteit aantrekt voor contentmakers. Ze maken gebruik van deepfake-stemmen die klinken als die van bekende vertellers of sterren om luisteraars te boeien en te fascineren. Het is vooral waardevol voor multimedia-inhoud zoals audioboeken en podcasts, waar geluid een grote impact heeft op het oproepen van gevoelens bij het publiek.

Echter, het gebruik van deepfake-stemmen voor integratie in TTS-systemen roept verschillende morele problemen op. Deepfake-stemmen zijn in staat tot manipulatie en nabootsing—mensen misleiden die geen toestemming kunnen geven voor dergelijke handelingen. Dit wijst op de noodzaak van strikte controles en wetten die het juiste en morele gebruik van deze technologie bevorderen.

Ten slotte biedt de integratie van deepfake-stemmen in tekst-naar-spraak-systemen een kans voor gepersonaliseerde en boeiende stemsynthetisatie. Deze technologie kan onze interactie met gegenereerde spraak aanzienlijk veranderen op een manier die het toegankelijker maakt en de algemene tevredenheid van gebruikers verbetert, rekening houdend met ethische overwegingen.

Voordelen

Deepfakes bevatten verschillende positieve elementen. De “This Is Not Morgan Freeman” deepfake-video van 2021 toonde aan hoe Augmented-technologie zijn nut kan hebben.

De beelden toonden aan dat door de AI te trainen met audio-opnamen en filmfragmenten, ze in staat waren een imitatie van de acteur te creëren, inclusief het nabootsen van zijn bewegingen, uiterlijk en spraak. Zoals we aangaven, heeft dit zijn ethische problemen, maar kan van onschatbare waarde zijn voor iemand zoals acteur Val Kilmer.

Hoewel Kilmer keelkanker kreeg waardoor hij zijn stem verloor, dachten sommigen dat dit het einde van zijn Hollywood-carrière betekende. In een Prime Voice, in de Amazon Prime-documentaire over Kilmer, werd onthuld dat de zoon van de acteur Kilmer van voice-overs zou voorzien bij het spelen van nieuwe rollen.

Toch, toen Kilmer samenwerkte met Sonantic—een IT-startup die stemmodellen ontwikkelt, kreeg hij uiteindelijk zijn stem terug. Met behulp van deepfake-technologie recreëerde het bedrijf Kilmers stem, en het publiek kon de verbluffende resultaten horen in de recent uitgebrachte film Top Gun: Maverick.

Nadelen

Machine learning kan iemands stem repliceren op locaties zoals New York, waar technologie snel wordt omarmd. Dit maakt het gemakkelijk voor individuen om hun persoonlijke informatie prijs te geven en in de val te lopen van nep- of frauduleuze oproepen.

Ethische zorgen over deepfake-technologie

Er zijn enkele ethische vragen rondom het gebruik van deepfake-stemmen en deepfake tekst-naar-spraak. Naarmate er meer technologische vooruitgang komt, zijn er potentiële tegenslagen. De deepfake-stemmen van bijvoorbeeld Arnold Schwarzenegger AI-stem zijn zo natuurlijk dat ze mensen misleiden. Dit kan wantrouwen veroorzaken over alles wat men hoort en zelftwijfel.

Naarmate de samenleving elke vorm van nieuwe technologie omarmt, moet men goed nadenken over de gevaren die ermee gepaard gaan. Deepfakes kunnen mensen misleiden en beïnvloeden via hun stemmen. Het is daarom redelijk om bezorgd te zijn, aangezien het het publieke vertrouwen kan ondermijnen en privacyrechten kan schenden.

Er is vooral een dringend probleem als het gaat om het gebruik van deepfakes. Nog gevaarlijker is het gebruik van synthetische stemmen bij telefoonfraude en desinformatiecampagnes die wijdverspreid zijn. Stel je voor dat je een onbekende oproep ontvangt, maar iemands stem klinkt heel vertrouwd. Je zou deze stem kunnen herkennen als die van een goede vriend, familielid of partner. Maar, bijna onmiddellijk daarna zou het duidelijk worden dat dit slechts een grap is. Manipulatie kan extreem nadelige effecten hebben die mensen, hele gemeenschappen of staten kunnen beïnvloeden.

Het verminderen van de impact van verkeerd gebruik van deepfake-stemmen

Om deze dreiging te verminderen, zijn sterke regelgevende en gebruikerseducatieprogramma's noodzakelijk. Deepfake-stemmen moeten op een verstandige manier worden gebruikt en er moeten richtlijnen worden opgesteld door overheden en technologiebedrijven die gezamenlijk werken. Er zijn effectieve maatregelen ontwikkeld om de illegale toepassing van synthetische stemtechnologie te identificeren en te bestrijden; deze omvatten ook het voorlichten van gebruikers over dit feit, aangezien synthetische stemtechnologie voor kwaadaardige doeleinden kan worden gebruikt.

Daarnaast vraagt het om zorgvuldige overweging om innovatief te zijn maar niet de grenzen te overschrijden bij het gebruik van deepfake-stem- en tekst-naar-spraak-technologie. De ontwikkelingen in technologie zijn zeker veelbelovend, maar er moet transparantie en verantwoording zijn bij het gebruik ervan. Het is belangrijk om gebruikers te informeren over stemsynthetisatie, omdat het hen in staat stelt beter te weten welke informatie echt is en welke nep.

Juridische en privacykwesties met betrekking tot deepfake-stemmen

Juridische en privacyoverwegingen spelen ook een rol als het gaat om deepfake-stemmen. Er rijzen vragen over het eigendom van gesynthetiseerde stemmen en de mogelijkheid van ongeoorloofd gebruik. Er moeten duidelijke richtlijnen worden opgesteld om deze complexe kwesties te navigeren, zodat de rechten van individuen worden beschermd en de technologie op verantwoorde wijze wordt gebruikt.

Terwijl we de ethische overwegingen rondom deepfake-stemmen navigeren, is het essentieel om deel te nemen aan open en inclusieve discussies. Ethici, beleidsmakers, technologen en het algemene publiek moeten samenkomen om deze zorgen aan te pakken en de toekomst van deze technologie vorm te geven op een manier die de samenleving als geheel ten goede komt.

Stel je voor dat je een oproep krijgt die klinkt alsof het van een vriend of familielid is, maar het is eigenlijk een nepstem die je probeert te misleiden. Dit kan mensen, gemeenschappen en zelfs hele landen schaden. Er zijn veel toepassingen voor deepfake-stemmen, van leuke toepassingen zoals Alexa die in de stem van een beroemdheid spreekt tot serieuzere toepassingen die misleidend kunnen zijn.

De noodzaak van regelgeving om het gebruik van deepfake-stemmen ethisch te maken

Om mensen veilig te houden, hebben we sterke regels en manieren nodig om gebruikers te onderwijzen over deze nepstemmen. Overheden en technologiebedrijven moeten samenwerken. Ze moeten regels maken over hoe deepfake-stemmen op de juiste manier te gebruiken. Ze moeten ook manieren vinden om schadelijke nepstemmen te herkennen en te stoppen.

Bij het gebruik van deepfake-stemmen is het belangrijk om voorzichtig te zijn en na te denken over wat goed en fout is. Hoewel deze nieuwe stemtools cool zijn, moeten we ze op een eerlijke manier gebruiken. Mensen moeten weten wanneer een stem die ze horen door een computer is gemaakt. Op deze manier kunnen ze beslissen of ze vertrouwen hebben in wat ze horen.

Het is belangrijk om te praten over de problemen met deepfake-stemmen. Iedereen, van experts tot gewone mensen, moet zijn gedachten delen. Dit zal ons helpen deze technologie op een manier te gebruiken die goed is voor iedereen.

Gelukkig, naarmate stemgenererende software beter wordt, zullen we ook beter worden in het herkennen van nepstemmen. Technologiebedrijven ontwikkelen tools om deze nepstemmen te herkennen en te stoppen. Dit zal instellingen zoals banken en callcenters in New York helpen om ervoor te zorgen dat ze met echte mensen praten en niet met computergestuurde stemmen die hen proberen te misleiden.

Deepfake stemsoftware om te proberen

Machine learning tools kunnen een positieve impact hebben op het leven van veel mensen en je bent misschien geïnteresseerd in het proberen te maken van een audio deepfake. Hoewel je geavanceerde hardware en software nodig hebt voor hoogwaardige resultaten, kun je verschillende programma's gebruiken om natuurlijk klinkende stemmen te produceren. Hier zijn vijf deepfake stemgeneratoren die je kunt proberen:

Resemble

Resemble AI is een tekst-naar-spraak en deepfake creatietool die menselijke stemmen produceert met beperkte data. Met ongeveer vijf minuten aan geluidsopnames kunnen gebruikers hun eerste deepfake maken.

Je kunt de voorbeeldfunctie testen en de app clips van jezelf laten verwerken, en binnen een paar minuten hoor je een vertrouwde stem. Gebruikers waarderen de gebruiksvriendelijke interface van Resemble en ze kunnen zelfs de intonatie van de audio-uitvoer aanpassen.

Descript

Deze indrukwekkende spraaksynthesizer heeft krachtige bewerkingsmogelijkheden. Het programma analyseert stemopnames, videoclips en transcripties om AI-gestuurde stemmen te genereren. Als je niet tevreden bent met de kwaliteit van het invoermateriaal, kun je het direct vanuit de app bewerken—geen extra opnames nodig.

Het primaire doel van Descript is om contentmakers te helpen hoogwaardige voice-overs te maken voor hun podcasts en video's. Het programma heeft talloze standaardstemmen waarmee je kunt experimenteren om vertrouwd te raken met de mogelijkheden van Descript.

ReSpeecher

ReSpeecher is een betrouwbare deepfake-oplossing die heeft geholpen om de stem van Luke Skywalker te recreëren in The Mandalorian. Hoewel de software geschikt is voor films en tv-shows, kan het ook een uitstekende manier zijn om voice-overs te maken voor advertenties, animaties, videogames, podcasts en meer. 

iSpeech

iSpeech is beschikbaar als een desktopprogramma, maar je kunt ook de webgebaseerde versie proberen. Naast stemsynthetisering heeft de app tekst-naar-spraak, weblezer en spraakherkenningsfuncties. Om vertrouwd te raken met de software, kun je een van de demo's proberen en spelen met de stemmen van Barrack Obama, Arnold Schwarzenegger of Scarlett Johansson.

Real-Time stemklonen

Dit open-source project is gratis beschikbaar op GitHub. Deze uitgebreide toolbox kan de stem van een persoon synthetiseren met slechts vijf seconden aan audio-invoer. Gebruikers hebben echter gemeld dat het bedienen van de software matige tot gevorderde technische vaardigheden vereist.

Speechify – het gebruiksvriendelijke tekst-naar-spraak alternatief voor deepfake stemmen

Tekst-naar-spraak (TTS) apps zoals Speechify en deepfake-generatoren maken gebruik van vergelijkbare technologieën, maar hebben verschillende doelen. Speechify is een TTS of voorlees tool die vrijwel elke gedrukte of digitale tekst kan voorlezen. Nadat gebruikers een Microsoft Word-document, artikel of transcript in de app hebben geïmporteerd en hun favoriete stem van de verteller hebben gekozen, leest Speechify de inhoud hardop voor.

Het programma biedt een ongeëvenaarde selectie van hoogwaardige mannelijke en vrouwelijke stemmen en ondersteunt meer dan 20 talen, waaronder Engels, Spaans, Frans, Italiaans en Portugees. Als je je productiviteit wilt verhogen en een beroemdheid naar je wilt laten luisteren, waarom probeer je dan niet de Gwyneth Paltrow-stem van Speechify?

Download het programma op je computer, iPhone of Android apparaat en probeer Speechify gratis vandaag nog.

FAQ

Is FakeYou gratis?

FakeYou is een gebruiksvriendelijk en gratis programma waarmee je natuurlijk klinkende stemmen kunt creëren.

Hoe weet je of een stem een deepfake is?

Het kan moeilijk zijn om deepfakes te identificeren zonder geavanceerde software. Cybersecuritybedrijven gebruiken stem-biometrische systemen om deepfake-fraude te voorkomen. 

Wat zijn enkele gevaren van deepfake-stemmen?

Deepfakes worden soms voor kwaadaardige doeleinden gebruikt en kunnen desinformatie verspreiden, iemands reputatie schaden en een gebrek aan vertrouwen in overheidsinstellingen veroorzaken. 

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman is een voorvechter van dyslexie en de CEO en oprichter van Speechify, de nummer 1 tekst-naar-spraak app ter wereld, met meer dan 100.000 beoordelingen van 5 sterren en de eerste plaats in de App Store in de categorie Nieuws & Tijdschriften. In 2017 werd Weitzman opgenomen in de Forbes 30 onder 30 lijst voor zijn werk om het internet toegankelijker te maken voor mensen met leerstoornissen. Cliff Weitzman is te zien geweest in EdSurge, Inc., PC Mag, Entrepreneur, Mashable, en andere toonaangevende media.