Deepfake-stemmer: hvordan AI forvandler stemmeteknologi
Leder du efter vores Tekst til Tale Læser?
Fremhævet i
Du har hørt om deepfake-stemmer, men hvad er de egentlig? Denne guide vil fortælle dig alt, hvad du behøver at vide om denne AI-teknologi og hvordan den sammenlignes med TTS.
Deepfake-stemmer og tekst-til-tale
Takket være fremskridt inden for kunstig intelligens (AI) og dyb læring kan man nu skabe høj kvalitet og realistisk syntetisk medie. Denne teknologi har åbnet døre til mange nye kreative teknologier, der påvirker mange industrier. En sådan teknologi er deepfakes, også kendt som syntetiske stemmer og stemme-kloning.
Hvad er deepfake-stemmer?
Deepfake betyder syntetisk medie, også kendt som stemme-kloning. Med AI er det muligt for brugere at generere video-deepfakes, der bytter en persons udseende med en andens på skærmen eller får nogen til at sige noget, de aldrig ville have sagt, populært kendt som stemme-kloning. Forestil dig, at du kunne få en Arnold Schwarzenegger-stemme til at gentage, hvad du vil.
Processen kræver speciel software til at analysere ansigter, behandle stemme fra tekstmanuskripter og modellere mundens bevægelse i et tredimensionelt rum.
Der er nogle avancerede anvendelser af denne teknologi, men stemme-kloning er en af dem. Næsten alle, selvom de ikke er teknologinørder, er stødt på en deepfake-skandale. For nylig blev der dog udgivet en posthum dokumentar om Tony Bourdain, der overraskede publikum, da han stadig kunne fortælle i
IT-startups hjalp produktionsselskabet med at genskabe Bourdains stemme for at give historien et strejf af virkelighed. Der er ingen tvivl om, at dette er en præstation, men det rejser mange moralske spørgsmål. Når alt kommer til alt, behøver man kun en computer med den rette software for at producere manipuleret optagelse eller falsk lyd om en anden person.
Hvordan laves deepfakes præcist?
Først samler du nok prøver af en persons stemme. Input kan komme fra sociale medieopslag, optagede telefonsamtaler, tv osv. Derefter kombinerer software, der kører på AI-algoritmer, prøverne for at producere en falsk stemme.
Dette er en grundlæggende oversigt over den komplekse proces, men i sidste ende bruger AI-værktøjer de indsamlede data til at skabe naturligt lydende stemmer, der kan læse digital tekst. Af denne grund er deepfakes tæt forbundet med tekst-til-tale (TTS) teknologi.
Integration af deepfake-stemmer i tekst-til-tale
Brugere kan manipulere funktioner som tonehøjde, alder og accent ved at bruge deepfake-stemmeteknologi integreret i tekst-til-tale-systemer. Sådanne personer kan endda udvikle syntetiserede stemmer, der ligner deres ønskede tone og stil, for eksempel i tilfælde af stemmehandicap. Sådan tilpasning vil i høj grad forbedre deres evne til at kommunikere og deres livskvalitet generelt.
Ved at bruge deepfake-stemmer skaber de mere tiltalende lydindhold, der tiltrækker følgere og loyalitet for indholdsskabere. De udnytter deepfake-stemmer, der lyder som kendte fortællere eller stjerner, for at tiltrække og fascinere lyttere. Det er især værdifuldt for multimedieindhold som lydbøger, podcasts, hvor lyden har stor betydning for at fremkalde følelser i publikums engagement.
Dog rejser brugen af deepfake-stemmer til integration i TTS-systemer flere moralske problemer. Deepfake-stemmer er i stand til manipulation og efterligning—at vildlede folk, der ikke er i stand til at give samtykke til sådanne handlinger. Dette peger på behovet for faste kontroller og love, der fremmer den retmæssige og moralske anvendelse af denne teknologi.
Endelig præsenterer integrationen af deepfake-stemmer i tekst-til-tale-systemer en mulighed for individualiseret og engagerende stemmesyntese. Denne teknologi kan i høj grad ændre vores interaktion med genereret tale på en måde, der vil gøre det mere tilgængeligt og forbedre den generelle tilfredshed for brugere, der tager etiske overvejelser i betragtning.
Fordele
Deepfakes indeholder flere positive elementer. Deepfake-videoen “This Is Not Morgan Freeman” fra 2021 demonstrerede, hvordan Augmented-teknologi kunne have sin nytte.
Billederne viste, at ved at træne AI'en med lydoptagelser og filmklip, kunne de skabe en efterligning af skuespilleren, inklusive efterligne hans bevægelser, udseende og tale. Som vi påpegede, har det sine etiske problemer, men kan være uvurderligt for en person som skuespilleren Val Kilmer.
Selvom Kilmer fik halskræft, der gjorde, at han mistede sin stemme, troede nogle, at det var slutningen på hans Hollywood-karriere. I en Prime Voice, i Amazon Prime-dokumentaren om Kilmer, blev det afsløret, at skuespillerens søn ville give Kilmer stemmeoversættelser, når han spillede nye roller.
Ikke desto mindre, da Kilmer slog sig sammen med Sonantic—en IT-startup, der er stemmemodelleret, fik han til sidst sin stemme tilbage. Ved hjælp af deepfake-teknologi genskabte virksomheden Kilmers stemme, og publikum kunne høre de forbløffende resultater i den nyligt udgivne film Top Gun: Maverick.
Ulemper
Maskinlæring kan replikere nogens stemme i steder som New York, der hurtigt omfavner teknologi. Dette gør det nemt for individer at afsløre deres personlige oplysninger og falde i fælden for falske eller svindelopkald.
Etiske bekymringer om Deepfake-teknologi
Der er nogle etiske spørgsmål omkring brugen af deepfake-stemmer og deepfake tekst til tale. Efterhånden som flere teknologiske fremskridt kommer til, er der potentielle tilbageslag. Deepfake-stemmerne af Arnold Schwarzenegger AI-stemme, for eksempel, er så naturlige, at de narrer folk. Dette kan skabe mistanke om alt, hvad man hører, og selv-tvivl.
Når samfundet omfavner enhver form for ny teknologi, skal det tænke sig om to gange over de farer, der følger med. Deepfakes kan bedrage og påvirke mennesker gennem deres stemmer. Det er derfor rimeligt at bekymre sig, da det kan kompromittere offentlighedens tillid og krænke privatlivets fred.
Der er især et presserende problem, når det kommer til brugen af deepfakes. Endnu farligere er brugen af syntetiske stemmer, når de bruges i telefonbedrageri og desinformationskampagner, der er vidt udbredt. Forestil dig, at du modtager et ukendt opkald, men nogens stemme lyder meget bekendt. Du kunne genkende denne stemme som din nære ven, familiemedlem eller kæreste. Men næsten umiddelbart derefter ville det blive klart, at dette kun er et fupnummer. Manipulation kan forårsage ekstremt skadelige virkninger, der kan påvirke mennesker, hele samfund eller stater.
Reducere virkningen af forkert brug af deepfake-stemmer
For at reducere denne trussel er stærke regulerings- og brugeruddannelsesprogrammer nødvendige. Deepfake-stemmer skal bruges med omtanke, og der bør være retningslinjer på plads fra regeringer og teknologivirksomheder, der arbejder sammen. Effektive foranstaltninger er blevet udviklet til at identificere og bekæmpe den ulovlige anvendelse af syntetisk stemmeteknologi; disse involverer også at uddanne brugere om dette faktum, da syntetisk stemmeteknologi kan bruges til ondsindede formål.
Derudover kræver det omhyggelig overvejelse at være innovativ, men ikke overskride grænserne i brugen af deepfake-stemme- og tekst-til-tale-teknologi. Udviklingen inden for teknologi er bestemt lovende, men der skal være gennemsigtighed og ordentlig ansvarlighed, når man bruger dem. Det er vigtigt at informere brugerne om stemmesyntese, fordi det giver dem mulighed for bedre at vide, hvad der er ægte, og hvad der er falsk.
Juridiske og privatlivsmæssige overvejelser vedrørende deepfake-stemmer
Juridiske og privatlivsmæssige overvejelser spiller også ind, når det kommer til deepfake-stemmer. Spørgsmål opstår vedrørende ejerskabet af syntetiserede stemmer og potentialet for uautoriseret brug. Klare retningslinjer skal etableres for at navigere i disse komplekse spørgsmål, sikre at individers rettigheder beskyttes, og at teknologien bruges ansvarligt.
Når vi navigerer i de etiske overvejelser omkring deepfake-stemmer, er det essentielt at engagere sig i åbne og inkluderende diskussioner. Etikere, politikere, teknologer og offentligheden skal komme sammen for at adressere disse bekymringer og forme fremtiden for denne teknologi på en måde, der gavner samfundet som helhed.
Forestil dig at få et opkald, der lyder som om det er fra en ven eller et familiemedlem, men det er faktisk en falsk stemme, der prøver at narre dig. Dette kan skade mennesker, samfund og endda hele lande. Der er mange anvendelsesmuligheder for deepfake-stemmer, fra sjove applikationer som at få Alexa til at tale med en kendis' stemme til mere alvorlige anvendelser, der kan være vildledende.
Behovet for regulering for at gøre brugen af deepfake-stemmer etisk
For at holde folk sikre, har vi brug for stærke regler og måder at uddanne brugere om disse falske stemmer. Regeringer og teknologivirksomheder bør arbejde sammen. De skal lave regler om, hvordan man bruger deepfake-stemmer på den rigtige måde. De skal også finde måder at opdage og stoppe skadelige falske stemmer.
Når man bruger deepfake-stemmer, er det vigtigt at være forsigtig og tænke over, hvad der er rigtigt og forkert. Selvom disse nye stemmeværktøjer er seje, skal vi bruge dem på en måde, der er ærlig. Folk bør vide, når en stemme, de hører, er lavet af en computer. På denne måde kan de beslutte, om de stoler på, hvad de hører.
At tale om problemerne med deepfake-stemmer er vigtigt. Alle, fra eksperter til almindelige mennesker, bør dele deres tanker. Dette vil hjælpe os med at bruge denne teknologi på en måde, der er god for alle.
Heldigvis, efterhånden som stemmegenereringssoftware bliver bedre, bliver vi også bedre til at opdage falske stemmer. Teknologivirksomheder udvikler værktøjer til at opdage og stoppe disse falske stemmer. Dette vil hjælpe steder som banker og callcentre i New York med at sikre, at de taler med rigtige mennesker og ikke computerstemmer, der forsøger at narre dem.
Deepfake stemmesoftware at prøve
Maskinlæringsværktøjer kan have en positiv indvirkning på mange menneskers liv, og du kan være interesseret i at prøve at skabe en lyd-deepfake. Selvom du har brug for avanceret hardware og software for at opnå resultater af høj kvalitet, kan du bruge flere programmer til at producere naturligt lydende stemmer. Her er fem deepfake stemmegeneratorer, du kan prøve:
Resemble
Resemble AI er et tekst-til-tale og deepfake skabelsesværktøj, der producerer menneskelige stemmer ved hjælp af begrænsede data. Med cirka fem minutters lydoptagelser kan brugere skabe deres første deepfake.
Du kan teste prøvefunktionen og fodre appen med klip af dig selv, og inden for få minutter vil du høre en velkendt stemme. Brugere sætter pris på Resembles brugervenlige grænseflade, og de kan endda justere intonationen af lydoutputtet.
Descript
Denne imponerende tale-synthesizer har kraftfulde redigeringsmuligheder. Programmet analyserer stemmeoptagelser, videoklip og transskriptioner for at generere AI-drevne stemmer. Hvis du er utilfreds med kvaliteten af inputmaterialet, kan du redigere det direkte fra appen—ingen grund til at lave yderligere optagelser.
Descripts primære formål er at hjælpe indholdsskabere med at lave høj-kvalitets voiceovers til deres podcasts og videoer. Programmet har utallige standardstemmer, du kan eksperimentere med for at blive fortrolig med Descripts muligheder.
ReSpeecher
ReSpeecher er en pålidelig deepfake-løsning, der hjalp med at genskabe Luke Skywalkers stemme i The Mandalorian. Selvom softwaren er velegnet til film og tv-shows, kan det også være en fremragende måde at lave voiceovers til reklamer, animationer, videospil, podcasts og mere.
iSpeech
iSpeech er tilgængelig som et desktop-program, men du kan også prøve den webbaserede version. Udover stemmesyntese har appen tekst-til-tale, web-læser og talegenkendelsesfunktioner. For at blive fortrolig med softwaren kan du prøve en af dens demoer og lege med stemmerne af Barrack Obama, Arnold Schwarzenegger eller Scarlett Johansson.
Real-Time stemmekloning
Dette open-source projekt er tilgængeligt gratis på GitHub. Denne omfattende værktøjskasse kan syntetisere en persons stemme med så lidt som fem sekunders lydinput. Dog har brugere rapporteret, at det kræver moderate til avancerede tekniske færdigheder at betjene softwaren.
Speechify – den brugervenlige tekst-til-tale-alternativ til deepfake stemmer
Tekst-til-tale (TTS) apps som Speechify og deepfake-generatorer bruger lignende teknologier, men de har forskellige formål. Speechify er et TTS eller oplæsningsværktøj, der kan læse stort set enhver trykt eller digital tekst. Efter brugerne importerer et Microsoft Word-dokument, en artikel eller et transkript til appen og vælger deres foretrukne fortællerstemme, vil Speechify læse indholdet højt.
Programmet har et uovertruffent udvalg af høj kvalitet mandlige og kvindelige stemmer og understøtter over 20 sprog, herunder engelsk, spansk, fransk, italiensk og portugisisk. Hvis du vil øge produktiviteten og lytte til en kendis læse for dig, hvorfor så ikke prøve Speechifys Gwyneth Paltrow-stemme?
Download programmet på din computer, iPhone eller Android enhed og prøv Speechify gratis i dag.
FAQ
Er FakeYou gratis?
FakeYou er et brugervenligt og gratis program, du kan bruge til at skabe naturligt lydende stemmer.
Hvordan ved man, om en stemme er en deepfake?
Det kan være udfordrende at identificere deepfakes uden sofistikeret software. Cybersikkerhedsfirmaer bruger stemmebiometriske systemer til at forhindre deepfake-svindel.
Hvad er nogle af farerne ved deepfake-stemmer?
Deepfakes tjener nogle gange ondsindede formål og kan sprede misinformation, ødelægge en persons omdømme og skabe mistillid til offentlige institutioner.
Cliff Weitzman
Cliff Weitzman er en fortaler for dysleksi og CEO samt grundlægger af Speechify, verdens førende app til tekst-til-tale, med over 100.000 5-stjernede anmeldelser og førstepladsen i App Store i kategorien Nyheder & Magasiner. I 2017 blev Weitzman udnævnt til Forbes 30 under 30-listen for sit arbejde med at gøre internettet mere tilgængeligt for personer med indlæringsvanskeligheder. Cliff Weitzman har været omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blandt andre førende medier.