Social Proof

Hvad er zero-shot stemmekloning?

Speechify er den førende AI Voice Over Generator. Skab menneskelignende voice over-optagelser i realtid. Fortæl tekst, videoer, forklaringer – hvad som helst du har – i enhver stil.

Leder du efter vores Tekst til Tale Læser?

Fremhævet i

forbes logocbs logotime magazine logonew york times logowall street logo
Lyt til denne artikel med Speechify!
Speechify

Hvad er zero-shot stemmekloning? Opdag hvad zero-shot stemmekloning er, og hvordan det fungerer.

Takket være fremskridt inden for maskinlæring har stemmekloning gjort betydelige fremskridt i de seneste år, hvilket har resulteret i nogle af de mest imponerende tekst-til-tale løsninger til dato. Blandt de vigtigste udviklinger er zero-shot, som har skabt bølger i teknologisektoren. Denne artikel vil introducere zero-shot stemmekloning og hvordan det har transformeret industrien.

Zero-shot maskinlæring forklaret

Målet med stemmekloning er at replikere en talers stemme ved at syntetisere deres tone og klang ved hjælp af kun en lille mængde optaget tale. Med andre ord er stemmekloning en avanceret teknologi, der bruger kunstig intelligens til at skabe en stemme, der ligner en bestemt persons. Denne teknologi skelner mellem tre hovedprocesser inden for stemmekloning:

One-shot læring

One-shot læring betyder, at modellen kun trænes på ét billede af noget nyt, men den skal stadig kunne genkende andre billeder af det samme.

Few-shot læring

Few-shot læring er, når en model vises nogle få billeder af noget nyt og kan genkende lignende ting, selvom de ser lidt anderledes ud.

Zero-shot læring

Zero-shot læring er at lære en model at genkende nye objekter eller begreber, som den ikke tidligere er blevet trænet på, ved at bruge et datasæt, såsom VCTK, til at beskrive dem. Dette er, når modellen læres at genkende nye ting uden billeder, eksempler eller anden træningsdata. I stedet giver du den en liste over egenskaber eller funktioner, der beskriver det nye element.

Hvad er stemmekloning?

Stemmekloning er at replikere en talers stemme ved hjælp af maskinlæringsteknikker. Målet med stemmekloning er at gengive talerens tone ved kun at bruge en lille mængde af deres optagede tale. I stemmekloning omdanner en taler-encoder en persons tale til en kode, der senere kan omdannes til en vektor ved hjælp af talerindlejring. Den vektor bruges derefter til at træne en synthesizer, også kendt som en vocoder, til at skabe en tale, der lyder som talerens stemme. Synthesizeren tager talerindlejringsvektoren og et mel-spektrogram, en visuel repræsentation af talesignalet, som input. Dette er den grundlæggende proces for stemmekloning. Den producerer derefter en bølgeformet output, som er den faktiske lyd af den syntetiserede tale. Denne proces udføres typisk ved hjælp af maskinlæringsteknikker såsom dyb læring. Derudover kan den trænes ved hjælp af en række datasæt og metrikker til at evaluere kvaliteten af den genererede tale. Stemmekloning kan bruges til forskellige anvendelser såsom:

  • Stemmeomdannelse - evnen til at ændre en optagelse af en persons stemme, så det lyder som om en anden person talte det.
  • Talerverifikation - når nogen siger, at de er en bestemt person, og deres stemme bruges til at kontrollere, om det er sandt.
  • Multitaler tekst til tale - en skabelse af tale fra trykt tekst og nøgleord

Nogle populære stemmekloningsalgoritmer inkluderer WaveNet, Tacotron2, Zero-shot Multispeaker TTS, og Microsofts VALL-E. Derudover kan mange andre open-source algoritmer findes på GitHub, som tilbyder fremragende slutresultater. Hvis du er interesseret i at lære mere om stemmekloningsteknikker, er ICASSP, Interspeech og IEEE International Conference de rette steder for dig.

Zero-shot læring i stemmekloning

En taler-encoder bruges til at udtrække talevektorer fra træningsdata for at opnå zero-shot stemmekloning. Disse talevektorer kan derefter bruges til signalbehandling af talere, der ikke tidligere har været inkluderet i træningsdatasættene, også kendt som usete talere. Dette kan opnås ved at træne et neuralt netværk ved hjælp af en række teknikker, såsom:

  • Konvolutionelle modeller er neurale netværksmodeller, der anvendes til at løse billedklassifikationsproblemer.
  • Autoregressive modeller kan forudsige fremtidige værdier baseret på tidligere værdier.

En af udfordringerne ved zero-shot stemmekloning er at sikre, at den syntetiserede tale er af høj kvalitet og lyder naturlig for lytteren. For at imødegå denne udfordring anvendes forskellige metrikker til at evaluere kvaliteten af talesyntesen:

  • Talersimilaritet måler, hvor lig den syntetiserede tale er med den oprindelige måltalers talemønstre.
  • Talenaturlighed refererer til, hvor naturlig den syntetiserede tale lyder for lytteren.

De faktiske data fra den virkelige verden, som bruges til at undervise og evaluere AI-modeller, kaldes grundsandheds referenceaudio. Disse data bruges til træning og normalisering. Derudover anvendes stiloverførselsteknikker for at forbedre modellens evne til generalisering. Stiloverførsel indebærer brugen af to input - et til hovedindholdet og et andet til stilreferencen - for at forbedre modellens ydeevne med nye data. Med andre ord bliver modellen bedre til at håndtere nye situationer.

Se den nyeste stemmekloningsteknologi i aktion med Speechify

Selvom det måske virker utraditionelt at inkludere en tekst-til-tale generator i denne artikel, er Speechify det perfekte valg for enhver, der har brug for en høj kvalitet, alsidig TTS-læser. Den har enestående udtale og understøttelse af engelsk, spansktysk, og 12 andre sprog, sammen med over 30 tilpassede stemmer fra forskellige talere. Speechify er en mægtig TTS-kraftpakke, ideel til AI-voiceovers. Som en banebrydende TTS tjeneste anvender Speechify en avanceret model, der udnytter realtidsoptimering og avancerede dekodningsteknikker, hvilket resulterer i naturligt lydende fortælling, der kan måle sig med menneskelig tale. Speechify er en brugervenlig software, der fungerer på næsten alle operativsystemer, inklusive WindowsAndroidiOS, og Mac. Speechifys dekoder anvender avancerede signalbehandlingsteknikker og understøtter hastigheder 9x hurtigere end den gennemsnitlige læsehastighed, hvilket tilbyder en række funktioner for at sikre den premium kvalitet af lydoutputtet. Prøv det nu i dag og oplev kraften i den bedste end-to-end TTS modelteknologi på første hånd, med dens tilpasselige fortrænede modeller og mangfoldige udvalg af stemmer.

FAQ

Hvad er formålet med stemmekloning?

Stemmekloning har til formål at producere høj kvalitet, naturligt lydende tale, der kan anvendes i forskellige applikationer for at forbedre kommunikation og interaktion mellem mennesker og maskiner.

Hvad er forskellen mellem stemmekonvertering og stemmekloning?

Stemmekonvertering indebærer at ændre en persons tale, så den lyder som en anden person, mens stemmekloning skaber en ny stemme, der ligner en specifik menneskelig taler.

Hvilken software kan klone en persons stemme?

Der er mange muligheder tilgængelige, herunder Speechify, Resemble.ai, Play.ht og mange andre.

Hvordan kan man opdage en falsk stemme?

En af de mest almindelige teknikker til at identificere audio deepfake er spektralanalyse, som indebærer at analysere et lydsignal for at opdage karakteristiske stemmemønstre.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman er en fortaler for dysleksi og CEO samt grundlægger af Speechify, verdens førende app til tekst-til-tale, med over 100.000 5-stjernede anmeldelser og førstepladsen i App Store i kategorien Nyheder & Magasiner. I 2017 blev Weitzman udnævnt til Forbes 30 under 30-listen for sit arbejde med at gøre internettet mere tilgængeligt for personer med indlæringsvanskeligheder. Cliff Weitzman har været omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blandt andre førende medier.