Kan AI Gjenskape en Menneskelig Stemme?
Leter du etter vår Tekst-til-tale-leser?
Fremhevet i
Kunstig intelligens (AI) har infiltrert nesten alle aspekter av livene våre, fra chatboter på nettsider til innholdsskapere på sosiale medier, og til og med...
Kunstig intelligens (AI) har infiltrert nesten alle aspekter av livene våre, fra chatboter på nettsider til innholdsskapere på sosiale medier, og til og med videospill. AI-stemmeteknologi har spesielt sett betydelige fremskritt, og har gått fra grunnleggende tekst-til-tale (TTS) systemer til å skape menneskelignende syntetiske stemmer. Med AI-verktøy som AI-stemmegeneratorer og stemmekloningsprogramvare, kan AI nå overbevisende etterligne en persons stemme.
Forskjellen Mellom Tekst-til-Tale og Talegjenkjenning
Tekst-til-tale (TTS) og talegjenkjenning er to sider av samme mynt; begge involverer menneskelig stemme og AI-teknologi, men tjener forskjellige formål. TTS er en form for talesyntese som oversetter tekst til talte stemmeutganger, ofte brukt i lydbøker, e-læring og hjelpemidler for personer med funksjonshemninger. Det bruker AI og maskinlæringsalgoritmer for å generere en syntetisk stemme fra skriftlig tekst.
På den annen side er talegjenkjenning prosessen der et AI-verktøy transkriberer talte ord til skriftlig tekst. Denne teknologien brukes mye i sanntidstranskripsjonstjenester, stemmeassistenter som Apples Siri eller Amazons Alexa, og til og med noen sosiale medieplattformer som TikTok for undertekster.
Hvordan AI Kan Gjenskape en Menneskelig Stemme
Den typiske måten for AI å gjenskape en menneskelig stemme på innebærer en to-trinns prosess - analyse og syntese. Dette er en del av et felt kjent som stemmekloning teknologi. Først bruker AI-systemet dype læringsalgoritmer og nevrale nettverk for å analysere lydklipp eller opptak av personens stemme, og studerer mønstre, toner og aksenter.
I syntesefasen bruker AI generative AI-modeller (som OpenAI's ChatGPT eller Adobe's VoCo) for å skape en digital stemme som speiler den analyserte stemmen. Det er likt å lage en deepfake, men for stemmer. Alt det vanligvis trenger er noen sekunder med lyd for å generere en realistisk stemme.
Komponentene i Å Skape en Menneskelig Stemme
For å skape en menneskelig stemme, spiller flere komponenter inn. Disse inkluderer:
- Fonetisk Analyse: Forstå den fonetiske strukturen i menneskelig tale, bryte ned ordene i individuelle lyder.
- Prosodianalyse: Forstå rytmen, trykket og intonasjonen i talen.
- Læringsalgoritmer: Maskinlæringsalgoritmer brukes for å lære av lyddataene og gjenskape lignende mønstre.
- Generative Modeller: Disse brukes til å generere nye stemmedata som matcher de lærte mønstrene.
Forskjellene Mellom Menneskelig Stemme og AI-Stemme
Selv om fremskritt har gjort AI-stemmer mer naturlige og menneskelignende, eksisterer det fortsatt forskjeller mellom en menneskelig stemme og en AI-stemme. Den største forskjellen ligger i de emosjonelle nyansene og kontekststyrte infleksjonene som menneskelig tale naturlig besitter, som AI fortsatt lærer å mestre. Videre er det etiske og personvernhensyn i AI-stemmekloning, da misbruk kan føre til identitetstyveri og deepfake-svindel.
Topp 8 AI-Stemmeprogramvare
- OpenAI's ChatGPT: Bruker generativ AI for å skape menneskelignende tekstsvar. ChatGPT kan integreres i ulike applikasjoner for realistisk stemmebruk ved hjelp av AI.
- Adobe's VoCo: Adobes stemmekloningsverktøy, VoCo, lar deg redigere og skape menneskelig tale med bare 20 minutter av den originale stemmeprøven.
- Amazon Polly: Denne tjenesten konverterer tekst til livaktig tale, slik at utviklere kan lage applikasjoner som snakker og bygge nye kategorier av taleaktiverte produkter.
- Microsoft Azure Tekst til Tale: Kjent for sin høykvalitets, naturlig klingende AI-stemme, er det mye brukt i tilgjengelighet, underholdning og kommunikasjonsapplikasjoner.
- Google Tekst-til-Tale: En tjeneste brukt av Google-tjenester for å syntetisere naturlig klingende tale på over 30 språk.
- Descript: Dette verktøyet lar brukere skape, redigere og forbedre sin egen stemme for applikasjoner som podkast og voice-overs.
- Resemble AI: Resemble AI tilbyr en stemmekloningsteknologi for å skape unike, AI-genererte stemmer for merker og produkter.
- Lyrebird: Kjøpt opp av Descript, var Lyrebird en av de første som tilbød en stemmekloningsprogramvare for å skape realistiske digitale stemmer.
AI-stemmeteknologi, drevet av dyp læring og nevrale nettverk, fortsetter å utvikle seg, og muliggjør bruksområder innen lydbøker, podkaster, sosiale medier og videospill. Som rapportert av Forbes, tilbyr nye AI-verktøy høykvalitets, realistiske stemmer som forandrer måten vi samhandler med teknologi på. Etter hvert som dette feltet fortsetter å utvikle seg, blir skillet mellom menneskestemmen og den AI-genererte stemmen stadig mer utydelig. Men sammen med de enorme potensialene til denne teknologien, er det viktig å trå varsomt med tanke på etiske og personvernmessige spørsmål.
Cliff Weitzman
Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify, verdens ledende app for tekst-til-tale, med over 100 000 femstjerners anmeldelser og førsteplass i App Store i kategorien Nyheter og Magasiner. I 2017 ble Weitzman kåret til Forbes 30 under 30-listen for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blitt omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blant andre ledende medier.