Vad är Microsoft VALL-E?

Speechify är världens främsta ljudläsare. Ta dig igenom böcker, dokument, artiklar, PDF-filer, e-post - allt du läser - snabbare.

Prova gratis

Medverkat i

Microsoft VALL-E förklarat
Förstå zero-shot neural codec-språkmodeller
Lyssna på den banbrytande TTS-teknologin i aktion med Speechify
Vanliga frågor

Lyssna på denna artikel med Speechify!

Microsoft VALL-E representerar den senaste teknologiska utvecklingen som kan driva helt naturligt ljudande TTS. Här är en detaljerad genomgång av tekniken.

Text-till-tal-teknologin har gjort enorma framsteg, särskilt under de senaste åren. Drivet av förbättringar inom artificiell intelligens kan dagens TTS leverera högkvalitativa uppläsningar som imiterar mänskligt tal.

Microsofts VALL-E är den senaste tekniska lösningen som kan få text-till-tal att låta kusligt verkligt. Det är en neural codec-språkmodell baserad på zero-shot maskininlärning.

Om den sista meningen låter som sci-fi-teknobabbel, oroa dig inte. Vi kommer att bryta ner de komplexa koncepten bakom VALL-E i artikeln nedan.

Microsoft VALL-E förklarat

AI-modeller växer i kraft i snabb takt. Vid det här laget känner alla till OpenAI:s ChatGPT, som kanske är det närmaste vi har kommit till att AI verkar som en verklig person. Och du har förmodligen sett AI-genererad konst från DALL-E-motorn.

Förutom startups som OpenAI har globala företag som Microsoft varit betydande aktörer inom AI-området.

Microsofts forskare har nyligen arbetat med framsteg inom text-till-tal-syntes. VALL-E representerar just det.

Den nya AI:n kommer sannolikt att bli en spelväxlare inom TTS-landskapet eftersom den kan generera mänskligt ljudande tal baserat på ett litet ljudprov. En tre sekunders akustisk prompt räcker för att VALL-E ska kunna snappa upp den specifika talarens mönster.

Efter att ha mottagit talarens prompt kan AI:n imitera människans röst och till och med simulera deras emotionella ton. Lika imponerande är att VALL-E bevarar den akustiska miljön hos den osedda talaren.

Enkelt uttryckt, VALL-E-modellen utmärker sig i talarlikhet. Du kan höra den i aktion på GitHub, där Microsoft delade ljudexempel tillsammans med en detaljerad förklaring av AI:n.

Självklart har sådan teknik många potentiella användningsområden, som att skapa podcasts och ljudböcker. Potentialen kan växa ytterligare när VALL-E kombineras med generativa modeller som GPT-3.

Men teknik som VALL-E kan också användas för mer illvilliga ändamål.

Eftersom VALL-E kan låta skrämmande lik en verklig person är det lätt att se hur illasinnade aktörer kan utnyttja tekniken för bedrägerier som icke-konsensuella, skadliga deepfakes. Sådana möjligheter fick Microsoft att utfärda ett etiskt uttalande.

I uttalandet förespråkar företaget specifika talredigeringsmodeller som skulle säkerställa samtycke från den ursprungliga talaren.

Men kontroverser kring VALL-E:s potentiella användningar är en fråga för framtiden. För nu finns det en mer spännande fråga på bordet:

Hur replikerar AI:n komplexa mönster med endast en tre sekunders ljud som basprov?

Inte överraskande är svaret ganska komplext.

VALL-E hade omfattande träningsdata, bestående av tusentals timmar av engelskt tal. Detta förberedde AI:n för sömlös simulering av engelskt tal. Men VALL-E är inte ditt vanliga TTS-system – det drivs av banbrytande maskininlärningsteknik.

Vi har redan nämnt teknikens namn: zero-shot neural codec-språkmodell. Låt oss titta på vad dessa termer betyder i praktiken.

Förstå zero-shot neural codec-språkmodeller

Börjar med den mer okomplicerade termen, "zero-shot" hänvisar till en specifik teknik för text-till-tal-motorer. Det möjliggör AI-genererat tal baserat på tidigare okända data. Med andra ord kan datorn läsa upp text den aldrig "sett" förut.

Ännu mer imponerande är att zero-shot-teknik tillåter maskinen att producera uppläsningar utan ytterligare träning. I princip är det likt hur människor kan läsa en obekant text på ett språk de redan kan.

Går vidare till den komplicerade delen, kräver "neural codec-språkmodell" en ytterligare förklaring.

TTS-motorer förlitar sig på ljudcodecs för att skapa vågformer baserade på skriven text. Codecen hjälper AI:n att översätta skrivna bokstäver, ord och meningar till motsvarande ljud. En neural codec tjänar samma syfte men är baserad på ett robust neuralt nätverk.

Självklart väcker detta en ytterligare fråga: Vad är ett neuralt nätverk?

Vi kommer att förklara det här i bredare drag utan att gå in på en ännu djupare dykning. Ett neuralt nätverk försöker efterlikna hur den mänskliga hjärnan fungerar. Nätverket består av artificiella neuroner kallade noder, som är kopplade och organiserade i lager.

Den komplexa strukturen möjliggör så kallad djupinlärning, vilket gör maskinen mer kapabel att utveckla och anpassa sig till okända mönster.

Den neurala kodaren driver språkmodellen, den andra delen av denna text-till-tal ekvation.

Språkmodellen använder en dataset för att förstå textinmatning i kontexten av ett faktiskt språk. Med andra ord, det är så maskinen "förstår" text.

I VALL-E:s fall fungerade LibriLight, ett ljudbibliotek sammanställt av Facebooks Meta, som AI:ns språkmodellsgrund.

Lyssna på den banbrytande TTS-teknologin i aktion med Speechify

Även om VALL-E fortfarande inte är tillgänglig för allmänheten, kan du höra hur en avancerad text-till-tal motor låter med Speechify. Speechify är en TTS-tjänst som kan läsa upp text från praktiskt taget vilken källa som helst.

Oavsett om du ger den skriven text, webbinnehåll eller en skannad sida, läser Speechify det direkt. Ännu bättre, motorn har berättarröster som låter naturliga. Till skillnad från de typiska robotiska TTS-motorerna låter Speechify mer som en människa än en maskin.

Dessutom kan du justera hur Speechify läser. Välj ditt föredragna språk, berättare och läshastighet, och lyssna på vilken text som helst precis som du vill.

Om allt detta låter spännande kan du prova Speechify gratis idag.

Vanliga frågor

Kan folk använda Vall-E?

Det finns många farhågor om hur VALL-E kan missbrukas. Identitetsstöld är en särskilt oroande möjlighet. Av den anledningen har Microsoft valt att inte göra VALL-E tillgänglig för allmänheten.

Vad är Microsoft AI?

Microsoft AI är inte en specifik produkt. Istället fungerar företagets program som en AI-utvecklingsram. Microsoft AI inkluderar datavetenskapslösningar, konversations-AI, robotik, maskininlärning och andra framsteg inom branschen.

Vad är ett röststyrt gränssnitt?

Ett röststyrt gränssnitt är precis vad det låter som - ett användargränssnitt du interagerar med via röstkommandon. Denna teknik är redan vanlig i smarta enheter – tänk på Amazons Alexa, Apples Siri, Microsofts Cortana eller Googles Assistant.

Vad är en robot?

Termen "robot" betecknar vilken maskin som helst som fungerar automatiskt. Sådana maskiner är designade som ersättningar för mänskligt arbete. Trots den typiska skildringen i populärmedia är de flesta robotar inte humanoida till utseendet. Faktum är att de kanske inte ens har en fysisk form. Till exempel räknas dagens populära virtuella assistenter också som robotar.

Föregående

Kurzweil vs. Read&Write: En Jämförelse

Nästa

Introducerar Speechify 4.0 för iOS

Cliff Weitzman

Cliff Weitzman är en förespråkare för dyslexi och VD samt grundare av Speechify, världens främsta app för text-till-tal, med över 100 000 femstjärniga recensioner och förstaplats i App Store i kategorin Nyheter & Tidskrifter. År 2017 blev Weitzman utsedd till Forbes 30 under 30-lista för sitt arbete med att göra internet mer tillgängligt för personer med inlärningssvårigheter. Cliff Weitzman har blivit uppmärksammad i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, bland andra ledande medier.

Av Cliff Weitzman

Dyslexi- och tillgänglighetsförespråkare, VD/Grundare av Speechify

i TTS den 27 september 2022

Senaste bloggarna

16 december 2024
Introducerar Speechify 4.0 för iOS
20 november 2024
AI-röstassistenter Förklarade: Den Ultimata Guiden
20 november 2024
Nyheter – Speechify Mac App Hösten 2024
20 november 2024
Nyheter – Speechify Studio Hösten 2024
20 november 2024
Ultimata guiden till AI-agenter för callcenter
18 november 2024
De bästa alternativen till Artlist.io
16 november 2024
Nyheter – Speechify Webbapp och Chrome-tillägg Hösten 2024
16 november 2024
Hur Sam Liccardo Vann med AI-röstteknologi och Speechify Studio
16 november 2024
Vilken är den bästa AI-röstgeneratorn för italienska?
15 november 2024
Vilken är den bästa AI-röstgeneratorn för franska?
15 november 2024
Vilken är den bästa AI-röstgeneratorn för portugisiska (Brasilien)?
15 november 2024
Vilken är den bästa AI-röstgeneratorn för spanska?
15 november 2024
Hur man dubbar en video till tyska med AI-röster
15 november 2024
Hur man dubbar en video till italienska med AI-röster
15 november 2024
Hur man dubbar en video till portugisiska (Brasilien) med AI-röster
15 november 2024
Hur man dubbar en video till franska med AI-röster
13 november 2024
Hur man dubbar en video till spanska med AI-röster
3 juli 2024
Lyssna Högt: Förändra Sättet Vi Upplever Text
3 juli 2024
Läs Högt: Omfamna Text-till-Tal Teknik för en Bättre Läsupplevelse
3 juli 2024
Ljudläsning: Förbättra Tillgänglighet och Njutning
3 juli 2024
Webbläsare: Förbättra din läsupplevelse med AI-röster
3 juli 2024
Talande Röst: Framtiden för Röstteknologi och Dess Användningsområden
3 juli 2024
Speak Screen: Lås upp tillgänglighet på din iPhone och iPad
16 juni 2024
Röstskådespelare: Navigera i Världen av Traditionella och AI Röstöversättningar
16 juni 2024
AI Talgenerator: Revolutionerar Röstinspelningar och Mer
16 juni 2024
Röst-AI: Hur AI Förändrar Ljudlandskapet
16 juni 2024
Röstmotor
16 juni 2024
Kändisröstgeneratorer: En guide
10 juni 2024
Prosodi i tal
10 juni 2024
Hur man skapar utbildningsvideor för anställda

Speechify text-till-tal hjälper dig spara tid

150 000+ femstjärniga recensioner

Prova Gratis

Populära bloggar

27 juni 2022
Bästa kändisröstgeneratorerna 2024
21 augusti 2022
YouTube Text till Tal: Förbättra Ditt Videoinnehåll med Speechify
20 oktober 2022
De 7 bästa alternativen till Synthesia.io
1 juni 2022
Allt du behöver veta om text-till-tal på TikTok
25 juli 2022
De 10 bästa text-till-tal-apparna för Android
27 juli 2022
Hur man konverterar en PDF till tal
17 november 2022
Flickändrare för tjejröst med AI: En guide och de bästa verktygen för jobbet
27 juni 2022
Hur man använder Siri text-till-tal
26 oktober 2022
Obama text till tal
17 juli 2022
Robotrösts-generatorer: Den futuristiska gränsen för ljudskapande
1 augusti 2022
PDF uppläst: Gratis & Betalda Alternativ
18 juli 2022
Alternativ till FakeYou text-till-tal
31 oktober 2022
Allt om Deepfake-röster
27 september 2022
TikTok röstgenerator
18 augusti 2022
Text till tal GoAnimate
27 juni 2022
De bästa kändisrösterna för text-till-tal-generatorer
27 juni 2022
PDF-läsare med ljud
27 juni 2022
Hur man får indiska röster för text-till-tal
27 juni 2022
Förbättra din animeupplevelse med anime-röstgeneratorer
27 juni 2022
Bästa text-till-tal online
3 oktober 2022
Topp 50 filmer baserade på böcker du bör läsa
30 oktober 2022
Ladda ner ljud
27 juni 2022
Hur man använder text-till-tal för Quandale Dingle-memeljud
10 augusti 2022
Topp 5 appar som läser upp text
27 juni 2022
De bästa kvinnliga text-till-tal-rösterna
3 november 2022
Kvinnlig röstförändrare
2 oktober 2022
Sonic text-till-tal röstgenerator online
16 juli 2022
Bästa AI-röstgeneratorerna - Den Ultimata Listan
23 augusti 2022
Röstförändrare
27 juni 2022
Text-till-tal i PowerPoint