En kort historie om tekst-til-tale

Speechify er verdens ledende lydleser. Kom deg gjennom bøker, dokumenter, artikler, PDF-er, e-poster - alt du leser - raskere.

Prøv gratis

Fremhevet i

1970-tallet
1980-tallet
1990-tallet
2000-tallet
2010-tallet
Fremtiden
Det nyeste innen talesynteseteknologi: Speechify
Vanlige spørsmål

Lytt til denne artikkelen med Speechify!

Talesynteseteknologi, mer kjent som tekst-til-tale, har utviklet seg raskt gjennom årene. Lær mer om historien til tekst-til-tale.

Talesyntese, eller kunstig produksjon av menneskestemmen, har kommet langt de siste 70 årene. Enten du bruker tekst-til-tale-tjenester for å lytte til bøker, studere eller korrekturlese ditt eget skriftlige arbeid, er det ingen tvil om at tekst-til-tale-tjenester har gjort livet enklere for folk i en rekke yrker.

Her skal vi se nærmere på hvordan tekst-til-tale-prosessering fungerer, og hvordan denne hjelpemiddelteknologien har endret seg over tid.

Introduksjon

På 1700-tallet skapte den russiske professoren Christian Kratzenstein akustiske resonatorer som etterlignet lyden av menneskestemmen. To tiår senere vakte VODER (Voice Operating Demonstrator) stor oppmerksomhet på verdensutstillingen i New York da skaperen Homer Dudley viste hvordan menneskelig tale kunne skapes gjennom kunstige midler. Enheten var vanskelig å spille – Dudley måtte kontrollere grunnfrekvensen ved hjelp av fotpedaler.

På begynnelsen av 1800-tallet utviklet Charles Wheatstone den første mekaniske talesyntetisatoren. Dette satte i gang en rask utvikling av artikulatoriske synteseverktøy og teknologier.

Det kan være vanskelig å fastslå nøyaktig hva som gjør et godt tekst-til-tale-program, men som med mange ting i livet, vet du det når du hører det. Et høykvalitets tekst-til-tale-program tilbyr naturlig klingende stemmer med ekte livaktig betoning og tone.

Tekst-til-tale-teknologi kan hjelpe personer som er synshemmede og lever med andre funksjonsnedsettelser med å få den informasjonen de trenger for å lykkes på jobben og kommunisere med andre. Programvaren gjør det også mulig for studenter og andre med store lesemengder å lytte til informasjonen sin via menneskelig tale når de er på farten. Syntetisk tale gjør det mulig for folk å få gjort mer på kortere tid, og kan være nyttig i en rekke sammenhenger, fra videospillutvikling til å hjelpe personer med språkbehandlingsforskjeller.

1950- og 60-tallet

På slutten av 1950-tallet ble de første talesyntesesystemene opprettet. Disse systemene var datamaskinbaserte. I 1961 brukte fysikeren John Larry Kelly Jr. ved Bell Labs en IBM-datamaskin til å syntetisere tale. Hans vocoder (stemmeopptaker-syntetisator) gjenskapte sangen Daisy Bell.

På den tiden Kelly perfeksjonerte sin vocoder, brukte Arthur C. Clarke, forfatteren av 2001: En romodyssé, Kellys demonstrasjon i filmens manus. Under scenen synger HAL 9000-datamaskinen Daisy Bell.

I 1966 kom lineær prediktiv koding på banen. Denne formen for talekoding begynte sin utvikling under Fumitada Itakura og Shuzo Saito. Bishnu S. Atal og Manfred R. Schroeder bidro også til utviklingen av lineær prediktiv koding.

1970-tallet

I 1975 ble linjespektralpar-metoden utviklet av Itakura. Denne høykompresjons talekodingsmetoden hjalp Itakura med å lære mer om taleanalyse og syntese, finne svake punkter og finne ut hvordan de kunne forbedres.

I løpet av dette året ble MUSA også utgitt. Dette frittstående talesyntesesystemet brukte en algoritme for å lese italiensk høyt. En versjon utgitt tre år senere kunne synge på italiensk.

På 70-tallet ble den første artikulatoriske syntetisatoren utviklet basert på menneskets vokaltrakt. Den første kjente syntetisatoren ble utviklet av Tom Baer, Paul Mermelstein og Philip Rubin ved Haskins Laboratories. Trio brukte informasjon fra vokaltraktmodeller opprettet ved Bell Laboratories på 60- og 70-tallet.

I 1976 ble Kurzweil Reading Machines for the Blind introdusert. Selv om disse enhetene var altfor dyre for allmennheten, tilbød biblioteker dem ofte til personer med synshemninger for å lytte til bøker.

Lineær prediktiv koding ble utgangspunktet for syntetisatorbrikker. Texas Instruments LPC Speech Chips og Speak & Spell-lekene fra slutten av 1970-tallet brukte begge syntetisatorbrikketeknologi. Disse lekene var eksempler på menneskelig stemmesyntese med nøyaktige intonasjoner, som skilte stemmen fra de vanlig robotaktige syntetiserte stemmene på den tiden. Mange håndholdte elektroniske enheter med evnen til å syntetisere tale ble populære i løpet av dette tiåret, inkludert Telesensory Systems Speech+ kalkulator for blinde. Fidelity Voice Chess Challenger, en sjakkdatamaskin som kunne syntetisere tale, ble utgitt i 1979.

1980-tallet

På 1980-tallet begynte talesyntese å gjøre sitt inntog i videospillverdenen. I 1980 ble Stratovox (et skytespill i arkadestil) utgitt av Sun Electronics. Manbiki Shoujo (oversatt til engelsk som Shoplifting Girl) var det første dataspillet med evnen til å syntetisere tale. Det elektroniske spillet Milton ble også utgitt i 1980 – det var Milton Bradley Companys første elektroniske spill med evnen til å syntetisere menneskelig stemme.

I 1983 kom den frittstående akustisk-mekaniske talemaskinen kalt DECtalk. DECtalk forsto fonetiske stavemåter av ord, noe som tillot tilpasset uttale av uvanlige ord. Disse fonetiske stavemåtene kunne også inkludere en toneindikator som DECtalk ville bruke når den uttalte de fonetiske komponentene. Dette gjorde at DECtalk kunne synge.

På slutten av 80-tallet skapte Steve Jobs NeXT, et system som ble utviklet av Trillium Sound Research. Selv om NeXT ikke tok av, fusjonerte Jobs programmet med Apple på 90-tallet.

1990-tallet

Tidligere versjoner av syntetiserte tekst-til-tale-systemer hørtes tydelig robotaktige ut, men det begynte å endre seg på slutten av 80-tallet og tidlig på 90-tallet. Mykere konsonanter gjorde at talemaskiner mistet den elektroniske kanten og hørtes mer menneskelige ut. I 1990 utviklet Ann Syrdal ved AT&T Bell Laboratories en kvinnelig talesyntesestemme. Ingeniører jobbet for å gjøre stemmene mer naturlige i løpet av 90-tallet.

I 1999 lanserte Microsoft Narrator, en skjermleserløsning som nå er inkludert i hver kopi av Microsoft Windows.

2000-tallet

Talesyntese møtte noen utfordringer på 2000-tallet, da utviklere slet med å skape enighet om standarder for syntetisert tale. Siden tale er svært individuell, er det vanskelig for folk over hele verden å bli enige om riktig uttale av fonemer, difoner, intonasjon, tone, mønsteravspilling og bøyning.

Kvaliteten på formantsyntese taleaudio ble også en større bekymring på 90-tallet, da ingeniører og forskere la merke til at kvaliteten på systemene som ble brukt i et laboratorium for å spille av syntetisert tale ofte var langt mer avansert enn utstyret brukeren hadde. Når man tenker på talesyntese, tenker mange på Stephen Hawkings stemmesyntetisator, som ga en robotaktig stemme med lite menneskelig tone.

I 2005 kom forskere endelig til enighet og begynte å bruke et felles talesett, noe som tillot dem å arbeide ut fra de samme grunnleggende idealene når de skapte avanserte talesyntesesystemer.

I 2007 ble det gjennomført en studie som viste at lyttere kan finne ut om en person som snakker smiler. Forskere fortsetter å arbeide for å finne ut hvordan de kan bruke denne informasjonen til å skape talegjenkjennings- og talesynteseprogramvare som er mer naturlig.

2010-tallet

I dag er talesynteseprodukter som bruker talesignaler overalt, fra Siri til Alexa. Elektroniske talesyntetisatorer gjør ikke bare livet enklere – de gjør også livet morsommere. Enten du bruker et TTS-system for å lytte til romaner på farten eller bruker apper som gjør det lettere å lære et fremmedspråk, er det sannsynlig at du bruker tekst-til-tale-teknologi for å aktivere dine nevrale nettverk daglig.

Fremtiden

I de kommende årene er det sannsynlig at talesynteseteknologi vil fokusere på å skape en modell av hjernen for bedre å forstå hvordan vi lagrer taledata i våre sinn. Taleteknologi vil også arbeide for å bedre forstå hvilken rolle følelser spiller i tale, og vil bruke denne informasjonen til å skape AI-stemmer som er uatskillelige fra faktiske mennesker.

Det nyeste innen talesynteseteknologi: Speechify

Når man lærer om overganger fra tidligere talesynteseteknologi, er det fantastisk å forestille seg hvor langt vitenskapen har kommet. I dag gjør apper som Speechify det enkelt å oversette hvilken som helst tekst til lydfiler. Med bare et trykk på en knapp (eller et trykk på en app), kan Speechify ta nettsteder, dokumenter og bilder av tekst og oversette dem til naturlig klingende tale. Speechifys bibliotek synkroniseres på tvers av alle enhetene dine, noe som gjør det enkelt for deg å fortsette å lære og jobbe på farten. Sjekk ut Speechify-appen i både Apples App Store og Androids Google Play.

Vanlige spørsmål

Hvem oppfant tekst-til-tale?

Tekst-til-tale for engelsk ble oppfunnet av Noriko Umeda. Systemet ble utviklet i det elektrotekniske laboratoriet i Japan i 1968.

Hva er formålet med tekst-til-tale?

Mange bruker tekst-til-tale-teknologi. For de som foretrekker å få informasjonen sin i lydformat, TTS-teknologi kan gjøre det enkelt å få den nødvendige informasjonen for å jobbe eller lære, uten å måtte tilbringe timer foran en bok. Travle profesjonelle bruker også TTS-teknologi for å holde seg oppdatert på arbeidet når de ikke kan sitte foran en dataskjerm. Mange typer TTS-teknologi ble opprinnelig utviklet for personer med synshemminger, og TTS er fortsatt en fantastisk måte for de som har vanskeligheter med å se, å få den informasjonen de trenger.

Hvordan syntetiserer du en tale?

Biter av innspilt tale lagres i en database i ulike enheter. Programvare forbereder lydfiler gjennom enhetsvalg. Derfra skapes en stemme. Ofte, jo større utvalget av et program er, desto mer sliter programmet med å gi brukerne vokal klarhet.

Forrige

Tekst til tale i Google Docs: Alt du trenger å vite

Neste

Oppdag de 10 mest innovative måtene å transformere dine digitale prosjekter med Speechify Text to Speech API.

Tyler Weitzman

Tyler Weitzman er medgründer, leder for kunstig intelligens og president i Speechify, verdens ledende tekst-til-tale-app, med over 100 000 femstjerners anmeldelser. Weitzman er utdannet ved Stanford University, hvor han tok en bachelorgrad i matematikk og en mastergrad i informatikk med spesialisering i kunstig intelligens. Han har blitt kåret av Inc. Magazine som en av de 50 beste entreprenørene, og han har blitt omtalt i Business Insider, TechCrunch, LifeHacker, CBS, blant andre publikasjoner. Weitzmans mastergradsforskning fokuserte på kunstig intelligens og tekst-til-tale, hvor hans avsluttende oppgave hadde tittelen: “CloneBot: Personalized Dialogue-Response Predictions.”

Av Tyler Weitzman

MS i informatikk, Stanford University, dysleksi- og tilgjengelighetsforkjemper, administrerende direktør/grunnlegger av Speechify

i TTS den 27. juni 2022

Nylige blogger

20. desember 2024
Oppdag de 10 mest innovative måtene å transformere dine digitale prosjekter med Speechify Text to Speech API.
20. desember 2024
Hvordan klone AI-stemmer med Speechify Text to Speech API
20. desember 2024
Hvordan Speechify Text to Speech API Støtter SSML
20. desember 2024
Hvordan Speechify Text to Speech API Støtter 13 Følelser
20. desember 2024
Speechify Studio vs. Speechify Text to Speech API: Hvordan velge riktig for deg
20. desember 2024
Topp 10 bruksområder for Speechify Studio
20. desember 2024
AI Voice Emotions Now Available for Speechify AI Voice Generator
20. desember 2024
How to Listen to Any Fanfiction as an Audiobook
19. desember 2024
Speechify-sjefen spiller Kaladin på Brandon Sandersons Dragonsteel Nexus 2024
19. desember 2024
Speechify Tekst til Tale Audio Får Utmerkelsen Dagens App
16. desember 2024
Introduksjon av Speechify 4.0 for iOS
20. november 2024
AI-stemmegenter forklart: Den ultimate guiden
20. november 2024
Hva er nytt – Speechify Mac App Høsten 2024
20. november 2024
Hva er nytt – Speechify Studio Høst 2024
20. november 2024
Den ultimate guiden til AI-agenter i kundesentre
18. november 2024
De beste alternativene til Artlist.io
16. november 2024
Hva er nytt – Speechify Web App og Chrome-utvidelse Høsten 2024
16. november 2024
Hvordan Sam Liccardo Vant med AI Stemmeteknologi og Speechify Studio
16. november 2024
Hva er den beste AI-stemmegeneratoren for italiensk?
15. november 2024
Hva er den beste AI-stemmegeneratoren for fransk?
15. november 2024
Hva er den beste AI-stemmegeneratoren for portugisisk (Brasil)?
15. november 2024
Hva er den beste AI-stemmegeneratoren for spansk?
15. november 2024
Hvordan dubbe en video til tysk med AI-stemmer
15. november 2024
Hvordan dubbe en video til italiensk med AI-stemmer
15. november 2024
Hvordan dubbe en video til portugisisk (Brasil) ved hjelp av AI-stemmer
15. november 2024
Hvordan dubbe en video til fransk med AI-stemmer
13. november 2024
Hvordan dubbe en video til spansk med AI-stemmer
3. juli 2024
Les Høyt: Forvandle Måten Vi Opplever Tekst
3. juli 2024
Les Høyt: Omfavne Tekst-til-Tale Teknologi for en Bedre Leseopplevelse
3. juli 2024
Lydlesing: Forbedre Tilgjengelighet og Nytelse

Speechify tekst-til-tale hjelper deg å spare tid

Over 150 000 anmeldelser med 5 stjerner

Prøv Gratis

Populære blogger

27. juni 2022
Beste kjendisstemme-generatorer i 2024
21. august 2022
YouTube Tekst til Tale: Løft Videoinnholdet ditt med Speechify
20. oktober 2022
De 7 beste alternativene til Synthesia.io
1. juni 2022
Alt du trenger å vite om tekst til tale på TikTok
25. juli 2022
De 10 beste tekst-til-tale-appene for Android
27. juli 2022
Hvordan konvertere en PDF til tale
17. november 2022
Jente Stemmeskifter Med AI: En Guide og de beste Verktøyene for Jobben
27. juni 2022
Hvordan bruke Siri tekst-til-tale
26. oktober 2022
Obama tekst til tale
17. juli 2022
Robotstemmegeneratorer: Den futuristiske fronten for lydskaping
1. august 2022
PDF Opplest: Gratis og Betalte Alternativer
18. juli 2022
Alternativer til FakeYou tekst-til-tale
31. oktober 2022
Alt om Deepfake-stemmer
27. september 2022
TikTok stemmegenerator
18. august 2022
Tekst-til-tale GoAnimate
27. juni 2022
De beste kjendis tekst-til-tale stemmegeneratorene
27. juni 2022
PDF-lydbokleser
27. juni 2022
Hvordan få indiske stemmer for tekst-til-tale
27. juni 2022
Forbedre Din Animeopplevelse med Anime Stemmegeneratorer
27. juni 2022
Beste tekst-til-tale online
3. oktober 2022
Topp 50 filmer basert på bøker du bør lese
30. oktober 2022
Last ned lyd
27. juni 2022
Hvordan bruke tekst-til-tale for Quandale Dingle-meme-lyder
10. august 2022
Topp 5 apper som leser opp tekst
27. juni 2022
De beste kvinnelige tekst-til-tale-stemmene
3. november 2022
Kvinnelig stemmeforandrer
2. oktober 2022
Sonic tekst-til-tale stemmegenerator online
16. juli 2022
Beste AI stemmegeneratorer - Den ultimate listen
23. august 2022
Stemmeforandrer
27. juni 2022
Tekst-til-tale i PowerPoint