Social Proof

En kort historie om tekst-til-tale

Speechify er verdens ledende lydleser. Kom deg gjennom bøker, dokumenter, artikler, PDF-er, e-poster - alt du leser - raskere.

Fremhevet i

forbes logocbs logotime magazine logonew york times logowall street logo
Lytt til denne artikkelen med Speechify!
Speechify

Talesynteseteknologi, mer kjent som tekst-til-tale, har utviklet seg raskt gjennom årene. Lær mer om historien til tekst-til-tale.

Talesyntese, eller kunstig produksjon av menneskestemmen, har kommet langt de siste 70 årene. Enten du bruker tekst-til-tale-tjenester for å lytte til bøker, studere eller korrekturlese ditt eget skriftlige arbeid, er det ingen tvil om at tekst-til-tale-tjenester har gjort livet enklere for folk i en rekke yrker.

Her skal vi se nærmere på hvordan tekst-til-tale-prosessering fungerer, og hvordan denne hjelpemiddelteknologien har endret seg over tid.

Introduksjon

På 1700-tallet skapte den russiske professoren Christian Kratzenstein akustiske resonatorer som etterlignet lyden av menneskestemmen. To tiår senere vakte VODER (Voice Operating Demonstrator) stor oppmerksomhet på verdensutstillingen i New York da skaperen Homer Dudley viste hvordan menneskelig tale kunne skapes gjennom kunstige midler. Enheten var vanskelig å spille – Dudley måtte kontrollere grunnfrekvensen ved hjelp av fotpedaler.

På begynnelsen av 1800-tallet utviklet Charles Wheatstone den første mekaniske talesyntetisatoren. Dette satte i gang en rask utvikling av artikulatoriske synteseverktøy og teknologier.

Det kan være vanskelig å fastslå nøyaktig hva som gjør et godt tekst-til-tale-program, men som med mange ting i livet, vet du det når du hører det. Et høykvalitets tekst-til-tale-program tilbyr naturlig klingende stemmer med ekte livaktig betoning og tone.

Tekst-til-tale-teknologi kan hjelpe personer som er synshemmede og lever med andre funksjonsnedsettelser med å få den informasjonen de trenger for å lykkes på jobben og kommunisere med andre. Programvaren gjør det også mulig for studenter og andre med store lesemengder å lytte til informasjonen sin via menneskelig tale når de er på farten. Syntetisk tale gjør det mulig for folk å få gjort mer på kortere tid, og kan være nyttig i en rekke sammenhenger, fra videospillutvikling til å hjelpe personer med språkbehandlingsforskjeller.

1950- og 60-tallet

På slutten av 1950-tallet ble de første talesyntesesystemene opprettet. Disse systemene var datamaskinbaserte. I 1961 brukte fysikeren John Larry Kelly Jr. ved Bell Labs en IBM-datamaskin til å syntetisere tale. Hans vocoder (stemmeopptaker-syntetisator) gjenskapte sangen Daisy Bell.

På den tiden Kelly perfeksjonerte sin vocoder, brukte Arthur C. Clarke, forfatteren av 2001: En romodyssé, Kellys demonstrasjon i filmens manus. Under scenen synger HAL 9000-datamaskinen Daisy Bell.

I 1966 kom lineær prediktiv koding på banen. Denne formen for talekoding begynte sin utvikling under Fumitada Itakura og Shuzo Saito. Bishnu S. Atal og Manfred R. Schroeder bidro også til utviklingen av lineær prediktiv koding.

1970-tallet

I 1975 ble linjespektralpar-metoden utviklet av Itakura. Denne høykompresjons talekodingsmetoden hjalp Itakura med å lære mer om taleanalyse og syntese, finne svake punkter og finne ut hvordan de kunne forbedres.

I løpet av dette året ble MUSA også utgitt. Dette frittstående talesyntesesystemet brukte en algoritme for å lese italiensk høyt. En versjon utgitt tre år senere kunne synge på italiensk.

På 70-tallet ble den første artikulatoriske syntetisatoren utviklet basert på menneskets vokaltrakt. Den første kjente syntetisatoren ble utviklet av Tom Baer, Paul Mermelstein og Philip Rubin ved Haskins Laboratories. Trio brukte informasjon fra vokaltraktmodeller opprettet ved Bell Laboratories på 60- og 70-tallet.

I 1976 ble Kurzweil Reading Machines for the Blind introdusert. Selv om disse enhetene var altfor dyre for allmennheten, tilbød biblioteker dem ofte til personer med synshemninger for å lytte til bøker.

Lineær prediktiv koding ble utgangspunktet for syntetisatorbrikker. Texas Instruments LPC Speech Chips og Speak & Spell-lekene fra slutten av 1970-tallet brukte begge syntetisatorbrikketeknologi. Disse lekene var eksempler på menneskelig stemmesyntese med nøyaktige intonasjoner, som skilte stemmen fra de vanlig robotaktige syntetiserte stemmene på den tiden. Mange håndholdte elektroniske enheter med evnen til å syntetisere tale ble populære i løpet av dette tiåret, inkludert Telesensory Systems Speech+ kalkulator for blinde. Fidelity Voice Chess Challenger, en sjakkdatamaskin som kunne syntetisere tale, ble utgitt i 1979.

1980-tallet

På 1980-tallet begynte talesyntese å gjøre sitt inntog i videospillverdenen. I 1980 ble Stratovox (et skytespill i arkadestil) utgitt av Sun Electronics. Manbiki Shoujo (oversatt til engelsk som Shoplifting Girl) var det første dataspillet med evnen til å syntetisere tale. Det elektroniske spillet Milton ble også utgitt i 1980 – det var Milton Bradley Companys første elektroniske spill med evnen til å syntetisere menneskelig stemme.

I 1983 kom den frittstående akustisk-mekaniske talemaskinen kalt DECtalk. DECtalk forsto fonetiske stavemåter av ord, noe som tillot tilpasset uttale av uvanlige ord. Disse fonetiske stavemåtene kunne også inkludere en toneindikator som DECtalk ville bruke når den uttalte de fonetiske komponentene. Dette gjorde at DECtalk kunne synge.

På slutten av 80-tallet skapte Steve Jobs NeXT, et system som ble utviklet av Trillium Sound Research. Selv om NeXT ikke tok av, fusjonerte Jobs programmet med Apple på 90-tallet.

1990-tallet

Tidligere versjoner av syntetiserte tekst-til-tale-systemer hørtes tydelig robotaktige ut, men det begynte å endre seg på slutten av 80-tallet og tidlig på 90-tallet. Mykere konsonanter gjorde at talemaskiner mistet den elektroniske kanten og hørtes mer menneskelige ut. I 1990 utviklet Ann Syrdal ved AT&T Bell Laboratories en kvinnelig talesyntesestemme. Ingeniører jobbet for å gjøre stemmene mer naturlige i løpet av 90-tallet.

I 1999 lanserte Microsoft Narrator, en skjermleserløsning som nå er inkludert i hver kopi av Microsoft Windows.

2000-tallet

Talesyntese møtte noen utfordringer på 2000-tallet, da utviklere slet med å skape enighet om standarder for syntetisert tale. Siden tale er svært individuell, er det vanskelig for folk over hele verden å bli enige om riktig uttale av fonemer, difoner, intonasjon, tone, mønsteravspilling og bøyning.

Kvaliteten på formantsyntese taleaudio ble også en større bekymring på 90-tallet, da ingeniører og forskere la merke til at kvaliteten på systemene som ble brukt i et laboratorium for å spille av syntetisert tale ofte var langt mer avansert enn utstyret brukeren hadde. Når man tenker på talesyntese, tenker mange på Stephen Hawkings stemmesyntetisator, som ga en robotaktig stemme med lite menneskelig tone.

I 2005 kom forskere endelig til enighet og begynte å bruke et felles talesett, noe som tillot dem å arbeide ut fra de samme grunnleggende idealene når de skapte avanserte talesyntesesystemer.

I 2007 ble det gjennomført en studie som viste at lyttere kan finne ut om en person som snakker smiler. Forskere fortsetter å arbeide for å finne ut hvordan de kan bruke denne informasjonen til å skape talegjenkjennings- og talesynteseprogramvare som er mer naturlig.

2010-tallet

I dag er talesynteseprodukter som bruker talesignaler overalt, fra Siri til Alexa. Elektroniske talesyntetisatorer gjør ikke bare livet enklere – de gjør også livet morsommere. Enten du bruker et TTS-system for å lytte til romaner på farten eller bruker apper som gjør det lettere å lære et fremmedspråk, er det sannsynlig at du bruker tekst-til-tale-teknologi for å aktivere dine nevrale nettverk daglig.

Fremtiden

I de kommende årene er det sannsynlig at talesynteseteknologi vil fokusere på å skape en modell av hjernen for bedre å forstå hvordan vi lagrer taledata i våre sinn. Taleteknologi vil også arbeide for å bedre forstå hvilken rolle følelser spiller i tale, og vil bruke denne informasjonen til å skape AI-stemmer som er uatskillelige fra faktiske mennesker.

Det nyeste innen talesynteseteknologi: Speechify

Når man lærer om overganger fra tidligere talesynteseteknologi, er det fantastisk å forestille seg hvor langt vitenskapen har kommet. I dag gjør apper som Speechify det enkelt å oversette hvilken som helst tekst til lydfiler. Med bare et trykk på en knapp (eller et trykk på en app), kan Speechify ta nettsteder, dokumenter og bilder av tekst og oversette dem til naturlig klingende tale. Speechifys bibliotek synkroniseres på tvers av alle enhetene dine, noe som gjør det enkelt for deg å fortsette å lære og jobbe på farten. Sjekk ut Speechify-appen i både Apples App Store og Androids Google Play.  

Vanlige spørsmål

Hvem oppfant tekst-til-tale?

Tekst-til-tale for engelsk ble oppfunnet av Noriko Umeda. Systemet ble utviklet i det elektrotekniske laboratoriet i Japan i 1968.

Hva er formålet med tekst-til-tale?

Mange bruker tekst-til-tale-teknologi. For de som foretrekker å få informasjonen sin i lydformat, TTS-teknologi kan gjøre det enkelt å få den nødvendige informasjonen for å jobbe eller lære, uten å måtte tilbringe timer foran en bok. Travle profesjonelle bruker også TTS-teknologi for å holde seg oppdatert på arbeidet når de ikke kan sitte foran en dataskjerm. Mange typer TTS-teknologi ble opprinnelig utviklet for personer med synshemminger, og TTS er fortsatt en fantastisk måte for de som har vanskeligheter med å se, å få den informasjonen de trenger.

Hvordan syntetiserer du en tale?

Biter av innspilt tale lagres i en database i ulike enheter. Programvare forbereder lydfiler gjennom enhetsvalg. Derfra skapes en stemme. Ofte, jo større utvalget av et program er, desto mer sliter programmet med å gi brukerne vokal klarhet.

Tyler Weitzman

Tyler Weitzman

Tyler Weitzman er medgründer, leder for kunstig intelligens og president i Speechify, verdens ledende tekst-til-tale-app, med over 100 000 femstjerners anmeldelser. Weitzman er utdannet ved Stanford University, hvor han tok en bachelorgrad i matematikk og en mastergrad i informatikk med spesialisering i kunstig intelligens. Han har blitt kåret av Inc. Magazine som en av de 50 beste entreprenørene, og han har blitt omtalt i Business Insider, TechCrunch, LifeHacker, CBS, blant andre publikasjoner. Weitzmans mastergradsforskning fokuserte på kunstig intelligens og tekst-til-tale, hvor hans avsluttende oppgave hadde tittelen: “CloneBot: Personalized Dialogue-Response Predictions.”