Social Proof

Trå inn i verden av åpen kildekode stemmesyntetisatorer: En omfattende gjennomgang

Speechify er verdens ledende lydleser. Kom deg gjennom bøker, dokumenter, artikler, PDF-er, e-poster - alt du leser - raskere.

Fremhevet i

forbes logocbs logotime magazine logonew york times logowall street logo
Lytt til denne artikkelen med Speechify!
Speechify

Talesyntese, også kjent som tekst-til-tale (TTS) syntese, er en teknologi som konverterer skriftlig tekst til talte ord. Denne teknologien har en rekke...

Talesyntese, også kjent som tekst-til-tale (TTS) syntese, er en teknologi som konverterer skriftlig tekst til talte ord. Denne teknologien har en rekke bruksområder, inkludert hjelp til personer med funksjonshemninger, språklæring, GPS-navigasjon, og mye mer. Med fremveksten av åpen kildekode har mange tekst-til-tale synteseverktøy dukket opp. Denne artikkelen dykker ned i verden av åpen kildekode stemmesyntetisatorer.

For det første er det viktig å merke seg at ikke alle talesynteseverktøy er åpen kildekode. For eksempel, mens Google Text-to-Speech (TTS) tilbyr en kraftig API for utviklere, er det ikke åpen kildekode. På samme måte er Amazon Polly, kjent for å levere naturtro stemmer, heller ikke åpen kildekode.

På den annen side er Coqui AI, et høykvalitets TTS-verktøysett, et åpen kildekode-prosjekt tilgjengelig på GitHub. Det ble født ut av Mozillas TTS-prosjekt og tilbyr et robust kommandolinjegrensesnitt for talesyntese. Coqui AI har definitivt en "stemme" – det bruker Tacotron2 for stemmegenerering med fokus på å skape nye stemmer ved hjelp av en dyp læringstilnærming.

Microsoft Speech Platform, inkludert dens tekst-til-tale-funksjoner, er heller ikke åpen kildekode. Imidlertid er Speech API (SAPI5) tilgjengelig for utviklere på Windows-plattformer.

På den positive siden mangler det ikke på talegjenkjenningsverktøy i åpen kildekode-domenet. Et utmerket eksempel er CMU Sphinx, en gruppe talegjenkjenningssystemer utviklet ved Carnegie Mellon University.

Når det gjelder høykvalitets åpen kildekode-verktøy for stemmesyntese, skiller flere programvarer seg ut:

  1. eSpeak: En kompakt åpen kildekode programvare talesyntetisator for engelsk og andre språk. Den kjører på Windows, Linux og er egnet for svært små robotapplikasjoner.
  2. Mycroft: En åpen kildekode stemmeassistent som bruker maskinlæring for å tilby tekst-til-tale og talegjenkjenningsfunksjoner.
  3. MaryTTS: En fleksibel, flerspråklig åpen kildekode tekst-til-tale synteseplattform skrevet i Java.
  4. Mozilla TTS: En dyp læringsbasert tekst-til-tale motor, som er en del av Common Voice-prosjektet, med mål om å skape et datasett for trening av stemmeaktiverte apper.
  5. Festival Speech Synthesis System: Utviklet av The Centre for Speech Technology Research i Storbritannia, tilbyr det et generelt rammeverk for å bygge talesyntesesystemer og inkluderer en rekke stemmer.
  6. Flite (Festival-lite): En lettvekts talesyntesemotor basert på Festival, egnet for innebygde systemer og høyt volum tale-servere.
  7. HTS: Det HMM-baserte talesyntesesystemet (HTS) er et system for trening og syntetisering av tale fra tekst, mye brukt for sine høykvalitets syntesemuligheter.
  8. Docker: Selv om Docker ikke er et tekst-til-tale-verktøy, er det verdt å merke seg at mange TTS-verktøy som Coqui kan brukes innenfor Docker, noe som gjør dem bærbare på tvers av plattformer.

Hvert verktøy har sine fordeler og ulemper. Åpen kildekode stemmesyntetisatorer gir en gratis, tilpassbar og fellesskapsstøttet plattform for utviklere og sluttbrukere. De kommer ofte med forhåndstrente modeller som lar utviklere utnytte maskinlæring og dyp læringsteknikker. Imidlertid kan de kreve teknisk kunnskap for å sette opp og bruke. Videre kan noen mangle kvaliteten, konsistensen eller språkundestøttelsen til kommersielle verktøy.

Etter hvert som åpen kildekode fortsetter å forstyrre teknologiverdenen, vil stemmesyntetisatorer og TTS-systemer fortsette å utvikle seg. De tilbyr enormt potensial for sanntidsapplikasjoner og fremtidig utvikling av maskinlæring, dyp læring og AI i stemmegjenkjenning og talesyntesesystemer.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify, verdens ledende app for tekst-til-tale, med over 100 000 femstjerners anmeldelser og førsteplass i App Store i kategorien Nyheter og Magasiner. I 2017 ble Weitzman kåret til Forbes 30 under 30-listen for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blitt omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blant andre ledende medier.