- Forside
- Produktivitet
- Træd Ind i Verdenen af Open Source Stemme Synthesizere: En Omfattende Anmeldelse
Træd Ind i Verdenen af Open Source Stemme Synthesizere: En Omfattende Anmeldelse
Fremhævet i
Talesyntese, også kendt som tekst-til-tale (TTS) syntese, er en teknologi, der konverterer skreven tekst til talte ord. Denne teknologi har en række...
Talesyntese, også kendt som tekst-til-tale (TTS) syntese, er en teknologi, der konverterer skreven tekst til talte ord. Denne teknologi har en række anvendelser, herunder hjælp til personer med handicap, sprogindlæring, GPS-navigation og meget mere. Med fremkomsten af open source er der dukket adskillige tekst-til-tale synteseværktøjer op. Denne artikel dykker ned i verdenen af open source stemme synthesizere.
For det første er det vigtigt at bemærke, at ikke alle talesynteseværktøjer er open source. For eksempel, mens Google Text-to-Speech (TTS) tilbyder en kraftfuld API til udviklere, er det ikke open source. Ligeledes er Amazon Polly, kendt for at levere livagtige stemmer, heller ikke open source.
På den anden side er Coqui AI, et højkvalitets TTS-værktøjssæt, et open source-projekt tilgængeligt på GitHub. Det opstod fra Mozillas TTS-projekt og tilbyder en robust kommandolinjegrænseflade til talesyntese. Coqui AI har bestemt en "stemme" – det bruger Tacotron2 til stemmegenerering med fokus på at skabe nye stemmer ved hjælp af en dyb læringstilgang.
Microsofts taleplatform, inklusive dens tekst-til-tale kapaciteter, er heller ikke open source. Dog er Speech API (SAPI5) tilgængelig for udviklere på Windows-platforme.
På den lyse side mangler open source-domænet ikke værktøjer til talegenkendelse. Et fremragende eksempel er CMU Sphinx, en gruppe af talegenkendelsessystemer udviklet ved Carnegie Mellon University.
Når det kommer til højkvalitets open source-værktøjer til stemmesyntese, skiller forskellige software sig ud:
- eSpeak: En kompakt open source software talesynthesizer til engelsk og andre sprog. Den kører på Windows, Linux og er velegnet til meget små robotapplikationer.
- Mycroft: En open source stemmeassistent, der bruger maskinlæring til at levere tekst-til-tale og talegenkendelsesfunktioner.
- MaryTTS: En fleksibel, flersproget open source tekst-til-tale synteseplatform skrevet i Java.
- Mozilla TTS: En dyb læringsbaseret tekst-til-tale motor, som er en del af Common Voice-projektet, der sigter mod at skabe et datasæt til træning af stemmeaktiverede apps.
- Festival Speech Synthesis System: Udviklet af The Centre for Speech Technology Research i Storbritannien, tilbyder det en generel ramme for opbygning af talesyntesesystemer og inkluderer en række stemmer.
- Flite (Festival-lite): En letvægts talesynthesismotor baseret på Festival, velegnet til indlejrede systemer og højvolumen taleservere.
- HTS: Det HMM-baserede talesyntesesystem (HTS) er et system til træning og syntese af tale fra tekst, bredt anvendt for sine højkvalitets syntesemuligheder.
- Docker: Selvom Docker ikke er et tekst-til-tale værktøj, er det værd at bemærke, at mange TTS-værktøjer som Coqui kan bruges inden for Docker, hvilket gør dem bærbare på tværs af platforme.
Hvert værktøj har sine fordele og ulemper. Open source stemme synthesizere giver en gratis, tilpasselig og fællesskabsstøttet platform for udviklere og slutbrugere. De kommer ofte med forudtrænede modeller, der giver udviklere mulighed for at udnytte maskinlæring og dyb læringsteknikker. Dog kan de kræve teknisk viden for at opsætte og bruge. Desuden kan nogle mangle den kvalitet, konsistens eller sprogunderstøttelse, som kommercielle værktøjer tilbyder.
Efterhånden som open source fortsætter med at forstyrre teknologiverdenen, vil stemme synthesizere og TTS-systemer fortsætte med at udvikle sig. De tilbyder et enormt potentiale for realtidsapplikationer og fremtidig udvikling af maskinlæring, dyb læring og AI inden for talegenkendelse og talesyntesesystemer.
Cliff Weitzman
Cliff Weitzman er en fortaler for dysleksi og CEO samt grundlægger af Speechify, verdens førende app til tekst-til-tale, med over 100.000 5-stjernede anmeldelser og førstepladsen i App Store i kategorien Nyheder & Magasiner. I 2017 blev Weitzman udnævnt til Forbes 30 under 30-listen for sit arbejde med at gøre internettet mere tilgængeligt for personer med indlæringsvanskeligheder. Cliff Weitzman har været omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blandt andre førende medier.