- Etusivu
- Tuottavuus
- Astu avoimen lähdekoodin äänisyntetisaattorien maailmaan: Kattava katsaus
Astu avoimen lähdekoodin äänisyntetisaattorien maailmaan: Kattava katsaus
Esillä
Puheensynteesi, joka tunnetaan myös tekstistä puheeksi (TTS) -synteesinä, on teknologia, joka muuntaa kirjoitetun tekstin puhutuiksi sanoiksi. Tämä tekniikka...
Puheensynteesi, joka tunnetaan myös tekstistä puheeksi (TTS) -synteesinä, on teknologia, joka muuntaa kirjoitetun tekstin puhutuiksi sanoiksi. Tällä tekniikalla on monia sovelluksia, kuten apuvälineet vammaisille, kielen oppiminen, GPS-navigointi ja paljon muuta. Avoimen lähdekoodin myötä on syntynyt lukuisia tekstistä puheeksi -synteesityökaluja. Tämä artikkeli sukeltaa avoimen lähdekoodin äänisyntetisaattorien maailmaan.
Ensinnäkin on tärkeää huomata, että kaikki puheensynteesityökalut eivät ole avoimen lähdekoodin. Esimerkiksi Google Text-to-Speech (TTS) tarjoaa kehittäjille tehokkaan API:n, mutta se ei ole avoimen lähdekoodin. Samoin Amazon Polly, joka tunnetaan eläväisistä äänistään, ei myöskään ole avoimen lähdekoodin.
Toisaalta Coqui AI, korkealaatuinen TTS-työkalupakki, on avoimen lähdekoodin projekti, joka on saatavilla GitHubissa. Se syntyi Mozilla TTS -projektista ja tarjoaa vankan komentorajapinnan puheensynteesiin. Coqui AI:lla on todellakin "ääni" – se käyttää Tacotron2:ta äänen luomiseen keskittyen uusien äänien luomiseen syväoppimisen avulla.
Microsoftin puhealusta, mukaan lukien sen tekstistä puheeksi -ominaisuudet, ei myöskään ole avoimen lähdekoodin. Kuitenkin Speech API (SAPI5) on tarjolla kehittäjille Windows-alustoilla.
Valoisammalta puolelta avoimen lähdekoodin alueella ei ole puutetta puheentunnistustyökaluista. Erinomainen esimerkki on CMU Sphinx, joukko puheentunnistusjärjestelmiä, jotka on kehitetty Carnegie Mellonin yliopistossa.
Kun puhutaan korkealaatuisista avoimen lähdekoodin työkaluista äänisynteesiin, useat ohjelmistot erottuvat edukseen:
- eSpeak: Kompakti avoimen lähdekoodin ohjelmistopuheensyntetisaattori englanniksi ja muille kielille. Se toimii Windowsilla, Linuxilla ja soveltuu erittäin pienikokoisiin robottisovelluksiin.
- Mycroft: Avoimen lähdekoodin ääniavustaja, joka käyttää koneoppimista tarjotakseen tekstistä puheeksi ja puheentunnistusominaisuuksia.
- MaryTTS: Joustava, monikielinen avoimen lähdekoodin tekstistä puheeksi -synteesialusta, joka on kirjoitettu Javalla.
- Mozilla TTS: Syväoppimiseen perustuva tekstistä puheeksi -moottori, joka on osa Common Voice -projektia, jonka tavoitteena on luoda tietoaineisto ääniä tukevien sovellusten kouluttamiseen.
- Festival Speech Synthesis System: Kehitetty The Centre for Speech Technology Research -keskuksessa Isossa-Britanniassa, se tarjoaa yleisen kehyksen puheensynteesijärjestelmien rakentamiseen ja sisältää erilaisia ääniä.
- Flite (Festival-lite): Kevyt puheensynteesimoottori, joka perustuu Festivaliin, sopii upotettuihin järjestelmiin ja suurivolyymisiin puhepalvelimiin.
- HTS: HMM-pohjainen puheensynteesijärjestelmä (HTS) on järjestelmä, joka kouluttaa ja syntetisoi puhetta tekstistä, ja sitä käytetään laajalti sen korkealaatuisten synteesimahdollisuuksien vuoksi.
- Docker: Vaikka Docker ei ole tekstistä puheeksi -työkalu, on syytä huomata, että monia TTS-työkaluja, kuten Coqui, voidaan käyttää Dockerin sisällä, mikä tekee niistä siirrettäviä eri alustoilla.
Jokaisella työkalulla on omat etunsa ja haittansa. Avoimen lähdekoodin äänisyntetisaattorit tarjoavat ilmaisen, muokattavan ja yhteisön tukeman alustan kehittäjille ja loppukäyttäjille. Ne sisältävät usein valmiiksi koulutettuja malleja, joiden avulla kehittäjät voivat hyödyntää koneoppimista ja syväoppimistekniikoita. Ne saattavat kuitenkin vaatia teknistä osaamista asennukseen ja käyttöön. Lisäksi jotkut saattavat jäädä jälkeen kaupallisten työkalujen laadussa, johdonmukaisuudessa tai kielituessa.
Kun avoin lähdekoodi jatkaa teknologian maailmaa mullistamista, äänisyntetisaattorit ja TTS-järjestelmät kehittyvät edelleen. Ne tarjoavat valtavan potentiaalin reaaliaikaisiin sovelluksiin ja koneoppimisen, syväoppimisen ja tekoälyn tulevaan kehitykseen puheentunnistus- ja puheensynteesijärjestelmissä.
Cliff Weitzman
Cliff Weitzman on dysleksian puolestapuhuja sekä Speechifyn toimitusjohtaja ja perustaja. Speechify on maailman johtava tekstistä puheeksi -sovellus, jolla on yli 100 000 viiden tähden arvostelua ja joka on App Storen ykkönen Uutiset & Aikakauslehdet -kategoriassa. Vuonna 2017 Weitzman valittiin Forbesin 30 alle 30 -listalle työstään, jolla hän teki internetistä saavutettavamman oppimisvaikeuksista kärsiville. Cliff Weitzman on ollut esillä muun muassa EdSurgessa, Inc.:ssä, PC Magissa, Entrepreneurissa ja Mashablessa.