Alt du trenger å vite om Google Cloud Text to Speech API
Leter du etter vår Tekst-til-tale-leser?
Fremhevet i
- Tekst til Tale
- API
- Google Cloud API
- Google Text to Speech API-funksjoner
- Hvor mye koster Google Text to Speech API?
- Hva er forskjellen mellom tegn og bytes
- Hvordan sette opp ditt Google Cloud Platform Text to Speech API-prosjekt?
- Hvordan deaktivere Text to Speech API
- Kom i gang med Google Text to Speech API
- Google Cloud Text to Speech API støtter disse språkene:
- Hvordan fungerer Google Cloud API?
- Her er noen måter å bruke Google Text to Speech API
- Beste alternativer til Google Cloud TTS API
- Google Tekst-til-tale API Vanlige spørsmål
Generativ AI og kunstig intelligens har kommet langt. Tekst til tale er et relativt eldre konsept, det har eksistert en stund. Det er mye...
Generativ AI og kunstig intelligens har kommet langt. Tekst til tale er et relativt eldre konsept, det har eksistert en stund. Det er mye å pakke ut her og kategorisere, og jeg vil bryte det ned og se på dette fra alle vinkler. Enten du er nybegynner eller proff, bør dette gi en generell klarhet til Google Text to Speech API.
Før vi dykker inn i noe tema, er det et must at vi etablerer grunnreglene. La oss definere noen begreper og bygge opp fundamentet vårt slik at vi kan stå støtt på det.
La oss skille de to teknologiene her; tekst til tale og API-er, og hva er rollen til Google Cloud.
Redaktørens notat: Leter du etter den ledende tekst til tale API-en? Sjekk ut Speechifys veldokumenterte og brukervennlige tekst til tale API.
Tekst til Tale
Jeg har skrevet mye om dette emnet, og du kan lese min Hva er tekst til tale blogg og også lese om talesyntese for å få en solid forståelse av dette emnet. Disse går mer i dybden, og du kan hoppe over dem for nå. Jeg vil oppsummere dem i noen få setninger.
Tekst til tale er avhengig av en teknologi kalt talesyntese for å konvertere ord til AI-generert tale. Bruksområdene for dette er mange. Fra å hjelpe folk med lesevansker som dysleksi og dårlig syn til de som bare ønsker å øke effektiviteten.
API
API står for Application Programming Interface. Det fungerer enkelt som en bro mellom to applikasjoner. Hvis du utviklet en app som hadde lydinnhold og krevde tekst til tale-funksjonalitet, måtte du bygge tekst til tale-funksjonaliteten selv, eller du kunne ganske enkelt koble til en eksisterende tekst til tale API.
Du ville fokusere på å bygge appen din og stole på en tredjeparts API som en bro, for å importere tekst til tale-funksjonaliteten for å syntetisere teksten din.
Google Cloud API
Dette er hvor Google Cloud kommer inn i bildet. Google har utviklet en robust tekst til tale API og tilbyr den til utviklere i ulike prismodeller. Enhver utvikler som ønsker å bygge tilpassede apper eller nettapper som krever tekst til tale-funksjonalitet, kan enkelt bygge bro over det gapet ved å bruke Googles TTS-funksjoner. Ja, TTS er forkortelse for tekst til tale.
Finn hurtigstarten på Google Cloud Console https://cloud.google.com/. Du kan finne veiledninger, administrere tjenestekontoen din, få tilgang til wavenet-stemmer og mer.
Google Cloud i seg selv er en skyplattform tilbudt av Google, og den tilbyr en rekke modulære tjenester. Du kan velge å bruke en, mange eller alle tjenestene. Alt du trenger å gjøre er å opprette tilgangsnøkler for autentisering av hver API - broen. De fleste, om ikke alle, tjenester kommer med en kostnad, selv om det kan være en gratis terskel.
Google kjøpte DeepMind i 2014 for sin tekst til tale-teknologi og arbeid innen utvikling av nevrale nettverk. Så hvis du kommer over DeepMind, er det nå Google DeepMind, og de er alle en og samme.
Nå som vi har en solid forståelse, la oss dykke dypt inn i Google Cloud Text to Speech API.
Google Text to Speech API-funksjoner
Google er en global teknologipioner og leder, det er ingen tvil om det. Når det gjelder TTS API, kan du forvente å finne verdensklasse funksjoner som fortsetter å utvikle seg.
Høyfidelitet Tale
Googles tekst til tale-stemmer er noen av de beste i bransjen. De høres veldig menneskelige ut med naturlig klingende intonasjon. TTS er i sine tidligste stadier, og de som best kan syntetisere lyd til å høres ut som en menneskelig stemme, vil vinne dette kappløpet.
Utvalg av Stemmer
Google hevder å ha det bredeste utvalget av stemmer, slik at prosjektet ditt ikke trenger å høres ut som de andre 1000 der ute, eller enda verre, konkurrentens app.
Lag Din Egen Stemme
Dette grenser til stemme-kloning teknologi. Du kan lage din egen tilpassede stemme ved å ta opp deg selv eller noen andre, med deres tillatelse. Du kan deretter bruke dette eksempelet som stemmen som leser opp all teksten din.
Neurale Stemmer
Neurale stemmer tilbyr den beste kvaliteten blant det brede utvalget av stemmer. Du kan også internasjonalisere disse stemmene for å utvide ditt internasjonale publikum.
Studio Stemmer
Studio stemmer er mer avanserte og høres svært profesjonelle ut, som om de var innspilt på tradisjonell måte.
Stemmejustering
Velg en stemme og juster deretter hastighet, tonehøyde og mer for å tilpasse tonen eller stemmen.
Hvor mye koster Google Text to Speech API?
Det avhenger av stemmekvaliteten og lengden på teksten din. Jo mer naturlig du vil at stemmen skal høres ut, desto dyrere blir det. Men dyrt er relativt her. Selv de høykvalitets stemmene er relativt rimelige.
Stemmtype | Gratis per måned | Etter gratis bruk er nådd |
Neural2 stemmer | 0 til 1 million bytes | $16 per én million bytes |
Polyglot stemmer | 0 til 1 million bytes | $16 per én million bytes |
Studio stemmer | 0 til 100,000 bytes | $160 per én million bytes |
Standard stemmer | 0 til 4 millioner tegn | $4 per én million tegn |
Wavenet stemmer | 0 til 1 million tegn | $16 per én million tegn |
Hva er forskjellen mellom tegn og bytes
Som du kan se, varierer prisen betydelig basert på stemmekvaliteten. Lydkoding og prosessering som kreves for å gjøre tekst om til tale varierer fra nivå til nivå. For de lavere, som Standard Stemmer for eksempel, er prisen lavere og beregnes etter tegn.
Dette betyr at hvis prosjektet ditt har 4 millioner tegn, vil det koste deg $16 å konvertere disse tegnene til tale ved bruk av Standard Tegn.
Studio Stemmer derimot krever større prosesseringskraft og belastes basert på bytes. I noen språk, som japansk for eksempel, kan et enkelt tegn bestå av flere bytes.
Så for den mest nøyaktige prisingen er det viktig å vite hvilket språk du jobber med og ha en grunnleggende forståelse av gjennomsnittlig antall bytes per tegn og estimere deretter.
Hvordan sette opp ditt Google Cloud Platform Text to Speech API-prosjekt?
- Opprett en Google Cloud-konto eller logg inn på denne siden
- Opprett et nytt prosjekt og gi det et passende navn
- Legg til en betalingsmetode. Du vil kun bli belastet for det du bruker.
- Velg deretter prosjektet ditt og knytt det til en betalingskonto.
- Aktiver Text-to-Speech API. Gå til søkefeltet for produkter og ressurser øverst på siden, og skriv inn "speech."
- Fra de viste resultatene, velg Cloud Text-to-Speech API
- Sett opp autentisering for ditt utviklingsmiljø. For instruksjoner, se Sett opp autentisering for Text-to-Speech.
Du kan også prøve Text-to-Speech uten å knytte det til prosjektet ditt:
- Velg alternativet PRØV DENNE API.
- For å aktivere Text-to-Speech API for bruk med prosjektet ditt, klikk AKTIVER.
Sjekk ut Google Cloud-dokumentasjonen for ytterligere hjelp.
Hvordan deaktivere Text to Speech API
For å deaktivere Text-to-Speech API, gå til Google Cloud Platform-dashbordet ditt og klikk på "Gå til API-oversikt"-lenken i API-boksen. Finn Text-to-Speech API og klikk deretter på den, etterfulgt av å velge "DEAKTIVER API"-knappen øverst på siden.
Kom i gang med Google Text to Speech API
Nå som du har satt opp prosjektet ditt, kan du bruke kommandolinjen for å komme i gang.
gcloud init
Opprett lokal autentisering
gcloud auth application-default login
Nå kan du installere et klientbibliotek. I dette eksempelet ser vi på Node.js
npm install --save @google-cloud/text-to-speech
Google Cloud Text to Speech API støtter disse språkene:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Hvordan fungerer Google Cloud API?
Det hele starter med et enkelt API-anrop. Du sender teksten din i et transkripsjonsanrop, og deretter mottar du en lydfil av den talte teksten. Med forespørselen din kan du stille spesifikke krav. Velg en stemme, et språk, og mer, og deretter vil tekst-til-tale API-en sende deg tilbake lydfilen.
Du kan lære hvordan du installerer og bruker tekst-til-tale-klientbibliotekene her. Våre kodeeksempler vil være for Node.js. Men du kan velge noe annet fra Python til PHP. Hva enn du er komfortabel med.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);
Og det er det. Du satte opp Google Cloud Text to Speech API og sendte din første forespørsel for å konvertere tekst til tale. Du kan få filen tilbake i ulike formater; fra OGG til MP3.
Her er noen måter å bruke Google Text to Speech API
Google Text-to-Speech (TTS) API tilbyr en allsidig løsning for ulike bruksområder på tvers av forskjellige industrier. Noen vanlige bruksområder inkluderer:
- Tekst-til-tale for synshemmede brukere: Implementering av TTS i applikasjoner for å konvertere skriftlig innhold til talte ord, slik at digital informasjon blir tilgjengelig for synshemmede brukere.
- Automatiserte telefonsystemer: Bruke TTS for å lage naturlig klingende meldinger og svar for interaktive stemmesvarsystemer i kundeservice eller informasjonstelefoner.
- Voiceovers for medieinnhold: Generere naturlig klingende voiceovers for videoer, podkaster eller annet multimedieinnhold for å forbedre brukeropplevelsen.
- Tekst-til-tale for oversatt innhold: Konvertere oversatt tekst til talte ord for å lette språklæring, internasjonal kommunikasjon eller innholdskonsum på ulike språk.
- Lesestøtte for dyslektiske brukere: Tilby TTS-funksjonalitet for å hjelpe personer med dysleksi eller lesevansker med å konsumere skriftlig innhold.
- Stemmebasert navigasjon i applikasjoner: Integrere TTS i navigasjonsapplikasjoner for å gi sving-for-sving veibeskrivelser eller stedsbasert informasjon hørbart.
- Tekst-til-tale for pedagogisk innhold: Forbedre e-læringsopplevelser ved å konvertere pedagogisk tekstinnhold til talte ord, noe som hjelper forståelse og engasjement.
- Talesyntese for produktivitetsapper: Integrere TTS i produktivitetsverktøy, som notat- eller oppgavestyringsapper, for å muliggjøre talte tilbakemeldinger eller informasjonsinnhenting.
- Naturlig stemme for virtuelle assistenter: Drive stemmeassistenter med naturlig klingende TTS for å forbedre brukerinteraksjoner og gi informasjon på en samtalemåte.
- Hørbare varsler og notifikasjoner: Bruke TTS for å gi hørbare varsler, notifikasjoner eller statusoppdateringer på Internet of Things (IoT) enheter for økt brukerbevissthet.
Beste alternativer til Google Cloud TTS API
Per min siste kunnskapsoppdatering i januar 2022, finnes det flere alternativer til Google Text-to-Speech API. Husk at populariteten og funksjonaliteten til disse tjenestene kan ha endret seg siden da. Her er noen bemerkelsesverdige alternativer:
- Speechify Tekst-til-tale API: Vi er begeistret for å avduke utviklingen av en tekst-til-tale API som leverer Speechifys mest naturlige og elskede AI-stemmer direkte til utviklere over hele verden. Reserver din plass i dag.
- Amazon Polly: Tilbys av Amazon Web Services (AWS), Polly gir naturlig lydende talesyntese på ulike språk og stemmer. Den integreres godt med andre AWS-tjenester.
- Microsoft Azure Speech Service: Azure Speech Service inkluderer tekst-til-tale-funksjoner og støtter en rekke applikasjoner, inkludert stemmeassistenter, navigasjonssystemer og mer.
- IBM Watson Tekst-til-tale: IBM Watson tilbyr en tekst-til-tale-tjeneste som lar utviklere konvertere skriftlig tekst til naturlig lydende tale ved hjelp av ulike stemmer.
- Nuance Communications: Nuance tilbyr en rekke tale- og stemmegjenkjenningsløsninger, inkludert tekst-til-tale, for applikasjoner innen helsevesen, bilindustri og kundeservice.
- CereProc: CereProc er et tekst-til-tale-teknologiselskap som tilbyr høykvalitets syntetiske stemmer for applikasjoner som tilgjengelighet, underholdning og kommunikasjon.
- iSpeech: iSpeech tilbyr skybaserte tekst-til-tale-tjenester med støtte for flere språk og stemmer. Det er egnet for ulike applikasjoner, inkludert mobilapper og nettsteder.
- ResponsiveVoice: ResponsiveVoice er en enkel og rimelig tekst-til-tale API som støtter flere språk og kan brukes i ulike nettbaserte applikasjoner.
- Neospeech: Neospeech tilbyr tekst-til-tale-løsninger med fokus på naturlig lydende stemmer. Teknologien deres brukes i applikasjoner som e-læring og underholdning.
- ReadSpeaker: ReadSpeaker tilbyr online og offline tekst-til-tale-løsninger for ulike applikasjoner, inkludert nettsteder, e-læring og tilgjengelighetstjenester.
- Acapelabox: Acapela Group tilbyr en skybasert tekst-til-tale API, Acapelabox, som støtter flere språk og stemmer for applikasjoner i ulike bransjer.
Google Tekst-til-tale API Vanlige spørsmål
Google har flere nivåer av stemmer, og nesten hvert nivå har en gratis grense. For eksempel er standardstemmene gratis opp til den første millionen byte. Etter det koster det $16 per million byte. Så ja, det kan være gratis med begrensede tegn eller byte.
Opprett ganske enkelt en konto på https://cloud.google.com/text-to-speech/ og følg trinnene der. Jeg har også beskrevet prosessen i detalj i denne bloggen, rett ovenfor.
Du kan få en Google tekst-til-tale API-nøkkel ved å logge inn på din Google Cloud-konto og deretter opprette et prosjekt. Når du har opprettet prosjektet ditt, kan du generere en API-nøkkel.
URL-en for Google tekst-til-tale API er https://cloud.google.com/text-to-speech/
Det er teknisk sett ingen gratis prøveperiode for Google Cloud. Det er flere tjenester innen Google Cloud, og hver tjeneste har sine egne vilkår og gratisnivåer.
Nei. Google Cloud tekst-til-tale API krever en internettforbindelse.
Autentisering til Google Cloud-tjenester, inkludert Tekst-til-tale API, kan gjøres ved hjelp av API-nøkler, OAuth 2.0 eller tjenestekontoer. Den passende autentiseringsmetoden avhenger av bruksområdet og typen applikasjon.
Jeg vil gi det 5 stjerner. Det er enkelt å bruke, søkefunksjonen er flott og brukes mest. Prisingen er rimelig, og det er totalt sett et flott produkt.
Google Text-to-Speech API tilbyr klientbiblioteker for ulike programmeringsspråk, inkludert Python. Den støtter også RESTful API-forespørsler, noe som gjør den kompatibel med språk som kan sende HTTP-forespørsler.
Å integrere Google Text-to-Speech API i en Android-app innebærer å bruke TextToSpeech-klassen og gjøre API-forespørsler. Detaljerte instruksjoner finner du i den offisielle dokumentasjonen for Android-utviklere.
For å implementere Google Text-to-Speech API i en JavaScript-applikasjon, kan du sende HTTP-forespørsler til API-endepunktet. Prosessen innebærer å konstruere den riktige API-forespørselen og håndtere responsen i JavaScript-koden din. Se den offisielle dokumentasjonen for detaljer.
Cliff Weitzman
Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify, verdens ledende app for tekst-til-tale, med over 100 000 femstjerners anmeldelser og førsteplass i App Store i kategorien Nyheter og Magasiner. I 2017 ble Weitzman kåret til Forbes 30 under 30-listen for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blitt omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blant andre ledende medier.