Alt du trenger å vite om Google Cloud Text to Speech API

Vi er begeistret for å kunngjøre utviklingen av en tekst-til-tale API som gir utviklere over hele verden tilgang til Speechifys mest naturlige og populære AI-stemmer.

Prøv gratis Contact Sales

Leter du etter vår Tekst-til-tale-leser?

Fremhevet i

Lytt til denne artikkelen med Speechify!

Generativ AI og kunstig intelligens har kommet langt. Tekst til tale er et relativt eldre konsept, det har eksistert en stund. Det er mye...

Generativ AI og kunstig intelligens har kommet langt. Tekst til tale er et relativt eldre konsept, det har eksistert en stund. Det er mye å pakke ut her og kategorisere, og jeg vil bryte det ned og se på dette fra alle vinkler. Enten du er nybegynner eller proff, bør dette gi en generell klarhet til Google Text to Speech API.

Før vi dykker inn i noe tema, er det et must at vi etablerer grunnreglene. La oss definere noen begreper og bygge opp fundamentet vårt slik at vi kan stå støtt på det.

La oss skille de to teknologiene her; tekst til tale og API-er, og hva er rollen til Google Cloud.

Redaktørens notat: Leter du etter den ledende tekst til tale API-en? Sjekk ut Speechifys veldokumenterte og brukervennlige tekst til tale API.

Tekst til Tale

Jeg har skrevet mye om dette emnet, og du kan lese min Hva er tekst til tale blogg og også lese om talesyntese for å få en solid forståelse av dette emnet. Disse går mer i dybden, og du kan hoppe over dem for nå. Jeg vil oppsummere dem i noen få setninger.

Tekst til tale er avhengig av en teknologi kalt talesyntese for å konvertere ord til AI-generert tale. Bruksområdene for dette er mange. Fra å hjelpe folk med lesevansker som dysleksi og dårlig syn til de som bare ønsker å øke effektiviteten.

API

API står for Application Programming Interface. Det fungerer enkelt som en bro mellom to applikasjoner. Hvis du utviklet en app som hadde lydinnhold og krevde tekst til tale-funksjonalitet, måtte du bygge tekst til tale-funksjonaliteten selv, eller du kunne ganske enkelt koble til en eksisterende tekst til tale API.

Du ville fokusere på å bygge appen din og stole på en tredjeparts API som en bro, for å importere tekst til tale-funksjonaliteten for å syntetisere teksten din.

Google Cloud API

Dette er hvor Google Cloud kommer inn i bildet. Google har utviklet en robust tekst til tale API og tilbyr den til utviklere i ulike prismodeller. Enhver utvikler som ønsker å bygge tilpassede apper eller nettapper som krever tekst til tale-funksjonalitet, kan enkelt bygge bro over det gapet ved å bruke Googles TTS-funksjoner. Ja, TTS er forkortelse for tekst til tale.

Finn hurtigstarten på Google Cloud Console https://cloud.google.com/. Du kan finne veiledninger, administrere tjenestekontoen din, få tilgang til wavenet-stemmer og mer.

Google Cloud i seg selv er en skyplattform tilbudt av Google, og den tilbyr en rekke modulære tjenester. Du kan velge å bruke en, mange eller alle tjenestene. Alt du trenger å gjøre er å opprette tilgangsnøkler for autentisering av hver API - broen. De fleste, om ikke alle, tjenester kommer med en kostnad, selv om det kan være en gratis terskel.

Google kjøpte DeepMind i 2014 for sin tekst til tale-teknologi og arbeid innen utvikling av nevrale nettverk. Så hvis du kommer over DeepMind, er det nå Google DeepMind, og de er alle en og samme.

Nå som vi har en solid forståelse, la oss dykke dypt inn i Google Cloud Text to Speech API.

Google Text to Speech API-funksjoner

Google er en global teknologipioner og leder, det er ingen tvil om det. Når det gjelder TTS API, kan du forvente å finne verdensklasse funksjoner som fortsetter å utvikle seg.

Høyfidelitet Tale

Googles tekst til tale-stemmer er noen av de beste i bransjen. De høres veldig menneskelige ut med naturlig klingende intonasjon. TTS er i sine tidligste stadier, og de som best kan syntetisere lyd til å høres ut som en menneskelig stemme, vil vinne dette kappløpet.

Utvalg av Stemmer

Google hevder å ha det bredeste utvalget av stemmer, slik at prosjektet ditt ikke trenger å høres ut som de andre 1000 der ute, eller enda verre, konkurrentens app.

Lag Din Egen Stemme

Dette grenser til stemme-kloning teknologi. Du kan lage din egen tilpassede stemme ved å ta opp deg selv eller noen andre, med deres tillatelse. Du kan deretter bruke dette eksempelet som stemmen som leser opp all teksten din.

Neurale Stemmer

Neurale stemmer tilbyr den beste kvaliteten blant det brede utvalget av stemmer. Du kan også internasjonalisere disse stemmene for å utvide ditt internasjonale publikum.

Studio Stemmer

Studio stemmer er mer avanserte og høres svært profesjonelle ut, som om de var innspilt på tradisjonell måte.

Stemmejustering

Velg en stemme og juster deretter hastighet, tonehøyde og mer for å tilpasse tonen eller stemmen.

Hvor mye koster Google Text to Speech API?

Det avhenger av stemmekvaliteten og lengden på teksten din. Jo mer naturlig du vil at stemmen skal høres ut, desto dyrere blir det. Men dyrt er relativt her. Selv de høykvalitets stemmene er relativt rimelige.

Stemmtype	Gratis per måned	Etter gratis bruk er nådd
Neural2 stemmer	0 til 1 million bytes	$16 per én million bytes
Polyglot stemmer	0 til 1 million bytes	$16 per én million bytes
Studio stemmer	0 til 100,000 bytes	$160 per én million bytes
Standard stemmer	0 til 4 millioner tegn	$4 per én million tegn
Wavenet stemmer	0 til 1 million tegn	$16 per én million tegn

Hva er forskjellen mellom tegn og bytes

Som du kan se, varierer prisen betydelig basert på stemmekvaliteten. Lydkoding og prosessering som kreves for å gjøre tekst om til tale varierer fra nivå til nivå. For de lavere, som Standard Stemmer for eksempel, er prisen lavere og beregnes etter tegn.

Dette betyr at hvis prosjektet ditt har 4 millioner tegn, vil det koste deg $16 å konvertere disse tegnene til tale ved bruk av Standard Tegn.

Studio Stemmer derimot krever større prosesseringskraft og belastes basert på bytes. I noen språk, som japansk for eksempel, kan et enkelt tegn bestå av flere bytes.

Så for den mest nøyaktige prisingen er det viktig å vite hvilket språk du jobber med og ha en grunnleggende forståelse av gjennomsnittlig antall bytes per tegn og estimere deretter.

Hvordan sette opp ditt Google Cloud Platform Text to Speech API-prosjekt?

Opprett en Google Cloud-konto eller logg inn på denne siden
Opprett et nytt prosjekt og gi det et passende navn
Legg til en betalingsmetode. Du vil kun bli belastet for det du bruker.
Velg deretter prosjektet ditt og knytt det til en betalingskonto.
Aktiver Text-to-Speech API. Gå til søkefeltet for produkter og ressurser øverst på siden, og skriv inn "speech."
Fra de viste resultatene, velg Cloud Text-to-Speech API
Sett opp autentisering for ditt utviklingsmiljø. For instruksjoner, se Sett opp autentisering for Text-to-Speech.

Du kan også prøve Text-to-Speech uten å knytte det til prosjektet ditt:

Velg alternativet PRØV DENNE API.
For å aktivere Text-to-Speech API for bruk med prosjektet ditt, klikk AKTIVER.

Sjekk ut Google Cloud-dokumentasjonen for ytterligere hjelp.

Hvordan deaktivere Text to Speech API

For å deaktivere Text-to-Speech API, gå til Google Cloud Platform-dashbordet ditt og klikk på "Gå til API-oversikt"-lenken i API-boksen. Finn Text-to-Speech API og klikk deretter på den, etterfulgt av å velge "DEAKTIVER API"-knappen øverst på siden.

Kom i gang med Google Text to Speech API

Nå som du har satt opp prosjektet ditt, kan du bruke kommandolinjen for å komme i gang.

gcloud init

Opprett lokal autentisering

gcloud auth application-default login

Nå kan du installere et klientbibliotek. I dette eksempelet ser vi på Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API støtter disse språkene:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Hvordan fungerer Google Cloud API?

Det hele starter med et enkelt API-anrop. Du sender teksten din i et transkripsjonsanrop, og deretter mottar du en lydfil av den talte teksten. Med forespørselen din kan du stille spesifikke krav. Velg en stemme, et språk, og mer, og deretter vil tekst-til-tale API-en sende deg tilbake lydfilen.

Du kan lære hvordan du installerer og bruker tekst-til-tale-klientbibliotekene her. Våre kodeeksempler vil være for Node.js. Men du kan velge noe annet fra Python til PHP. Hva enn du er komfortabel med.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Og det er det. Du satte opp Google Cloud Text to Speech API og sendte din første forespørsel for å konvertere tekst til tale. Du kan få filen tilbake i ulike formater; fra OGG til MP3.

Her er noen måter å bruke Google Text to Speech API

Google Text-to-Speech (TTS) API tilbyr en allsidig løsning for ulike bruksområder på tvers av forskjellige industrier. Noen vanlige bruksområder inkluderer:

Tekst-til-tale for synshemmede brukere: Implementering av TTS i applikasjoner for å konvertere skriftlig innhold til talte ord, slik at digital informasjon blir tilgjengelig for synshemmede brukere.
Automatiserte telefonsystemer: Bruke TTS for å lage naturlig klingende meldinger og svar for interaktive stemmesvarsystemer i kundeservice eller informasjonstelefoner.
Voiceovers for medieinnhold: Generere naturlig klingende voiceovers for videoer, podkaster eller annet multimedieinnhold for å forbedre brukeropplevelsen.
Tekst-til-tale for oversatt innhold: Konvertere oversatt tekst til talte ord for å lette språklæring, internasjonal kommunikasjon eller innholdskonsum på ulike språk.
Lesestøtte for dyslektiske brukere: Tilby TTS-funksjonalitet for å hjelpe personer med dysleksi eller lesevansker med å konsumere skriftlig innhold.
Stemmebasert navigasjon i applikasjoner: Integrere TTS i navigasjonsapplikasjoner for å gi sving-for-sving veibeskrivelser eller stedsbasert informasjon hørbart.
Tekst-til-tale for pedagogisk innhold: Forbedre e-læringsopplevelser ved å konvertere pedagogisk tekstinnhold til talte ord, noe som hjelper forståelse og engasjement.
Talesyntese for produktivitetsapper: Integrere TTS i produktivitetsverktøy, som notat- eller oppgavestyringsapper, for å muliggjøre talte tilbakemeldinger eller informasjonsinnhenting.
Naturlig stemme for virtuelle assistenter: Drive stemmeassistenter med naturlig klingende TTS for å forbedre brukerinteraksjoner og gi informasjon på en samtalemåte.
Hørbare varsler og notifikasjoner: Bruke TTS for å gi hørbare varsler, notifikasjoner eller statusoppdateringer på Internet of Things (IoT) enheter for økt brukerbevissthet.

Beste alternativer til Google Cloud TTS API

Per min siste kunnskapsoppdatering i januar 2022, finnes det flere alternativer til Google Text-to-Speech API. Husk at populariteten og funksjonaliteten til disse tjenestene kan ha endret seg siden da. Her er noen bemerkelsesverdige alternativer:

Speechify Tekst-til-tale API: Vi er begeistret for å avduke utviklingen av en tekst-til-tale API som leverer Speechifys mest naturlige og elskede AI-stemmer direkte til utviklere over hele verden. Reserver din plass i dag.
Amazon Polly: Tilbys av Amazon Web Services (AWS), Polly gir naturlig lydende talesyntese på ulike språk og stemmer. Den integreres godt med andre AWS-tjenester.
Microsoft Azure Speech Service: Azure Speech Service inkluderer tekst-til-tale-funksjoner og støtter en rekke applikasjoner, inkludert stemmeassistenter, navigasjonssystemer og mer.
IBM Watson Tekst-til-tale: IBM Watson tilbyr en tekst-til-tale-tjeneste som lar utviklere konvertere skriftlig tekst til naturlig lydende tale ved hjelp av ulike stemmer.
Nuance Communications: Nuance tilbyr en rekke tale- og stemmegjenkjenningsløsninger, inkludert tekst-til-tale, for applikasjoner innen helsevesen, bilindustri og kundeservice.
CereProc: CereProc er et tekst-til-tale-teknologiselskap som tilbyr høykvalitets syntetiske stemmer for applikasjoner som tilgjengelighet, underholdning og kommunikasjon.
iSpeech: iSpeech tilbyr skybaserte tekst-til-tale-tjenester med støtte for flere språk og stemmer. Det er egnet for ulike applikasjoner, inkludert mobilapper og nettsteder.
ResponsiveVoice: ResponsiveVoice er en enkel og rimelig tekst-til-tale API som støtter flere språk og kan brukes i ulike nettbaserte applikasjoner.
Neospeech: Neospeech tilbyr tekst-til-tale-løsninger med fokus på naturlig lydende stemmer. Teknologien deres brukes i applikasjoner som e-læring og underholdning.
ReadSpeaker: ReadSpeaker tilbyr online og offline tekst-til-tale-løsninger for ulike applikasjoner, inkludert nettsteder, e-læring og tilgjengelighetstjenester.
Acapelabox: Acapela Group tilbyr en skybasert tekst-til-tale API, Acapelabox, som støtter flere språk og stemmer for applikasjoner i ulike bransjer.

Google Tekst-til-tale API Vanlige spørsmål

Google har flere nivåer av stemmer, og nesten hvert nivå har en gratis grense. For eksempel er standardstemmene gratis opp til den første millionen byte. Etter det koster det $16 per million byte. Så ja, det kan være gratis med begrensede tegn eller byte.

Opprett ganske enkelt en konto på https://cloud.google.com/text-to-speech/ og følg trinnene der. Jeg har også beskrevet prosessen i detalj i denne bloggen, rett ovenfor.

Du kan få en Google tekst-til-tale API-nøkkel ved å logge inn på din Google Cloud-konto og deretter opprette et prosjekt. Når du har opprettet prosjektet ditt, kan du generere en API-nøkkel.

URL-en for Google tekst-til-tale API er https://cloud.google.com/text-to-speech/

Det er teknisk sett ingen gratis prøveperiode for Google Cloud. Det er flere tjenester innen Google Cloud, og hver tjeneste har sine egne vilkår og gratisnivåer.

Nei. Google Cloud tekst-til-tale API krever en internettforbindelse.

Autentisering til Google Cloud-tjenester, inkludert Tekst-til-tale API, kan gjøres ved hjelp av API-nøkler, OAuth 2.0 eller tjenestekontoer. Den passende autentiseringsmetoden avhenger av bruksområdet og typen applikasjon.

Jeg vil gi det 5 stjerner. Det er enkelt å bruke, søkefunksjonen er flott og brukes mest. Prisingen er rimelig, og det er totalt sett et flott produkt.

Google Text-to-Speech API tilbyr klientbiblioteker for ulike programmeringsspråk, inkludert Python. Den støtter også RESTful API-forespørsler, noe som gjør den kompatibel med språk som kan sende HTTP-forespørsler.

Å integrere Google Text-to-Speech API i en Android-app innebærer å bruke TextToSpeech-klassen og gjøre API-forespørsler. Detaljerte instruksjoner finner du i den offisielle dokumentasjonen for Android-utviklere.

For å implementere Google Text-to-Speech API i en JavaScript-applikasjon, kan du sende HTTP-forespørsler til API-endepunktet. Prosessen innebærer å konstruere den riktige API-forespørselen og håndtere responsen i JavaScript-koden din. Se den offisielle dokumentasjonen for detaljer.

Forrige

Hvordan lese Wings of Fire-bøkene i riktig rekkefølge

Neste

Introduksjon av Speechify 4.0 for iOS

Cliff Weitzman

Cliff Weitzman er en forkjemper for dysleksi og administrerende direktør og grunnlegger av Speechify, verdens ledende app for tekst-til-tale, med over 100 000 femstjerners anmeldelser og førsteplass i App Store i kategorien Nyheter og Magasiner. I 2017 ble Weitzman kåret til Forbes 30 under 30-listen for sitt arbeid med å gjøre internett mer tilgjengelig for personer med lærevansker. Cliff Weitzman har blitt omtalt i EdSurge, Inc., PC Mag, Entrepreneur, Mashable, blant andre ledende medier.

Av Cliff Weitzman

Dysleksi- og tilgjengelighetsforkjemper, administrerende direktør/grunnlegger av Speechify

i API den 1. februar 2024

Nylige blogger

16. desember 2024
Introduksjon av Speechify 4.0 for iOS
20. november 2024
AI-stemmegenter forklart: Den ultimate guiden
20. november 2024
Hva er nytt – Speechify Mac App Høsten 2024
20. november 2024
Hva er nytt – Speechify Studio Høst 2024
20. november 2024
Den ultimate guiden til AI-agenter i kundesentre
18. november 2024
De beste alternativene til Artlist.io
16. november 2024
Hva er nytt – Speechify Web App og Chrome-utvidelse Høsten 2024
16. november 2024
Hvordan Sam Liccardo Vant med AI Stemmeteknologi og Speechify Studio
16. november 2024
Hva er den beste AI-stemmegeneratoren for italiensk?
15. november 2024
Hva er den beste AI-stemmegeneratoren for fransk?
15. november 2024
Hva er den beste AI-stemmegeneratoren for portugisisk (Brasil)?
15. november 2024
Hva er den beste AI-stemmegeneratoren for spansk?
15. november 2024
Hvordan dubbe en video til tysk med AI-stemmer
15. november 2024
Hvordan dubbe en video til italiensk med AI-stemmer
15. november 2024
Hvordan dubbe en video til portugisisk (Brasil) ved hjelp av AI-stemmer
15. november 2024
Hvordan dubbe en video til fransk med AI-stemmer
13. november 2024
Hvordan dubbe en video til spansk med AI-stemmer
3. juli 2024
Les Høyt: Forvandle Måten Vi Opplever Tekst
3. juli 2024
Les Høyt: Omfavne Tekst-til-Tale Teknologi for en Bedre Leseopplevelse
3. juli 2024
Lydlesing: Forbedre Tilgjengelighet og Nytelse
3. juli 2024
Nettleser: Forbedre din leseopplevelse med AI-stemmer
3. juli 2024
Snakkende stemme: Fremtiden for stemmeteknologi og dens anvendelser
3. juli 2024
Speak Screen: Lås opp tilgjengelighet på din iPhone og iPad
16. juni 2024
Voice Over Skuespiller: Navigere i Verdenen av Tradisjonelle og AI Voice Overs
16. juni 2024
AI talegenerator: Revolusjonerer stemmeskuespill og mer
16. juni 2024
Stemmegjenkjenning AI: Hvordan AI Transformerer Lydlandskapet
16. juni 2024
Stemmeskaper
16. juni 2024
Kjendisstemmegeneratorer: En guide
10. juni 2024
Prosodi i tale
10. juni 2024
Hvordan lage opplæringsvideoer for ansatte

Speechify tekst-til-tale hjelper deg å spare tid

Over 150 000 anmeldelser med 5 stjerner

Prøv Gratis

Populære blogger

27. juni 2022
Beste kjendisstemme-generatorer i 2024
21. august 2022
YouTube Tekst til Tale: Løft Videoinnholdet ditt med Speechify
20. oktober 2022
De 7 beste alternativene til Synthesia.io
1. juni 2022
Alt du trenger å vite om tekst til tale på TikTok
25. juli 2022
De 10 beste tekst-til-tale-appene for Android
27. juli 2022
Hvordan konvertere en PDF til tale
17. november 2022
Jente Stemmeskifter Med AI: En Guide og de beste Verktøyene for Jobben
27. juni 2022
Hvordan bruke Siri tekst-til-tale
26. oktober 2022
Obama tekst til tale
17. juli 2022
Robotstemmegeneratorer: Den futuristiske fronten for lydskaping
1. august 2022
PDF Opplest: Gratis og Betalte Alternativer
18. juli 2022
Alternativer til FakeYou tekst-til-tale
31. oktober 2022
Alt om Deepfake-stemmer
27. september 2022
TikTok stemmegenerator
18. august 2022
Tekst-til-tale GoAnimate
27. juni 2022
De beste kjendis tekst-til-tale stemmegeneratorene
27. juni 2022
PDF-lydbokleser
27. juni 2022
Hvordan få indiske stemmer for tekst-til-tale
27. juni 2022
Forbedre Din Animeopplevelse med Anime Stemmegeneratorer
27. juni 2022
Beste tekst-til-tale online
3. oktober 2022
Topp 50 filmer basert på bøker du bør lese
30. oktober 2022
Last ned lyd
27. juni 2022
Hvordan bruke tekst-til-tale for Quandale Dingle-meme-lyder
10. august 2022
Topp 5 apper som leser opp tekst
27. juni 2022
De beste kvinnelige tekst-til-tale-stemmene
3. november 2022
Kvinnelig stemmeforandrer
2. oktober 2022
Sonic tekst-til-tale stemmegenerator online
16. juli 2022
Beste AI stemmegeneratorer - Den ultimate listen
23. august 2022
Stemmeforandrer
27. juni 2022
Tekst-til-tale i PowerPoint