Todo lo que necesitas saber sobre Google Cloud Text to Speech API

Estamos emocionados de anunciar el desarrollo de una API de texto a voz que ofrece las voces de IA más naturales y queridas de Speechify directamente a desarrolladores de todo el mundo.

Prueba Gratis Contact Sales

¿Buscas nuestro Lector de Texto a Voz?

Destacado en

¡Escucha este artículo con Speechify!

La inteligencia artificial generativa y la inteligencia artificial han avanzado mucho. La conversión de texto a voz es un concepto relativamente antiguo, ha existido por un tiempo. Hay mucho...

La inteligencia artificial generativa y la inteligencia artificial han avanzado mucho. La conversión de texto a voz es un concepto relativamente antiguo, ha existido por un tiempo. Hay mucho que desglosar aquí y categorizar, y lo analizaré desde todos los ángulos. Ya seas principiante o experto, esto debería aclarar en general la API de Text to Speech de Google.

Bien, antes de sumergirnos en cualquier tema, es imprescindible que establezcamos las reglas básicas. Definamos algunos términos y construyamos nuestra base para poder apoyarnos firmemente en ella.

Vamos a separar las dos tecnologías aquí; texto a voz y APIs, y cuál es el papel de Google Cloud.

Nota del editor: ¿Buscas la API líder de texto a voz? Echa un vistazo a la bien documentada y fácil de usar API de texto a voz de Speechify.

Texto a Voz

He escrito extensamente sobre este tema y puedes leer mi ¿Qué es texto a voz? blog y también leer sobre síntesis de voz para obtener una comprensión firme sobre este tema. Estos van más en profundidad y puedes omitirlos por ahora. Los resumiré en unas pocas oraciones.

La conversión de texto a voz se basa en una tecnología llamada síntesis de voz para convertir palabras en voz generada por IA. Los casos de uso para esto son abundantes. Desde ayudar a personas con barreras de lectura como dislexia y mala visión hasta aquellos que simplemente buscan eficiencia.

API

API significa Interfaz de Programación de Aplicaciones. Simplemente actúa como un puente entre dos aplicaciones. Si estuvieras desarrollando una aplicación que tuviera contenido de audio y requiriera funcionalidad de texto a voz, entonces tendrías que construir la funcionalidad de texto a voz tú mismo, o podrías simplemente conectarte a una API de texto a voz existente.

Te enfocarías en construir tu aplicación y confiarías en una API de terceros como puente, para importar la funcionalidad de texto a voz para sintetizar tu texto.

API de Google Cloud

Aquí es donde entra en juego Google Cloud. Google ha desarrollado una robusta API de texto a voz y la ofrece a los desarrolladores en varias estructuras de tarifas. Cualquier desarrollador que busque construir aplicaciones personalizadas o aplicaciones web que requieran funcionalidad de texto a voz podría simplemente cerrar esa brecha utilizando las características de TTS de Google. Sí, TTS es la abreviatura de texto a voz.

Encuentra el inicio rápido en Google Cloud Console https://cloud.google.com/. Puedes encontrar tutoriales, gestionar tu cuenta de servicio, acceder a voces wavenet y más.

Google Cloud en sí es una plataforma en la nube ofrecida por Google y ofrece una serie de servicios modulares. Puedes elegir usar uno, muchos o todos sus servicios. Todo lo que necesitarías hacer es crear claves de acceso para la autenticación de cada API: el puente. La mayoría, si no todos, los servicios tienen un costo, aunque podría haber un umbral gratuito.

Google compró DeepMind en 2014 por su tecnología de texto a voz y su trabajo en el desarrollo de redes neuronales. Así que, si te encuentras con DeepMind, ahora es Google DeepMind y son lo mismo.

Ahora que tenemos una comprensión sólida, profundicemos en la API de Google Cloud Text to Speech.

Características de la API de Google Text to Speech

Google es un pionero y líder tecnológico global, no hay duda de eso. Cuando se trata de la API de TTS, puedes esperar encontrar características de clase mundial que continúan evolucionando.

Voz de Alta Fidelidad

Las voces de texto a voz de Google son algunas de las mejores de la industria. Suenan muy humanas y con una entonación natural. TTS está en sus primeras etapas y aquellos que puedan sintetizar mejor el audio para que suene como si un humano estuviera hablando van a ganar esta carrera.

Selección de Voces

Google afirma tener la selección más amplia de voces para que tu proyecto no tenga que sonar igual que los otros 1000 por ahí o, peor aún, que la aplicación de tu competidor.

Crea Tu Propia Voz

Esto roza la tecnología de clonación de voz. Puedes crear tu voz personalizada grabándote a ti o a otra persona, con su permiso. Luego puedes usar esta muestra para que sea la voz que lea en voz alta todo tu texto.

Voces Neuronales

Las voces neuronales ofrecen la mejor calidad entre la amplia selección de voces. También puedes internacionalizar estas voces para ampliar tu audiencia internacional.

Voces de Estudio

Las voces de estudio son de gama alta y suenan muy profesionales, como si fueran grabadas por el método tradicional.

Ajuste de Voz

Elige una voz y luego ajusta la velocidad, el tono y más para personalizar el tono de una voz.

¿Cuánto cuesta la API de Google Text to Speech?

Todo se reduce a la calidad de la voz y la longitud de tu texto. Cuanto más natural quieras que suene tu voz, más caro será. Sin embargo, caro es relativo aquí. Incluso las voces de alta calidad son relativamente económicas.

Tipo de voz	Gratis por mes	Después de alcanzar el uso gratuito
Voces Neural2	0 a 1 millón de bytes	$16 por un millón de bytes
Voces Políglotas	0 a 1 millón de bytes	$16 por un millón de bytes
Voces de Estudio	0 a 100,000 bytes	$160 por un millón de bytes
Voces Estándar	0 a 4 millones de caracteres	$4 por un millón de caracteres
Voces Wavenet	0 a 1 millón de caracteres	$16 por un millón de caracteres

¿Cuál es la Diferencia entre Caracteres y Bytes?

Como puedes ver, el precio varía significativamente según la calidad de la voz. La codificación de audio y el procesamiento necesarios para convertir texto en voz varían de un nivel a otro. Para los niveles más bajos, como las Voces Estándar, el precio es más bajo y se cuenta por caracteres.

Esto significa que, si tu proyecto tiene 4 millones de caracteres, te costaría $16 convertir esos caracteres en voz usando los Caracteres Estándar.

Las Voces de Estudio, por otro lado, requieren mayor potencia de procesamiento y se cobran en función de los bytes. En algunos idiomas, como el japonés, por ejemplo, un solo carácter podría estar compuesto por múltiples bytes.

Por lo tanto, para obtener un precio más preciso, es importante saber en qué idioma estás trabajando y tener un conocimiento básico de la cantidad promedio de bytes por cada carácter y estimarlo en consecuencia.

¿Cómo Configurar tu Proyecto de API de Google Cloud Text to Speech?

Crea una cuenta de Google Cloud o inicia sesión en esta página
Crea un nuevo proyecto y asígnale un nombre apropiado
Añade un método de facturación. Solo se te cobrará por lo que uses.
Luego elige tu proyecto y asócialo con una cuenta de facturación.
Activa la API de Text-to-Speech. Ve a la barra de búsqueda de productos y recursos ubicada en la parte superior de la página, y escribe "speech".
De los resultados mostrados, elige la API de Cloud Text-to-Speech
Configura la autenticación para tu entorno de desarrollo. Para obtener instrucciones, consulta Configurar autenticación para Text-to-Speech.

También puedes probar Text-to-Speech sin vincularlo a tu proyecto:

Elige la opción PROBAR ESTA API.
Para habilitar la API de Text-to-Speech para su uso con tu proyecto, haz clic en HABILITAR.

Consulta la Documentación de Google Cloud para obtener más ayuda.

Cómo Desactivar la API de Text to Speech

Para desactivar la API de Text-to-Speech, ve a tu panel de Google Cloud Platform y haz clic en el enlace "Ir a la vista general de las API" dentro del cuadro de API. Localiza la API de Text-to-Speech y luego haz clic en ella, seguido de seleccionar el botón "DESACTIVAR API" en la parte superior de la página.

Comienza con la API de Google Text to Speech

Ahora que tienes tu proyecto configurado, puedes usar la línea de comandos para comenzar.

gcloud init

Crea autenticación local

gcloud auth application-default login

Ahora puedes instalar una biblioteca cliente. En este ejemplo, veremos Node.js

npm install --save @google-cloud/text-to-speech

La API de Google Cloud Text to Speech Soporta Estos Idiomas:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

¿Cómo Funciona la API de Google Cloud?

Todo comienza con una simple llamada a la API. Envías tu texto en una llamada de transcripción y luego recibes un archivo de audio de tu texto hablado. Con tu solicitud, puedes hacer requisitos específicos. Elige una voz, un idioma y más, y luego la API de texto a voz te enviará de vuelta el archivo de audio.

Puedes aprender cómo instalar y usar las bibliotecas cliente de texto a voz aquí. Nuestros ejemplos de código serán para Node.js. Pero puedes elegir cualquier otro, desde Python hasta PHP. Lo que te resulte más cómodo.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Y eso es todo. Configuraste la API de Google Cloud Text to Speech y enviaste tu primera solicitud para convertir texto a voz. Puedes obtener el archivo de vuelta en varios formatos; desde OGG hasta MP3.

Aquí Hay Algunas Maneras de Usar la API de Google Text to Speech

La API de Google Text-to-Speech (TTS) ofrece una solución versátil para varios casos de uso en diferentes industrias. Algunos casos de uso comunes incluyen:

Texto a Voz para Usuarios con Discapacidad Visual: Implementar TTS en aplicaciones para convertir contenido escrito en palabras habladas, haciendo la información digital accesible para usuarios con discapacidad visual.
Sistemas Telefónicos Automatizados: Utilizar TTS para crear mensajes y respuestas con sonido natural para sistemas de respuesta de voz interactiva en atención al cliente o líneas de información.
Locuciones para Contenido Multimedia: Generar locuciones con sonido natural para videos, podcasts u otro contenido multimedia para mejorar la experiencia del usuario.
Texto a Voz para Contenido Traducido: Convertir texto traducido en palabras habladas para facilitar el aprendizaje de idiomas, la comunicación internacional o el consumo de contenido en varios idiomas.
Asistencia de Lectura para Usuarios con Dislexia: Proporcionar funcionalidad TTS para ayudar a individuos con dislexia o dificultades de lectura a consumir contenido escrito.
Navegación por Voz en Aplicaciones: Integrar TTS en aplicaciones de navegación para proporcionar direcciones paso a paso o información basada en la ubicación de manera audible.
Texto a Voz para Contenido Educativo: Mejorar las experiencias de aprendizaje electrónico convirtiendo contenido educativo en texto a palabras habladas, ayudando a la comprensión y el compromiso.
Síntesis de Voz para Aplicaciones de Productividad: Integrar TTS en herramientas de productividad, como aplicaciones de toma de notas o gestión de tareas, para habilitar retroalimentación hablada o recuperación de información.
Voz Natural para Asistentes Virtuales: Potenciar asistentes de voz con TTS de sonido natural para mejorar las interacciones con el usuario y proporcionar información de manera conversacional.
Alertas y Notificaciones Auditivas: Usar TTS para proporcionar alertas audibles, notificaciones o actualizaciones de estado en dispositivos del Internet de las Cosas (IoT) para mejorar la conciencia del usuario.

Mejores Alternativas a la API de Google Cloud TTS

Hasta mi última actualización de conocimiento en enero de 2022, hay varias alternativas a la API de Google Text-to-Speech. Ten en cuenta que la popularidad y las capacidades de estos servicios pueden haber cambiado desde entonces. Aquí hay algunas alternativas notables:

API de Texto a Voz de Speechify: Estamos encantados de presentar el desarrollo de una API de texto a voz que ofrece las voces de IA más naturales y queridas de Speechify directamente a desarrolladores de todo el mundo. Reserva tu lugar hoy.
Amazon Polly: Ofrecido por Amazon Web Services (AWS), Polly proporciona síntesis de voz natural en varios idiomas y voces. Se integra bien con otros servicios de AWS.
Servicio de Voz de Microsoft Azure: El Servicio de Voz de Azure incluye capacidades de Texto a Voz y es compatible con una variedad de aplicaciones, incluyendo asistentes de voz, sistemas de navegación y más.
IBM Watson Texto a Voz: IBM Watson ofrece un servicio de Texto a Voz que permite a los desarrolladores convertir texto escrito en voz natural utilizando varias voces.
Nuance Communications: Nuance proporciona una gama de soluciones de reconocimiento de voz y habla, incluyendo texto a voz, para aplicaciones en salud, automotriz y servicio al cliente.
CereProc: CereProc es una empresa de tecnología de texto a voz que ofrece voces sintéticas de alta calidad para aplicaciones como accesibilidad, entretenimiento y comunicación.
iSpeech: iSpeech proporciona servicios de texto a voz basados en la nube con soporte para múltiples idiomas y voces. Es adecuado para diversas aplicaciones, incluidas aplicaciones móviles y sitios web.
ResponsiveVoice: ResponsiveVoice es una API de texto a voz simple y asequible que admite múltiples idiomas y puede usarse en diversas aplicaciones basadas en la web.
Neospeech: Neospeech ofrece soluciones de texto a voz con un enfoque en voces de sonido natural. Su tecnología se utiliza en aplicaciones como e-learning y entretenimiento.
ReadSpeaker: ReadSpeaker proporciona soluciones de texto a voz en línea y fuera de línea para diversas aplicaciones, incluidos sitios web, e-learning y servicios de accesibilidad.
Acapelabox: Acapela Group ofrece una API de texto a voz basada en la nube, Acapelabox, que admite múltiples idiomas y voces para aplicaciones en diversas industrias.

Preguntas Frecuentes sobre la API de Texto a Voz de Google

Google tiene varios niveles de voces y casi cada nivel tiene un límite gratuito. Por ejemplo, las voces estándar son gratuitas hasta el primer millón de bytes. Después de eso, cuesta $16 por millón de bytes. Así que sí, puede ser gratuita con caracteres o bytes limitados.

Simplemente crea una cuenta en https://cloud.google.com/text-to-speech/ y sigue los pasos allí. Además, he detallado el proceso en este blog, justo arriba.

Puedes obtener una clave de API de texto a voz de Google iniciando sesión en tu cuenta de Google Cloud y luego creando un proyecto. Una vez que crees tu proyecto, puedes generar una clave de API.

La URL de la API de texto a voz de Google es https://cloud.google.com/text-to-speech/

Técnicamente no hay un periodo de prueba gratuito para Google Cloud. Hay múltiples servicios dentro de Google Cloud y cada servicio tiene sus propios términos y niveles gratuitos.

No. La API de texto a voz de Google Cloud requiere una conexión a internet.

La autenticación para los servicios de Google Cloud, incluida la API de Texto a Voz, se puede realizar utilizando claves de API, OAuth 2.0 o cuentas de servicio. El método de autenticación adecuado depende del caso de uso y del tipo de aplicación.

Lo calificaría con 5 estrellas. Es fácil de usar, la función de búsqueda es excelente y es la más utilizada. Los precios son razonables y en general es un gran producto.

La API de Google Text-to-Speech ofrece bibliotecas de cliente para varios lenguajes de programación, incluyendo Python. También admite solicitudes API RESTful, lo que la hace compatible con lenguajes que pueden realizar solicitudes HTTP.

Integrar la API de Google Text-to-Speech en una aplicación Android implica usar la clase TextToSpeech y realizar solicitudes a la API. Las instrucciones detalladas se pueden encontrar en la documentación oficial para desarrolladores de Android.

Para implementar la API de Google Text-to-Speech en una aplicación JavaScript, puedes realizar solicitudes HTTP al punto de acceso de la API. El proceso implica construir la solicitud API adecuada y manejar la respuesta en tu código JavaScript. Consulta la documentación oficial para más detalles.

Cómo leer los libros de Wings of Fire en orden

Presentamos Speechify 4.0 para iOS

Cliff Weitzman

Cliff Weitzman es un defensor de la dislexia y el CEO y fundador de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas y ocupando el primer lugar en la categoría de Noticias y Revistas de la App Store. En 2017, Weitzman fue incluido en la lista de Forbes 30 menores de 30 por su trabajo haciendo que internet sea más accesible para personas con discapacidades de aprendizaje. Cliff Weitzman ha sido destacado en EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre otros medios líderes.

Por Cliff Weitzman

Defensor de la dislexia y la accesibilidad, CEO/Fundador de Speechify

en API el 1 de febrero de 2024

Blogs Recientes

16 de diciembre de 2024
Presentamos Speechify 4.0 para iOS
20 de noviembre de 2024
Agentes de Voz con IA Explicados: La Guía Definitiva
20 de noviembre de 2024
Novedades – Aplicación Speechify para Mac Otoño 2024
20 de noviembre de 2024
Novedades – Speechify Studio Otoño 2024
20 de noviembre de 2024
Guía Definitiva de Agentes de IA para Centros de Llamadas
18 de noviembre de 2024
Las Mejores Alternativas a Artlist.io
16 de noviembre de 2024
Novedades – Aplicación Web y Extensión de Chrome de Speechify Otoño 2024
16 de noviembre de 2024
Cómo Sam Liccardo Ganó con Tecnología de Voz AI y Speechify Studio
16 de noviembre de 2024
¿Cuál es el mejor generador de voz AI para italiano?
15 de noviembre de 2024
¿Cuál es el Mejor Generador de Voz AI para Francés?
15 de noviembre de 2024
¿Cuál es el mejor generador de voz IA en portugués (Brasil)?
15 de noviembre de 2024
¿Cuál es el mejor generador de voz AI para español?
15 de noviembre de 2024
Cómo Doblar un Video en Alemán Usando Voces de IA
15 de noviembre de 2024
Cómo Doblar un Video al Italiano Usando Voces de IA
15 de noviembre de 2024
Cómo Doblar un Video al Portugués (Brasil) Usando Voces de IA
15 de noviembre de 2024
Cómo Doblar un Video al Francés Usando Voces de IA
13 de noviembre de 2024
Cómo Doblar un Video al Español Usando Voces de IA
3 de julio de 2024
Lectura en Voz Alta: Transformando la Forma en que Experimentamos el Texto
3 de julio de 2024
Leer en Voz Alta: Adoptando la Tecnología de Texto a Voz para una Mejor Experiencia de Lectura
3 de julio de 2024
Lectura de Audio: Mejorando la Accesibilidad y el Disfrute
3 de julio de 2024
Lector de Sitios Web: Mejorando Tu Experiencia de Lectura con Voces de IA
3 de julio de 2024
La Voz Hablante: El Futuro de la Tecnología de Voz y sus Aplicaciones
3 de julio de 2024
Speak Screen: Desbloqueando la Accesibilidad en tu iPhone y iPad
16 de junio de 2024
Actor de Doblaje: Navegando el Mundo de los Doblajes Tradicionales y de IA
16 de junio de 2024
Generador de Voz AI: Revolucionando las Locuciones y Más Allá
16 de junio de 2024
IA de Voz: Cómo la IA está Transformando el Paisaje del Audio
16 de junio de 2024
Creador de voces
16 de junio de 2024
Generadores de Voz de Celebridades: Guía Práctica
10 de junio de 2024
Prosodia del habla
10 de junio de 2024
Cómo crear videos de capacitación para empleados

Speechify texto a voz te ayuda a ahorrar tiempo

Más de 150k reseñas de 5 estrellas

Prueba Gratis

Blogs Populares

27 de junio de 2022
Mejores Generadores de Voz de Celebridades en 2024
21 de agosto de 2022
Texto a Voz de YouTube: Elevando Tu Contenido de Video con Speechify
20 de octubre de 2022
Las 7 mejores alternativas a Synthesia.io
1 de junio de 2022
Todo lo que necesitas saber sobre la función de texto a voz en TikTok
25 de julio de 2022
Las 10 mejores aplicaciones de texto a voz para Android
27 de julio de 2022
Cómo convertir un PDF a voz
17 de noviembre de 2022
Cambiador de Voz Femenina con IA: Guía y las Mejores Herramientas para el Trabajo
27 de junio de 2022
Cómo usar el texto a voz de Siri
26 de octubre de 2022
Texto a voz de Obama
17 de julio de 2022
Generadores de Voz Robótica: La Frontera Futurista de la Creación de Audio
1 de agosto de 2022
PDF en Voz Alta: Opciones Gratuitas y de Pago
18 de julio de 2022
Alternativas a FakeYou texto a voz
31 de octubre de 2022
Todo Sobre Voces Deepfake
27 de septiembre de 2022
Generador de voz de TikTok
18 de agosto de 2022
Texto a voz GoAnimate
27 de junio de 2022
Los mejores generadores de voz de texto a voz de celebridades
27 de junio de 2022
Lector de Audio para PDF
27 de junio de 2022
Cómo obtener voces indias para texto a voz
27 de junio de 2022
Elevando Tu Experiencia de Anime con Generadores de Voz de Anime
27 de junio de 2022
Mejor texto a voz en línea
3 de octubre de 2022
Las 50 mejores películas basadas en libros que deberías leer
30 de octubre de 2022
Descargar audio
27 de junio de 2022
Cómo usar texto a voz para los sonidos del meme de Quandale Dingle
10 de agosto de 2022
Las 5 mejores aplicaciones que leen texto en voz alta
27 de junio de 2022
Las mejores voces femeninas de texto a voz
3 de noviembre de 2022
Cambiador de voz femenina
2 de octubre de 2022
Generador de voz de texto a voz de Sonic en línea
16 de julio de 2022
Mejores generadores de voz con IA - La lista definitiva
23 de agosto de 2022
Cambiador de voz
27 de junio de 2022
Texto a voz en PowerPoint