Todo lo que necesitas saber sobre Google Cloud Text to Speech API
¿Buscas nuestro Lector de Texto a Voz?
Destacado en
- Texto a Voz
- API
- API de Google Cloud
- Características de la API de Google Text to Speech
- ¿Cuánto cuesta la API de Google Text to Speech?
- ¿Cuál es la Diferencia entre Caracteres y Bytes?
- ¿Cómo Configurar tu Proyecto de API de Google Cloud Text to Speech?
- Cómo Desactivar la API de Text to Speech
- Comienza con la API de Google Text to Speech
- La API de Google Cloud Text to Speech Soporta Estos Idiomas:
- ¿Cómo Funciona la API de Google Cloud?
- Aquí Hay Algunas Maneras de Usar la API de Google Text to Speech
- Mejores Alternativas a la API de Google Cloud TTS
- Preguntas Frecuentes sobre la API de Texto a Voz de Google
La inteligencia artificial generativa y la inteligencia artificial han avanzado mucho. La conversión de texto a voz es un concepto relativamente antiguo, ha existido por un tiempo. Hay mucho...
La inteligencia artificial generativa y la inteligencia artificial han avanzado mucho. La conversión de texto a voz es un concepto relativamente antiguo, ha existido por un tiempo. Hay mucho que desglosar aquí y categorizar, y lo analizaré desde todos los ángulos. Ya seas principiante o experto, esto debería aclarar en general la API de Text to Speech de Google.
Bien, antes de sumergirnos en cualquier tema, es imprescindible que establezcamos las reglas básicas. Definamos algunos términos y construyamos nuestra base para poder apoyarnos firmemente en ella.
Vamos a separar las dos tecnologías aquí; texto a voz y APIs, y cuál es el papel de Google Cloud.
Nota del editor: ¿Buscas la API líder de texto a voz? Echa un vistazo a la bien documentada y fácil de usar API de texto a voz de Speechify.
Texto a Voz
He escrito extensamente sobre este tema y puedes leer mi ¿Qué es texto a voz? blog y también leer sobre síntesis de voz para obtener una comprensión firme sobre este tema. Estos van más en profundidad y puedes omitirlos por ahora. Los resumiré en unas pocas oraciones.
La conversión de texto a voz se basa en una tecnología llamada síntesis de voz para convertir palabras en voz generada por IA. Los casos de uso para esto son abundantes. Desde ayudar a personas con barreras de lectura como dislexia y mala visión hasta aquellos que simplemente buscan eficiencia.
API
API significa Interfaz de Programación de Aplicaciones. Simplemente actúa como un puente entre dos aplicaciones. Si estuvieras desarrollando una aplicación que tuviera contenido de audio y requiriera funcionalidad de texto a voz, entonces tendrías que construir la funcionalidad de texto a voz tú mismo, o podrías simplemente conectarte a una API de texto a voz existente.
Te enfocarías en construir tu aplicación y confiarías en una API de terceros como puente, para importar la funcionalidad de texto a voz para sintetizar tu texto.
API de Google Cloud
Aquí es donde entra en juego Google Cloud. Google ha desarrollado una robusta API de texto a voz y la ofrece a los desarrolladores en varias estructuras de tarifas. Cualquier desarrollador que busque construir aplicaciones personalizadas o aplicaciones web que requieran funcionalidad de texto a voz podría simplemente cerrar esa brecha utilizando las características de TTS de Google. Sí, TTS es la abreviatura de texto a voz.
Encuentra el inicio rápido en Google Cloud Console https://cloud.google.com/. Puedes encontrar tutoriales, gestionar tu cuenta de servicio, acceder a voces wavenet y más.
Google Cloud en sí es una plataforma en la nube ofrecida por Google y ofrece una serie de servicios modulares. Puedes elegir usar uno, muchos o todos sus servicios. Todo lo que necesitarías hacer es crear claves de acceso para la autenticación de cada API: el puente. La mayoría, si no todos, los servicios tienen un costo, aunque podría haber un umbral gratuito.
Google compró DeepMind en 2014 por su tecnología de texto a voz y su trabajo en el desarrollo de redes neuronales. Así que, si te encuentras con DeepMind, ahora es Google DeepMind y son lo mismo.
Ahora que tenemos una comprensión sólida, profundicemos en la API de Google Cloud Text to Speech.
Características de la API de Google Text to Speech
Google es un pionero y líder tecnológico global, no hay duda de eso. Cuando se trata de la API de TTS, puedes esperar encontrar características de clase mundial que continúan evolucionando.
Voz de Alta Fidelidad
Las voces de texto a voz de Google son algunas de las mejores de la industria. Suenan muy humanas y con una entonación natural. TTS está en sus primeras etapas y aquellos que puedan sintetizar mejor el audio para que suene como si un humano estuviera hablando van a ganar esta carrera.
Selección de Voces
Google afirma tener la selección más amplia de voces para que tu proyecto no tenga que sonar igual que los otros 1000 por ahí o, peor aún, que la aplicación de tu competidor.
Crea Tu Propia Voz
Esto roza la tecnología de clonación de voz. Puedes crear tu voz personalizada grabándote a ti o a otra persona, con su permiso. Luego puedes usar esta muestra para que sea la voz que lea en voz alta todo tu texto.
Voces Neuronales
Las voces neuronales ofrecen la mejor calidad entre la amplia selección de voces. También puedes internacionalizar estas voces para ampliar tu audiencia internacional.
Voces de Estudio
Las voces de estudio son de gama alta y suenan muy profesionales, como si fueran grabadas por el método tradicional.
Ajuste de Voz
Elige una voz y luego ajusta la velocidad, el tono y más para personalizar el tono de una voz.
¿Cuánto cuesta la API de Google Text to Speech?
Todo se reduce a la calidad de la voz y la longitud de tu texto. Cuanto más natural quieras que suene tu voz, más caro será. Sin embargo, caro es relativo aquí. Incluso las voces de alta calidad son relativamente económicas.
Tipo de voz | Gratis por mes | Después de alcanzar el uso gratuito |
Voces Neural2 | 0 a 1 millón de bytes | $16 por un millón de bytes |
Voces Políglotas | 0 a 1 millón de bytes | $16 por un millón de bytes |
Voces de Estudio | 0 a 100,000 bytes | $160 por un millón de bytes |
Voces Estándar | 0 a 4 millones de caracteres | $4 por un millón de caracteres |
Voces Wavenet | 0 a 1 millón de caracteres | $16 por un millón de caracteres |
¿Cuál es la Diferencia entre Caracteres y Bytes?
Como puedes ver, el precio varía significativamente según la calidad de la voz. La codificación de audio y el procesamiento necesarios para convertir texto en voz varían de un nivel a otro. Para los niveles más bajos, como las Voces Estándar, el precio es más bajo y se cuenta por caracteres.
Esto significa que, si tu proyecto tiene 4 millones de caracteres, te costaría $16 convertir esos caracteres en voz usando los Caracteres Estándar.
Las Voces de Estudio, por otro lado, requieren mayor potencia de procesamiento y se cobran en función de los bytes. En algunos idiomas, como el japonés, por ejemplo, un solo carácter podría estar compuesto por múltiples bytes.
Por lo tanto, para obtener un precio más preciso, es importante saber en qué idioma estás trabajando y tener un conocimiento básico de la cantidad promedio de bytes por cada carácter y estimarlo en consecuencia.
¿Cómo Configurar tu Proyecto de API de Google Cloud Text to Speech?
- Crea una cuenta de Google Cloud o inicia sesión en esta página
- Crea un nuevo proyecto y asígnale un nombre apropiado
- Añade un método de facturación. Solo se te cobrará por lo que uses.
- Luego elige tu proyecto y asócialo con una cuenta de facturación.
- Activa la API de Text-to-Speech. Ve a la barra de búsqueda de productos y recursos ubicada en la parte superior de la página, y escribe "speech".
- De los resultados mostrados, elige la API de Cloud Text-to-Speech
- Configura la autenticación para tu entorno de desarrollo. Para obtener instrucciones, consulta Configurar autenticación para Text-to-Speech.
También puedes probar Text-to-Speech sin vincularlo a tu proyecto:
- Elige la opción PROBAR ESTA API.
- Para habilitar la API de Text-to-Speech para su uso con tu proyecto, haz clic en HABILITAR.
Consulta la Documentación de Google Cloud para obtener más ayuda.
Cómo Desactivar la API de Text to Speech
Para desactivar la API de Text-to-Speech, ve a tu panel de Google Cloud Platform y haz clic en el enlace "Ir a la vista general de las API" dentro del cuadro de API. Localiza la API de Text-to-Speech y luego haz clic en ella, seguido de seleccionar el botón "DESACTIVAR API" en la parte superior de la página.
Comienza con la API de Google Text to Speech
Ahora que tienes tu proyecto configurado, puedes usar la línea de comandos para comenzar.
gcloud init
Crea autenticación local
gcloud auth application-default login
Ahora puedes instalar una biblioteca cliente. En este ejemplo, veremos Node.js
npm install --save @google-cloud/text-to-speech
La API de Google Cloud Text to Speech Soporta Estos Idiomas:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
¿Cómo Funciona la API de Google Cloud?
Todo comienza con una simple llamada a la API. Envías tu texto en una llamada de transcripción y luego recibes un archivo de audio de tu texto hablado. Con tu solicitud, puedes hacer requisitos específicos. Elige una voz, un idioma y más, y luego la API de texto a voz te enviará de vuelta el archivo de audio.
Puedes aprender cómo instalar y usar las bibliotecas cliente de texto a voz aquí. Nuestros ejemplos de código serán para Node.js. Pero puedes elegir cualquier otro, desde Python hasta PHP. Lo que te resulte más cómodo.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);
Y eso es todo. Configuraste la API de Google Cloud Text to Speech y enviaste tu primera solicitud para convertir texto a voz. Puedes obtener el archivo de vuelta en varios formatos; desde OGG hasta MP3.
Aquí Hay Algunas Maneras de Usar la API de Google Text to Speech
La API de Google Text-to-Speech (TTS) ofrece una solución versátil para varios casos de uso en diferentes industrias. Algunos casos de uso comunes incluyen:
- Texto a Voz para Usuarios con Discapacidad Visual: Implementar TTS en aplicaciones para convertir contenido escrito en palabras habladas, haciendo la información digital accesible para usuarios con discapacidad visual.
- Sistemas Telefónicos Automatizados: Utilizar TTS para crear mensajes y respuestas con sonido natural para sistemas de respuesta de voz interactiva en atención al cliente o líneas de información.
- Locuciones para Contenido Multimedia: Generar locuciones con sonido natural para videos, podcasts u otro contenido multimedia para mejorar la experiencia del usuario.
- Texto a Voz para Contenido Traducido: Convertir texto traducido en palabras habladas para facilitar el aprendizaje de idiomas, la comunicación internacional o el consumo de contenido en varios idiomas.
- Asistencia de Lectura para Usuarios con Dislexia: Proporcionar funcionalidad TTS para ayudar a individuos con dislexia o dificultades de lectura a consumir contenido escrito.
- Navegación por Voz en Aplicaciones: Integrar TTS en aplicaciones de navegación para proporcionar direcciones paso a paso o información basada en la ubicación de manera audible.
- Texto a Voz para Contenido Educativo: Mejorar las experiencias de aprendizaje electrónico convirtiendo contenido educativo en texto a palabras habladas, ayudando a la comprensión y el compromiso.
- Síntesis de Voz para Aplicaciones de Productividad: Integrar TTS en herramientas de productividad, como aplicaciones de toma de notas o gestión de tareas, para habilitar retroalimentación hablada o recuperación de información.
- Voz Natural para Asistentes Virtuales: Potenciar asistentes de voz con TTS de sonido natural para mejorar las interacciones con el usuario y proporcionar información de manera conversacional.
- Alertas y Notificaciones Auditivas: Usar TTS para proporcionar alertas audibles, notificaciones o actualizaciones de estado en dispositivos del Internet de las Cosas (IoT) para mejorar la conciencia del usuario.
Mejores Alternativas a la API de Google Cloud TTS
Hasta mi última actualización de conocimiento en enero de 2022, hay varias alternativas a la API de Google Text-to-Speech. Ten en cuenta que la popularidad y las capacidades de estos servicios pueden haber cambiado desde entonces. Aquí hay algunas alternativas notables:
- API de Texto a Voz de Speechify: Estamos encantados de presentar el desarrollo de una API de texto a voz que ofrece las voces de IA más naturales y queridas de Speechify directamente a desarrolladores de todo el mundo. Reserva tu lugar hoy.
- Amazon Polly: Ofrecido por Amazon Web Services (AWS), Polly proporciona síntesis de voz natural en varios idiomas y voces. Se integra bien con otros servicios de AWS.
- Servicio de Voz de Microsoft Azure: El Servicio de Voz de Azure incluye capacidades de Texto a Voz y es compatible con una variedad de aplicaciones, incluyendo asistentes de voz, sistemas de navegación y más.
- IBM Watson Texto a Voz: IBM Watson ofrece un servicio de Texto a Voz que permite a los desarrolladores convertir texto escrito en voz natural utilizando varias voces.
- Nuance Communications: Nuance proporciona una gama de soluciones de reconocimiento de voz y habla, incluyendo texto a voz, para aplicaciones en salud, automotriz y servicio al cliente.
- CereProc: CereProc es una empresa de tecnología de texto a voz que ofrece voces sintéticas de alta calidad para aplicaciones como accesibilidad, entretenimiento y comunicación.
- iSpeech: iSpeech proporciona servicios de texto a voz basados en la nube con soporte para múltiples idiomas y voces. Es adecuado para diversas aplicaciones, incluidas aplicaciones móviles y sitios web.
- ResponsiveVoice: ResponsiveVoice es una API de texto a voz simple y asequible que admite múltiples idiomas y puede usarse en diversas aplicaciones basadas en la web.
- Neospeech: Neospeech ofrece soluciones de texto a voz con un enfoque en voces de sonido natural. Su tecnología se utiliza en aplicaciones como e-learning y entretenimiento.
- ReadSpeaker: ReadSpeaker proporciona soluciones de texto a voz en línea y fuera de línea para diversas aplicaciones, incluidos sitios web, e-learning y servicios de accesibilidad.
- Acapelabox: Acapela Group ofrece una API de texto a voz basada en la nube, Acapelabox, que admite múltiples idiomas y voces para aplicaciones en diversas industrias.
Preguntas Frecuentes sobre la API de Texto a Voz de Google
Google tiene varios niveles de voces y casi cada nivel tiene un límite gratuito. Por ejemplo, las voces estándar son gratuitas hasta el primer millón de bytes. Después de eso, cuesta $16 por millón de bytes. Así que sí, puede ser gratuita con caracteres o bytes limitados.
Simplemente crea una cuenta en https://cloud.google.com/text-to-speech/ y sigue los pasos allí. Además, he detallado el proceso en este blog, justo arriba.
Puedes obtener una clave de API de texto a voz de Google iniciando sesión en tu cuenta de Google Cloud y luego creando un proyecto. Una vez que crees tu proyecto, puedes generar una clave de API.
La URL de la API de texto a voz de Google es https://cloud.google.com/text-to-speech/
Técnicamente no hay un periodo de prueba gratuito para Google Cloud. Hay múltiples servicios dentro de Google Cloud y cada servicio tiene sus propios términos y niveles gratuitos.
No. La API de texto a voz de Google Cloud requiere una conexión a internet.
La autenticación para los servicios de Google Cloud, incluida la API de Texto a Voz, se puede realizar utilizando claves de API, OAuth 2.0 o cuentas de servicio. El método de autenticación adecuado depende del caso de uso y del tipo de aplicación.
Lo calificaría con 5 estrellas. Es fácil de usar, la función de búsqueda es excelente y es la más utilizada. Los precios son razonables y en general es un gran producto.
La API de Google Text-to-Speech ofrece bibliotecas de cliente para varios lenguajes de programación, incluyendo Python. También admite solicitudes API RESTful, lo que la hace compatible con lenguajes que pueden realizar solicitudes HTTP.
Integrar la API de Google Text-to-Speech en una aplicación Android implica usar la clase TextToSpeech y realizar solicitudes a la API. Las instrucciones detalladas se pueden encontrar en la documentación oficial para desarrolladores de Android.
Para implementar la API de Google Text-to-Speech en una aplicación JavaScript, puedes realizar solicitudes HTTP al punto de acceso de la API. El proceso implica construir la solicitud API adecuada y manejar la respuesta en tu código JavaScript. Consulta la documentación oficial para más detalles.
Cliff Weitzman
Cliff Weitzman es un defensor de la dislexia y el CEO y fundador de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas y ocupando el primer lugar en la categoría de Noticias y Revistas de la App Store. En 2017, Weitzman fue incluido en la lista de Forbes 30 menores de 30 por su trabajo haciendo que internet sea más accesible para personas con discapacidades de aprendizaje. Cliff Weitzman ha sido destacado en EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre otros medios líderes.