Все, что нужно знать о Google Cloud Text to Speech API
Ищете наш Читатель текста в речь?
Упоминается в
- Преобразование текста в речь
- API
- Google Cloud API
- Особенности Google Text to Speech API
- Сколько стоит API Google Text to Speech?
- В чем разница между символами и байтами
- Как настроить проект Google Cloud Platform Text to Speech API?
- Как отключить API Text to Speech
- Начните работу с API Google Text to Speech
- API Google Cloud Text to Speech поддерживает следующие языки:
- Как работает API Google Cloud?
- Несколько способов использования API Google Text to Speech
- Лучшие альтернативы API Google Cloud TTS
- Часто задаваемые вопросы о Google Text to Speech API
Генеративный ИИ и искусственный интеллект прошли долгий путь. Технология преобразования текста в речь — это относительно старая концепция, она существует уже некоторое время. Здесь есть о чем поговорить...
Генеративный ИИ и искусственный интеллект прошли долгий путь. Технология преобразования текста в речь — это относительно старая концепция, она существует уже некоторое время. Здесь есть о чем поговорить и что классифицировать, и я разберу это с разных сторон. Независимо от того, новичок вы или профессионал, это должно дать общее представление о Google Text to Speech API.
Прежде чем углубляться в любую тему, необходимо установить основные правила. Давайте определим несколько терминов и создадим основу, на которой мы сможем уверенно стоять.
Давайте разделим две технологии: преобразование текста в речь и API, и посмотрим, какую роль играет Google Cloud.
Примечание редактора: Ищете ведущий API для преобразования текста в речь? Ознакомьтесь с хорошо документированным и простым в использовании API для преобразования текста в речь от Speechify.
Преобразование текста в речь
Я много писал на эту тему, и вы можете прочитать мой блог о том, что такое преобразование текста в речь, а также ознакомиться с синтезом речи, чтобы получить полное представление об этой теме. Эти материалы более детализированы, и вы можете пропустить их на данный момент. Я кратко изложу их в нескольких предложениях.
Преобразование текста в речь опирается на технологию, называемую синтезом речи, для преобразования слов в речь, сгенерированную ИИ. Сферы применения этой технологии обширны. От помощи людям с трудностями в чтении, такими как дислексия и плохое зрение, до тех, кто просто стремится к эффективности.
API
API расшифровывается как интерфейс программирования приложений. Он просто действует как мост между двумя приложениями. Если вы разрабатываете приложение с аудиоконтентом и нуждаетесь в функции преобразования текста в речь, вам придется либо создать эту функцию самостоятельно, либо просто подключиться к существующему API для преобразования текста в речь.
Вы сосредоточитесь на создании своего приложения и будете полагаться на сторонний API как на мост, чтобы импортировать функцию преобразования текста в речь для синтеза вашего текста.
Google Cloud API
Здесь в игру вступает Google Cloud. Google разработал надежный API для преобразования текста в речь и предлагает его разработчикам в различных ценовых структурах. Любой разработчик, желающий создать пользовательские приложения или веб-приложения, требующие функции преобразования текста в речь, может просто использовать возможности TTS от Google. Да, TTS — это сокращение от преобразования текста в речь.
Найдите быстрый старт в Google Cloud Console https://cloud.google.com/. Вы можете найти учебные пособия, управлять своей учетной записью, получить доступ к голосам wavenet и многое другое.
Сам Google Cloud — это облачная платформа, предлагаемая Google, и она предлагает множество модульных услуг. Вы можете выбрать использование одной, нескольких или всех его услуг. Все, что вам нужно сделать, это создать ключи доступа для аутентификации каждого API — моста. Большинство, если не все, услуги имеют стоимость, хотя может быть бесплатный порог.
Google купил DeepMind в 2014 году за его технологию преобразования текста в речь и работу в области разработки нейронных сетей. Так что, если вы встретите DeepMind, теперь это Google DeepMind, и они все одно и то же.
Теперь, когда у нас есть четкое понимание, давайте углубимся в Google Cloud Text to Speech API.
Особенности Google Text to Speech API
Google — это глобальный технологический лидер, в этом нет сомнений. Когда дело доходит до TTS API, вы можете ожидать найти функции мирового класса, которые продолжают развиваться.
Высококачественная речь
Голоса Google для преобразования текста в речь — одни из лучших в отрасли. Они звучат очень по-человечески и с естественной интонацией. TTS находится на ранних стадиях, и те, кто сможет лучше всего синтезировать аудио, чтобы оно звучало как человеческая речь, выиграют в этой гонке.
Выбор голосов
Google заявляет о самом широком выборе голосов, чтобы ваш проект не звучал так же, как другие 1000 или, что еще хуже, приложение ваших конкурентов.
Создайте свой собственный голос
Это касается технологии клонирования голоса. Вы можете создать свой собственный голос, записав себя или кого-то другого с их разрешения. Затем вы можете использовать этот образец как голос, который будет озвучивать весь ваш текст.
Нейронные голоса
Нейронные голоса предлагают лучшее качество среди широкого выбора голосов. Вы также можете интернационализировать эти голоса, чтобы расширить свою международную аудиторию.
Студийные голоса
Студийные голоса — это более высококлассные голоса, которые звучат очень профессионально, как будто они были записаны традиционным методом.
Настройка голоса
Выберите голос, а затем отрегулируйте скорость, тон и другие параметры, чтобы настроить тембр или голос.
Сколько стоит API Google Text to Speech?
Все зависит от качества голоса и длины вашего текста. Чем более естественно вы хотите, чтобы звучал ваш голос, тем дороже это будет. Однако, здесь дорого — это относительное понятие. Даже голоса высокого качества относительно недороги.
Тип голоса | Бесплатно в месяц | После достижения бесплатного использования |
Neural2 голоса | 0 до 1 миллиона байт | $16 за один миллион байт |
Polyglot голоса | 0 до 1 миллиона байт | $16 за один миллион байт |
Студийные голоса | 0 до 100,000 байт | $160 за один миллион байт |
Стандартные голоса | 0 до 4 миллиона символов | $4 за один миллион символов |
Wavenet голоса | 0 до 1 миллиона символов | $16 за один миллион символов |
В чем разница между символами и байтами
Как вы можете видеть, стоимость значительно варьируется в зависимости от качества голоса. Кодирование и обработка аудио, необходимые для преобразования текста в речь, различаются от уровня к уровню. Для более низкого уровня, например, Стандартные голоса, стоимость ниже и рассчитывается по символам.
Это означает, что если в вашем проекте 4 миллиона символов, вам потребуется $16, чтобы преобразовать эти символы в речь, используя Стандартные символы.
С другой стороны, Студийные голоса требуют большей вычислительной мощности и рассчитываются по байтам. В некоторых языках, например, в японском, один символ может состоять из нескольких байт.
Поэтому для наиболее точного расчета важно знать, с каким языком вы работаете, и иметь базовое понимание среднего количества байт на символ, чтобы оценить это соответствующим образом.
Как настроить проект Google Cloud Platform Text to Speech API?
- Создайте аккаунт Google Cloud или войдите на этой странице
- Создайте новый проект и назовите его соответствующим образом
- Добавьте метод оплаты. Вы будете платить только за то, что используете.
- Затем выберите свой проект и свяжите его с платежным аккаунтом.
- Активируйте API Text-to-Speech. Перейдите в строку поиска продуктов и ресурсов, расположенную в верхней части страницы, и введите "speech".
- Из отображенных результатов выберите Cloud Text-to-Speech API
- Настройте аутентификацию для вашей среды разработки. Для инструкций смотрите Настройка аутентификации для Text-to-Speech.
Вы также можете попробовать Text-to-Speech без привязки к вашему проекту:
- Выберите опцию TRY THIS API.
- Чтобы включить API Text-to-Speech для использования с вашим проектом, нажмите ENABLE.
Посмотрите документацию Google Cloud для получения дополнительной помощи.
Как отключить API Text to Speech
Чтобы деактивировать API Text-to-Speech, перейдите на панель управления Google Cloud Platform и нажмите на ссылку "Перейти к обзору API" в блоке API. Найдите API Text-to-Speech и затем нажмите на него, после чего выберите кнопку "ОТКЛЮЧИТЬ API" в верхней части страницы.
Начните работу с API Google Text to Speech
Теперь, когда ваш проект настроен, вы можете использовать командную строку, чтобы начать работу.
gcloud init
Создайте локальную аутентификацию
gcloud auth application-default login
Теперь вы можете установить клиентскую библиотеку. В этом примере мы рассмотрим Node.js
npm install --save @google-cloud/text-to-speech
API Google Cloud Text to Speech поддерживает следующие языки:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Как работает API Google Cloud?
Все начинается с простого вызова API. Вы отправляете текст в запросе транскрипции и получаете аудиофайл с озвученным текстом. В вашем запросе вы можете указать конкретные требования: выбрать голос, язык и другие параметры, после чего API преобразования текста в речь отправит вам аудиофайл.
Вы можете узнать, как установить и использовать клиентские библиотеки для преобразования текста в речь здесь. Наши примеры кода будут для Node.js, но вы можете выбрать любой другой язык, от Python до PHP, в зависимости от ваших предпочтений.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);
И вот и все. Вы настроили API Google Cloud Text to Speech и отправили свой первый запрос на преобразование текста в речь. Вы можете получить файл в различных форматах, от OGG до MP3.
Несколько способов использования API Google Text to Speech
API Google Text-to-Speech (TTS) предлагает универсальное решение для различных случаев использования в разных отраслях. Некоторые из распространенных случаев использования включают:
- Преобразование текста в речь для пользователей с нарушением зрения: Реализация TTS в приложениях для преобразования письменного контента в устную речь, делая цифровую информацию доступной для пользователей с нарушением зрения.
- Автоматизированные телефонные системы: Использование TTS для создания естественно звучащих подсказок и ответов для интерактивных голосовых систем в службах поддержки клиентов или информационных линиях.
- Озвучка для медиа-контента: Генерация естественно звучащих озвучек для видео, подкастов или другого мультимедийного контента для улучшения пользовательского опыта.
- Преобразование текста в речь для переведенного контента: Преобразование переведенного текста в устную речь для облегчения изучения языков, международного общения или потребления контента на различных языках.
- Помощь в чтении для пользователей с дислексией: Предоставление функциональности TTS для помощи людям с дислексией или трудностями в чтении в потреблении письменного контента.
- Голосовая навигация в приложениях: Интеграция TTS в навигационные приложения для предоставления голосовых указаний или информации на основе местоположения.
- Преобразование текста в речь для образовательного контента: Улучшение опыта электронного обучения путем преобразования образовательного текстового контента в устную речь, что способствует пониманию и вовлеченности.
- Синтез речи для приложений повышения производительности: Интеграция TTS в инструменты повышения производительности, такие как приложения для заметок или управления задачами, для предоставления голосовой обратной связи или получения информации.
- Естественный голос для виртуальных помощников: Обеспечение голосовых помощников естественно звучащим TTS для улучшения взаимодействия с пользователями и предоставления информации в разговорной форме.
- Звуковые оповещения и уведомления: Использование TTS для предоставления звуковых оповещений, уведомлений или обновлений статуса на устройствах Интернета вещей (IoT) для повышения осведомленности пользователей.
Лучшие альтернативы API Google Cloud TTS
По состоянию на последнее обновление моих знаний в январе 2022 года, существует несколько альтернатив API Google Text-to-Speech. Имейте в виду, что популярность и возможности этих сервисов могли измениться с тех пор. Вот некоторые из заметных альтернатив:
- Speechify Text to Speech API: Мы рады представить разработку API для преобразования текста в речь, который предоставляет самые естественные и любимые голоса AI от Speechify напрямую разработчикам по всему миру. Забронируйте место сегодня.
- Amazon Polly: Предлагаемый Amazon Web Services (AWS), Polly обеспечивает синтез речи, звучащий естественно, на различных языках и голосах. Он хорошо интегрируется с другими сервисами AWS.
- Microsoft Azure Speech Service: Azure Speech Service включает возможности преобразования текста в речь и поддерживает различные приложения, включая голосовых помощников, навигационные системы и многое другое.
- IBM Watson Text to Speech: IBM Watson предлагает сервис преобразования текста в речь, который позволяет разработчикам преобразовывать письменный текст в естественно звучащую речь, используя различные голоса.
- Nuance Communications: Nuance предоставляет ряд решений для распознавания речи и голоса, включая преобразование текста в речь, для приложений в здравоохранении, автомобильной промышленности и обслуживании клиентов.
- CereProc: CereProc — это компания, занимающаяся технологиями преобразования текста в речь, предлагающая высококачественные синтетические голоса для таких приложений, как доступность, развлечения и коммуникация.
- iSpeech: iSpeech предоставляет облачные услуги преобразования текста в речь с поддержкой множества языков и голосов. Подходит для различных приложений, включая мобильные приложения и веб-сайты.
- ResponsiveVoice: ResponsiveVoice — это простой и доступный API для преобразования текста в речь, поддерживающий множество языков и подходящий для различных веб-приложений.
- Neospeech: Neospeech предлагает решения для преобразования текста в речь с акцентом на естественно звучащие голоса. Их технологии используются в таких приложениях, как электронное обучение и развлечения.
- ReadSpeaker: ReadSpeaker предоставляет онлайн и офлайн решения для преобразования текста в речь для различных приложений, включая веб-сайты, электронное обучение и услуги доступности.
- Acapelabox: Acapela Group предлагает облачный API для преобразования текста в речь, Acapelabox, который поддерживает множество языков и голосов для приложений в различных отраслях.
Часто задаваемые вопросы о Google Text to Speech API
У Google есть несколько уровней голосов, и почти каждый уровень имеет бесплатный лимит. Например, стандартные голоса бесплатны до первого миллиона байт. После этого стоимость составляет $16 за миллион байт. Так что да, это может быть бесплатно с ограничением по символам или байтам.
Просто создайте аккаунт на https://cloud.google.com/text-to-speech/ и следуйте инструкциям там. Также я подробно описал процесс в этом блоге, чуть выше.
Вы можете получить ключ API для Google Text-to-Speech, войдя в свой аккаунт Google Cloud и создав проект. После создания проекта вы сможете сгенерировать ключ API.
URL для Google Text to Speech API: https://cloud.google.com/text-to-speech/
Технически, бесплатного пробного периода для Google Cloud нет. В Google Cloud есть множество сервисов, и каждый из них имеет свои условия и бесплатные уровни.
Нет. API Google Cloud Text-to-Speech требует подключения к интернету.
Аутентификация для сервисов Google Cloud, включая Text-to-Speech API, может осуществляться с помощью ключей API, OAuth 2.0 или сервисных аккаунтов. Подходящий метод аутентификации зависит от случая использования и типа приложения.
Я бы оценил его на 5 звезд. Это легко в использовании, функция поиска отличная и используется чаще всего. Цены приемлемые, и в целом это отличный продукт.
Google Text-to-Speech API предоставляет клиентские библиотеки для различных языков программирования, включая Python. Он также поддерживает RESTful API запросы, что делает его совместимым с языками, которые могут выполнять HTTP-запросы.
Интеграция Google Text-to-Speech API в Android-приложение включает использование класса TextToSpeech и выполнение API-запросов. Подробные инструкции можно найти в официальной документации для разработчиков Android.
Чтобы реализовать Google Text-to-Speech API в JavaScript-приложении, вы можете выполнять HTTP-запросы к конечной точке API. Процесс включает в себя создание соответствующего API-запроса и обработку ответа в вашем JavaScript-коде. Обратитесь к официальной документации для получения подробностей.
Клифф Вайцман
Клифф Вайцман — защитник прав людей с дислексией, генеральный директор и основатель Speechify, ведущего в мире приложения для преобразования текста в речь, с более чем 100 000 отзывов на 5 звезд и первым местом в App Store в категории «Новости и журналы». В 2017 году Вайцман был включен в список Forbes «30 до 30» за его вклад в повышение доступности интернета для людей с нарушениями обучения. Клифф Вайцман был упомянут в таких изданиях, как EdSurge, Inc., PC Mag, Entrepreneur, Mashable и других ведущих СМИ.