Google Cloud 語音合成 API 的全面指南

我們很高興地宣布開發一個文字轉語音的API，將Speechify最自然且受歡迎的AI語音直接提供給全球的開發者。

免費試用 Contact Sales

尋找我們的文字轉語音閱讀器？

媒體報導

使用Speechify收聽這篇文章！

生成式 AI 和人工智慧已經取得了長足的進步。語音合成是一個相對較早的概念，已經存在一段時間。這裡有很多內容需要解讀和分類，我將從各個角度進行分析。無論您是初學者還是專家，這都應該能夠為您帶來對 Google 語音合成 API 的全面了解。

在深入探討任何主題之前，我們必須先建立基本規則。讓我們定義一些術語，並建立我們的基礎，以便能夠穩固地進行後續討論。

讓我們在這裡區分兩種技術：語音合成和 API，以及 Google Cloud 的角色。

編輯註：尋找領先的語音合成 API 嗎？查看 Speechify 的文檔齊全且易於使用的語音合成 API。

語音合成

我已經廣泛撰寫了這個主題，您可以閱讀我的什麼是語音合成博客，還可以閱讀語音合成的終極指南以深入了解這個主題。這些內容更為深入，您可以暫時跳過。我將在幾句話中總結它們。

語音合成依賴於一種稱為語音合成技術的技術，將文字轉換為 AI 生成的語音。這項技術的應用範圍非常廣泛，從幫助有閱讀障礙的人，如閱讀障礙和視力不佳，到提高效率的使用者。

API

API 代表應用程式介面。它簡單地充當兩個應用程式之間的橋樑。如果您正在開發一個具有音頻內容並需要語音合成功能的應用程式，那麼您需要自己構建語音合成功能，或者您可以簡單地連接到現有的語音合成 API。

您可以專注於構建您的應用程式，並依賴第三方 API 作為橋樑，將語音合成功能導入以合成您的文本。

Google Cloud API

這就是 Google Cloud 發揮作用的地方。Google 開發了一個強大的語音合成 API，並以各種費用結構提供給開發者。任何希望構建需要語音合成功能的自定義應用程式或網頁應用程式的開發者都可以通過使用 Google 的 TTS 功能來填補這一空白。是的，TTS 是語音合成的縮寫。

在 Google Cloud 控制台找到快速入門 https://cloud.google.com/。您可以找到教程、管理您的服務帳戶、訪問 wavenet 聲音等。

Google Cloud 本身是 Google 提供的雲平台，提供一系列模組化服務。您可以選擇使用其中一項、多項或所有服務。您只需為每個 API 創建訪問密鑰以進行身份驗證——這就是橋樑。大多數服務（如果不是全部）都需要付費，儘管可能有免費的使用門檻。

Google 在 2014 年收購了 DeepMind 以獲得其語音合成技術和神經網絡開發工作。因此，如果您遇到 DeepMind，現在它是 Google DeepMind，它們是一體的。

現在我們已經有了堅實的理解，讓我們深入探討 Google Cloud 語音合成 API。

Google 語音合成 API 功能

Google 是全球科技的先驅和領導者，這是毋庸置疑的。當談到 TTS API 時，您可以期待找到世界級的功能，這些功能不斷演變。

高保真語音

Google 的語音合成聲音是業界最好的之一。它們聽起來非常像人類，具有自然的語調。TTS 處於其最早期階段，能夠最好地合成音頻以聽起來像人類在說話的技術將在這場競賽中勝出。

多樣化的聲音選擇

Google 擁有最廣泛的聲音選擇，因此您的項目不必聽起來與其他 1000 個項目相同，或者更糟糕的是，與競爭對手的應用程式相同。

創建您自己的聲音

這涉及到聲音克隆技術。您可以通過錄製您或其他人的聲音（經過他們的許可）來創建自定義聲音。然後，您可以使用此樣本作為朗讀所有文本的聲音。

神經語音

神經語音在眾多語音選擇中提供最佳品質。您還可以將這些語音國際化，以擴展您的國際受眾。

錄音室語音

錄音室語音屬於高端語音，聽起來非常專業，彷彿是傳統方法錄製的。

語音調整

選擇一種語音，然後調整速度、音調等，以便您可以自定義語音的音色。

Google 文字轉語音 API 的費用是多少？

這取決於語音質量和文本長度。您希望語音聽起來越自然，費用就會越高。不過，這裡的昂貴是相對的。即使是高質量的語音也相對便宜。

語音類型	每月免費	超過免費使用量後
Neural2 語音	0 到 100 萬字節	每百萬字節 $16
Polyglot 語音	0 到 100 萬字節	每百萬字節 $16
錄音室語音	0 到 10 萬字節	每百萬字節 $160
標準語音	0 到 400 萬字符	每百萬字符 $4
Wavenet 語音	0 到 100 萬字符	每百萬字符 $16

字符與字節的區別是什麼

如您所見，價格根據語音質量有顯著差異。將文本轉換為語音所需的音頻編碼和處理在不同層級之間有所不同。以較低的標準語音為例，價格較低，按字符計算。

這意味著，如果您的項目有 400 萬字符，使用標準字符轉換為語音將花費 $16。

另一方面，錄音室語音需要更高的處理能力，按字節計費。在某些語言中，例如日語，一個字符可能由多個字節組成。

因此，為了獲得最準確的定價，了解您所使用的語言以及每個字符的平均字節數是很重要的，並據此進行估算。

如何設置您的 Google Cloud Platform 文字轉語音 API 項目？

創建 Google Cloud 帳戶或在此頁面登錄
創建一個新項目並適當命名
添加付款方式。您只需為使用的部分付費。
然後選擇您的項目並將其與付款帳戶關聯。
啟用文字轉語音 API。前往頁面頂部的搜索產品和資源欄，輸入 "speech"。
從顯示的結果中選擇 Cloud 文字轉語音 API
為您的開發環境設置身份驗證。請參閱文字轉語音的身份驗證設置說明。

您也可以在不將其鏈接到項目的情況下嘗試文字轉語音：

選擇 "TRY THIS API" 選項。
要啟用文字轉語音 API 以供項目使用，請點擊 "ENABLE"。

查看 Google Cloud 文檔以獲得更多幫助。

如何停用文字轉語音 API

要停用文字轉語音 API，請前往您的 Google Cloud Platform 儀表板，然後在 API 框中點擊 "Go to APIs overview" 連結。找到文字轉語音 API，然後點擊它，接著選擇頁面頂部的 "DISABLE API" 按鈕。

開始使用 Google 文字轉語音 API

現在您已設置好項目，可以使用命令行開始。

gcloud init

創建本地身份驗證

gcloud auth application-default login

現在您可以安裝客戶端庫。在此示例中，我們將查看 Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud 文字轉語音 API 支持以下語言：

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Google Cloud API 如何運作？

一切從一個簡單的 API 呼叫開始。您將文本發送到轉錄呼叫中，然後您會收到一個語音文件。您可以在請求中提出具體要求。選擇一個聲音、一種語言等，然後文本轉語音 API 會將語音文件發送回給您。

您可以在這裡學習如何安裝和使用文本轉語音客戶端庫。我們的代碼範例將是 Node.js。但您可以選擇其他任何語言，從 Python 到 PHP，隨您喜好。

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

就是這樣。您已設置 Google Cloud 文本轉語音 API 並發送了第一次請求以將文本轉換為語音。您可以以多種格式獲取文件；從 OGG 到 MP3。

Google 文本轉語音 API 的幾種使用方式

Google 文本轉語音 (TTS) API 提供了一個多功能的解決方案，適用於不同行業的各種使用案例。一些常見的使用案例包括：

為視障用戶提供文本轉語音： 在應用程序中實施 TTS，將書面內容轉換為口語，使數字信息對視障用戶可訪問。
自動電話系統： 利用 TTS 為客戶服務或信息熱線中的互動語音應答系統創建自然的提示和回應。
媒體內容的配音： 為視頻、播客或其他多媒體內容生成自然的配音，以提升用戶體驗。
翻譯內容的文本轉語音： 將翻譯文本轉換為口語，以促進語言學習、國際交流或多語言內容消費。
為閱讀障礙用戶提供閱讀輔助： 提供 TTS 功能，幫助有閱讀障礙或閱讀困難的個人消化書面內容。
應用程序中的語音導航： 將 TTS 集成到導航應用程序中，以提供語音導航或基於位置的信息。
教育內容的文本轉語音： 通過將教育文本內容轉換為口語來增強電子學習體驗，幫助理解和參與。
生產力應用的語音合成： 將 TTS 集成到生產力工具中，如筆記或任務管理應用，以啟用語音反饋或信息檢索。
虛擬助手的自然語音： 為語音助手提供自然的 TTS，以改善用戶互動並以對話方式提供信息。
聽覺警報和通知： 使用 TTS 提供可聽的警報、通知或物聯網設備的狀態更新，以增強用戶意識。

Google Cloud TTS API 的最佳替代方案

截至我在 2022 年 1 月的最新知識更新，有幾個 Google 文本轉語音 API 的替代方案。請注意，這些服務的受歡迎程度和功能可能已經發生變化。以下是一些值得注意的替代方案：

Speechify 文字轉語音 API：我們很高興推出一個文字轉語音 API，將 Speechify 最自然且受歡迎的 AI 聲音直接提供給全球的開發者。立即預訂。
Amazon Polly：由 Amazon Web Services (AWS) 提供，Polly 提供多種語言和聲音的自然語音合成，並能與其他 AWS 服務良好整合。
Microsoft Azure 語音服務：Azure 語音服務包括文字轉語音功能，支持多種應用，包括語音助手、導航系統等。
IBM Watson 文字轉語音：IBM Watson 提供文字轉語音服務，允許開發者使用多種聲音將書面文字轉換為自然語音。
Nuance Communications：Nuance 提供一系列語音和語音識別解決方案，包括文字轉語音，適用於醫療、汽車和客戶服務等應用。
CereProc：CereProc 是一家文字轉語音技術公司，提供高品質的合成聲音，適用於無障礙、娛樂和通信等應用。
iSpeech：iSpeech 提供基於雲的文字轉語音服務，支持多種語言和聲音，適用於各種應用，包括移動應用和網站。
ResponsiveVoice：ResponsiveVoice 是一個簡單且經濟實惠的文字轉語音 API，支持多種語言，可用於各種基於網絡的應用。
Neospeech：Neospeech 提供文字轉語音解決方案，專注於自然聲音，其技術應用於電子學習和娛樂等領域。
ReadSpeaker：ReadSpeaker 提供在線和離線的文字轉語音解決方案，適用於網站、電子學習和無障礙服務等多種應用。
Acapelabox：Acapela Group 提供基於雲的文字轉語音 API，Acapelabox，支持多種語言和聲音，適用於各行業的應用。

Google 文字轉語音 API 常見問題

Google 確實有多個聲音層級，幾乎每個層級都有免費限制。例如，標準聲音在前一百萬字節是免費的，之後每百萬字節收費 16 美元。因此，是的，它可以在有限的字符或字節內免費使用。

只需在 https://cloud.google.com/text-to-speech/ 創建一個帳戶，然後按照那裡的步驟操作。此外，我在上面的博客中詳細說明了這個過程。

您可以通過登錄您的 Google Cloud 帳戶並創建一個項目來獲取 Google 文字轉語音 API 金鑰。一旦創建項目，您就可以生成 API 金鑰。

Google 文字轉語音 API 的網址是 https://cloud.google.com/text-to-speech/

技術上來說，Google Cloud 沒有免費試用期。Google Cloud 內有多個服務，每個服務都有自己的條款和免費層級。

不可以。Google Cloud 文字轉語音 API 需要網絡連接。

Google Cloud 服務的身份驗證，包括文字轉語音 API，可以使用 API 金鑰、OAuth 2.0 或服務帳戶。適當的身份驗證方法取決於使用案例和應用類型。

我會給它 5 星。它易於使用，搜索功能很棒且使用頻率最高。定價合理，總體來說是一個很好的產品。

Google 文字轉語音 API 提供多種程式語言的客戶端庫，包括 Python。它也支援 RESTful API 請求，使其與能夠發送 HTTP 請求的語言相容。

將 Google 文字轉語音 API 整合到 Android 應用程式中需要使用 TextToSpeech 類別並進行 API 請求。詳細的操作說明可以在 Android 開發者的官方文件中找到。

要在 JavaScript 應用程式中實現 Google 文字轉語音 API，可以向 API 端點發送 HTTP 請求。這個過程涉及構建適當的 API 請求並在 JavaScript 代碼中處理回應。詳情請參考官方文件。

如何按順序閱讀《火翼》系列書籍

推出 iOS 版 Speechify 4.0

Cliff Weitzman

Cliff Weitzman 是一位閱讀障礙倡導者，也是全球排名第一的文字轉語音應用程式 Speechify 的創辦人兼執行長，該應用程式擁有超過 100,000 則五星評價，並在 App Store 的新聞與雜誌類別中名列第一。2017 年，Weitzman 因其在提升學習障礙者網路可及性方面的貢獻，被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。

作者：Cliff Weitzman

閱讀障礙與無障礙倡導者，Speechify 的創辦人兼執行長

發表於API，日期：2024年2月1日