踏入開源語音合成器的世界：全面評測

Speechify 是全球第一的音頻閱讀器。讓您更快地閱讀書籍、文件、文章、PDF、電子郵件——任何您需要閱讀的內容。

免費試用

媒體報導

在高品質的開源語音合成工具中，有多款軟件脫穎而出：

使用Speechify收聽這篇文章！

語音合成，又稱為文字轉語音（TTS）合成，是一種將書面文字轉換為口語的技術。這項技術有多種應用...

語音合成，又稱為文字轉語音（TTS）合成，是一種將書面文字轉換為口語的技術。這項技術有多種應用，包括幫助殘障人士、語言學習、GPS導航等。隨著開源技術的興起，眾多文字轉語音合成工具應運而生。本文將深入探討開源語音合成器的世界。

首先，必須注意並非所有語音合成工具都是開源的。例如，Google Text-to-Speech（TTS）提供強大的API給開發者，但並非開源。同樣地，以提供逼真聲音著稱的Amazon Polly也不是開源的。

另一方面，Coqui AI是一個高品質的TTS工具包，是一個在GitHub上可用的開源項目。它源自Mozilla的TTS項目，提供強大的命令行界面進行語音合成。Coqui AI確實有其「聲音」——它使用Tacotron2進行語音生成，專注於使用深度學習方法創建新聲音。

微軟語音平台，包括其文字轉語音功能，也不是開源的。然而，Speech API（SAPI5）提供給Windows平台的開發者使用。

好消息是，開源領域並不缺乏語音識別工具。CMU Sphinx就是一個很好的例子，這是一組由卡內基梅隆大學開發的語音識別系統。

在高品質的開源語音合成工具中，有多款軟件脫穎而出：

eSpeak： 一款緊湊的開源軟件語音合成器，支持英語及其他語言。可在Windows、Linux上運行，適合非常小型的機器人應用。
Mycroft： 一個開源語音助手，使用機器學習提供文字轉語音和語音識別功能。
MaryTTS： 一個靈活的多語言開源文字轉語音合成平台，使用Java編寫。
Mozilla TTS： 一個基於深度學習的文字轉語音引擎，是Common Voice項目的一部分，旨在創建一個用於訓練語音應用的數據集。
Festival語音合成系統： 由英國語音技術研究中心開發，提供構建語音合成系統的通用框架，並包含多種聲音。
Flite（Festival-lite）： 一個基於Festival的輕量級語音合成引擎，適合嵌入式系統和高容量語音服務器。
HTS： HMM-Based語音合成系統（HTS）是一個從文本訓練和合成語音的系統，以其高品質的合成能力廣泛使用。
Docker： 雖然Docker不是文字轉語音工具，但值得注意的是，許多TTS工具如Coqui可以在Docker中使用，使其在不同平台間可移植。

每個工具都有其優缺點。開源語音合成器為開發者和最終用戶提供了一個免費、可定制和社群支持的平台。它們通常附帶預訓練模型，允許開發者利用機器學習和深度學習技術。然而，這些工具可能需要技術知識來設置和使用。此外，某些工具可能缺乏商業工具的質量、一致性或語言支持。

隨著開源技術持續顛覆科技世界，語音合成器和TTS系統將不斷演進。它們為實時應用和未來機器學習、深度學習及AI在語音識別和語音合成系統中的發展提供了巨大潛力。

如何按順序閱讀《火翼》系列書籍

推出 iOS 版 Speechify 4.0

Cliff Weitzman

Cliff Weitzman 是一位閱讀障礙倡導者，也是全球排名第一的文字轉語音應用程式 Speechify 的創辦人兼執行長，該應用程式擁有超過 100,000 則五星評價，並在 App Store 的新聞與雜誌類別中名列第一。2017 年，Weitzman 因其在提升學習障礙者網路可及性方面的貢獻，被列入福布斯 30 歲以下 30 人榜單。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒體報導。

作者：Cliff Weitzman

閱讀障礙與無障礙倡導者，Speechify 的創辦人兼執行長

發表於生產力，日期：2023年5月3日