[go: up one dir, main page]

跳至
Text-to-Speech

Text-to-Speech AI

透過採用 Google AI 技術精華的 API,將文字轉換為自然流暢的語音。

新客戶最高可獲得 $300 美元的免費抵免額,開始使用 Text-to-Speech 和其他 Google Cloud 產品。

  • 以自然流暢的智慧型回應改善客戶互動

  • 在您的裝置和應用程式中提供語音使用者介面,方便使用者參與互動

  • 依據使用者偏好的語音和語言提供個人化的訊息

優點

高傳真語音

部署 Google 的創新技術,產生語調宛如真人的語音。以 DeepMind 的語音合成專業知識為基礎所打造的 API,可提供擬真的語音。

最豐富的語音選項

提供 380 多種語音選項,支援超過 75 種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可以挑選最適合使用者和應用程式的語音。

獨一無二的語音

創造獨特的語音,讓您在所有客戶接觸點上呈現自己的品牌特色,而不是與其他機構共用相同的語音。

示範

實際運用 Text-to-Speech

自由輸入內容、選取所需語言,然後按一下「Speak It」即可聆聽。

主要功能與特色

主要功能與特色

Gemini-TTS

無論是簡短片段或完整故事,都能合成單人或多人語音,同時保留情境脈絡。只要使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合),就能精準指定風格、口音、語速、語氣和情緒表達方式。如要瞭解詳情,請前往 Media Studio 或參閱說明文件

Chirp 3:HD 語音

打造互動性高的代理,運用以 AudioML 為基礎的最新自然對話語音提供服務。這些語音提供高品質音訊、低延遲串流,並呈現自然聽感,融合人類口語停頓、情感表現和精準語調。如要瞭解詳情,請前往 Media Studio 或參閱說明文件

Chirp 3:即時自訂語音

只要提供 10 秒的音訊,就能建立個人化語音模型。非常適合用於電玩遊戲、有聲書、Podcast 等,且支援的語言/地區組合超過 30 種。如要瞭解詳情,請前往 Media Studio 或參閱說明文件

提示詞、文字和 SSML 支援

您可以使用簡單的純文字指令碼、SSML 標記,甚至強大的自然語言提示詞 (視模型支援情況而定),控制數字和時間格式、呈現方式、發音和情緒。如要瞭解詳情,請前往 Media Studio 或參閱說明文件

說明文件

說明文件

Quickstart

Gemini-TTS

瞭解如何使用 Gemini-TTS 精準控制語音合成,透過自然語言提示詞指定風格、語氣、語速和情緒表達方式。

Quickstart

Chirp 3:HD 語音總覽

瞭解如何透過 Chirp 3:HD 語音合成逼真且能引發共鳴的語音,並運用進階控制項,根據指令碼最佳做法微調音訊。

Quickstart

Chirp 3:即時自訂語音總覽

只要使用短短 10 秒的錄音內容,就能為組織打造獨特的個人化語音模型,快速生成個人語音。

Tutorial

使用 SSML 來朗讀地址

瞭解如何使用語音合成標記語言 (SSML) 來朗讀地址文字檔案。

Google Cloud Basics

Text-to-Speech 基本知識

使用 Text-to-Speech API 的基本概念指南。
Google Cloud Basics

支援的語音和語言

瀏覽這項產品的指南和資源。

找不到所需資訊嗎?

使用案例

使用案例

用途
客服中心內的語音機器人

Dialogflow 的語音機器人可動態產生語音,而非播放預先錄製的靜態語音,能提供更優質的客戶服務語音體驗。以高品質的合成語音進行互動,讓來電者享有親切熟悉的個人化服務。

用途
在裝置中產生語音

將您的裝置當做文字閱讀器使用,讓裝置發出擬真語音,與使用者自然地溝通。搭配使用 Speech-to-TextNatural Language 來建立端對端語音使用者介面,以輕鬆而吸引人的互動來改善使用者體驗。

用途
無障礙電子節目表

輕鬆讓系統讀出電子節目表的文字內容,藉此為客戶提供更優質的使用者體驗,並讓您的服務和應用程式符合無障礙需求。試試電子節目表示範

輕鬆將文字轉語音功能導入電子節目表,為客戶提供更優質的使用者體驗,並讓服務和應用程式符合無障礙需求。

生成解決方案
您希望解決什麼問題?
What you'll get:
逐步指南
參考架構
可用的預先建構解決方案
這項服務以 Vertex AI 建構,必須年滿 18 歲才能使用。請勿輸入個人資訊,或是敏感、機密的內容。

所有功能與特色

所有功能與特色

串流音訊合成

透過串流音訊合成功能,協助 AI 代理提供超低延遲語音體驗,實現流暢而即時的對話互動。

長音訊合成功能

使用長音訊合成功能,以非同步的方式合成輸入內容,最高可達 100 萬位元組。

語音和語言選項

針對超過 75 種語言和方言提供 380 多種語音,而且即將推出更多選項。

文字與 SSML 支援
您可以使用語音合成標記語言 (SSML) 標記來自訂語音,例如加入停頓點、數字、日期與時間格式設定,以及其他發音指示。
音調微調
自訂所選語音的音調,最多可以比預設音調升高或降低 20 個半音。
誦讀速度微調
您可以將誦讀速度調整為比正常速度快或慢 4 倍。
音量增益控制

輸出音量最多能提高 16 db 或降低 96 db。

整合 REST 和 gRPC API

輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置,包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。

多種音訊格式
將文字轉換為 MP3、Linear16、OGG Opus 和其他多種音訊格式
音訊設定檔
可針對用來播放語音的喇叭類型進行最佳化處理,例如耳罩式耳機或電話聽筒。

定價

定價

系統每月計算 Text-to-Speech 的費用時,會按照傳送至這項服務進行音訊合成的字元數計費。WaveNet 語音每月前 100 萬個字元免費。如果是標準 (非 WaveNet) 語音,則每月前 400 萬個字元免費。免費方案的額度用完後,系統會依據 Text-to-Speech 處理的文字量向您收費 (計費單位為 100 萬個字元)。

如果使用美元以外的貨幣付費,系統將按照 Google Cloud SKU 頁面上列出的相應貨幣價格計費。

展開下一步行動

新客戶可獲得 $300 美元的免費抵免額,開始使用 Text-to-Speech 和其他 Google Cloud 產品。

Cloud Text-to-Speech