试用 Gemini 2.5，这是我们的最新模型，延迟时间短，性能更强。

Text-to-Speech

Text-to-Speech AI

使用由 Google 的精华 AI 技术提供支持的 API，将文字转换为自然而逼真的语音。

新客户可获得最高 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

通过自然逼真的智能回复改善客户互动
让用户与您的设备和应用中的语音界面进行互动
根据用户首选的语音和语言对沟通方式进行个性化设置

了解如何使用 Text-to-Speech API 创建合成语音

开始自学实验

优势

高保真度语音

部署 Google 的突破性技术，生成宛如真人发声的语音。该 API 基于 DeepMind 的语音合成专业技术打造而成，可提供接近真人音质的语音。

最广泛的语音选择

您可以从涵盖超过 75 种语言和语言变体的 380 多种语音中进行选择，包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。

独特的语音

打造一种独特的语音来在所有客户接触点代表您的品牌，而不是与其他组织使用相同的语音。

演示

实际试用 Text-to-Speech

输入所需内容，选择一种语言，然后点击“Speak It”即可听到相应语音。

主要特性

Gemini-TTS

无论是简短片段还是长篇叙述，我们的技术都能合成单人或多人语音，并保持上下文的连贯性。您可以通过简单的自然语言提示，精准设定语音的风格、口音、语速、语调和情感表达，所有这些元素均可灵活调控。我们支持超过 75 个语言区域。如需了解详情，请前往 Media Studio 或查看我们的文档。

Chirp 3：高清语音

使用基于 AudioML 的最新自发式对话语音构建富有吸引力的客服。这些语音具有以下优势：高品质的音频、低延迟流式传输和自然流畅的说话方式；同时融合了人类说话不连贯的特点、情感范围并具有准确的语调。如需了解详情，请前往 Media Studio 或查看我们的文档。

Chirp 3：即时自定义语音

只需 10 秒钟的音频输入，即可创建个性化语音模型。非常适合电子游戏、有声读物、播客等。支持 30 多个语言区域。如需了解详情，请前往 Media Studio 或查看我们的文档。

提示、文本和 SSML 支持

根据模型支持情况，使用简单的纯文本脚本、SSML 标记，甚至强大的自然语言提示，控制数字和时间格式、传送、发音和情绪。如需了解详情，请前往 Media Studio 或查看我们的文档。

Gemini-TTS

了解如何使用 Gemini-TTS 通过自然语言提示来精确控制语音合成，指定风格、语气、节奏和情感表达。

Quickstart

Chirp 3：高清语音概览

了解如何使用 Chirp 3：高清语音来合成逼真、富有感染力的语音，以及如何使用高级控制和脚本编写最佳实践来微调音频。

Quickstart

Chirp 3：即时自定义语音概览

只需 10 秒钟的录音，即可为组织创建个性化且独特的语音模型。该功能可以快速生成个人语音。

Tutorial

使用 SSML 读出地址

了解如何使用语音合成标记语言 (SSML) 读出包含地址的文本文件。

Google Cloud Basics

Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

Google Cloud Basics

支持的语音和语言

浏览此产品的指南和资源。

没有看到您需要的内容？

版本说明

了解 Text-to-Speech 的最新版本

使用场景

联络中心内的语音聊天机器人

基于 Dialogflow 的语音聊天机器人可动态生成语音，而非播放预先录制的静态音频，从而帮助您提供更好的客服语音体验。用更加亲切和个性化的高品质合成语音与来电者互动。

使用场景

在设备中生成语音

让您的设备作为文字阅读器发出类似真人的语音，为用户带来自然而逼真的交流体验。结合 Speech-to-Text 和 Natural Language 打造端到端语音界面，并通过轻松且富有吸引力的互动提升用户体验。

使用场景

无障碍 EPG（电子节目单）

轻松让设备读出 EPG 的文字内容，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。试用 EPG 演示版。

在 EPG 中轻松实现文字转语音功能，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。

生成解决方案

您想解决什么问题？

What you'll get:

分步指南

参考架构

可用的预构建解决方案

此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

所有特性

流式音频合成	利用超低延迟语音为 AI 智能体提供支持，通过流式音频合成实现无缝实时对话。
长音频合成	使用长音频合成异步合成最多 100 万字节的输入。
语音和语言选择	从涵盖超过 75 种语言和语言变体的 380 多种丰富语音中进行选择；近期还将推出更多语音。
文本和 SSML 支持	使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，实现语音自定义。
音高调节	对所选语音的音高进行个性化设置，最多可比默认输出升高或降低 20 个半音。
讲话速度调整	调整您的语音讲话速度，最多可加快至正常语速的 4 倍，或减慢至四分之一。
音量增益控制	将输出音量最高调至 16 db 或最低调至 -96 db。
集成式 REST API 和 gRPC API	轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备，包括手机、PC、平板电脑和物联网设备（例如汽车、电视机、音响设备）。
音频格式灵活性	将文字转换为 MP3、Linear16、OGG Opus 和一些其他的音频格式。
音频配置文件	根据播放语音的音响设备类型（如耳机或电话线路）进行优化。

价格

Text-to-Speech 的价格取决于每月发送给服务并合成为音频的字符数量。对于 WaveNet 语音，每月前 100 万字符免费。对于标准（非 WaveNet）语音，每月前 400 万字符免费。免费层级配额用尽后，系统会以处理 100 万个文本字符为单位收取 Speech-to-Text 的文本转换费用。

如果您使用非美元货币付费，请参阅 Google Cloud SKU 上以您的币种列出的价格。

更进一步

新客户可获享 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

不知从何入手，需要一点帮助？
联系业务代表
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

Text-to-Speech AI

高保真度语音

最广泛的语音选择

独特的语音

实际试用 Text-to-Speech

主要特性

Gemini-TTS

Chirp 3：高清语音

Chirp 3：即时自定义语音

提示、文本和 SSML 支持

最新资讯

文档

Gemini-TTS

Chirp 3：高清语音概览

Chirp 3：即时自定义语音概览

使用 SSML 读出地址

Text-to-Speech 基础知识

支持的语音和语言

没有看到您需要的内容？

浏览更多文档

使用场景

联络中心内的语音聊天机器人

在设备中生成语音

无障碍 EPG（电子节目单）

所有特性

价格

更进一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览