[go: up one dir, main page]

移動
Text-to-Speech

Text-to-Speech AI

Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトをお試しいただける無料クレジットを最大 $300 分差し上げます。

  • 自然でスマートな応答で顧客対応を改善

  • デバイスやアプリケーションの音声ユーザー インターフェースでユーザーを引き付ける

  • ユーザーが選ぶ音声と言語に基づいてコミュニケーションをパーソナライズ

利点

忠実度の高い音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、人間にかなり近い音声を実現します。

豊富な音声の種類

中国語(北京語)、ヒンディー語、スペイン語、アラビア語、ロシア語など、75 以上の言語と言語変種、380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他の企業も使用している一般的な音声の代わりに、貴社のブランドを代表するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみましょう

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

主な機能

Gemini-TTS

短いスニペットから長編のナレーションまで、単一または複数の話者の音声を合成し、文脈を維持します。スタイル、アクセント、速度、トーン、感情表現を詳細に指定できます。75 以上の言語 / 地域で自然言語の簡単なプロンプトですべて制御可能です。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

Chirp 3: HD 音声

AudioML に基づく最新の自然な会話音声を使用して、魅力的なエージェントを構築します。これらの音声は、高品質なオーディオ、低レイテンシのストリーミング、人間の非流暢性やさまざまな感情表現、正確なイントネーションを再現した自然な発話を提供します。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

Chirp 3: インスタント カスタム音声

わずか 10 秒の音声入力から、パーソナライズされた音声モデルを作成できます。ビデオゲーム、オーディオブック、ポッドキャストなどに最適です。30 以上の言語 / 地域で利用可能。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

プロンプト、テキスト、SSML のサポート

モデルのサポートに応じ、シンプルな平文スクリプト、SSML タグ、または強力な自然言語プロンプトを使用して、数値と時間の形式、話し方、発音、感情を制御できます。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

ドキュメント

ドキュメント

Quickstart

Gemini-TTS

自然言語プロンプトを使用してスタイル、トーン、速度、感情表現を指定し、Gemini-TTS で音声合成を詳細に制御する方法を学びます。

Quickstart

Chirp 3: HD 音声の概要

Chirp 3: HD 音声を使用して、リアルで感情に訴える音声を合成する方法と、高度な管理機能を使い、スクリプトのベスト プラクティスに沿って音声を微調整する方法を学びます。

Quickstart

Chirp 3: インスタント カスタム音声の概要

わずか 10 秒の音声録音を使用して、パーソナライズされた独自の音声モデルを組織向けに作成できます。個人の声を迅速に生成することが可能です。

Tutorial

SSML で住所を読み上げる

音声合成マークアップ言語(SSML)を使用して、いくつかの住所を含むテキスト ファイルを読み上げる方法を学びます。

Google Cloud Basics

Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。
Google Cloud Basics

サポートされている音声と言語

このプロダクトに関するガイドとリソースをご覧ください。

お探しのものが見つからない場合

ユースケース

ユースケース

使用例
コンタクト センターにおける音声 bot

あらかじめ録音された固定的な音声を再生するのではなく、動的に音声を生成する Dialogflow の音声 bot で、カスタマー サービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応します。

使用例
デバイスでの音声生成

デバイスのテキスト リーダーで人間のような音声を使用することで、ユーザーとの自然なコミュニケーションが可能になります。Speech-to-TextNatural Language を取り入れてエンドツーエンドの音声ユーザー インターフェースを構築し、スムーズで魅力的なインタラクションでユーザー エクスペリエンスを改善します。

使用例
ユーザー補助対応 EPG(電子番組ガイド)

EPG でテキストを読み上げることによって、ユーザー エクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG デモをお試しください

EPG のテキスト読み上げ機能は簡単に実装できます。

ソリューションの生成
解決したい問題は何ですか?
What you'll get:
手順ガイド
リファレンス アーキテクチャ
利用可能な事前構築済みソリューション
このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

すべての機能

すべての機能

ストリーミングの音声合成

ストリーミングの音声合成による超低レイテンシの音声で AI エージェントを強化し、シームレスなリアルタイム会話を実現します。

長い音声合成

長時間の音声合成では、最大 100 万バイトの入力を非同期で合成します。

選択できる音声と言語

75 以上の言語と言語変種、380 種類以上の音声から選択できます(今後も順次追加予定)。

テキストと SSML のサポート
SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。
声の高さのチューニング
選択した音声の高さ(ピッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。
発話速度のチューニング
発話の速度を通常の 4 倍まで速く、または遅くすることができます。
ボリュームのゲイン コントロール

出力の音量を最大 16 db、最小 -96 db の幅で調整可能です。

REST と gRPC API の統合

スマートフォン、PC、タブレット、IoT デバイス(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスとの間で簡単に統合できます。

さまざまな音声形式に柔軟に対応
テキストを MP3、Linear16、OGG Opus、その他さまざまな音声形式に変換します。
音声プロファイル
スピーカーの種類(ヘッドホン、電話回線など)に応じて音声を最適化できます。

料金

料金

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声の最初の 100 万文字は、毎月無料です。WaveNet 以外の標準音声では、毎月最初の 400 万文字が無料です。Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当の通貨の料金が適用されます。

次のステップ

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトを試すための無料クレジット $300 分を差し上げます。

Cloud Text-to-Speech
  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud