容易に使用可能な API を使用して、音声を音声文字変換テキストに変換し、音声認識をアプリケーションに統合します。
また新規のお客様には、Speech-to-Text や他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
機能
広範な言語サポートで、グローバルなユーザーベースに対応。短い音声データ、長い音声データ、さらにストリーミングの音声データも音声文字変換します。また、Speech-to-Text は、次世代のユニバーサル音声モデルである Chirp 3 を使用して、より正確な音声文字変換を世界中で利用できるようにしています。
Chirp 3: 音声文字変換は、100 以上の言語にわたる数百万時間分の音声と 280 億の文章に対する自己教師ありトレーニングで構築されています。
アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理し、音声認識の結果をリアルタイムに受け取ることができます。
Speech-to-Text は、モデル適応を使用して、頻繁に使用される単語の精度を向上させ、音声文字変換に利用できる語彙を増やし、ノイズの多い音声からの音声文字変換を改善します。モデル適応を使用すると、Speech-to-Text をカスタマイズして、提案される可能性がある他の候補よりも、特定の単語やフレーズをより高い頻度で認識するようにできます。たとえば、Speech-to-Text にバイアスをかけて、「whether」よりも高頻度で「weather」と音声文字変換するようにできます。
Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、文字起こしにアノテーションを付けて順序を維持できます。
Speech-to-Text はさまざまな環境の雑音の多い音声も正常に処理できます。別途ノイズ キャンセルを行う必要はありません。
音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された 各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、電話通信から発信された音声向けに調整されています。
冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外することができます。
自分の音声データをアップロードし、ノーコードで音声文字変換します。構成の調整を繰り返し、品質を評価します。
Speech-to-Text では、音声文字変換でカンマ、疑問符、ピリオドなどを使用して句読点を正確に入力します。
会話におけるそれぞれの発話がどちらの話者によるものなのかを自動予測することで、各話者の発言内容を把握できます。
API と Vertex AI Studio での Speech-to-Text Chirp モデルの比較
| プロダクト | 説明 | 推奨用途 | 主な機能 |
|---|---|---|---|
Chirp 3: Vertex AI での音声文字変換 | コードが不要で簡単に使える、ウェブベースのグラフィカル ユーザー インターフェース。 | 音声ファイルの迅速なテスト、プロトタイプの迅速な作成、音声文字変換の作成、音声や録音のウェブブラウザへの直接アップロードが可能です。 | - 多言語の言語検出と音声文字変換を強化 - 85 以上の言語と言語変種での音声文字変換をサポート - 話者ダイアライゼーションとモデル適応をサポート - 自動音声認識、音声をテキストに変換 - 多言語の言語検出と音声文字変換 |
Chirp 3: Speech-to-Text V2 API での音声文字変換 | Google の次世代のユニバーサル Speech-to-Text モデルである API で、複数の言語のデータを統合します。 | エンタープライズ クラス のスケーラブルなアプリケーションを構築。 既存のソフトウェアに簡単な音声文字変換を統合。 | - 多言語の言語検出と音声文字変換を強化 - 85 以上の言語と言語変種での音声文字変換をサポート - 話者ダイアライゼーションとモデル適応をサポート - 自動音声認識、音声をテキストに変換 - 多言語の言語検出と音声文字変換 |
Chirp 3: Vertex AI での音声文字変換
コードが不要で簡単に使える、ウェブベースのグラフィカル ユーザー インターフェース。
音声ファイルの迅速なテスト、プロトタイプの迅速な作成、音声文字変換の作成、音声や録音のウェブブラウザへの直接アップロードが可能です。
- 多言語の言語検出と音声文字変換を強化
- 85 以上の言語と言語変種での音声文字変換をサポート
- 話者ダイアライゼーションとモデル適応をサポート
- 自動音声認識、音声をテキストに変換
- 多言語の言語検出と音声文字変換
Chirp 3: Speech-to-Text V2 API での音声文字変換
Google の次世代のユニバーサル Speech-to-Text モデルである API で、複数の言語のデータを統合します。
エンタープライズ クラス のスケーラブルなアプリケーションを構築。
既存のソフトウェアに簡単な音声文字変換を統合。
- 多言語の言語検出と音声文字変換を強化
- 85 以上の言語と言語変種での音声文字変換をサポート
- 話者ダイアライゼーションとモデル適応をサポート
- 自動音声認識、音声をテキストに変換
- 多言語の言語検出と音声文字変換
デモ
アップロードされたファイルから、またはマイクに直接話しかけて、すばやく音声文字変換を作成できます。
一般的な使用例
音声文字変換を作成する
わずか数ステップで音声文字変換を作成し、Cloud コンソールから Speech-to-Text API を使用する方法について学習します。短い音声、長い音声、ストリーミングの音声を文字に変換することもできます。
音声文字変換を作成する
わずか数ステップで音声文字変換を作成し、Cloud コンソールから Speech-to-Text API を使用する方法について学習します。短い音声、長い音声、ストリーミングの音声を文字に変換することもできます。
AI を使用して動画の字幕を作成する
音声や動画の音声文字変換を行い、字幕を入れます。既存のコンテンツに字幕を追加することも、ストリーミング コンテンツにリアルタイムで字幕を追加することもできます。Google の動画の音声文字変換モデルは、動画や複数話者のコンテンツのインデックス作成や字幕作成に適しており、YouTube が動画の字幕作成に使用しているのと同様の機械学習技術を使用しています。このチュートリアルでは、Google Cloud AI サービスの Speech-to-Text API と Translation API を使用して、動画に字幕を追加したり、他の言語でローカライズされた字幕を提供したりする方法について説明します。
AI を使用して動画の字幕を作成する
音声や動画の音声文字変換を行い、字幕を入れます。既存のコンテンツに字幕を追加することも、ストリーミング コンテンツにリアルタイムで字幕を追加することもできます。Google の動画の音声文字変換モデルは、動画や複数話者のコンテンツのインデックス作成や字幕作成に適しており、YouTube が動画の字幕作成に使用しているのと同様の機械学習技術を使用しています。このチュートリアルでは、Google Cloud AI サービスの Speech-to-Text API と Translation API を使用して、動画に字幕を追加したり、他の言語でローカライズされた字幕を提供したりする方法について説明します。
Speech-to-Text をアプリに追加する方法
Google Cloud を使用して、アプリケーションで Speech-to-Text を迅速かつ簡単に有効にする方法を説明します。この動画では、ML モデルの豊富な経験がなくても、アプリケーションに AI を追加できる方法について説明します。事前トレーニング済みの Speech-to-Text API を使用すると、アプリケーションで AI を迅速かつ簡単に有効にできます。
Speech-to-Text をアプリに追加する方法
Google Cloud を使用して、アプリケーションで Speech-to-Text を迅速かつ簡単に有効にする方法を説明します。この動画では、ML モデルの豊富な経験がなくても、アプリケーションに AI を追加できる方法について説明します。事前トレーニング済みの Speech-to-Text API を使用すると、アプリケーションで AI を迅速かつ簡単に有効にできます。
Google Cloud APIs を使用した言語、音声、テキスト、翻訳
このコースでは、Speech-to-Text API を使用して音声ファイルをテキスト ファイルに文字変換し、Google Cloud Translation API で翻訳してから、Natural Language AI で合成音声を作成します。
Google Cloud APIs を使用した言語、音声、テキスト、翻訳
このコースでは、Speech-to-Text API を使用して音声ファイルをテキスト ファイルに文字変換し、Google Cloud Translation API で翻訳してから、Natural Language AI で合成音声を作成します。
料金
| Speech-to-Text の料金の仕組み | Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用(ストレージなど)に基づきます。 | |
|---|---|---|
| API のバージョン | サービスと機能 | 料金 |
Speech-to-Text V2 API | V2 は、マルチリージョンおよびシングル リージョンへの Chirp 3 のデプロイのためにデータ所在地を提供します。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。 | $0.016 /分 |
Speech-to-Text の料金の詳細をご覧ください。
Speech-to-Text の料金の仕組み
Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用(ストレージなど)に基づきます。
Speech-to-Text V2 API
V2 は、マルチリージョンおよびシングル リージョンへの Chirp 3 のデプロイのためにデータ所在地を提供します。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。
$0.016
/分
Speech-to-Text の料金の詳細をご覧ください。