パフォーマンスが強化された低レイテンシの最新モデル Gemini 2.5 をお試しください

Speech-to-Text

Google AI を使用して音声をテキストに変換する

容易に使用可能な API を使用して、音声を音声文字変換テキストに変換し、音声認識をアプリケーションに統合します。

また新規のお客様には、Speech-to-Text や他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

機能

高度な音声 AI

Speech-to-Text は、数百万時間の音声データと数十億の文章でトレーニングされた Google Cloud の音声向け基盤モデル Chirp を利用できます。この点が、各言語固有の教師ありデータを大量に使用していた従来の音声認識技術とは異なります。これらの技術により、ユーザーはより多くの音声による言語や方言に対応できるようになり、認識と音声文字変換が改善されます。

85 以上の言語と言語変種をサポート

広範な言語サポートで、グローバルなユーザーベースに対応。短い音声データ、長い音声データ、さらにストリーミングの音声データも音声文字変換します。また、Speech-to-Text は、次世代のユニバーサル音声モデルである Chirp 3 を使用して、より正確な音声文字変換を世界中で利用できるようにしています。

Chirp 3: 音声文字変換は、100 以上の言語にわたる数百万時間分の音声と 280 億の文章に対する自己教師ありトレーニングで構築されています。

短い音声、長い音声、ストリーミングの音声を文字に変換する

ガイドを表示

ストリーミング音声認識

アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル（インラインや Cloud Storage）から取得した音声入力を API が処理し、音声認識の結果をリアルタイムに受け取ることができます。

AI を活用した音声認識と音声文字変換

Speech-to-Text は、モデル適応を使用して、頻繁に使用される単語の精度を向上させ、音声文字変換に利用できる語彙を増やし、ノイズの多い音声からの音声文字変換を改善します。モデル適応を使用すると、Speech-to-Text をカスタマイズして、提案される可能性がある他の候補よりも、特定の単語やフレーズをより高い頻度で認識するようにできます。たとえば、Speech-to-Text にバイアスをかけて、「whether」よりも高頻度で「weather」と音声文字変換するようにできます。

初期設定の状態で規制およびセキュリティコンプライアンスに対応

Speech-to-Text API v2 は、企業や企業のお客様に初期設定でセキュリティと規制に関する要件が追加された状態で提供します。データ所在地により、シンガポールやベルギーなどの Google Cloud リージョンを活用する完全にリージョン化されたサービスを通じて、音声文字変換モデルを呼び出すことができます。リソース生成と音声文字変換のログは、Google Cloud コンソールで簡単に利用できます。また、Speech-to-Text API v2 は、すべてのリソースに対する顧客管理の暗号鍵によるエンタープライズレベルの暗号化と一括音声文字変換を実現します。

音声適応

ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上させることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。

Speech-to-Text On-Prem

オンプレミスの独自のプライベートデータセンターで Google の音声認識技術を利用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。

マルチチャネル認識

Speech-to-Text はマルチチャネルの状況（ビデオ会議など）で個別のチャネルを認識し、文字起こしにアノテーションを付けて順序を維持できます。

ノイズ耐性

Speech-to-Text はさまざまな環境の雑音の多い音声も正常に処理できます。別途ノイズキャンセルを行う必要はありません。

分野固有モデル

音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリングレートで録音された通話など、電話通信から発信された音声向けに調整されています。

コンテンツフィルタリング

冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外することができます。

音声文字変換の評価

自分の音声データをアップロードし、ノーコードで音声文字変換します。構成の調整を繰り返し、品質を評価します。

句読点入力の自動化（ベータ版）

Speech-to-Text では、音声文字変換でカンマ、疑問符、ピリオドなどを使用して句読点を正確に入力します。

話者ダイアライゼーション

会話におけるそれぞれの発話がどちらの話者によるものなのかを自動予測することで、各話者の発言内容を把握できます。

API と Vertex AI Studio での Speech-to-Text Chirp モデルの比較

プロダクト	説明	推奨用途	主な機能
Chirp 3: Vertex AI での音声文字変換	コードが不要で簡単に使える、ウェブベースのグラフィカルユーザーインターフェース。	音声ファイルの迅速なテスト、プロトタイプの迅速な作成、音声文字変換の作成、音声や録音のウェブブラウザへの直接アップロードが可能です。	- 多言語の言語検出と音声文字変換を強化 - 85 以上の言語と言語変種での音声文字変換をサポート - 話者ダイアライゼーションとモデル適応をサポート - 自動音声認識、音声をテキストに変換 - 多言語の言語検出と音声文字変換
Chirp 3: Speech-to-Text V2 API での音声文字変換	Google の次世代のユニバーサル Speech-to-Text モデルである API で、複数の言語のデータを統合します。	エンタープライズクラスのスケーラブルなアプリケーションを構築。既存のソフトウェアに簡単な音声文字変換を統合。	- 多言語の言語検出と音声文字変換を強化 - 85 以上の言語と言語変種での音声文字変換をサポート - 話者ダイアライゼーションとモデル適応をサポート - 自動音声認識、音声をテキストに変換 - 多言語の言語検出と音声文字変換

Chirp 3: Vertex AI での音声文字変換

説明

コードが不要で簡単に使える、ウェブベースのグラフィカルユーザーインターフェース。

推奨用途

音声ファイルの迅速なテスト、プロトタイプの迅速な作成、音声文字変換の作成、音声や録音のウェブブラウザへの直接アップロードが可能です。

主な機能

- 多言語の言語検出と音声文字変換を強化

- 85 以上の言語と言語変種での音声文字変換をサポート

- 話者ダイアライゼーションとモデル適応をサポート

- 自動音声認識、音声をテキストに変換

- 多言語の言語検出と音声文字変換

Chirp 3: Speech-to-Text V2 API での音声文字変換

説明

Google の次世代のユニバーサル Speech-to-Text モデルである API で、複数の言語のデータを統合します。

推奨用途

エンタープライズクラス のスケーラブルなアプリケーションを構築。

既存のソフトウェアに簡単な音声文字変換を統合。

主な機能

- 多言語の言語検出と音声文字変換を強化

- 85 以上の言語と言語変種での音声文字変換をサポート

- 話者ダイアライゼーションとモデル適応をサポート

- 自動音声認識、音声をテキストに変換

- 多言語の言語検出と音声文字変換

仕組み

Speech-to-Text で音声認識を行う主な方法は、同期、非同期、ストリーミングの 3 つです。各方法により、音声文字変換が後処理で必要か、定期的またはリアルタイムで必要かに基づいて、テキストの結果が返されます。簡略に説明すると、音声データを入力し、テキストベースのレスポンスを受け取ることができます。

Speech-to-Text をアプリに追加する方法を確認する

デモ

Speech-to-Text API をテストする

アップロードされたファイルから、またはマイクに直接話しかけて、すばやく音声文字変換を作成できます。

一般的な使用例

音声を文字に変換する

音声文字変換を作成する

わずか数ステップで音声文字変換を作成し、Cloud コンソールから Speech-to-Text API を使用する方法について学習します。短い音声、長い音声、ストリーミングの音声を文字に変換することもできます。

Speech-to-Text アップローダーのプレビュー

チュートリアル、クイックスタート、ラボ

音声文字変換を作成する

わずか数ステップで音声文字変換を作成し、Cloud コンソールから Speech-to-Text API を使用する方法について学習します。短い音声、長い音声、ストリーミングの音声を文字に変換することもできます。

Speech-to-Text アップローダーのプレビュー

AI を使用して動画に字幕を付ける

AI を使用して動画の字幕を作成する

音声や動画の音声文字変換を行い、字幕を入れます。既存のコンテンツに字幕を追加することも、ストリーミングコンテンツにリアルタイムで字幕を追加することもできます。Google の動画の音声文字変換モデルは、動画や複数話者のコンテンツのインデックス作成や字幕作成に適しており、YouTube が動画の字幕作成に使用しているのと同様の機械学習技術を使用しています。このチュートリアルでは、Google Cloud AI サービスの Speech-to-Text API と Translation API を使用して、動画に字幕を追加したり、他の言語でローカライズされた字幕を提供したりする方法について説明します。

チュートリアル、クイックスタート、ラボ

AI を使用して動画の字幕を作成する

音声や動画の音声文字変換を行い、字幕を入れます。既存のコンテンツに字幕を追加することも、ストリーミングコンテンツにリアルタイムで字幕を追加することもできます。Google の動画の音声文字変換モデルは、動画や複数話者のコンテンツのインデックス作成や字幕作成に適しており、YouTube が動画の字幕作成に使用しているのと同様の機械学習技術を使用しています。このチュートリアルでは、Google Cloud AI サービスの Speech-to-Text API と Translation API を使用して、動画に字幕を追加したり、他の言語でローカライズされた字幕を提供したりする方法について説明します。

Speech-to-Text をアプリに追加する

Speech-to-Text をアプリに追加する方法

Google Cloud を使用して、アプリケーションで Speech-to-Text を迅速かつ簡単に有効にする方法を説明します。この動画では、ML モデルの豊富な経験がなくても、アプリケーションに AI を追加できる方法について説明します。事前トレーニング済みの Speech-to-Text API を使用すると、アプリケーションで AI を迅速かつ簡単に有効にできます。

アプリに音声操作を追加する

チュートリアル、クイックスタート、ラボ

Speech-to-Text をアプリに追加する方法

Google Cloud を使用して、アプリケーションで Speech-to-Text を迅速かつ簡単に有効にする方法を説明します。この動画では、ML モデルの豊富な経験がなくても、アプリケーションに AI を追加できる方法について説明します。事前トレーニング済みの Speech-to-Text API を使用すると、アプリケーションで AI を迅速かつ簡単に有効にできます。

アプリに音声操作を追加する

音声をテキストに変換する

Google Cloud APIs を使用した言語、音声、テキスト、翻訳

このコースでは、Speech-to-Text API を使用して音声ファイルをテキストファイルに文字変換し、Google Cloud Translation API で翻訳してから、Natural Language AI で合成音声を作成します。

サポートされている言語を表示する
Google Cloud Translation の詳細を確認する

チュートリアル、クイックスタート、ラボ

Google Cloud APIs を使用した言語、音声、テキスト、翻訳

このコースでは、Speech-to-Text API を使用して音声ファイルをテキストファイルに文字変換し、Google Cloud Translation API で翻訳してから、Natural Language AI で合成音声を作成します。

サポートされている言語を表示する
Google Cloud Translation の詳細を確認する

ソリューションの生成

解決したい問題は何ですか？

What you'll get:

手順ガイド

リファレンスアーキテクチャ

利用可能な事前構築済みソリューション

このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

料金

Speech-to-Text の料金の仕組み	Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用（ストレージなど）に基づきます。
API のバージョン	サービスと機能	料金
Speech-to-Text V2 API	V2 は、マルチリージョンおよびシングルリージョンへの Chirp 3 のデプロイのためにデータ所在地を提供します。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。	$0.016 /分

Speech-to-Text の料金の仕組み

Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用（ストレージなど）に基づきます。

API のバージョン

サービスと機能

料金

Speech-to-Text V2 API

V2 は、マルチリージョンおよびシングルリージョンへの Chirp 3 のデプロイのためにデータ所在地を提供します。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。

$0.016

/分

Speech-to-Text の料金の詳細をご覧ください。

Speech-to-Text の料金の仕組み

Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用（ストレージなど）に基づきます。

Speech-to-Text V2 API

サービスと機能

V2 は、マルチリージョンおよびシングルリージョンへの Chirp 3 のデプロイのためにデータ所在地を提供します。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。

料金

$0.016

/分

Speech-to-Text の料金の詳細をご覧ください。

料金計算ツール

リージョン固有の料金と手数料を含む、Speech-to-Text の毎月の費用を試算できます。

カスタムの見積もり

カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

Speech-to-Text

Google AI を使用して音声をテキストに変換する

プロダクトに関する情報

高度な音声 AI

85 以上の言語と言語変種をサポート

ストリーミング音声認識

AI を活用した音声認識と音声文字変換

初期設定の状態で規制およびセキュリティ コンプライアンスに対応

音声適応

Speech-to-Text On-Prem

マルチチャネル認識

ノイズ耐性

分野固有モデル

コンテンツ フィルタリング

音声文字変換の評価

句読点入力の自動化（ベータ版）

話者ダイアライゼーション

Speech-to-Text API をテストする

音声を文字に変換する

音声文字変換を作成する

チュートリアル、クイックスタート、ラボ

音声文字変換を作成する

AI を使用して動画に字幕を付ける

AI を使用して動画の字幕を作成する

チュートリアル、クイックスタート、ラボ

AI を使用して動画の字幕を作成する

Speech-to-Text をアプリに追加する

Speech-to-Text をアプリに追加する方法

チュートリアル、クイックスタート、ラボ

Speech-to-Text をアプリに追加する方法

音声をテキストに変換する

Google Cloud APIs を使用した言語、音声、テキスト、翻訳

チュートリアル、クイックスタート、ラボ

Google Cloud APIs を使用した言語、音声、テキスト、翻訳

料金計算ツール

カスタムの見積もり

概念実証を開始する

新規のお客様には、Speech-to-Text や他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

大規模なプロジェクトがある場合は、

Speech-to-Text On-Prem

Speech-to-Text の基本

Speech-to-Text のコードサンプル

初期設定の状態で規制およびセキュリティコンプライアンスに対応

コンテンツフィルタリング