JP2016531375A - Local and remote speech processing - Google Patents
Local and remote speech processing Download PDFInfo
- Publication number
- JP2016531375A JP2016531375A JP2016543926A JP2016543926A JP2016531375A JP 2016531375 A JP2016531375 A JP 2016531375A JP 2016543926 A JP2016543926 A JP 2016543926A JP 2016543926 A JP2016543926 A JP 2016543926A JP 2016531375 A JP2016531375 A JP 2016531375A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- command
- function
- service
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
ユーザデバイスは、ユーザの発するトリガー表現を検出し及びコマンドとして後続の単語またはフレーズを解釈することによって応答するように構成されることもある。コマンドは、スピーチ認識を実行するように構成されたリモートサービスに単語またはフレーズを含むオーディオを送信することによって認識されることもある。特定のコマンドは、ローカルコマンドとして指定されることもあり、及びリモートサービスに頼るよりもむしろローカル的に検出されることもある。トリガー表現を検出すると、オーディオは、リモートサービスにストリーミングし、ローカルコマンドの発話を検出するためにローカル的に分析される。ローカルコマンドが検出されると、対応する機能が即座に開始され、そして、リモートサービスによるその後の活動または応答はキャンセルまたは無視される。The user device may be configured to detect the trigger expression emitted by the user and respond by interpreting subsequent words or phrases as commands. The command may be recognized by sending audio containing words or phrases to a remote service configured to perform speech recognition. Certain commands may be designated as local commands and may be detected locally rather than relying on remote services. Upon detecting the trigger expression, the audio is streamed to the remote service and analyzed locally to detect local command utterances. When a local command is detected, the corresponding function is started immediately and subsequent activity or response by the remote service is canceled or ignored.
Description
本発明は、ローカルとリモートのスピーチ処理に関する。 The present invention relates to local and remote speech processing.
関連出願の相互参照
本出願は、2013年9月20日に出願されたUS特許出願番号14/033,302に対して優先権を主張し、「Local and Remote Speech Processing(ローカルとリモートのスピーチ処理)」を名称とし、明細書の全体を参照することにより組み込まれる。
Cross-reference of related applications
This application claims priority to US Patent Application No. 14 / 033,302, filed on September 20, 2013, and is named “Local and Remote Speech Processing”. , Incorporated herein by reference in its entirety.
家庭、オフィス、自動車及び公共空間は、より有線化され、及びノートパソコン、タブレット、エンターテイメント・システム及び携帯通信機器のようなコンピューティングデバイスの普及に関連している。コンピューティングデバイスが進化するにつれて、ユーザがこれらのデバイスと相互作用する方法は進化し続ける。例えば、人は、機械デバイスを介して、コンピューティングデバイス(例えば、キーボード、マウスなど)、電気機器(例えば、タッチスクリーン、タッチパッドなど)、及び光学デバイス(例えば、モーション検出器、カメラなど)と対話することができる。コンピューティングデバイスと対話をするためのもう1つ方法は、人の音声を捉え及び反応するオーディオデバイスを介することである。 Homes, offices, cars and public spaces are more wired and associated with the proliferation of computing devices such as laptops, tablets, entertainment systems and portable communication devices. As computing devices evolve, the way users interact with these devices continues to evolve. For example, a person can communicate with a computing device (eg, keyboard, mouse, etc.), an electrical device (eg, touch screen, touchpad, etc.), and an optical device (eg, motion detector, camera, etc.) via a mechanical device. Can interact. Another way to interact with a computing device is through an audio device that captures and reacts to human speech.
詳細な説明は、添付図面を参照して説明する。図において、参照番号の左端の桁(複数含む)は、参照番号が最初に現れる図面を識別する。異なる図面において同じ参照番号の使用は、類似または同一のコンポーネントまたは特徴を示す。
本開示は、一般的に、ユーザとのスピーチベース相互作用を提供しまたは促進するスピーチインタフェースシステムに関係する。システムは、ユーザスピーチを含むオーディオを捕捉するマイクを有するローカルデバイスを含む。口語ユーザコマンドは、トリガー表現または目覚め表現として呼ばれるキーワードによって付けられてもよい。トリガー表現に続くオーディオは、スピーチ認識のためのリモートサービスにストリーミングされてもよく、サービスは、機能を実行することによる応答またはオーディオデバイスによって実行されるコマンドを提供してもよい。 The present disclosure relates generally to a speech interface system that provides or facilitates speech-based interaction with a user. The system includes a local device having a microphone that captures audio including user speech. Spoken user commands may be attached with keywords called trigger expressions or awakening expressions. The audio following the trigger expression may be streamed to a remote service for speech recognition, and the service may provide a response by performing a function or a command executed by the audio device.
リモートサービスとの通信は、ほとんどの場合、許容範囲内に最小限に抑えることができる応答待ち時間を導入してもよい。いくつかの口語コマンドは、しかしながら少ない待ち時間のために呼び出してもよい。例として、停止、一時停止、ハングアップなどのようなメディアレンダリングの特定のタイプに関連している口語コマンドは、待ち時間の少ない知覚量で実行する必要があるかもしれない。 Communication with remote services may in most cases introduce response latencies that can be kept to an acceptable minimum. Some colloquial commands, however, may be invoked for low latency. As an example, colloquial commands associated with a particular type of media rendering, such as stop, pause, hang up, etc. may need to be executed with a low latency perceptual amount.
様々の実施形態によれば、ローカルコマンド、またはローカルコマンド表現としてここで参照される特定のコマンド表現は、リモートサービスによって検出されるより、むしろローカルデバイスによってまたは、ローカルデバイスで検出される。より具体的には、ローカルデバイスは、後続のスピーチがコマンドを形成するためにユーザによって意図されていることを示しているトリガー、または警告表現を検出するように構成されている。後続の音声がコマンドを形成するために、ユーザによって意図されていることを示すトリガー、または警告表現を検出するように構成されている。トリガー表現の検出において、ローカルデバイスは、リモートサービスとともに通信セッションを示し及びサービスにオーディオを受信するストリーミングを開始する。応答において、リモートサービスは、受信したオーディオのスピーチ認識を行い、認識されたスピーチに基づいてユーザの意図を識別することを試みる。ユーザの意図の認識の応答において、リモートサービスは、対応する機能を実行してもよい。いくつかの例において、機能は、ローカルデバイスに関連して実行してもよい。例えば、リモートサービスは、ローカルデバイスが対応する機能を実行するためのコマンドを実施すべきであることを示すローカルデバイスにコマンドを送信してもよい。 According to various embodiments, a local command, or a specific command expression referred to herein as a local command expression, is detected by or at the local device rather than being detected by a remote service. More specifically, the local device is configured to detect a trigger or warning expression that indicates that subsequent speech is intended by the user to form a command. It is configured to detect a trigger, or warning expression, that indicates that subsequent audio is intended by the user to form a command. In detecting the trigger expression, the local device initiates streaming to indicate a communication session with the remote service and receive audio to the service. In response, the remote service performs speech recognition of the received audio and attempts to identify the user's intention based on the recognized speech. In response to recognition of the user's intention, the remote service may perform a corresponding function. In some examples, the function may be performed in connection with a local device. For example, the remote service may send a command to the local device indicating that the local device should execute a command to perform the corresponding function.
リモートサービスの活動と同時に、ローカルデバイスは、トリガー表現に続くローカルコマンド表現の発生を検出するオーディオをモニターまたは分析する。オーディオにおけるローカルコマンド表現を検出すると、ローカルデバイスは、すぐに対応する機能を実現する。加えるに、リモートサービスによるさらなるアクションは、単一のユーザ発話に対する重複アクションを避けるために停止またはキャンセルされる。リモートサービスによるアクションは、発話が通信セッションの終了またはキャンセルによりローカルに作用された明示的なリモートサービスを通知することにより及び/またはユーザスピーチのリモート認識に応じてリモートサービスによって指定される任意のコマンドの見合わせる実行によって中止されてもよい。 Concurrent with the remote service activity, the local device monitors or analyzes the audio that detects the occurrence of the local command expression following the trigger expression. Upon detecting a local command representation in the audio, the local device immediately implements the corresponding function. In addition, further actions by the remote service are stopped or canceled to avoid duplicate actions for a single user utterance. The action by the remote service is any command specified by the remote service by notifying the explicit remote service where the utterance was acted on locally by the termination or cancellation of the communication session and / or in response to remote recognition of the user speech It may be canceled by execution of matching.
図1は、音声対話システム100の一例を示す。システム100は、家庭のような環境104内に配置されてもよく及びユーザ106と対話するために使用されてもよいローカル音声ベースオーディオデバイス102を利用してもよくまたは含んでもよい。音声対話システム100は、またオーディオでのスピーチを認識するオーディオを受信するように構成され、及び機能を実行するため、認識されたスピーチに応じて、サービス同定機能として参照されるリモートネットワークベーススピーチコマンドサービス108を利用しまたは含んでもよい。サービス同定機能は、オーディオデバイスと独立したスピーチコマンドサービス108によって実現されてもよく、及び/または、ローカル実行のためにオーディオデバイス102にコマンドを提供することによって実現されてもよい。
FIG. 1 shows an example of a
特定の実施形態において、オーディオデバイス102とユーザ相互作用との主要モードは、スピーチを介してもよい。例えば、オーディオデバイス102は、ユーザ106からの発語コマンド表現を受信してもよく及びコマンドに応じたサービスを提供してもよい。ユーザは、事前定義された目覚めまたはトリガー表現(例えば、アウェイク)を話してもよく、コマンドまたは命令によって続けてもよい(例えば、私は映画を見に行きたい。ローカルの映画館で上映しているものを教えてください。)。提供されるサービスは、アクションまたは活動、メディアレンダリング、情報の取得及び/または提供を実行し、オーディオデバイス102を介して生成または合成スピーチを介して情報を提供し、ユーザ106などに代わって、インターネットベースサービスを開始することなどを含んでもよい。
In certain embodiments, the primary mode of
ローカルオーディオデバイス102及びスピーチコマンドサービス108は、ユーザ106からコマンド表現を受信し応答するよう互いに関連しアクションするよう構成されている。コマンド表現は、スピーチコマンドサービス108の独立したローカルデバイス102によって検出され行われるコマンド表現を含んでもよい。コマンド表現は、またリモートスピーチコマンドサービス108の関連によって、または関連で解釈及び実行されるコマンドを含む。
オーディオサービス102は、ユーザ106との相互作用を容易にする1またはそれ以上のマイクロフォン110及び1またはそれ以上のスピーカまたは変換器112を有してもよい。マイクロフォン110は、ユーザ106によって発せられた音または表現を含み、環境104からのオーディオを表し、またオーディオ信号入力として参照されたマイクロフォン信号を生成する。
いくつかの場合において、マイクロフォン110は、選択された方向に集中するオーディオ信号入力を生成するオーディオビーム形成技術に関連して使用されるマイクロフォンアレイを含んでもよい。同様に、複数の方向のマイクロフォン110は、複数の利用可能な方向の1つに対応するオーディオ信号を生成するために使用されてもよい。
In some cases, the
オーディオサービス102は、プロセッサ114及びメモリ116を含むかもしれない多くの場合であるところの処理ロジックを含む。プロセッサ114は、複数のコアを有する複数のプロセッサ及び/または単一のプロセッサを含んでもよい。プロセッサ114は、またオーディオ信号を処理するディジタルシングルプロセッサを含みまたは備えてもよい。
メモリ116は、以下に記載の特殊な機能を含み、オーディオデバイス102の要求される機能を実行する行為または活動を行うプロセッサ114によって実行されるコンピュータ実行命令の形成でのアプリケーション及びプログラムを含んでもよい。メモリ116は、コンピュータ読み込み可能な記憶メディアのタイプであってもよく、揮発性及び不揮発性メモリを含んでもよい。そして、メモリ116は、しかし限定されず、RAM、ROM、EEPROM、フラッシュメモリ、または他のメモリ技術を含んでもよい。
オーディオデバイス102は、複数のアプリケーション、サービス及び/またはサービス及び機能を提供するためのプロセッサ114によって実行される機能コンポーネント118としてまとめて以下に参照される機能118を含んでもよい。アプリケーション及び他の機能コンポーネント118は、ミュージックプレイヤのようなメディア再生サービスを含んでもよい。アプリケーション及び他の機能コンポーネント118によって供給されまたは実行される他のサービスまたはオペレーションは、例として、要求または消費エンターテイメント(例えば、ゲーム、音楽の発見演奏、映画あるいは他のコンテンツなど)、パーソナルマネージメント(例えば、カレンダリング、ノートを取るなど)、オンラインショッピング、金融取引、データベースに関する問い合わせ、個人対個人の音声通信などを含んでもよい。
いくつかの実施形態において、機能コンポーネント118は、オーディオデバイス102にプリインストールされてもよいし、オーディオデバイス102のコア機能に実装してもよい。他の実施形態において、1またはそれ以上のアプリケーションまたは他の機能コンポーネント118は、ユーザ106によって設置され、またさもなければ、ユーザ106によって利用されるオーディオデバイス102の後に設置されてもよく、及びユーザ106による要求として加え、またはカスタマイズされた機能に実装してもよい。
In some embodiments, the
プロセッサ114は、マイクロフォン110及び/またはスピーカ112に供給されるオーディオ信号出力によって生成されるオーディオ信号入力を処理する機能またはコンポーネント120のオーディオ処理によって構成されてもよい。一例としいて、オーディオ処理コンポーネント120は、マイクロフォン110とスピーカ112の間に音響連結によって生成されるオーディオエコーを減少する音響エコーキャンセレーションを実行してもよい。オーディオ処理コンポーネント120は、またユーザスピーチより他のオーディオ信号入力の要素のような受信したオーディオ信号でのノイズを減少するノイズ減少化を実行してもよい。特定の実施形態において、オーディオ処理コンポーネント120は、ユーザスピーチが検出からの方向において集束されたオーディオ信号の生成される複数のマイクロフォン110に応答する1またはそれ以上のオーディオビーム生成器を含んでもよい。
The
オーディオデバイス102は、マイクロフォン110によって捉えられたスピーチでトリガー表現を検出するために使用されるかもしれない1またはそれ以上の表現検出器またはスピーチ認識コンポーネント122を実行するように構成されてもよい。用語「トリガー表現」は、後続のユーザスピーチがコマンドとして解釈されるユーザによって意図されたオーディオデバイス102の信号に使用される単語、フレーズまたは他の発話を示すためにここで使用される。
1またはそれ以上の認識コンポーネント122は、またマイクロフォン110によって捕らえられたスピーチでのコマンドまたはコマンド表現を検出するために使用されてもよい。用語「コマンド表現」は、オーディオデバイス102によって、またはスピーチコマンドサービス108のようなオーディオサービス102にアクセス可能であるサービスまたは他のサービスによって実行される機能に対応する、あるいは関連する単語、フレーズまたは他の発話を示すためにここで使用される。例えば、単語「ストップ」、「ポーズ」、「ハングアップ」は、コマンド表現として使用されてもよい。「ストップ」、「ポーズ」のコマンド表現は、メディア再生活動が中断されることを示してもよい。「ハングアップ」コマンド表現は、現在の個人対個人の通信が終了されるべきであることを示してもよい。異なる機能に対応する他のコマンド表現は、また使用されてもよい。コマンド表現は、「近くのイタリアンレストランを探す」というような会話形式の指令を含んでもよい。
One or
コマンド表現は、スピーチコマンドサービス108に頼ることなくオーディオデバイス102により解釈されるべきであるローカルコマンド表現を含んでもよい。一般的に、ローカルコマンド表現は、オーディオデバイス102によって簡単に検出されることができる単一の言語または短いフレーズのような関連した短い表現である。ローカルコマンド表現は、メディア処理またはメディア再生処理機能のような比較的低い反応待ち時間が要求されているためのデバイス機能に応答してもよい。スピーチコマンドサービス108のサービスは、より大きい応答待ち時間が受け入れられるために他のコマンド表現のために利用されてもよい。スピーチコマンドサービスによって作用されるべきコマンド表現は、リモートコマンド表現としてここで参照される。
The command representation may include a local command representation that should be interpreted by the
いくつかの場合において、スピーチ認識コンポーネント122は、自動スピーチ認識(ASR)技術を用いて実現されてもよい。例えば、大きな量のスピーチ認識技術は、キーワード削減に用いられてもよく、及びスピーチ認識の出力は、キーワードの出現をモニターされてもよい。実施例として、スピーチ認識は、音声入力に対応した連続的なワードストリームを提供するため及び音声を認識するためのヒドンマルコフモデル及びガウスミクスチャモデルを使用してもよい。ワードストリームは、それから1またはそれ以上の特殊な言語及び表現を検出するためにモニターされてもよい。
In some cases, the
代わりに、スピーチ認識コンポーネント122は、1またはそれ以上のキーワードスポッターによって実現されてもよい。キーワードスポッターは、オーディオ信号での1またはそれ以上の事前定義された単語または表現の存在を検出するためのオーディオ信号を評価する機能コンポーネントまたはアルゴリズムである。一般的に、キーワードスポッターは、特定の単語を検出する簡略化されたASR技術またはかなり大規模な語彙を認識するよりも言語の限られた数を使用する。例えば、キーワードスポッターは、特殊な言語が、テキストまたは単語ベース出力を提供するよりも音声信号で検出された場合に通知を提供してもよい。これらの技術を用いたキーワードスポッターは、一連の状態として単語を表現するヒドンマルコフモデル(HMM)に基づいて別の単語と比較してもよい。一般的に、発話は、キーワードモデルと背景モデルに対しそのモデルを比較することによって分析される。キーワードモデルとともに発話のモデルを比較することは、発話がキーワードに対応する可能性を表すスコアを得る。キーワードモデルとともに発話のモデルを比較することは、発話がキーワードよりもほかに一般的な単語に対応するように表すスコアを得る。2つのスコアは、キーワードが発話されたかどうかを決定するために比較されることができる。
Alternatively, the
オーディオデバイス102は、さらに、制御機能124を含み、オーディオデバイス102の論理的機能を実現するためにオーディオデバイス102の他のコンポーネントと相互作用するように構成されているコントローラまたはコントロールロジックとしてここで参照される。
The
コントロールロジック124、オーディオ処理コンポーネント120、スピーチ認識コンポーネント122、及び機能コンポーネント118は、プロセッサ114によってメモリ116に格納され実行される実行可能な命令、プログラム、及び/またはプログラムモジュールを含んでもよい。
スピーチコマンドサービス108は、いくつかの例においてインターネットなどのネットワーク126を介して保守され及びアクセス可能であるネットワークアクセス可能コンピューティングプラットフォームの一部としてもよい。このようなネットワークアクセス可能コンピューティングプラットフォームは、「サービスとしてのソフトウェア(SaaS)」、「オンデマンド・コンピューティング」、「プラットフォームコンピューティング」、「ネットワークアクセスプラットフォーム」、「クラウドサービス」、「データセンター」などのような用語を使用して参照してもよい。
The
オーディオデバイス102及び/またはスピーチコマンドサービス108は、有線技術(例えば、ワイヤ、ユニバーサルシリアルバス(USB)、光ファイバケーブルなど)、無線技術(例えば、無線周波数(RF)、携帯電話、携帯電話網、衛星、ブルートゥースなど)を介してネットワーク126、または他の接続技術に通信可能に結合されてよい。ネットワーク126は、データ及び/又は音声ネットワークを含む通信ネットワークの任意のタイプを表しており、及び有線インフラストラクチャ(例えば、同軸ケーブル、光ファイバケーブルなど)、無線インフラストラクチャ(例えば、RF、セルラー、マイクロ波、衛星、ブルートゥース(登録商標)など)、及び/または他の接続技術を用いて実現されてもよい。
けれどもオーディオデバイス102は、音声制御またはスピーチベースインタフェースデバイスとしてここに記載されおり、ここに記載されている技術は、通信デバイス及びコンポーネント、ハンズフリーデバイス、娯楽デバイス、メディア再生デバイスなどのような様々な異なるタイプのデバイスと併せて実施してもよい。
However, the
スピーチコマンドサービス108は、一般的にオーディオデバイス102からオーディオストリームを受信し、オーディオストリームでスピーチを認識し、認識されたスピーチからユーザの意図を決定し、及びユーザの意図に応じて活動またはサービスを実行するための機能を提供する。提供される活動は、いくつかの場合においてオーディオデバイス102に関連して実行されてもよく、これらの場合にスピーチコマンドサービス108がオーディオデバイス102によって実行されるコマンドを示すオーディオデバイス102に応答を返してもよい。
The
スピーチコマンドサービス108は、多くの場合1またはそれ以上のサーバ、コンピュータ、及びまたはプロセッサ128を含んでもよい処理ロジックを含む。スピーチコマンドサービス108は、また、ここで具体的に説明した機能を含むスピーチコマンドサービスの要求された機能を実現する行為または活動を実行するためにプロセッサ128によって実行される命令の形式でのアプリケーションやプログラムを含むメモリ130を有してもよい。メモリ130は、コンピュータ記憶メディアの種類であってもよく、揮発性および不揮発性メモリを含んでもよい。よって、メモリ130は、しかし限定されず、RAM、ROM、EEPROM、フラッシュメモリ、または他のメモリ技術を含んでもよい。
The
他の論理および物理コンポーネントが具体的に示されていない中で、スピーチコマンドサービス108は、スピーチ認識コンポーネント132を含んでもよい。スピーチ認識コンポーネント132は、音声信号での人間のスピーチ認識、自動スピーチ認識(ASR)機能を含んでもよい。
The
スピーチコマンドサービス108は、また認識されたスピーチに基づいてユーザの意図を決定する自然言語理解コンポーネント(NLU)134を含んでもよい。
The
スピーチコマンドサービス108は、ユーザの意図に応じた機能またはコマンドを決定するコマンドインタプリタ及びアクションディスパッチャ136(コマンドインタプリタ136として単に以下に参照)を含んでもよい。いくつかの場合において、コマンドは、オーディオデバイス102によって少なくとも部分的に実行される機能に対応してもよく、コマンドインタプリタ136は、このような機能を実現するためのコマンドを示すオーディオデバイス102への応答をそれらの場合に提供してもよい。コマンドインタプリタ136からの指令に応答したオーディオデバイスによって実行されるかもしれないコマンドまたは機能の例は、スピーカ112を介して可聴音声を生成することと、類似のデバイスのユーザとの通信の特定のタイプを開始することと、スピーカ112のボリュームを増加/減少する音楽またはその他のメディアの再生などを含んでもよい。
The
スピーチコマンドサービス108は、図1に示されていない実体またはデバイスを伴う受信されたオーディオから認識されたスピーチに応答する機能を実行してもよいことに留意するべきである。例えば、スピーチコマンドサービス108は、ユーザ106に代わって情報またはサービスを得るために他のネットワークベースサービスと相互作用してもよい。さらに、スピーチコマンドサービス108は、それ自体、ユーザ106の発話に応答することができる様々な構成要素及び機能を有してもよい。
It should be noted that the
動作時に、オーディオデバイス102のマイクロフォン110は、ユーザ106のスピーチを含むオーディオを捕らえまたは受信する。オーディオは、オーディオ処理コンポーネント120によって処理され、処理されたオーディオは、スピーチ認識コンポーネント122によって受信される。スピーチ認識コンポーネント122は、オーディオに含まれるスピーチでのトリガー表現の発生を検出するオーディオを分析する。トリガー表現を検出すると、コントローラ124は、ユーザスピーチの解釈及び認識するためのスピーチコマンドサービス108の要求に沿ってスピーチコマンドサービス108に受信したオーディオを送信またはストリーミングすること、及びある解釈の意図に対応する機能を開始することを始める。
In operation, the
同時にスピーチコマンドサービス108にオーディオを送信すると、スピーチ認識コンポーネント122は、ユーザスピーチでのローカルコマンド表現の発生を検出するために受信したオーディオを分析し続ける。ローカルコマンド表現の検出の際に、コントローラ124は、ローカルコマンド表現に対応するデバイス機能を開始または実行する。例えば、ローカルコマンド表現「停止」に応答して、コントローラ124は、メディア再生を停止する機能を開始してもよい。コントローラ124は、機能を開始または実行するときに、1またはそれ以上の機能コンポーネント118と相互作用となってもよい。
At the same time, sending audio to the
一方、スピーチコマンドサービス108は、オーディオの受信に応答して、同時に、ユーザの意図に応じて実現されるサービス識別機能を決定するため、及びユーザの意図を決定するために、スピーチを認識するオーディオを解析する。しかしながら、ローカルコマンド表現にローカル的に検出し及び作用した後に、オーディオデバイス102は、最終的にスピーチコマンドサービス108によって開始することができる任意のサービス識別機能をキャンセル、無効、または無効にする措置をとってもよい。例えば、オーディオデバイス102は、スピーチコマンドサービス108にキャンセルメッセージを送信することにより、及び/またはスピーチコマンドサービス108にオーディオのストリーミングを停止することにより、その前の要求をキャンセルしてもよい。他の実施例として、オーディオデバイスは、以前の要求に応じてスピーチコマンドサービス108から受信されたいかなる応答またはサービス指定コマンドを無視または破棄してもよい。いくつかの場合において、オーディオデバイスは、ローカルコマンド表現に応答してローカル的に実行されたアクションのスピーチコマンドサービス108を通知してもよく、及びスピーチコマンドサービス108は、情報に基づいて後続の動作を変更してもよい。例えば、スピーチコマンドサービス108は、そうでなければ受信したオーディオで認識されスピーチに応じて実行している可能性があるアクションを見合わせてもよい。
On the other hand, the
図2は、ユーザスピーチを認識し対応するためにスピーチコマンドサービス108に関連してオーディオデバイス102によって実行されてもよい例示的方法200を示す。方法200は、図1のシステム100の内容で説明され、それにもかかわらず、方法200は、他の環境で実行されてもよいし、及び異なる方法で実施されてもよい。
FIG. 2 illustrates an
図2の左側のアクションは、ローカルオーディオデバイス102で、また、ローカルオーディオデバイス102によって実行される。図2の右側のアクションは、また、リモートスピーチコマンドサービス108で、また、リモートスピーチコマンドサービス108によって実行される。
The actions on the left side of FIG. 2 are performed by and by the
アクション202は、マイクロフォン110に関連し、また、マイクロフォン110によって取り込まれるオーディオ信号を受信することを含む。オーディオ信号は、環境104からオーディオを含み、また、表し、及びユーザスピーチを含んでもよい。オーディオ信号は、アナログ電気信号でもよく、またデジタルオーディオストリームなどのデジタル信号を含んでもよい。
アクション204は、受信したオーディオ及び/またはユーザスピーチでのトリガー表現の発生を検出することを含む。これは、いくつかの実施形態においてキーワードスポッターを含んでいてもよく、上記のようなスピーチ認識コンポーネント122によって実行されてもよい。トリガー表現が検出されない場合に、アクション204は、連続的にトリガー表現の発生を続けてモニターするために繰り返される。図2に示した残りのアクションは、トリガー表現を検出することに応答して行われる。
トリガー表現がアクション204で検出された場合、アクション206は、実行され、オーディオでのスピーチを認識し、及び認識されたスピーチに応じた機能を実現するスピーチコマンドサービス108のためにサービス要求208に沿ってスピーチコマンドサービス108で受信したオーディオに続いて送信することを含む。このようなスピーチコマンドサービス108によって開始される機能は、ここでサービス識別機能として参照され、及び特殊な場合では、オーディオデバイス102に関連して実行されてもよい。例えば、機能は、オーディオデバイス102にコマンドを送ることによって開始されてもよい。
If a trigger expression is detected in
送信206は、ストリーミングまたはスピーチコマンドサービス108へのデジタルオーディオストリーム210の他の送信を含み、トリガー表現の検出に続いてマイクロフォン110から受信されたオーディオを表し、または含んでもよい。特定の実施形態では、アクション206は、オーディオデバイス102及びスピーチコマンドサービス108との間の通信セッションを開くこと、または開始を含んでもよい。具体的には、要求208は、意図を理解し、スピーチ認識の目的のためにスピーチコマンドサービス108との通信セッションを確立するため、及びユーザスピーチに応答して実行されるアクションまたは機能の決定に使用されてもよい。要求208は、ストリームされたオーディオ210によって続くかまたは伴うことがあってもよい。 いくつかの場合では、スピーチコマンドサービス108に提供されたオーディオストリーム210は、トリガー表現の待ち時間の直前において始まる受信したオーディオの部分を含んでもよい。
通信セッションは、オーディオデバイス102及びスピーチコマンドサービス108との間に確立された通信セッションを識別する通信またはセッション識別子(ID)に関連付けてもよい。セッションIDは、特定のユーザ発話、またはオーディオストリームに関連する将来の通信に含まれてもよく、または使用されてもよい。いくつかの場合に、セッションIDは、オーディオデバイス102によって生成され、及びスピーチコマンドサービス108に対する要求208において提供されてもよい。代わりに、セッションIDは、スピーチコマンドサービス108によって生成され、要求208の認諾でのスピーチコマンドサービス108によって提供されてもよい。用語「要求(ID)」は、特定のセッションIDを有する要求を示すためにここで使用される。同じセッション要求またはオーディオストリームに関連するスピーチコマンドサービス108からの応答は、用語「応答(ID)」によって示されてもよい。
The communication session may be associated with a communication or session identifier (ID) that identifies a communication session established between the
特定の実施形態において、各通信セッション及び対応するセッションIDは、単一ユーザの発話に対応してもよい。例えば、オーディオデバイス102は、トリガー表現を検出するとセッションを確立してもよい。オーディオデバイス102は、ユーザの発話の終了まで同じセッションの一部としてスピーチコマンドサービス108にオーディオをストリーミングしそれから続けてもよい。スピーチコマンドサービス108は、同じセッションIDを使用してセッションを介してオーディオデバイス102への応答を提供してもよい。いくつかの場合かもしれない応答は、受信したオーディオ210にスピーチコマンドサービス108によって認識されたスピーチに対応してオーディオデバイス102によって実行されるコマンドを示してもよい。通信セッションは、オーディオデバイス102がスピーチコマンドサービス108からの応答を受信するまで、及びオーディオデバイス102が要求をキャンセルするまで開くことを維持してもよい。
In certain embodiments, each communication session and corresponding session ID may correspond to a single user utterance. For example, the
スピーチコマンドサービス108は、アクション212での要求208及びオーディオストリーム210を受信する。応答において、スピーチコマンドサービス108は、受信したオーディオで認識しスピーチコマンドサービス108のスピーチ認識132及び自然言語理解コンポーネント134を使用して、認識されたスピーチにより表されるようなユーザの意図を決定するというアクション214を実行する。コマンドインタプリタ136によって実行されるアクション214は、決定したユーザ意図を満たすサービス識別機能を識別し及び開始することを含む。サービス識別機能は、いくつかの場合においてオーディオデバイス102の独立したスピーチコマンドサービス108によって実行されてもよい。他の場合において、スピーチコマンドサービス108は、オーディオデバイス102によって実行される機能を識別してもよく、及びオーディオデバイス102による実行のためにオーディオデバイス102に対応するコマンドを送信してもよい。
The
スピーチコマンドサービス108によって実行されるアクションと同時に、ローカルオーディオデバイス102は、ユーザがローカルコマンド表現を発しているかどうか、及びこのような発話ローカルコマンド表現に応じた対応するローカル機能を実行するかどうかを決定するためにさらにアクションを実行する。具体的に、アクション204でトリガー表現を検出することに応答して実行されるアクション218は、続いて、または直ちに続いて受信したユーザスピーチにおけるトリガー表現をローカルコマンド表現の発生を検出するアクション202で受信されたオーディオの分析を含む。これは、上述したようにオーディオデバイス102のスピーチ認識コンポーネント122によって実行されてもよく、いくつかの実施形態においてキーワードスポッターを含んでもよい。
Concurrent with the action performed by the
アクション218でのローカルコマンド表現を検出することに応答して、アクション220では、直ちにローカルコマンド表現と関連付けられているデバイス機能を開始することが行われる。例えば、ローカルコマンド表現の「停止」は、メディア再生を停止する機能に関連付けられているかもしれない。
In response to detecting the local command representation at
また、アクション218でのローカルコマンド表現の検出に応答して、オーディオデバイス102は、スピーチコマンドサービス108に対し要求208を停止またはキャンセルするアクション222を実行する。これは、受信した要求208に応答して及びオーディオ210に伴うスピーチコマンドサービス108によって実現されるかもしれないサービス識別機能の実現をキャンセルすることまたは無効にすることを含んでもよい。
Also, in response to detecting the local command expression at
特定の実施において、アクション222は、スピーチコマンドサービス108への明示的な通知やコマンドを送信すること、スピーチコマンドサービス108は、サービス要求208に対して、任意の更なる認知活動をキャンセルするよう要求すること、及び/またはそうしないと認識されたスピーチに応答して開始されるかもしれないサービス識別機能の実現をキャンセルすることを含んでもよい。代わりに、オーディオデバイス102は、ローカルコマンド表現のローカル認識に応答してローカル的に実行されるどんな機能に関するスピーチコマンドサービス108を単に通知してもよく、及びスピーチコマンドサービス108は、サービス要求208をキャンセルすることによって、または適切である他のアクションの実行によって応答してもよい。
In a specific implementation,
特定の実施において、スピーチコマンドサービス108は、オーディオデバイス102によって実行されるコマンドを識別することによってサービス識別機能を実行してもよい。 サービス要求208がキャンセルされる通知の受信の応答について、スピーチコマンドサービス108は、オーディオデバイス102にコマンドを送信することを見合わせてもよい。代わりとして、スピーチコマンドサービスは、その処理を完了し、及びオーディオデバイス102にコマンドを送信するようにしてもよく、そうするとオーディオデバイス102は、コマンドを無視するか、またはコマンドの実行を見合わせてもよい。
In certain implementations, the
いくつかの実施において、スピーチコマンドサービスは、サービス識別機能を開始する前に、オーディオデバイス102に通知するように構成されてもよく、及びオーディオデバイス102から許可を受信するまでサービス識別機能の実現を遅らせてもよい。この場合、オーディオデバイス102は、ローカルコマンド表現がローカルとして認識されたときに、そのような許可を拒否するように構成されてもよい。
In some implementations, the speech command service may be configured to notify the
上述の様々なアプローチは、コマンド待ち時間の異なる量を求める状況で使用されてもよい。例えば、スピーチコマンドサービスからの通信を待っていることは、比較的高い待ち時間を導入することになり、これはいくつかの状況で受け入れられないかもしれない。このような機能を実現する前の通信は、重複または意図しないアクションに対して防いでもよい。ローカル認識コマンド表現を即時に実現すること、及びスピーチコマンドサービスから後続のコマンドを無視するか、または続いてスピーチコマンドサービスをキャンセルする要求は、より少ない待ち時間が望まれている状況でより適切であるとよい。 The various approaches described above may be used in situations where different amounts of command latency are desired. For example, waiting for communication from the speech command service introduces a relatively high latency, which may not be acceptable in some situations. Communication prior to realizing such a function may be prevented against overlapping or unintended actions. The immediate realization of local recognition command representation and the request to ignore subsequent commands from the speech command service or subsequently cancel the speech command service is more appropriate in situations where less latency is desired. There should be.
図2に示したスピーチコマンドサービス108のアクションは、オーディオデバイス102のアクション218、220及び222と平行及び非同期に行われることに留意するべきである。これは、オーディオデバイス102が比較的迅速にローカルコマンド表現の際の検出し、及び作用することができるいくつかの実現を想定しており、それは要求208をキャンセルするアクション222を実行してもよく、及びアクション216のサービス識別機能の前のスピーチコマンドサービス108によるその後の処理は、実現または実行されている。
It should be noted that the actions of the
図3は、スピーチコマンドサービス108がオーディオデバイス102にコマンドを返し、オーディオデバイス102が、ローカルコマンド表現がオーディオデバイス102により既に検出され行動されている状況においてコマンドを無視し、またはコマンドの実行を見合わせるように構成されている実施例の方法300を示している。最初のアクションは、上述のものと類似、または同一である。オーディオデバイス102によって実行されるアクションは、左側に示され、及びスピーチコマンドサービス108によって実行されるアクションは、右側に示されている。
FIG. 3 illustrates that the
アクション302は、ユーザスピーチを含むオーディオ信号を受信することを含む。アクション304は、ユーザスピーチにおけるトリガー表現を検出するオーディオ信号を分析することを含む。図3に示す後続のアクションは、トリガー表現を検出することに応答して実行される。
アクション306は、スピーチコマンドサービス108に要求308及びオーディオ310を送信することを含む。アクション312は、スピーチコマンドサービス108において要求308及びオーディオ310の受信を含む。アクション314は、認識されたユーザスピーチに基づきユーザスピーチを認識すること及びユーザの意図を決定することを含む。
決定されたユーザの意図に応じて、スピーチコマンドサービス108は、認識されたユーザの意図に対応したサービス識別機能を実現するために、オーディオデバイス102による実行のためにオーディオデバイス102に送信するコマンド318のアクション316を実行する。例えば、コマンドは、オーディオデバイス102が、音楽の再生を停止することを示している「停止」コマンドを含んでもよい。
In response to the determined user intention, the
オーディオデバイス102によって実行されるアクション320は、コマンドを受信すること、及び実行することを含む。アクション320は、ローカルコマンド表現がオーディオデバイス102により検出され及び行動されているかどうかに基づき、それが条件付きで実行されることを示すために破線のボックスで示される。具体的に、ローカルコマンド表現がオーディオデバイス102により検出された場合、アクション320が実行されない。
スピーチコマンドサービス108によって実行されるアクションと並行して、オーディオデバイス102は、受信したユーザスピーチでのトリガー表現に続く、またはすぐに続くローカルコマンド表現の発生を検出するオーディオ受信解析のアクション322を実行する。ローカルコマンドの表現を検出することに応答して、アクション324は、ローカルコマンド表現と関連付けられているローカルデバイス機能を開始することが直ちに行われる。
In parallel with the actions performed by the
また、アクション322で、ローカルコマンド表現の検出に応答して、オーディオデバイス102は、受信したコマンド318の見合わせる実行をアクション326で行う。より具体的には、要求308に応答してスピーチコマンドサービス108から受信したコマンドは、破棄または無視される。要求308に対応する応答及びコマンドは、応答に関連付けられたセッションIDによって識別されてもよい。
Also, in response to the detection of the local command expression in
ローカルコマンド表現が、アクション322で検出されないならば、オーディオデバイスは、スピーチコマンドサービス108から受信して実行しているコマンド318のアクション320を行う。
If no local command representation is detected at
図4は、オーディオデバイス102が、ローカルコマンド表現をローカル的に検出した後に、スピーチコマンドサービス108への要求を積極的にキャンセルするように構成されている実施例の方法400を示している。最初のアクションは、上述のこれらのものと類似または同一である。オーディオデバイス102によって実行されるアクションは、左側に表示され、及びスピーチコマンドサービス108によって実行されるアクションは、右側に示されている。
FIG. 4 illustrates an
アクション402は、ユーザスピーチを含むオーディオ信号を受信することを含む。アクション404は、ユーザスピーチにおけるトリガー表現を検出するオーディオ信号を分析することを含む。図4に示す後続のアクションは、トリガー表現の検出に応答して実行される。
アクション406は、スピーチコマンドサービス108に要求408及びオーディオ410を送信することを含む。アクション412は、スピーチコマンドサービス108での要求408及びオーディオ410を受信することを含む。アクション414は、認識されたユーザスピーチに基づいてユーザスピーチを認識すること及びユーザの意図を決定することを含む。
アクション416は、要求408がオーディオデバイス102によってキャンセルされたかどうかを決定することを含む。一例として、オーディオデバイス102は、キャンセルメッセージを送信してもよく、または要求をキャンセルするために現在の通信セッションを終了してもよい。要求が、オーディオデバイス102によってキャンセルされたならば、それ以上のアクションは、スピーチコマンドサービスによって取得されない。要求がキャンセルされていないならば、アクション418は実行され、それは認識されたユーザの意図に対応したサービス識別機能を実現するためにオーディオデバイス102による実行のためにオーディオデバイス102にコマンド420を送信することを含む。
オーディオデバイス102によって実行されるアクション422は、コマンドを受信すること及び実行することを含む。アクション422は、スピーチコマンドサービス108からコマンドが送信され及び受信されたかどうかによって依存し、それは次にオーディオデバイス102が、要求408をキャンセルしたかどうかによって依存する条件付きで実行されることを表すために破線ボックスで示されている。
スピーチコマンドサービス108によって実行されるアクションと並行して、オーディオデバイス102は、受信したユーザスピーチでのトリガー表現に続く、またはすぐに続くローカルコマンド表現の発生を検出するオーディオ受信解析のアクション424を実行する。ローカルコマンドの表現を検出することに応答して、アクション426は、ローカルコマンド表現と関連付けられているローカルデバイス機能を開始することが直ちに行われる。
In parallel with the actions performed by the
また、アクション424でローカルコマンド表現の検出に応答して、オーディオデバイス102は、スピーチコマンドサービス108に、要求408をキャンセルする及び/またはオーディオデバイス102からスピーチコマンドサービス108によって受信したオーディオに認識したスピーチに応答して実行されてもよい、いかなるサービス識別機能の実施をキャンセルすることを要求するアクション428を実行する。これは、通知または要求のキャンセルを送信することにより、このようなスピーチコマンドサービス108との通信を含んでもよい。
Also, in response to detecting the local command representation at
いくつかの場合において、キャンセルは、スピーチコマンドによるサービス識別機能の保留する実現のスピーチコマンドサービス108からの通信または通知に対する返事を含んでもよい。このような通知を受信することに応答して、オーディオデバイス102は、返信してもよく、及び保留している実現のキャンセルを要求してもよい。代わりに、オーディオデバイス102は、そうでなければローカルコマンド表現の検出に応答して実行されたかもしれないどんな機能の実現をキャンセルしてもよく、及び保留中の機能の実現を進めるためにスピーチコマンドサービス108に命令してもよい。
In some cases, the cancellation may include a reply to a communication or notification from the
もしローカルコマンド表現が、アクション424で検出されなかったら、オーディオデバイス102は、スピーチコマンドサービス108から受信したコマンド420の実行のアクション422を実行する。アクション422は、スピーチコマンドサービスからコマンド420を受信すると、非同期として発生するかもしれない。
If no local command representation is detected at
上述の実施形態は、コンピュータ、プロセッサ、デジタル信号プロセッサ、アナログプロセッサなどのようなプログラムで実現されてもよい。他の実施形態において、しかしながら、コンポーネント、機能、または要素の1またはそれ以上は、アナログ回路及び/またはデジタル論理回路を含む特殊なまたは専用の回路を用いて実現されてもよい。ここで使用される用語「コンポーネント」は、コンポーネントに起因する機能を実現するために使用されるいかなるハードウェア、ソフトウェア、ロジック、または前述の組み合わせを含むことを意図している。 The above-described embodiments may be realized by a program such as a computer, a processor, a digital signal processor, an analog processor, and the like. In other embodiments, however, one or more of the components, functions, or elements may be implemented using special or dedicated circuitry including analog circuitry and / or digital logic circuitry. The term “component” as used herein is intended to include any hardware, software, logic, or combination of the foregoing that is used to implement the functionality attributable to the component.
主題は、構造的特徴の特定の文言で記載されているが、添付の特許請求の範囲で定義される主題は必ずしも記載されている特定の特徴に限定されるものではないことは理解されるべきである。むしろ、特定の特徴は、特許請求の範囲を実施する形態として開示されている。 Although the subject matter is described in specific language for structural features, it is to be understood that the subject matter defined in the appended claims is not necessarily limited to the specific features described. It is. Rather, the specific features are disclosed as forms of implementing the claims.
条項
1. コンピュータ実行可能命令を記憶した1つまたは複数の非一時的なコンピュータ読取り可能なメディアであって、前記コンピュータ実行可能命令は実行されると、1つまたは複数のプロセッサに、ユーザスピーチを含むオーディオを受信することと、前記ユーザスピーチでトリガー表現を検出することと、前記ユーザスピーチで前記トリガー表現の検出に応答して、リモートスピーチコマンドサービスに前記受信したオーディオをストリーミングし、前記受信したオーディオを分析して、前記ユーザスピーチでの前記トリガー表現に続くデバイス機能に関連付けられたローカルコマンド表現を検出することと、前記ユーザスピーチでの前記トリガー表現に続く前記ローカルコマンド表現の検出に応答して、前記デバイス機能を開始することと、前記リモートスピーチコマンドサービスから応答を受信することであり、前記応答は、前記ストリーミングされたオーディオでの前記リモートスピーチコマンドサービスによって認識されたスピーチに応答して実行されるコマンドを示す、ことと、前記ローカルコマンド表現が前記ユーザスピーチでの前記トリガー表現に続いて検出されない場合に、前記応答によって示された前記コマンドを実行することと、前記ローカルコマンド表現が前記ユーザスピーチでの前記トリガー表現に続いて検出される場合に、前記応答によって示された前記コマンドの実行を見合わせることと、
を含む動作を実行させる、1つまたは複数の非一時的なコンピュータ読取り可能なメディア。
One or more non-transitory computer readable media that cause an operation comprising:
2. 前記ストリーミングは通信識別子に関連付けられており、前記応答は前記通信識別子を示す、条項1に記載の1つまたは複数のコンピュータ読取り可能なメディア。
2. The one or more computer-readable media of
3. 前記デバイス機能はメディア制御機能を含む、条項1に記載の1つまたは複数のコンピュータ読取り可能なメディア。
3. The one or more computer-readable media of
4. 前記動作は、前記コマンド表現の検出に応答して、前記受信したオーディオの前記ストリーミングを中止することをさらに含む、条項1に記載の1つまたは複数のコンピュータ読取り可能なメディア。
4). The one or more computer-readable media of
5. ユーザスピーチを含むオーディオを受信することと、前記ユーザスピーチでのトリガー表現を検出することと、前記ユーザスピーチでの前記トリガー表現の検出に応答して、前記受信したオーディオでのスピーチを認識して前記認識したスピーチに対応する第1の機能を実行するために、スピーチコマンドサービスに前記受信したオーディオを送信し、前記受信したオーディオを分析し、前記受信したオーディオでの前記トリガー表現に続く第2の機能に関連付けられたローカルコマンド表現を検出することと、前記受信したオーディオでの前記トリガー表現に続く前記ローカルコマンド表現の検出に応答して、前記第2の機能を開始し、前記第1の機能の実行をキャンセルすること
を含む方法。
5. Receiving audio including user speech; detecting a trigger expression in the user speech; and recognizing the speech in the received audio in response to detection of the trigger expression in the user speech. To perform the first function corresponding to the recognized speech, send the received audio to a speech command service, analyze the received audio, and follow the trigger expression on the received audio. In response to detecting a local command expression associated with the function of the first command and detecting the local command expression following the trigger expression in the received audio, and initiating the second function, A method that includes canceling execution of a function.
6. 前記第1の機能の実行をキャンセルすることは、前記第1の機能の実行をキャンセルするように前記スピーチコマンドサービスに要求することを含む、条項5に記載の方法。 6). 6. The method of clause 5, wherein canceling execution of the first function comprises requesting the speech command service to cancel execution of the first function.
7. 前記スピーチコマンドサービスから前記第1の機能の保留中の実行を示す通信を受信することをさらに含み、前記第1の機能の実行をキャンセルすることは、前記第1の機能の前記保留中の実行をキャンセルするように、前記スピーチコマンドサービスに要求することを含む、条項5に記載の方法。 7). Receiving further communication indicating the pending execution of the first function from the speech command service, wherein canceling the execution of the first function is the pending execution of the first function; 6. The method of clause 5, comprising requesting the speech command service to cancel.
8. 前記スピーチコマンドサービスから前記第1の機能に対応するコマンドを受信することをさらに含み、前記第1の機能の実行をキャンセルすることは、前記スピーチコマンドサービスから前記受信したコマンドの実行を見合わせることを含む、条項5に記載の方法。 8). The method further includes receiving a command corresponding to the first function from the speech command service, and canceling execution of the first function is to suspend execution of the received command from the speech command service. The method of clause 5, including.
9. 前記第2の機能が開始されたことを前記スピーチコマンドサービスを通知することをさらに含む、条項5に記載の方法。 9. 6. The method of clause 5, further comprising notifying the speech command service that the second function has been initiated.
10. 前記第1の機能の実行をキャンセルすることは、前記第2の機能が開始されたことを前記スピーチコマンドサービスに通知することを含む、条項5に記載の方法。 10. 6. The method of clause 5, wherein canceling execution of the first function includes notifying the speech command service that the second function has been initiated.
11. 前記第2の機能は、メディア制御機能を含む、条項5に記載の方法。 11. 6. The method of clause 5, wherein the second function includes a media control function.
12. 前記オーディオでの前記トリガー表現を検出することに応答して、前記スピーチコマンドサービスと通信セッションを確立することをさらに含み、前記第1の機能の実行をキャンセルすることは前記通信セッションの停止を含む、条項5に記載の方法。 12 In response to detecting the trigger representation in the audio, further comprising establishing a communication session with the speech command service, and canceling execution of the first function includes stopping the communication session. The method according to clause 5.
13. 前記受信したオーディオに識別子を関連付けることと、
前記スピーチコマンドサービスから、前記識別子及び前記第1の機能に対応するコマンドを示す応答を受信することをさらに含み、前記第1の機能の実行をキャンセルすることは、前記コマンドの実行を見合わせることを含む、条項5に記載の方法。
13. Associating an identifier with the received audio;
Receiving a response indicating the identifier and a command corresponding to the first function from the speech command service, and canceling the execution of the first function is to suspend execution of the command. The method of clause 5, including.
14. 受信したオーディオでのユーザスピーチを認識し、前記ユーザスピーチでのトリガー表現を検出し、前記ユーザスピーチでのローカルコマンド表現を検出するように構成された1つまたは複数のスピーチ認識コンポーネントと、前記1またはそれ以上のスピーチ認識コンポーネントによって、前記ユーザスピーチでの前記トリガー表現を検出することに応答して、動作を行うよう構成された制御ロジックと
を備えたシステムであって、前記動作は、前記オーディオでのスピーチを認識し前記認識されたスピーチに対応する第1の機能を実行するために、スピーチコマンドサービスに前記オーディオを送信することと、前記1つまたは複数のスピーチ認識コンポーネントによる、前記ユーザスピーチでの前記ローカルコマンド表現の検出に応答して、(a)前記ローカルコマンド表現に対応する第2の機能を特定すること及び(b)前記第1及び第2の機能の少なくとも1つの実行をキャンセルすることと、
を含む、システム。
14 One or more speech recognition components configured to recognize user speech in received audio, detect a trigger expression in the user speech, and detect a local command expression in the user speech; and Control logic configured to perform an action in response to detecting the trigger expression in the user speech by or more speech recognition components, the action comprising the audio Transmitting the audio to a speech command service for recognizing speech and performing a first function corresponding to the recognized speech, and the user speech by the one or more speech recognition components Responds to detection of local command expression in Te, and to cancel at least one execution of (a) the local command that identifies a second function corresponding to the representation and (b) said first and second functions,
Including the system.
15. 前記1つまたは複数のスピーチ認識コンポーネントは、1つまたは複数のキーワードスポッターを含む、条項14に記載のシステム。 15. 15. The system of clause 14, wherein the one or more speech recognition components includes one or more keyword spotters.
16. 前記第1及び第2の機能の前記少なくとも1つの実行をキャンセルすることは、前記第1の機能の実行をキャンセルするように前記スピーチコマンドサービスに要求することを含む、条項14に記載のシステム。 16. 15. The system of clause 14, wherein canceling the at least one execution of the first and second functions includes requesting the speech command service to cancel execution of the first function.
17. 前記第1及び第2の機能の前記少なくとも1つの実行をキャンセルすることは、前記スピーチコマンドサービスから受信したコマンドを無視することを含む、条項14に記載のシステム。 17. 15. The system of clause 14, wherein canceling the at least one execution of the first and second functions includes ignoring a command received from the speech command service.
18. 前記第2の機能はメディア制御機能を含む、条項14に記載のシステム。 18. 15. The system of clause 14, wherein the second function includes a media control function.
19. 前記動作は、前記ユーザスピーチでの前記ローカルコマンド表現の検出に応答して前記オーディオの送信することを中止することをさらに含む、条項14に記載のシステム。 19. 15. The system of clause 14, wherein the operation further comprises stopping transmitting the audio in response to detecting the local command representation in the user speech.
20. 前記第1及び第2の機能の前記少なくとも1つの実行をキャンセルすることは、前記第2の機能が開始されたことを前記スピーチコマンドサービスを通知することを含む、条項14に記載のシステム。 20. 15. The system of clause 14, wherein canceling the at least one execution of the first and second functions includes notifying the speech command service that the second function has been initiated.
Claims (15)
ユーザスピーチを含むオーディオを受信することと、
前記ユーザスピーチでトリガー表現を検出することと、
前記ユーザスピーチで前記トリガー表現の検出に応答して、
リモートスピーチコマンドサービスに前記受信したオーディオをストリーミングし、
前記受信したオーディオを分析して、前記ユーザスピーチでの前記トリガー表現に続くデバイス機能に関連付けられたローカルコマンド表現を検出することと、
前記ユーザスピーチでの前記トリガー表現に続く前記ローカルコマンド表現の検出に応答して、前記デバイス機能を開始することと、
前記リモートスピーチコマンドサービスから応答を受信することであり、前記応答は、前記ストリーミングされたオーディオでの前記リモートスピーチコマンドサービスによって認識されたスピーチに応答して実行されるコマンドを示す、ことと、
前記ローカルコマンド表現が前記ユーザスピーチでの前記トリガー表現に続いて検出されない場合に、前記応答によって示された前記コマンドを実行することと、
前記ローカルコマンド表現が前記ユーザスピーチでの前記トリガー表現に続いて検出される場合に、前記応答によって示された前記コマンドの実行を見合わせることと、
を含む動作を実行させる、デバイス。 A device having computer-executable instructions stored therein, wherein when the computer-executable instructions are executed, the one or more processors of the device include:
Receiving audio including user speech;
Detecting a trigger expression in the user speech;
In response to detecting the trigger expression in the user speech,
Streaming the received audio to a remote speech command service;
Analyzing the received audio to detect a local command expression associated with a device function following the trigger expression in the user speech;
In response to detecting the local command expression following the trigger expression in the user speech, initiating the device function;
Receiving a response from the remote speech command service, wherein the response indicates a command to be executed in response to speech recognized by the remote speech command service on the streamed audio;
Executing the command indicated by the response if the local command expression is not detected following the trigger expression in the user speech;
Suspending execution of the command indicated by the response if the local command expression is detected following the trigger expression in the user speech;
A device that performs operations including
前記ユーザスピーチでのトリガー表現を検出することと、
前記ユーザスピーチでの前記トリガー表現の検出に応答して、
前記受信したオーディオでのスピーチを認識して前記認識したスピーチに対応する第1の機能を実行するために、スピーチコマンドサービスに前記受信したオーディオを送信し、
前記受信したオーディオを分析し、前記受信したオーディオでの前記トリガー表現に続く第2の機能に関連付けられたローカルコマンド表現を検出することと、
前記受信したオーディオでの前記トリガー表現に続く前記ローカルコマンド表現の検出に応答して、
前記第2の機能を開始し、
前記第1の機能の実行をキャンセルすること
を含む方法。 Receiving audio including user speech;
Detecting a trigger expression in the user speech;
In response to detecting the trigger expression in the user speech,
Transmitting the received audio to a speech command service to recognize the speech in the received audio and perform a first function corresponding to the recognized speech;
Analyzing the received audio and detecting a local command expression associated with a second function following the trigger expression in the received audio;
In response to detecting the local command expression following the trigger expression in the received audio,
Starting the second function,
Canceling execution of the first function.
前記第1の機能の実行をキャンセルすることは、前記第1の機能の前記保留中の実行をキャンセルするように、前記スピーチコマンドサービスに要求することを含む、請求項5に記載の方法。 Further comprising receiving a communication indicating pending execution of the first function from the speech command service;
The method of claim 5, wherein canceling execution of the first function comprises requesting the speech command service to cancel the pending execution of the first function.
前記スピーチコマンドサービスから、前記識別子及び前記第1の機能に対応するコマンドを示す応答を受信すること
をさらに含み、
前記第1の機能の実行をキャンセルすることは、前記コマンドの実行を見合わせることを含む、請求項5に記載の方法。 Associating an identifier with the received audio;
Further comprising receiving from the speech command service a response indicating the identifier and a command corresponding to the first function;
The method of claim 5, wherein canceling execution of the first function includes suspending execution of the command.
前記1またはそれ以上のスピーチ認識コンポーネントによって、前記ユーザスピーチでの前記トリガー表現を検出することに応答して、動作を行うよう構成された制御ロジックと
を備えたシステムであって、
前記動作は、
前記オーディオでのスピーチを認識し前記認識されたスピーチに対応する第1の機能を実行するために、スピーチコマンドサービスに前記オーディオを送信することと、
前記1つまたは複数のスピーチ認識コンポーネントによる、前記ユーザスピーチでの前記ローカルコマンド表現の検出に応答して、(a)前記ローカルコマンド表現に対応する第2の機能を特定すること及び(b)前記第1及び第2の機能の少なくとも1つの実行をキャンセルすることと、
を含む、システム。 One or more speech recognition components configured to recognize user speech in received audio, detect a trigger expression in the user speech, and detect a local command expression in the user speech;
Control logic configured to perform an action in response to detecting the trigger expression in the user speech by the one or more speech recognition components;
The operation is
Transmitting the audio to a speech command service to recognize speech in the audio and to perform a first function corresponding to the recognized speech;
Responsive to detection of the local command representation in the user speech by the one or more speech recognition components, (a) identifying a second function corresponding to the local command representation; and (b) the Canceling at least one execution of the first and second functions;
Including the system.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201314033302A | 2013-09-20 | 2013-09-20 | |
| US14/033,302 | 2013-09-20 | ||
| PCT/US2014/054700 WO2015041892A1 (en) | 2013-09-20 | 2014-09-09 | Local and remote speech processing |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2016531375A true JP2016531375A (en) | 2016-10-06 |
Family
ID=52689281
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016543926A Pending JP2016531375A (en) | 2013-09-20 | 2014-09-09 | Local and remote speech processing |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP3047481A4 (en) |
| JP (1) | JP2016531375A (en) |
| CN (1) | CN105793923A (en) |
| WO (1) | WO2015041892A1 (en) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019026313A1 (en) * | 2017-08-02 | 2019-02-07 | パナソニックIpマネジメント株式会社 | Information processing device, speech recognition system, and information processing method |
| JP2019050554A (en) * | 2017-07-05 | 2019-03-28 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Method and apparatus for providing voice service |
| US11062705B2 (en) | 2018-07-18 | 2021-07-13 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
| JP2021140088A (en) * | 2020-03-06 | 2021-09-16 | アルパイン株式会社 | Data processing system |
| JP2024156837A (en) * | 2019-05-06 | 2024-11-06 | グーグル エルエルシー | Proactive caching of assistant action content on a client device to enable on-device analysis of spoken or typed utterances |
Families Citing this family (156)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
| AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
| US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
| US9966073B2 (en) | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
| US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
| US9870196B2 (en) * | 2015-05-27 | 2018-01-16 | Google Llc | Selective aborting of online processing of voice inputs in a voice-enabled electronic device |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
| US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) * | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
| US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
| CA3052978A1 (en) * | 2017-02-07 | 2018-08-16 | Lutron Technology Company Llc | Audio-based load control system |
| US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
| DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | User interface for correcting recognition errors |
| US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
| DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
| DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | Low-latency intelligent automated assistant |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
| US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
| DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | Far-field extension for digital assistant services |
| US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
| US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
| US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
| CN107146618A (en) * | 2017-06-16 | 2017-09-08 | 北京云知声信息技术有限公司 | Method of speech processing and device |
| US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
| US10455322B2 (en) | 2017-08-18 | 2019-10-22 | Roku, Inc. | Remote control with presence sensor |
| US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
| US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
| US10777197B2 (en) | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
| US10515637B1 (en) | 2017-09-19 | 2019-12-24 | Amazon Technologies, Inc. | Dynamic speech processing |
| US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
| US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
| US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
| US10713007B2 (en) * | 2017-12-12 | 2020-07-14 | Amazon Technologies, Inc. | Architecture for a hub configured to control a second device while a connection to a remote system is unavailable |
| WO2019122412A1 (en) | 2017-12-22 | 2019-06-27 | Resmed Sensor Technologies Limited | Apparatus, system, and method for health and medical sensing |
| KR102649497B1 (en) | 2017-12-22 | 2024-03-20 | 레스메드 센서 테크놀로지스 리미티드 | Apparatus, system, and method for physiological sensing in vehicles |
| WO2019122413A1 (en) | 2017-12-22 | 2019-06-27 | Resmed Sensor Technologies Limited | Apparatus, system, and method for motion sensing |
| US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
| US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
| US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
| US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
| US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
| CN108320749A (en) * | 2018-03-14 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | Far field voice control device and far field speech control system |
| US10984799B2 (en) * | 2018-03-23 | 2021-04-20 | Amazon Technologies, Inc. | Hybrid speech interface device |
| US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
| US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
| US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
| US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
| US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
| DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | Virtual assistant operation in multi-device environments |
| US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
| US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
| US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
| US11373645B1 (en) * | 2018-06-18 | 2022-06-28 | Amazon Technologies, Inc. | Updating personalized data on a speech interface device |
| WO2020005241A1 (en) * | 2018-06-27 | 2020-01-02 | Google Llc | Rendering responses to a spoken utterance of a user utilizing a local text-response map |
| US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
| US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
| US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
| US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
| US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
| WO2020096218A1 (en) * | 2018-11-05 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
| US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
| US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
| US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
| US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
| US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
| US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
| DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
| US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
| US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
| US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
| DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
| DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
| US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
| US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
| US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
| US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
| US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
| US12301635B2 (en) | 2020-05-11 | 2025-05-13 | Apple Inc. | Digital assistant hardware abstraction |
| US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
| US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
| US12197857B2 (en) | 2021-04-15 | 2025-01-14 | Apple Inc. | Digital assistant handling of personal requests |
| US12126665B2 (en) * | 2021-07-15 | 2024-10-22 | Arris Enterprises Llc | Command services manager for secure sharing of commands to registered agents |
Citations (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58208799A (en) * | 1982-05-28 | 1983-12-05 | トヨタ自動車株式会社 | Voice recognition method for vehicles |
| JP2001005492A (en) * | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | Voice recognition method and voice recognition device |
| JP2002540477A (en) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Client-server speech recognition |
| JP2006011066A (en) * | 2004-06-25 | 2006-01-12 | Nec Corp | Voice recognition/synthesis system, synchronous control method, synchronous control program and synchronous controller |
| US20070258418A1 (en) * | 2006-05-03 | 2007-11-08 | Sprint Spectrum L.P. | Method and system for controlling streaming of media to wireless communication devices |
| JP2008205896A (en) * | 2007-02-21 | 2008-09-04 | Yamaha Corp | Sound emitting and picking up device |
| JP2008276387A (en) * | 2007-04-26 | 2008-11-13 | Hitachi Ltd | Control device, information providing method, and information providing program |
| JP2010217628A (en) * | 2009-03-18 | 2010-09-30 | Kddi Corp | Speech recognition processing method and system, for inputting text by voice |
| JP2011527030A (en) * | 2008-07-02 | 2011-10-20 | グーグル・インコーポレーテッド | Speech recognition using parallel recognition tasks. |
| JP2012501481A (en) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | Distributed speech recognition using one-way communication |
| US20120179463A1 (en) * | 2011-01-07 | 2012-07-12 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
| US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
| JP2013064777A (en) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | Terminal device, voice recognition program, voice recognition method and voice recognition system |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2003272210A1 (en) * | 2002-08-16 | 2004-03-03 | Nuasis Corporation | Automatic management of the visual space while performing a task |
| KR100521154B1 (en) * | 2004-02-03 | 2005-10-12 | 삼성전자주식회사 | Apparatus and method processing call in voice/data integration switching system |
| US9848086B2 (en) * | 2004-02-23 | 2017-12-19 | Nokia Technologies Oy | Methods, apparatus and computer program products for dispatching and prioritizing communication of generic-recipient messages to recipients |
| CN1728750B (en) * | 2004-07-27 | 2012-07-18 | 邓里文 | Method of packet voice communication |
| US8090077B2 (en) * | 2007-04-02 | 2012-01-03 | Microsoft Corporation | Testing acoustic echo cancellation and interference in VoIP telephones |
| CN101246687A (en) * | 2008-03-20 | 2008-08-20 | 北京航空航天大学 | An intelligent voice interaction system and interaction method |
| US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
| US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
-
2014
- 2014-09-09 WO PCT/US2014/054700 patent/WO2015041892A1/en not_active Ceased
- 2014-09-09 JP JP2016543926A patent/JP2016531375A/en active Pending
- 2014-09-09 CN CN201480050711.8A patent/CN105793923A/en active Pending
- 2014-09-09 EP EP14846698.0A patent/EP3047481A4/en not_active Withdrawn
Patent Citations (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58208799A (en) * | 1982-05-28 | 1983-12-05 | トヨタ自動車株式会社 | Voice recognition method for vehicles |
| JP2002540477A (en) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Client-server speech recognition |
| JP2001005492A (en) * | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | Voice recognition method and voice recognition device |
| JP2006011066A (en) * | 2004-06-25 | 2006-01-12 | Nec Corp | Voice recognition/synthesis system, synchronous control method, synchronous control program and synchronous controller |
| US20070258418A1 (en) * | 2006-05-03 | 2007-11-08 | Sprint Spectrum L.P. | Method and system for controlling streaming of media to wireless communication devices |
| JP2008205896A (en) * | 2007-02-21 | 2008-09-04 | Yamaha Corp | Sound emitting and picking up device |
| JP2008276387A (en) * | 2007-04-26 | 2008-11-13 | Hitachi Ltd | Control device, information providing method, and information providing program |
| JP2011527030A (en) * | 2008-07-02 | 2011-10-20 | グーグル・インコーポレーテッド | Speech recognition using parallel recognition tasks. |
| JP2012501481A (en) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | Distributed speech recognition using one-way communication |
| JP2010217628A (en) * | 2009-03-18 | 2010-09-30 | Kddi Corp | Speech recognition processing method and system, for inputting text by voice |
| US20120179463A1 (en) * | 2011-01-07 | 2012-07-12 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
| JP2013064777A (en) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | Terminal device, voice recognition program, voice recognition method and voice recognition system |
| US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019050554A (en) * | 2017-07-05 | 2019-03-28 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Method and apparatus for providing voice service |
| WO2019026313A1 (en) * | 2017-08-02 | 2019-02-07 | パナソニックIpマネジメント株式会社 | Information processing device, speech recognition system, and information processing method |
| CN109601017A (en) * | 2017-08-02 | 2019-04-09 | 松下知识产权经营株式会社 | Information processing unit, sound recognition system and information processing method |
| JPWO2019026313A1 (en) * | 2017-08-02 | 2020-05-28 | パナソニックIpマネジメント株式会社 | Information processing apparatus, voice recognition system, and information processing method |
| CN109601017B (en) * | 2017-08-02 | 2024-05-03 | 松下知识产权经营株式会社 | Information processing apparatus, voice recognition system, and information processing method |
| US11062705B2 (en) | 2018-07-18 | 2021-07-13 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
| JP2024156837A (en) * | 2019-05-06 | 2024-11-06 | グーグル エルエルシー | Proactive caching of assistant action content on a client device to enable on-device analysis of spoken or typed utterances |
| JP7747834B2 (en) | 2019-05-06 | 2025-10-01 | グーグル エルエルシー | Proactive caching of assistant action content on client devices to enable on-device analysis of spoken or typed utterances |
| JP2021140088A (en) * | 2020-03-06 | 2021-09-16 | アルパイン株式会社 | Data processing system |
| JP7451033B2 (en) | 2020-03-06 | 2024-03-18 | アルパイン株式会社 | data processing system |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2015041892A1 (en) | 2015-03-26 |
| EP3047481A1 (en) | 2016-07-27 |
| CN105793923A (en) | 2016-07-20 |
| EP3047481A4 (en) | 2017-03-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2016531375A (en) | Local and remote speech processing | |
| US11600271B2 (en) | Detecting self-generated wake expressions | |
| CN108351872B (en) | Method and system for responding to user speech | |
| US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
| US11949818B1 (en) | Selecting user device during communications session | |
| US12125483B1 (en) | Determining device groups | |
| CN111344780B (en) | Context-based device arbitration | |
| CN107004411B (en) | Voice application architecture | |
| KR20190075800A (en) | Intelligent personal assistant interface system | |
| US11763819B1 (en) | Audio encryption | |
| US10923122B1 (en) | Pausing automatic speech recognition | |
| US12020707B2 (en) | Response orchestrator for natural language interface | |
| EP4423742B1 (en) | Warm word arbitration between automated assistant devices | |
| US12106755B2 (en) | Warm word arbitration between automated assistant devices |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160316 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170126 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170207 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170508 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170707 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170807 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180305 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180710 |