JP2018129678A - 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム - Google Patents
情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム Download PDFInfo
- Publication number
- JP2018129678A JP2018129678A JP2017021534A JP2017021534A JP2018129678A JP 2018129678 A JP2018129678 A JP 2018129678A JP 2017021534 A JP2017021534 A JP 2017021534A JP 2017021534 A JP2017021534 A JP 2017021534A JP 2018129678 A JP2018129678 A JP 2018129678A
- Authority
- JP
- Japan
- Prior art keywords
- mode
- information processing
- processing apparatus
- voice
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手の良い情報処理装置、そのマイク使用方法、およびコンピュータが実行するためのプログラムを提供すること。【解決手段】複数のマイクを備えた情報処理装置であって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定手段と、前記モード設定手段で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理手段と、前記音声処理手段で信号処理された音を音声認識して、音声アシストを行う音声アシスタント手段と、を備えている。【選択図】図3
Description
本発明は、情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラムに関する。
近時、ノートPC、スマートフォン、タブレット等の情報処理装置では、「Cortana」、「Siri」、「OK Google」、「しゃべってコンシェル」等の音声アシスタント機能を使用する人も増加している。かかる音声アシスタントは、情報処理装置がユーザの発話を解釈し、音声で指示された各種操作を実行する機能のことである。音声アシスタントは、一般的に、音声認識や自然言語処理などの技術を駆使してユーザの話した内容を解釈する。
情報処理装置では、複数のマイクを備えるものが多い。複数のマイクは、VOIPや音声アシスタントで使用される頻度が高い。情報処理装置では、複数のマイクを使用する場合に、ビームフォーミング処理を行ってノイズキャンセルを行うものもあり、このビームフォーミングは、デフォルトで有効に設定されている場合が多い。かかるビームフォーミングでは、まず、複数のマイクを利用し、指定角度での各マイクへの音声到達時間のずれを計算して補正することで、指定角度の音声を抽出する。
しかしながら、例えば、ユーザは情報処理装置に手が届かない、少し離れた場所にいる場合に音声アシスタントを使用したい場合がある。より具体的には、例えば、ユーザは情報処理装置から離れたところから、音声アシスタントに「今日は傘が必要か?」と質問して、回答を求める場合がある。他方、音声アシスタントは、ユーザが発話する必要があるため、一般に周囲に人が大勢いるところでは、恥ずかしかったり、他人の迷惑になるため、使用されない場合が多い。そのため、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手の良いシステムが望まれる。
本発明は、上記に鑑みてなされたものであって、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手の良い情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、複数のマイクを備えた情報処理装置であって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定手段と、前記複数のマイクから入力される音に対して信号処理を行う音声処理手段と、前記音声処理手段で信号処理された音を音声認識して、音声アシストを行う音声アシスタント手段と、を備え、前記複数のモードは指向性がある第1のモードと、指向性がない第2のモードと、を含むことを特徴とする。
また、本発明の好ましい態様によれば、前記モード設定手段は、前記第1のモードが設定されている場合に、前記情報処理装置がアイドル状態となった場合には、前記第2のモードを設定することが望ましい。
また、本発明の好ましい態様によれば、前記モード設定手段は、前記第2のモードが設定されている場合に、周囲の音源が複数の場合は、前記第1のモードを設定することが望ましい。
また、本発明の好ましい態様によれば、前記モード設定手段は、前記第2のモードが設定されている場合に、周囲の音源が1つの場合は、スピーカの音量を当該音源よりも大きく設定し、前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことが望ましい。
また、本発明の好ましい態様によれば、前記モード設定手段は、前記第2のモードが設定されている場合に、周囲がサイレントな場合は、当該第2のモードを維持し、前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことが望ましい。
また、本発明の好ましい態様によれば、前記第1のモードは、前記複数のマイクから入力される音のうち、前記情報処理装置に対して正面方向の音のみを抽出するビームフォーミング処理を行うモードであることが望ましい。
また、本発明の好ましい態様によれば、前記第2のモードは、前記第1のモードよりも前記複数のマイクの感度を高く設定し、前記情報処理装置に対して全方向の音を広範囲に集音するモードであることが望ましい。
また、本発明の好ましい態様によれば、前記第2のモードは、前記情報処理装置に対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うモードであることが望ましい。
また、本発明の好ましい態様によれば、前記モード設定手段は、デフォルトで前記第1のモードを設定することが望ましい。
また、本発明の好ましい態様によれば、前記情報処理装置は、ノート型PCであることが望ましい。
また、上述した課題を解決し、目的を達成するために、本発明は、複数のマイクを備えた情報処理装置のマイク使用方法であって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定工程と、前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、を含むことを特徴とする。
また、上述した課題を解決し、目的を達成するために、本発明は、複数のマイクを備えた情報処理装置に搭載されるプログラムであって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定工程と、前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、をコンピュータに実行させることを特徴とする。
本発明によれば、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手のよい情報処理装置を提供することが可能になるという効果を奏する。
以下、本実施の形態に係る情報処理装置、そのマイク使用方法、およびコンピュータが実行するためのプログラムを適用したコンピュータシステムの実施の形態について説明する。本発明の構成要素は、本明細書の図面に一般に示してあるが、様々な構成で広く多様に配置し設計してもよいことは容易に理解できる。したがって、本発明の装置、方法、およびプログラムの実施の形態についての以下のより詳細な説明は、特許請求の範囲に示す本発明の範囲を限定するものではなく、単に本発明の選択した実施の形態の一例を示すものであって、本明細書の特許請求の範囲に示す本発明と矛盾無く装置、システムおよび方法についての選択した実施の形態を単に示すものである。当業者は、特定の細目の1つ以上が無くても、または他の方法、部品、材料でも本発明を実現できることが理解できる。
(実施の形態1)
図1は、本発明に係る情報処理装置を適用したノートPC1の概略の外観図である。ノートPC1は、同図に示すように、いずれも略直方体である本体側筐体2およびディスプレイ側筐体3を備える。本体側筐体2は、キーボードおよびタッチパッド等を有する入力部4と、左右のスピーカ6a、6bとを備える。ディスプレイ側筐体3は、LCD(液晶ディスプレイ)7と、LCD7の表示面側にその上方の略中央に配置され、前方の被写体を撮像可能なカメラ8と、カメラ8を挟んでその両側に配置される左右の複数のマイク5a、5bとを備える。なお、マイクの数を2つとしているが、3つ以上としてもよい。
図1は、本発明に係る情報処理装置を適用したノートPC1の概略の外観図である。ノートPC1は、同図に示すように、いずれも略直方体である本体側筐体2およびディスプレイ側筐体3を備える。本体側筐体2は、キーボードおよびタッチパッド等を有する入力部4と、左右のスピーカ6a、6bとを備える。ディスプレイ側筐体3は、LCD(液晶ディスプレイ)7と、LCD7の表示面側にその上方の略中央に配置され、前方の被写体を撮像可能なカメラ8と、カメラ8を挟んでその両側に配置される左右の複数のマイク5a、5bとを備える。なお、マイクの数を2つとしているが、3つ以上としてもよい。
本体側筐体2およびディスプレイ側筐体3は、それぞれの端部で左右の一対の連結部(ヒンジ部)9a、9bによって連結されており、連結部9a、9bは、これらの筐体を開閉自在に支持している。
図2は、図1のノートPC1の概略のハードウェア構成例を示す図である。ノートPC1は、同図に示すように、CPU11、ROM12、メモリ13、ストレージ14、LCD7、入力部4、カメラデバイス15、オーディオデバイス17、通信デバイス19、バッテリ21、DC−DCコンバータ22,ACアダプタ23を備えており、各部はバスを介して直接または間接的に接続されている。
CPU11は、バスを介して接続されたストレージ14に格納されたOS30によりノートPC1全体の制御を行うとともに、ストレージ14に格納された各種のプログラムに基づいて処理を実行する機能を司る。ROM12は、BIOS(Basic Input/Output System:基本入出力システム)12aやデータ等を格納している。
メモリ13は、キャッシュメモリやRAMで構成されており、CPU11の実行プログラムの読み込み領域として、実行プログラムの処理データを書き込む作業領域として利用される書き込み可能メモリである。
ストレージ14は、例えば、HDD(ハードディスク)やSDD等の不揮発性の記憶装置で構成されており、例えば、Windows(登録商標) XP、Vista、7、8、8.1、10等のノートPC1全体の制御を行うためのOS30と、オーディオドライバ31aを含む、周辺機器類をハードウェア操作するための各種ドライバ31と、音声アシスタントアプリケーション・プログラム(以下、「アプリケーション・プログラム」を「アプリ」と称する)32と、VOIPアプリ33と、ブラウザやメールアプリ等を含む他のアプリ34等を記憶する機能を有する。
LCD7は、CPU11の制御に従って、表示情報をビデオ信号に変換し、変換したビデオ信号に応じた各種情報を表示画面に表示する。
なお、本実施の形態では、ディスプレイとしてLCDを使用することにしているが、本発明はこれに限られるものではなく、有機ELディスプレイやCRT等の他のディスプレイを使用することにしてもよい。
入力部4は、ユーザが入力操作を行うためのユーザインターフェースであり、文字、コマンド等を入力する各種キーより構成されるキーボードや、画面上のカーソルを移動させたり、各種メニューを選択するタッチパッド等を備えている。
カメラデバイス15は、カメラ8と、カメラ処理回路16とを備えている。カメラ8は、レンズや撮像部(CCDやCMOS)を備えており、レンズは被写体光を結像し、撮像部は結像された被写体光をR,G,Bの画像信号として出力する。カメラ処理回路16は、A/D変換器、画像処理用LSI、メモリ等を備え、撮像部の駆動タイミングや露出制御等を行うと共に、撮像部で得られたRGBの画像信号をデータ処理(A/D変換等)して、CPU11に出力する。
オーディオデバイス17は、マイク5a、5bと、スピーカ6a、6bと、音声処理回路18とを備えている。マイク5a、5bは、音声を集音して音声データを音声処理回路18に出力する。スピーカ6a、6bは、音声処理回路18から出力される音声データに応じた音声を出力する。音声処理回路18は、A/D変換器と、D/A変換器と、アンプと、各種フィルタ等を含む音声処理用LSI及びメモリ等を備えており、マイク5a、5bから入力される音声をA/D変換した後に音声処理し、音声処理後の音声データ(デジタルデータ)をCPU11に出力したり、CPU11から入力される音声データ(デジタル)を、A/D変換した後に音声処理し、音声処理後の音声データをD/A変換して、スピーカ6a、6bから出力させる。
通信デバイス19は、ネットワークを介してデータの送受信を行うためのものであり、画像データおよび音声データをネットワークに送信し、また、ネットワークを介して送信されてくる画像データおよび音声データを受信する。
ACアダプタ23は、商用電源に接続して、AC電圧をDC電圧に変換してDC−DCコンバータ22に出力する。DC−DCコンバータ22は、ACアダプタ23から供給されるDC電圧を所定の電圧に変換して各部に電力を供給し、また、バッテリ21の充電を行う。バッテリ21は、DC−DCコンバータ22により充電され、充電した電圧を各部に供給する。バッテリ21は、ACアダプタ23が商用電源に接続されていない場合に使用される。
図3は、図2のノートPC1の音声の入力・出力に関連する概略の機能構成図である。図4は、プライベートモード(ビームフォーミング)、会議モード(Far Field Pick up)、及びマルチアングルモードを説明するための説明図である。
図3において、ストレージ14にインストールされたOS30、オーディオドライバ31aを含むドライバ31、音声アシスタントアプリ32,VOIPアプリ33(Skype(登録商標),Windows(登録商標)Live messenger)、その他のアプリ34は、メモリ13に読み込まれ、CPU11によって実行される。各アプリ及びドライバ間のデータ又はコマンドの送受信には、OS30が介在する。
OS30は、ノートPC1の基本的な動作を制御しているものであり、各種資源を管理し、例えば、アプリケーション・プログラムが発生した命令を、ドライバ31やBIOS12aに伝える。OS30は、マルチタスク機能およびマルチウィンドウ機能を有し、アプリケーション・プログラムの実行コンテキスト(あるアプリケーション・プログラムが利用しているレジスタセットやメインメモリイメージ、ファイルハンドルなど)やGUIの部品などのソフトウェア資源の管理も行うようになされている。OS30は、ノートPC1の低消費電力制御を行っており、ノートPC1が通常状態からアイドル状態(所定期間ユーザ操作が行われない場合)になった場合は、スタンバイ(スリープ)又は休止状態に移行させ、スタンバイ(スリープ)又は休止状態でユーザ操作が行われた場合は通常状態に復帰させる。
オーディオドライバ31aは、マイク5a、5bの使用モードを設定するモード設定手段として機能し、OS30の指示に従ってオーディオデバイス17を制御する。オーディオドライバ31aは、ノートPC1の状態及び周囲の音に基づいて、マイク5a、5bの使用モードとして、指向性のある第1のモード及び指向性のない第2のモードの一方を選択してオーディオデバイス17に設定する。第1のモードは、例えば、プライベートモード(ビームフォーミングモード)である。第2のモードは、例えば、会議モード(Far Field Pick up)と、マルチアングルモードである。
プライベートモードは、図4(A)に示すように、マイク5a、5bの指向性を高くしたモードであり、マイク5a、5bで入力される音のうち、ノートPC1(マイク5a、5b)に対して正面方向の音声のみを抽出するビームフォーミング処理を行うためのモードである。プライベートモードは、ユーザがノートPC1の正面に座って音声アシスタントアプリ32やVOIPアプリ33を使用する場合に適している。
マルチアングルモードは、ビームフォーミング処理を行わずに、図4(B)に示すように、ノートPC1に対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うモードである。マルチアングルモードは、例えば、ユーザが少し離れた場所から音声アシスタントアプリ32を使用する場合に適しており、ユーザがノートPC1の正面に居なくてもユーザの音声認識を行うことが可能である。
会議モードは、ビームフォーミング処理を行わずに、図4(C)に示すように、プライベートモード及びマルチアングルモードよりもマイク5a、5bの感度を高く設定し、ノートPC1に対して全方向の音を広範囲に集音するモードである。会議モードは、ユーザが離れた場所から音声アシスタントアプリ32を使用する場合でも好適に使用することができ、ユーザがノートPC1の正面に居なくてもユーザの音声認識を行うことが可能である。
音声アシスタントアプリ32は、OS30上で実行されるアプリであり、マイク5a、5b及び音声処理回路18を介して入力される音声データを音声認識してユーザの発話内容を解釈し(発話内容に含まれる発話コマンドを抽出して発話内容を解釈する)、音声で指示された各種操作を、他のアプリ34等に指示して実行するためのものである(例えば、ブラウザアプリに検索させてその検索結果を音声案内したり、メールアプリにメールを送信させたりする)。音声アシスタントアプリ32は、ユーザの所定の起動発話コマンド(例えば、ハロー、〇〇)の音声入力、LCD7に表示される音声アシスタントアプリ32のアイコン(不図示)の押下等で起動させることができる。なお、音声アシスタントアプリ32は、クライアント−サーバシステムで構成してもよく、例えば、音声アシスタントアプリ32は、音声データをサーバに送出し、サーバがユーザの発話内容の解釈等を行ってその結果を音声アシスタントアプリ32に返信してもよい。
VOIPアプリ33は、OS30上で実行されるアプリであり、相手方端末と画像と音声で通話を行うためのものである。また、VOIPアプリ33は、OS30を介して、通信デバイス19に相手方端末とリンクを確立させ、カメラ8で撮影した画像やマイク5a、5bで集音した音声を送信させたり、相手方端末から送出されてくる画像や音声をLCD7への表示・スピーカ6a、6bからの出力を行わせる。
オーディオデバイス17の音声処理回路18は、プライベートモードが設定されている場合には、マイク5a、5bから入力される音のうち正面方向(所定方向)の音のみを抽出するビームフォーミング処理を行う。また、音声処理回路18は、会議モードが設定されている場合には、ビームフォーミング処理を行わず、マイク5a、5bの感度を高く設定して(アンプのゲインを高く設定して)、遠くの音まで集音する処理を行う。また、オーディオデバイス17は、マルチアングルモードが設定されている場合には、ビームフォーミング処理を行わずに、マイク5a、5bから入力される音のうち最も大きい音を抽出する処理を行う。
図5は、ノートPC1の状態及び周囲の音に応じて、マイク5a、5bの使用モードを切り替える処理の一例を説明するためのフローチャートである。以下の説明では、上記第2のモードとして、会議モードを使用する場合について説明するが、マルチアングルモードを使用することにしてもよい。
図5において、まず、ノートPC1の電源が投入されると、オーディオドライバ31aは、プライベートモードを設定する(ステップS1)。すなわち、オーディオドライバ31aは、デフォルトではプライベートモードを設定する。ユーザは、通常、ノートPC1を使用する場合は正面に座って使用する場合が多いため、デフォルトでは、プライベートモードを設定して、マイク5a、5b(オーディオデバイス17)でノートPC1の正面からの音声を集音するのが望ましい。
次に、オーディオドライバ31aは、ノートPC1がアイドル状態(所定期間、ユーザ操作が行われない状態)であるか否かを判断する(ステップS2)。上述したように、OS30は、ノートPC1がアイドル状態の場合には、スタンバイ(スリープ)又は休止状態に移行して、消費電力を低減させる。OS30は、スタンバイ(スリープ)又は休止状態に移行した場合でもオーディオデバイス17に電力を供給して音声入力を可能な状態として、音声アシスタントアプリ32を起動可能な状態としてもよい。
アイドル状態である場合には(ステップS2の「Yes」)、オーディオドライバ31aは、会議モードを設定する(ステップS3)。アイドル状態の場合には、ユーザが離席していることが想定されるため、会議モードを設定して、マイク5a、5b(オーディオデバイス17)でノートPC1の全方向からの音声を集音するのが望ましい。
次に、オーディオドライバ31aは、オーディオデバイス17を介して、周囲の音をチエックする(ステップS4)。ノイズ源が複数ある場合は、ステップS1に戻り、プライベートモードを設定する。これは、ノイズ源が複数ある場合(周囲が騒がしい場合)には、会議モードではユーザの音声を誤認識する虞があるため、プライベートモードに戻して、ユーザの音声の誤認識を防止するためである。
ステップS4において、ノイズ源が1つだけの場合(例えば、テレビ、ステレオ等)は、オーディオドライバ31aは、会議モードを維持して、スピーカ6a、6bの音量をノイズ源の音量よりも大きく設定して(ステップS5)、ステップS6に移行する。これは、音声アシスタントアプリ32からの音声案内をユーザが聞き易くするためである。ステップS4において、ノイズ源がない(サイレント)場合には、ステップS6に移行する。
ステップS6では、音声アシスタントアプリ32は、ユーザの発話コマンドの音声入力を待つ(ステップS6)。例えば、音声アシスタントアプリ32は、ユーザの所定の起動発話コマンド(例えば、ハロー、〇〇)が入力された場合に、動作を開始して、以降のユーザの発話内容を解釈し、音声で指示された操作内容を実行してもよい。これにより、ユーザはノートPC1から離れた場所で音声アシスタントアプリ32を使用する場合に、ノートPC1の正面に居なくても音声を誤認識することなく好適に使用することができる。付言すると、ノイズ源が1つ又はサイレントの場合は、周囲に人が大勢いる環境ではないため、ユーザは恥ずかしがることなく、また、他人に迷惑をかけることなく、ノートPC1から離れたところから音声アシスタントアプリ32を使用することができる。また、会議モードでは、ノイズ源がない場合には、ユーザの音声を誤認識することがなく、また、ノイズ源が1つの場合もユーザがノイズ源よりも大きい声で発話すれば音声の誤認識を防止することができる。
次に、オーディオドライバ31aは、ノートPC1がアイドル状態であるか否かを判断する(ステップS7)。アイドル状態である場合には(ステップS7の「Yes」)、ステップS4に戻る。アイドル状態でない場合には(ステップS7の「No」)、すなわち、ノートPC1が操作されると、ステップS1に戻り、プライベートモードに戻す。
以上説明したように、本実施の形態によれば、ノートPC1の状態及び周囲の音に基づいて、複数のマイク5a、5bの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するオーディオドライバ31aと、オーディオドライバ31aで設定されたモードに従って、複数のマイク5a,5bから入力される音に対して信号処理を行うオーディオデバイス17と、オーディオデバイス17で信号処理された音を音声認識して、音声アシストを行う音声アシスタントアプリ32と、を備えているので、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手のよい情報処理装置を提供することが可能になる。
また、第1のモードは、複数のマイク5a、5bから入力される音のうち、ノートPC1に対して正面方向の音のみを抽出するビームフォーミング処理を行うプライベートモードであることとしたので、ノートPC1の正面に座って音声アシスタントアプリ32を使用する場合に、好適に音声認識を行うことが可能となる。
また、第2のモードは、第1のモードよりも複数のマイク5a,5bの感度を高く設定し、ノートPC1に対して全方向の音を広範囲に集音する会議モードであることとしたので、ユーザがノートPC1から離れた場所で音声アシスタントアプリ32を使用する場合でも、ノートPC1の正面に居なくても好適に使用することが可能となる。
また、第2のモードは、ノートPCに対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うマルチアングルモードであることとしたので、ユーザがノートPC1から少し離れた場所で音声アシスタントアプリ32を使用する場合でも、ノートPC1の正面に居なくても好適に使用することが可能となる。
また、オーディオドライバ31aは、第1のモードが設定されている場合に、ノートPC1がアイドル状態となった場合には、第2のモードを設定することとしたので、ユーザがノートPC1から離れた場所でも音声アシスタントアプリ32を好適に使用することが可能となる。
また、オーディオドライバ31aは、第2のモードが設定されている場合に、周囲の音源が複数の場合は、第1のモードを設定することとしたので、周囲が騒がしい場合にユーザの音声の誤認識を防止することが可能となる。
また、オーディオドライバ31aは、第2のモードが設定されている場合に、周囲の音源が1つの場合は、第2のモードを維持すると共に、スピーカ6a、6bの音量を当該音源よりも大きく設定し、音声アシスタントアプリ32は、ユーザからの発話コマンドの音声入力を待つこととしたので、音声アシスタントアプリ32は、周囲の音源よりも大きな音声で音声案内を行うことが可能となる。
また、オーディオドライバ31は、第2のモードが設定されている場合に、周囲がサイレントな場合は、第2のモードを維持し、音声アシスタントアプリ32は、ユーザからの発話コマンドの音声入力を待つこととしたので、ユーザはノートPC1から離れた場所で音声アシスタントアプリ32を使用する場合に、ノートPC1の正面に居なくても音声を誤認識することなく好適に使用することができる。
なお、上記実施の形態では、本発明をノートPCに適用した場合について説明したが、本発明はこれに限られるものではなく、スマートフォン、タブレット、携帯電話、PDA、デスクトップPC等の情報処理装置にも適用可能である。
また、上記実施の形態では、音声認識を音声アシスタントアプリ32で行うこととしたが、オーディオデバイス17、オーディオドライバ31a、及び/又はOS30で行うことにしてもよい。
また、オーディオデバイス17の音声処理回路18の機能の一部又は全部をソフトウェアで行うことにしてもよい。
また、オーディオドライバ31aは、第2のモードのうち、会議モードとマルチアングルモードとを、ノートPC1とユーザとの距離に応じて切り替えることにしてもよく、例えば、ノートPC1とユーザとの距離が閾値より小さい場合は、マルチアングルモードを設定し、閾値以上の場合は、会議モードを設定することにしてもよい。
また、マイク5a、5bの使用モードをオーディオドライバ31aが設定することとしたが、OS30及び/又は音声アシスタントアプリ32が設定することにしてもよい。
1 ノートPC
2 本体側筐体
3 ディスプレイ側筐体
4 入力部
5a、5b マイク
6a、6b スピーカ
7 LCD(液晶ディスプレイ)
8 カメラ
9a,9b 連結部(ヒンジ部)
11 CPU
12 ROM
13 メモリ
14 ストレージ
15 カメラデバイス
16 カメラ処理回路
17 オーディオデバイス
18 音声処理回路
19 通信デバイス
21 バッテリ
22 DC−DCコンバータ
23 ACアダプタ
30 OS
31 ドライバ
31a オーディオドライバ
32 音声アシスタントアプリ
33 VOIPアプリ
34 他のアプリ
2 本体側筐体
3 ディスプレイ側筐体
4 入力部
5a、5b マイク
6a、6b スピーカ
7 LCD(液晶ディスプレイ)
8 カメラ
9a,9b 連結部(ヒンジ部)
11 CPU
12 ROM
13 メモリ
14 ストレージ
15 カメラデバイス
16 カメラ処理回路
17 オーディオデバイス
18 音声処理回路
19 通信デバイス
21 バッテリ
22 DC−DCコンバータ
23 ACアダプタ
30 OS
31 ドライバ
31a オーディオドライバ
32 音声アシスタントアプリ
33 VOIPアプリ
34 他のアプリ
Claims (12)
- 複数のマイクを備えた情報処理装置であって、
前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定手段と、
前記モード設定手段で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理手段と、
前記音声処理手段で信号処理された音を音声認識して、音声アシストを行う音声アシスタント手段と、
を備えたことを特徴とする情報処理装置。 - 前記モード設定手段は、前記第1のモードが設定されている場合に、前記情報処理装置がアイドル状態となった場合には、前記第2のモードを設定することを特徴とする請求項1に記載の情報処理装置。
- 前記モード設定手段は、前記第2のモードが設定されている場合に、周囲の音源が複数の場合は、前記第1のモードを設定することを特徴とする請求項1又は請求項2に記載の情報処理装置。
- 前記モード設定手段は、前記第2のモードが設定されている場合に、周囲の音源が1つの場合は、当該第2のモードを維持すると共にスピーカの音量を当該音源よりも大きく設定し、
前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことを特徴とする請求項1又は請求項2に記載の情報処理装置。 - 前記モード設定手段は、前記第2のモードが設定されている場合に、周囲がサイレントな場合は、当該第2のモードを維持し、
前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことを特徴とする請求項1又は請求項2に記載の情報処理装置。 - 前記第1のモードは、前記複数のマイクから入力される音のうち、前記情報処理装置に対して正面方向の音のみを抽出するビームフォーミング処理を行うモードであることを特徴とする請求項1〜請求項5のいずれか1つに記載の情報処理装置。
- 前記第2のモードは、前記第1のモードよりも前記複数のマイクの感度を高く設定し、前記情報処理装置に対して全方向の音を広範囲に集音するモードであることを特徴とする請求項1〜請求項6のいずれか1つに記載の情報処理装置。
- 前記第2のモードは、前記情報処理装置に対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うモードであることを特徴とする請求項1〜請求項6のいずれか1つに記載の情報処理装置。
- 前記モード設定手段は、デフォルトで前記第1のモードを設定することを特徴とする請求項1〜請求項8のいずれか1つに記載の情報処理装置。
- 前記情報処理装置は、ノート型PCであることを特徴とする請求項1〜請求項9のいずれか1つに記載の情報処理装置。
- 複数のマイクを備えた情報処理装置のマイク使用方法であって、
前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定工程と、
前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、
前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、
を含むことを特徴とするマイク使用方法。 - 複数のマイクを備えた情報処理装置に搭載されるプログラムであって、
前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第1のモード及び指向性がない第2のモードの一方を選択して設定するモード設定工程と、
前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、
前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、
をコンピュータに実行させることを特徴とするコンピュータが実行可能なプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017021534A JP2018129678A (ja) | 2017-02-08 | 2017-02-08 | 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017021534A JP2018129678A (ja) | 2017-02-08 | 2017-02-08 | 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018129678A true JP2018129678A (ja) | 2018-08-16 |
Family
ID=63173138
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017021534A Pending JP2018129678A (ja) | 2017-02-08 | 2017-02-08 | 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2018129678A (ja) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004004239A (ja) * | 2002-05-31 | 2004-01-08 | Nec Corp | 音声認識対話装置およびプログラム |
| JP2004109361A (ja) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
| JP2010072695A (ja) * | 2008-09-16 | 2010-04-02 | Lenovo Singapore Pte Ltd | マイクロフォンを備えるタブレット・コンピュータおよび制御方法 |
| JP2011257627A (ja) * | 2010-06-10 | 2011-12-22 | Murata Mach Ltd | 音声認識装置と認識方法 |
-
2017
- 2017-02-08 JP JP2017021534A patent/JP2018129678A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004004239A (ja) * | 2002-05-31 | 2004-01-08 | Nec Corp | 音声認識対話装置およびプログラム |
| JP2004109361A (ja) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
| JP2010072695A (ja) * | 2008-09-16 | 2010-04-02 | Lenovo Singapore Pte Ltd | マイクロフォンを備えるタブレット・コンピュータおよび制御方法 |
| JP2011257627A (ja) * | 2010-06-10 | 2011-12-22 | Murata Mach Ltd | 音声認識装置と認識方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2021109926A1 (zh) | 应用分享方法、电子设备及计算机可读存储介质 | |
| US9078111B2 (en) | Method for providing voice call using text data and electronic device thereof | |
| WO2021109907A1 (zh) | 应用分享方法、第一电子设备及计算机可读存储介质 | |
| CN108684029A (zh) | 一种蓝牙配对连接方法及系统、蓝牙设备和终端 | |
| CN103973877A (zh) | 一种在移动终端中利用文字实现实时通话的方法和装置 | |
| CN111522524B (zh) | 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端 | |
| CN107580143A (zh) | 一种显示方法及移动终端 | |
| CN110097872A (zh) | 一种音频处理方法及电子设备 | |
| US9407230B2 (en) | Sound output setting apparatus, method, and computer program product | |
| CN107147767B (zh) | 通话音量控制方法、装置、存储介质及终端 | |
| CN108432220B (zh) | 一种切换通话模式的方法和终端 | |
| CN103634640A (zh) | 移动终端设备控制智能电视端语音输入的方法及系统 | |
| CN108270928B (zh) | 一种语音识别的方法及移动终端 | |
| CN105635482A (zh) | 一种来电处理方法和装置 | |
| EP4141633B1 (en) | METHOD AND APPARATUS FOR CONTROLLING A SCREEN | |
| WO2024103926A1 (zh) | 语音控制方法、装置、存储介质以及电子设备 | |
| CN115037831B (zh) | 一种模式控制方法、装置、电子设备及耳机 | |
| JP2017107333A (ja) | 通信機器及び通信機器の制御方法 | |
| CN111447598B (zh) | 一种交互方法和显示设备 | |
| CN113329203A (zh) | 通话控制方法、通话控制装置、电子设备和可读存储介质 | |
| WO2021098708A1 (zh) | 通话方法及终端设备 | |
| JP2018129678A (ja) | 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム | |
| CN107087069B (zh) | 一种语音通话方法及移动终端 | |
| CN112532787B (zh) | 耳机音频数据处理方法、移动终端及计算机可读存储介质 | |
| CN118869923A (zh) | 视频会议中的音量控制方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180228 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190325 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190402 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191112 |