JP2018129678A

JP2018129678A - 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム

Info

Publication number: JP2018129678A
Application number: JP2017021534A
Authority: JP
Inventors: 雅春米田; Masaharu Yoneda; 浩造西野; Hirozo Nishino; 遷王; Qian Wang; 欣梅楊; Xinmei Yang
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2017-02-08
Filing date: 2017-02-08
Publication date: 2018-08-16

Abstract

【課題】音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手の良い情報処理装置、そのマイク使用方法、およびコンピュータが実行するためのプログラムを提供すること。【解決手段】複数のマイクを備えた情報処理装置であって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定手段と、前記モード設定手段で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理手段と、前記音声処理手段で信号処理された音を音声認識して、音声アシストを行う音声アシスタント手段と、を備えている。【選択図】図３

Description

本発明は、情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラムに関する。

近時、ノートＰＣ、スマートフォン、タブレット等の情報処理装置では、「Ｃｏｒｔａｎａ」、「Ｓｉｒｉ」、「ＯＫＧｏｏｇｌｅ」、「しゃべってコンシェル」等の音声アシスタント機能を使用する人も増加している。かかる音声アシスタントは、情報処理装置がユーザの発話を解釈し、音声で指示された各種操作を実行する機能のことである。音声アシスタントは、一般的に、音声認識や自然言語処理などの技術を駆使してユーザの話した内容を解釈する。

情報処理装置では、複数のマイクを備えるものが多い。複数のマイクは、ＶＯＩＰや音声アシスタントで使用される頻度が高い。情報処理装置では、複数のマイクを使用する場合に、ビームフォーミング処理を行ってノイズキャンセルを行うものもあり、このビームフォーミングは、デフォルトで有効に設定されている場合が多い。かかるビームフォーミングでは、まず、複数のマイクを利用し、指定角度での各マイクへの音声到達時間のずれを計算して補正することで、指定角度の音声を抽出する。

しかしながら、例えば、ユーザは情報処理装置に手が届かない、少し離れた場所にいる場合に音声アシスタントを使用したい場合がある。より具体的には、例えば、ユーザは情報処理装置から離れたところから、音声アシスタントに「今日は傘が必要か？」と質問して、回答を求める場合がある。他方、音声アシスタントは、ユーザが発話する必要があるため、一般に周囲に人が大勢いるところでは、恥ずかしかったり、他人の迷惑になるため、使用されない場合が多い。そのため、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手の良いシステムが望まれる。

特開２０１６−４２７０号公報

本発明は、上記に鑑みてなされたものであって、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手の良い情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、複数のマイクを備えた情報処理装置であって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定手段と、前記複数のマイクから入力される音に対して信号処理を行う音声処理手段と、前記音声処理手段で信号処理された音を音声認識して、音声アシストを行う音声アシスタント手段と、を備え、前記複数のモードは指向性がある第１のモードと、指向性がない第２のモードと、を含むことを特徴とする。

また、本発明の好ましい態様によれば、前記モード設定手段は、前記第１のモードが設定されている場合に、前記情報処理装置がアイドル状態となった場合には、前記第２のモードを設定することが望ましい。

また、本発明の好ましい態様によれば、前記モード設定手段は、前記第２のモードが設定されている場合に、周囲の音源が複数の場合は、前記第１のモードを設定することが望ましい。

また、本発明の好ましい態様によれば、前記モード設定手段は、前記第２のモードが設定されている場合に、周囲の音源が１つの場合は、スピーカの音量を当該音源よりも大きく設定し、前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことが望ましい。

また、本発明の好ましい態様によれば、前記モード設定手段は、前記第２のモードが設定されている場合に、周囲がサイレントな場合は、当該第２のモードを維持し、前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことが望ましい。

また、本発明の好ましい態様によれば、前記第１のモードは、前記複数のマイクから入力される音のうち、前記情報処理装置に対して正面方向の音のみを抽出するビームフォーミング処理を行うモードであることが望ましい。

また、本発明の好ましい態様によれば、前記第２のモードは、前記第１のモードよりも前記複数のマイクの感度を高く設定し、前記情報処理装置に対して全方向の音を広範囲に集音するモードであることが望ましい。

また、本発明の好ましい態様によれば、前記第２のモードは、前記情報処理装置に対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うモードであることが望ましい。

また、本発明の好ましい態様によれば、前記モード設定手段は、デフォルトで前記第１のモードを設定することが望ましい。

また、本発明の好ましい態様によれば、前記情報処理装置は、ノート型ＰＣであることが望ましい。

また、上述した課題を解決し、目的を達成するために、本発明は、複数のマイクを備えた情報処理装置のマイク使用方法であって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定工程と、前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、を含むことを特徴とする。

また、上述した課題を解決し、目的を達成するために、本発明は、複数のマイクを備えた情報処理装置に搭載されるプログラムであって、前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定工程と、前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、をコンピュータに実行させることを特徴とする。

本発明によれば、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手のよい情報処理装置を提供することが可能になるという効果を奏する。

図１は、本発明に係る情報処理装置を適用したノートＰＣの概略の外観図である。図２は、図１のノートＰＣの概略のハードウェア構成例を示す図である。図３は、図２のノートＰＣの音声入力・出力に関連する概略の機能構成図である。図４は、マイクの使用モードを説明するための説明図である。図５は、ノートＰＣの状態及び周囲の音に応じて、マイクの使用モードを切り替える処理の一例を説明するためのフローチャートである。

以下、本実施の形態に係る情報処理装置、そのマイク使用方法、およびコンピュータが実行するためのプログラムを適用したコンピュータシステムの実施の形態について説明する。本発明の構成要素は、本明細書の図面に一般に示してあるが、様々な構成で広く多様に配置し設計してもよいことは容易に理解できる。したがって、本発明の装置、方法、およびプログラムの実施の形態についての以下のより詳細な説明は、特許請求の範囲に示す本発明の範囲を限定するものではなく、単に本発明の選択した実施の形態の一例を示すものであって、本明細書の特許請求の範囲に示す本発明と矛盾無く装置、システムおよび方法についての選択した実施の形態を単に示すものである。当業者は、特定の細目の１つ以上が無くても、または他の方法、部品、材料でも本発明を実現できることが理解できる。

（実施の形態１）
図１は、本発明に係る情報処理装置を適用したノートＰＣ１の概略の外観図である。ノートＰＣ１は、同図に示すように、いずれも略直方体である本体側筐体２およびディスプレイ側筐体３を備える。本体側筐体２は、キーボードおよびタッチパッド等を有する入力部４と、左右のスピーカ６ａ、６ｂとを備える。ディスプレイ側筐体３は、ＬＣＤ（液晶ディスプレイ）７と、ＬＣＤ７の表示面側にその上方の略中央に配置され、前方の被写体を撮像可能なカメラ８と、カメラ８を挟んでその両側に配置される左右の複数のマイク５ａ、５ｂとを備える。なお、マイクの数を２つとしているが、３つ以上としてもよい。

本体側筐体２およびディスプレイ側筐体３は、それぞれの端部で左右の一対の連結部（ヒンジ部）９ａ、９ｂによって連結されており、連結部９ａ、９ｂは、これらの筐体を開閉自在に支持している。

図２は、図１のノートＰＣ１の概略のハードウェア構成例を示す図である。ノートＰＣ１は、同図に示すように、ＣＰＵ１１、ＲＯＭ１２、メモリ１３、ストレージ１４、ＬＣＤ７、入力部４、カメラデバイス１５、オーディオデバイス１７、通信デバイス１９、バッテリ２１、ＤＣ−ＤＣコンバータ２２，ＡＣアダプタ２３を備えており、各部はバスを介して直接または間接的に接続されている。

ＣＰＵ１１は、バスを介して接続されたストレージ１４に格納されたＯＳ３０によりノートＰＣ１全体の制御を行うとともに、ストレージ１４に格納された各種のプログラムに基づいて処理を実行する機能を司る。ＲＯＭ１２は、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ：基本入出力システム）１２ａやデータ等を格納している。

メモリ１３は、キャッシュメモリやＲＡＭで構成されており、ＣＰＵ１１の実行プログラムの読み込み領域として、実行プログラムの処理データを書き込む作業領域として利用される書き込み可能メモリである。

ストレージ１４は、例えば、ＨＤＤ（ハードディスク）やＳＤＤ等の不揮発性の記憶装置で構成されており、例えば、Ｗｉｎｄｏｗｓ（登録商標）ＸＰ、Ｖｉｓｔａ、７、８、８．１、１０等のノートＰＣ１全体の制御を行うためのＯＳ３０と、オーディオドライバ３１ａを含む、周辺機器類をハードウェア操作するための各種ドライバ３１と、音声アシスタントアプリケーション・プログラム（以下、「アプリケーション・プログラム」を「アプリ」と称する）３２と、ＶＯＩＰアプリ３３と、ブラウザやメールアプリ等を含む他のアプリ３４等を記憶する機能を有する。

ＬＣＤ７は、ＣＰＵ１１の制御に従って、表示情報をビデオ信号に変換し、変換したビデオ信号に応じた各種情報を表示画面に表示する。

なお、本実施の形態では、ディスプレイとしてＬＣＤを使用することにしているが、本発明はこれに限られるものではなく、有機ＥＬディスプレイやＣＲＴ等の他のディスプレイを使用することにしてもよい。

入力部４は、ユーザが入力操作を行うためのユーザインターフェースであり、文字、コマンド等を入力する各種キーより構成されるキーボードや、画面上のカーソルを移動させたり、各種メニューを選択するタッチパッド等を備えている。

カメラデバイス１５は、カメラ８と、カメラ処理回路１６とを備えている。カメラ８は、レンズや撮像部（ＣＣＤやＣＭＯＳ）を備えており、レンズは被写体光を結像し、撮像部は結像された被写体光をＲ，Ｇ，Ｂの画像信号として出力する。カメラ処理回路１６は、Ａ／Ｄ変換器、画像処理用ＬＳＩ、メモリ等を備え、撮像部の駆動タイミングや露出制御等を行うと共に、撮像部で得られたＲＧＢの画像信号をデータ処理（Ａ／Ｄ変換等）して、ＣＰＵ１１に出力する。

オーディオデバイス１７は、マイク５ａ、５ｂと、スピーカ６ａ、６ｂと、音声処理回路１８とを備えている。マイク５ａ、５ｂは、音声を集音して音声データを音声処理回路１８に出力する。スピーカ６ａ、６ｂは、音声処理回路１８から出力される音声データに応じた音声を出力する。音声処理回路１８は、Ａ／Ｄ変換器と、Ｄ／Ａ変換器と、アンプと、各種フィルタ等を含む音声処理用ＬＳＩ及びメモリ等を備えており、マイク５ａ、５ｂから入力される音声をＡ／Ｄ変換した後に音声処理し、音声処理後の音声データ（デジタルデータ）をＣＰＵ１１に出力したり、ＣＰＵ１１から入力される音声データ（デジタル）を、Ａ／Ｄ変換した後に音声処理し、音声処理後の音声データをＤ／Ａ変換して、スピーカ６ａ、６ｂから出力させる。

通信デバイス１９は、ネットワークを介してデータの送受信を行うためのものであり、画像データおよび音声データをネットワークに送信し、また、ネットワークを介して送信されてくる画像データおよび音声データを受信する。

ＡＣアダプタ２３は、商用電源に接続して、ＡＣ電圧をＤＣ電圧に変換してＤＣ−ＤＣコンバータ２２に出力する。ＤＣ−ＤＣコンバータ２２は、ＡＣアダプタ２３から供給されるＤＣ電圧を所定の電圧に変換して各部に電力を供給し、また、バッテリ２１の充電を行う。バッテリ２１は、ＤＣ−ＤＣコンバータ２２により充電され、充電した電圧を各部に供給する。バッテリ２１は、ＡＣアダプタ２３が商用電源に接続されていない場合に使用される。

図３は、図２のノートＰＣ１の音声の入力・出力に関連する概略の機能構成図である。図４は、プライベートモード（ビームフォーミング）、会議モード（ＦａｒＦｉｅｌｄＰｉｃｋｕｐ）、及びマルチアングルモードを説明するための説明図である。

図３において、ストレージ１４にインストールされたＯＳ３０、オーディオドライバ３１ａを含むドライバ３１、音声アシスタントアプリ３２，ＶＯＩＰアプリ３３（Ｓｋｙｐｅ（登録商標），Ｗｉｎｄｏｗｓ（登録商標）Ｌｉｖｅｍｅｓｓｅｎｇｅｒ）、その他のアプリ３４は、メモリ１３に読み込まれ、ＣＰＵ１１によって実行される。各アプリ及びドライバ間のデータ又はコマンドの送受信には、ＯＳ３０が介在する。

ＯＳ３０は、ノートＰＣ１の基本的な動作を制御しているものであり、各種資源を管理し、例えば、アプリケーション・プログラムが発生した命令を、ドライバ３１やＢＩＯＳ１２ａに伝える。ＯＳ３０は、マルチタスク機能およびマルチウィンドウ機能を有し、アプリケーション・プログラムの実行コンテキスト（あるアプリケーション・プログラムが利用しているレジスタセットやメインメモリイメージ、ファイルハンドルなど）やＧＵＩの部品などのソフトウェア資源の管理も行うようになされている。ＯＳ３０は、ノートＰＣ１の低消費電力制御を行っており、ノートＰＣ１が通常状態からアイドル状態（所定期間ユーザ操作が行われない場合）になった場合は、スタンバイ（スリープ）又は休止状態に移行させ、スタンバイ（スリープ）又は休止状態でユーザ操作が行われた場合は通常状態に復帰させる。

オーディオドライバ３１ａは、マイク５ａ、５ｂの使用モードを設定するモード設定手段として機能し、ＯＳ３０の指示に従ってオーディオデバイス１７を制御する。オーディオドライバ３１ａは、ノートＰＣ１の状態及び周囲の音に基づいて、マイク５ａ、５ｂの使用モードとして、指向性のある第１のモード及び指向性のない第２のモードの一方を選択してオーディオデバイス１７に設定する。第１のモードは、例えば、プライベートモード（ビームフォーミングモード）である。第２のモードは、例えば、会議モード（ＦａｒＦｉｅｌｄＰｉｃｋｕｐ）と、マルチアングルモードである。

プライベートモードは、図４（Ａ）に示すように、マイク５ａ、５ｂの指向性を高くしたモードであり、マイク５ａ、５ｂで入力される音のうち、ノートＰＣ１（マイク５ａ、５ｂ）に対して正面方向の音声のみを抽出するビームフォーミング処理を行うためのモードである。プライベートモードは、ユーザがノートＰＣ１の正面に座って音声アシスタントアプリ３２やＶＯＩＰアプリ３３を使用する場合に適している。

マルチアングルモードは、ビームフォーミング処理を行わずに、図４（Ｂ）に示すように、ノートＰＣ１に対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うモードである。マルチアングルモードは、例えば、ユーザが少し離れた場所から音声アシスタントアプリ３２を使用する場合に適しており、ユーザがノートＰＣ１の正面に居なくてもユーザの音声認識を行うことが可能である。

会議モードは、ビームフォーミング処理を行わずに、図４（Ｃ）に示すように、プライベートモード及びマルチアングルモードよりもマイク５ａ、５ｂの感度を高く設定し、ノートＰＣ１に対して全方向の音を広範囲に集音するモードである。会議モードは、ユーザが離れた場所から音声アシスタントアプリ３２を使用する場合でも好適に使用することができ、ユーザがノートＰＣ１の正面に居なくてもユーザの音声認識を行うことが可能である。

音声アシスタントアプリ３２は、ＯＳ３０上で実行されるアプリであり、マイク５ａ、５ｂ及び音声処理回路１８を介して入力される音声データを音声認識してユーザの発話内容を解釈し（発話内容に含まれる発話コマンドを抽出して発話内容を解釈する）、音声で指示された各種操作を、他のアプリ３４等に指示して実行するためのものである（例えば、ブラウザアプリに検索させてその検索結果を音声案内したり、メールアプリにメールを送信させたりする）。音声アシスタントアプリ３２は、ユーザの所定の起動発話コマンド（例えば、ハロー、〇〇）の音声入力、ＬＣＤ７に表示される音声アシスタントアプリ３２のアイコン（不図示）の押下等で起動させることができる。なお、音声アシスタントアプリ３２は、クライアント−サーバシステムで構成してもよく、例えば、音声アシスタントアプリ３２は、音声データをサーバに送出し、サーバがユーザの発話内容の解釈等を行ってその結果を音声アシスタントアプリ３２に返信してもよい。

ＶＯＩＰアプリ３３は、ＯＳ３０上で実行されるアプリであり、相手方端末と画像と音声で通話を行うためのものである。また、ＶＯＩＰアプリ３３は、ＯＳ３０を介して、通信デバイス１９に相手方端末とリンクを確立させ、カメラ８で撮影した画像やマイク５ａ、５ｂで集音した音声を送信させたり、相手方端末から送出されてくる画像や音声をＬＣＤ７への表示・スピーカ６ａ、６ｂからの出力を行わせる。

オーディオデバイス１７の音声処理回路１８は、プライベートモードが設定されている場合には、マイク５ａ、５ｂから入力される音のうち正面方向（所定方向）の音のみを抽出するビームフォーミング処理を行う。また、音声処理回路１８は、会議モードが設定されている場合には、ビームフォーミング処理を行わず、マイク５ａ、５ｂの感度を高く設定して（アンプのゲインを高く設定して）、遠くの音まで集音する処理を行う。また、オーディオデバイス１７は、マルチアングルモードが設定されている場合には、ビームフォーミング処理を行わずに、マイク５ａ、５ｂから入力される音のうち最も大きい音を抽出する処理を行う。

図５は、ノートＰＣ１の状態及び周囲の音に応じて、マイク５ａ、５ｂの使用モードを切り替える処理の一例を説明するためのフローチャートである。以下の説明では、上記第２のモードとして、会議モードを使用する場合について説明するが、マルチアングルモードを使用することにしてもよい。

図５において、まず、ノートＰＣ１の電源が投入されると、オーディオドライバ３１ａは、プライベートモードを設定する（ステップＳ１）。すなわち、オーディオドライバ３１ａは、デフォルトではプライベートモードを設定する。ユーザは、通常、ノートＰＣ１を使用する場合は正面に座って使用する場合が多いため、デフォルトでは、プライベートモードを設定して、マイク５ａ、５ｂ（オーディオデバイス１７）でノートＰＣ１の正面からの音声を集音するのが望ましい。

次に、オーディオドライバ３１ａは、ノートＰＣ１がアイドル状態（所定期間、ユーザ操作が行われない状態）であるか否かを判断する（ステップＳ２）。上述したように、ＯＳ３０は、ノートＰＣ１がアイドル状態の場合には、スタンバイ（スリープ）又は休止状態に移行して、消費電力を低減させる。ＯＳ３０は、スタンバイ（スリープ）又は休止状態に移行した場合でもオーディオデバイス１７に電力を供給して音声入力を可能な状態として、音声アシスタントアプリ３２を起動可能な状態としてもよい。

アイドル状態である場合には（ステップＳ２の「Ｙｅｓ」）、オーディオドライバ３１ａは、会議モードを設定する（ステップＳ３）。アイドル状態の場合には、ユーザが離席していることが想定されるため、会議モードを設定して、マイク５ａ、５ｂ（オーディオデバイス１７）でノートＰＣ１の全方向からの音声を集音するのが望ましい。

次に、オーディオドライバ３１ａは、オーディオデバイス１７を介して、周囲の音をチエックする（ステップＳ４）。ノイズ源が複数ある場合は、ステップＳ１に戻り、プライベートモードを設定する。これは、ノイズ源が複数ある場合（周囲が騒がしい場合）には、会議モードではユーザの音声を誤認識する虞があるため、プライベートモードに戻して、ユーザの音声の誤認識を防止するためである。

ステップＳ４において、ノイズ源が１つだけの場合（例えば、テレビ、ステレオ等）は、オーディオドライバ３１ａは、会議モードを維持して、スピーカ６ａ、６ｂの音量をノイズ源の音量よりも大きく設定して（ステップＳ５）、ステップＳ６に移行する。これは、音声アシスタントアプリ３２からの音声案内をユーザが聞き易くするためである。ステップＳ４において、ノイズ源がない（サイレント）場合には、ステップＳ６に移行する。

ステップＳ６では、音声アシスタントアプリ３２は、ユーザの発話コマンドの音声入力を待つ（ステップＳ６）。例えば、音声アシスタントアプリ３２は、ユーザの所定の起動発話コマンド（例えば、ハロー、〇〇）が入力された場合に、動作を開始して、以降のユーザの発話内容を解釈し、音声で指示された操作内容を実行してもよい。これにより、ユーザはノートＰＣ１から離れた場所で音声アシスタントアプリ３２を使用する場合に、ノートＰＣ１の正面に居なくても音声を誤認識することなく好適に使用することができる。付言すると、ノイズ源が１つ又はサイレントの場合は、周囲に人が大勢いる環境ではないため、ユーザは恥ずかしがることなく、また、他人に迷惑をかけることなく、ノートＰＣ１から離れたところから音声アシスタントアプリ３２を使用することができる。また、会議モードでは、ノイズ源がない場合には、ユーザの音声を誤認識することがなく、また、ノイズ源が１つの場合もユーザがノイズ源よりも大きい声で発話すれば音声の誤認識を防止することができる。

次に、オーディオドライバ３１ａは、ノートＰＣ１がアイドル状態であるか否かを判断する（ステップＳ７）。アイドル状態である場合には（ステップＳ７の「Ｙｅｓ」）、ステップＳ４に戻る。アイドル状態でない場合には（ステップＳ７の「Ｎｏ」）、すなわち、ノートＰＣ１が操作されると、ステップＳ１に戻り、プライベートモードに戻す。

以上説明したように、本実施の形態によれば、ノートＰＣ１の状態及び周囲の音に基づいて、複数のマイク５ａ、５ｂの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するオーディオドライバ３１ａと、オーディオドライバ３１ａで設定されたモードに従って、複数のマイク５ａ，５ｂから入力される音に対して信号処理を行うオーディオデバイス１７と、オーディオデバイス１７で信号処理された音を音声認識して、音声アシストを行う音声アシスタントアプリ３２と、を備えているので、音声アシスタントを使用する場合に、ユーザの使用環境に応じて使い勝手のよい情報処理装置を提供することが可能になる。

また、第１のモードは、複数のマイク５ａ、５ｂから入力される音のうち、ノートＰＣ１に対して正面方向の音のみを抽出するビームフォーミング処理を行うプライベートモードであることとしたので、ノートＰＣ１の正面に座って音声アシスタントアプリ３２を使用する場合に、好適に音声認識を行うことが可能となる。

また、第２のモードは、第１のモードよりも複数のマイク５ａ，５ｂの感度を高く設定し、ノートＰＣ１に対して全方向の音を広範囲に集音する会議モードであることとしたので、ユーザがノートＰＣ１から離れた場所で音声アシスタントアプリ３２を使用する場合でも、ノートＰＣ１の正面に居なくても好適に使用することが可能となる。

また、第２のモードは、ノートＰＣに対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うマルチアングルモードであることとしたので、ユーザがノートＰＣ１から少し離れた場所で音声アシスタントアプリ３２を使用する場合でも、ノートＰＣ１の正面に居なくても好適に使用することが可能となる。

また、オーディオドライバ３１ａは、第１のモードが設定されている場合に、ノートＰＣ１がアイドル状態となった場合には、第２のモードを設定することとしたので、ユーザがノートＰＣ１から離れた場所でも音声アシスタントアプリ３２を好適に使用することが可能となる。

また、オーディオドライバ３１ａは、第２のモードが設定されている場合に、周囲の音源が複数の場合は、第１のモードを設定することとしたので、周囲が騒がしい場合にユーザの音声の誤認識を防止することが可能となる。

また、オーディオドライバ３１ａは、第２のモードが設定されている場合に、周囲の音源が１つの場合は、第２のモードを維持すると共に、スピーカ６ａ、６ｂの音量を当該音源よりも大きく設定し、音声アシスタントアプリ３２は、ユーザからの発話コマンドの音声入力を待つこととしたので、音声アシスタントアプリ３２は、周囲の音源よりも大きな音声で音声案内を行うことが可能となる。

また、オーディオドライバ３１は、第２のモードが設定されている場合に、周囲がサイレントな場合は、第２のモードを維持し、音声アシスタントアプリ３２は、ユーザからの発話コマンドの音声入力を待つこととしたので、ユーザはノートＰＣ１から離れた場所で音声アシスタントアプリ３２を使用する場合に、ノートＰＣ１の正面に居なくても音声を誤認識することなく好適に使用することができる。

なお、上記実施の形態では、本発明をノートＰＣに適用した場合について説明したが、本発明はこれに限られるものではなく、スマートフォン、タブレット、携帯電話、ＰＤＡ、デスクトップＰＣ等の情報処理装置にも適用可能である。

また、上記実施の形態では、音声認識を音声アシスタントアプリ３２で行うこととしたが、オーディオデバイス１７、オーディオドライバ３１ａ、及び／又はＯＳ３０で行うことにしてもよい。

また、オーディオデバイス１７の音声処理回路１８の機能の一部又は全部をソフトウェアで行うことにしてもよい。

また、オーディオドライバ３１ａは、第２のモードのうち、会議モードとマルチアングルモードとを、ノートＰＣ１とユーザとの距離に応じて切り替えることにしてもよく、例えば、ノートＰＣ１とユーザとの距離が閾値より小さい場合は、マルチアングルモードを設定し、閾値以上の場合は、会議モードを設定することにしてもよい。

また、マイク５ａ、５ｂの使用モードをオーディオドライバ３１ａが設定することとしたが、ＯＳ３０及び／又は音声アシスタントアプリ３２が設定することにしてもよい。

１ノートＰＣ
２本体側筐体
３ディスプレイ側筐体
４入力部
５ａ、５ｂマイク
６ａ、６ｂスピーカ
７ＬＣＤ（液晶ディスプレイ）
８カメラ
９ａ，９ｂ連結部（ヒンジ部）
１１ＣＰＵ
１２ＲＯＭ
１３メモリ
１４ストレージ
１５カメラデバイス
１６カメラ処理回路
１７オーディオデバイス
１８音声処理回路
１９通信デバイス
２１バッテリ
２２ＤＣ−ＤＣコンバータ
２３ＡＣアダプタ
３０ＯＳ
３１ドライバ
３１ａオーディオドライバ
３２音声アシスタントアプリ
３３ＶＯＩＰアプリ
３４他のアプリ

Claims

複数のマイクを備えた情報処理装置であって、
前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定手段と、
前記モード設定手段で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理手段と、
前記音声処理手段で信号処理された音を音声認識して、音声アシストを行う音声アシスタント手段と、
を備えたことを特徴とする情報処理装置。
前記モード設定手段は、前記第１のモードが設定されている場合に、前記情報処理装置がアイドル状態となった場合には、前記第２のモードを設定することを特徴とする請求項１に記載の情報処理装置。
前記モード設定手段は、前記第２のモードが設定されている場合に、周囲の音源が複数の場合は、前記第１のモードを設定することを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記モード設定手段は、前記第２のモードが設定されている場合に、周囲の音源が１つの場合は、当該第２のモードを維持すると共にスピーカの音量を当該音源よりも大きく設定し、
前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記モード設定手段は、前記第２のモードが設定されている場合に、周囲がサイレントな場合は、当該第２のモードを維持し、
前記音声アシスタント手段は、ユーザからの発話コマンドの音声入力を待つことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記第１のモードは、前記複数のマイクから入力される音のうち、前記情報処理装置に対して正面方向の音のみを抽出するビームフォーミング処理を行うモードであることを特徴とする請求項１〜請求項５のいずれか１つに記載の情報処理装置。
前記第２のモードは、前記第１のモードよりも前記複数のマイクの感度を高く設定し、前記情報処理装置に対して全方向の音を広範囲に集音するモードであることを特徴とする請求項１〜請求項６のいずれか１つに記載の情報処理装置。
前記第２のモードは、前記情報処理装置に対して全方向の音を集音して、集音した音のうち最も大きい音を抽出する処理を行うモードであることを特徴とする請求項１〜請求項６のいずれか１つに記載の情報処理装置。
前記モード設定手段は、デフォルトで前記第１のモードを設定することを特徴とする請求項１〜請求項８のいずれか１つに記載の情報処理装置。
前記情報処理装置は、ノート型ＰＣであることを特徴とする請求項１〜請求項９のいずれか１つに記載の情報処理装置。
複数のマイクを備えた情報処理装置のマイク使用方法であって、
前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定工程と、
前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、
前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、
を含むことを特徴とするマイク使用方法。
複数のマイクを備えた情報処理装置に搭載されるプログラムであって、
前記情報処理装置の状態及び周囲の音に基づいて、前記複数のマイクの使用モードとして、指向性がある第１のモード及び指向性がない第２のモードの一方を選択して設定するモード設定工程と、
前記モード設定工程で設定されたモードに従って、前記複数のマイクから入力される音に対して信号処理を行う音声処理工程と、
前記音声処理工程で信号処理された音を音声認識して、音声アシストを行う音声アシスタント工程と、
をコンピュータに実行させることを特徴とするコンピュータが実行可能なプログラム。