JP2015076038A - 情報処理方法、情報処理装置、及びプログラム - Google Patents
情報処理方法、情報処理装置、及びプログラム Download PDFInfo
- Publication number
- JP2015076038A JP2015076038A JP2013213686A JP2013213686A JP2015076038A JP 2015076038 A JP2015076038 A JP 2015076038A JP 2013213686 A JP2013213686 A JP 2013213686A JP 2013213686 A JP2013213686 A JP 2013213686A JP 2015076038 A JP2015076038 A JP 2015076038A
- Authority
- JP
- Japan
- Prior art keywords
- area
- information
- input
- information processing
- screen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムを提供する。【解決手段】入力された音声情報から認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する情報処理方法であって、音声情報の入力を受け付けるとともに音声情報の入力を受け付け可能であることを画面上の第1の領域A1に表示する第1のモードと、所定のコマンドを実行するとともに実行結果を画面上であって前記第1の領域よりも大きい第2の領域A2に表示する第2のモードとを有する。【選択図】図5
Description
本発明は、情報処理方法、情報処理装置、及びプログラムに関する。
近年、テレビ受像器やパーソナルコンピュータ等の電子機器に対するユーザ・コマンドの入力を支援する対話型操作支援システムが開発されている(例えば、特許文献1参照)。
特許文献1に記載の発明は、「対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体」に関する発明であり、具体的には、「音声合成やアニメーションによるリアクションを行なう擬人化されたアシスタントと呼ばれるキャラクタのアニメーションをユーザ・インターフェースとすることにより、ユーザに対して親しみを持たせると同時に複雑な命令への対応やサービスへの入り口を提供することができる。また、自然言語に近い感じの命令体系を備えているので、ユーザは、通常の会話と同じ感覚で機器の操作を容易に行なうことができる」ものである。
しかしながら、上述した特許文献1に記載の技術では、音声による命令受け付け状態における表示と命令の実行状態における表示との関係について特段考慮されていない。具体的には、特許文献1に記載の技術によると、命令受け付け状態ではアシスタントが全画面表示され、受け付けた命令が実行されるとその結果が全画面表示される。このため、ユーザは命令受け付け状態ではアシスタント以外の情報処理内容を視認することができない。また、命令実行状態では、音声による命令と実行結果画面との関係を把握することが難しい。
そこで、本発明の目的は、音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムを提供することにある。
そこで、本発明の目的は、音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムを提供することにある。
上記課題を解決するため、請求項1に記載の発明は、入力された音声情報から認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する情報処理方法であって、前記音声情報の入力を受け付けるとともに前記音声情報の入力を受け付け可能であることを画面上の第1の領域に表示する第1のモードと、前記所定のコマンドを実行するとともに実行結果を前記画面上であって前記第1の領域よりも大きい第2の領域に表示する第2のモードとを有することを特徴とする。
本発明によれば、音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムの提供を実現することができる。
次に実施の形態について述べる。
<構 成>
図1は、一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
図1に示すパーソナルコンピュータ(以下、PC)100は、マイクロフォン101、増幅回路102、104、スピーカ103、表示装置105、キーボード106、マウス107、光学読取装置108、制御手段109、HDD(Hard Disk Drive)110、ネットワーク接続部111、I/O(Input/Output)112、及びバスライン113を有する。
<構 成>
図1は、一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
図1に示すパーソナルコンピュータ(以下、PC)100は、マイクロフォン101、増幅回路102、104、スピーカ103、表示装置105、キーボード106、マウス107、光学読取装置108、制御手段109、HDD(Hard Disk Drive)110、ネットワーク接続部111、I/O(Input/Output)112、及びバスライン113を有する。
マイクロフォン101は、ユーザの音声を電気信号に変換する機能を有する。マイクロフォン101としては、例えばコンデンサマイクロフォンが挙げられるが、ダイナミックマイクロフォンでもよい。
増幅回路102は、マイクロフォン101からの電気信号を増幅する回路である。
スピーカ103は、電気信号を音声に変換する機能を有する。スピーカ103は、主にPCを擬人化したアバターの発話内容をユーザへ伝達する機能を有する。
増幅回路104は、音声信号を、スピーカ103を駆動させるレベルまで増幅する回路である。
表示装置105は、アバターやアバターの発話内容を文字で表示した吹き出しを含む画像や文字等を表示する機能を有する。表示装置105としては、例えば、液晶表示素子が挙げられる。表示装置105には、音声情報の入力を受け付け可能であることが画面上の第1の領域A1(後述する図5参照)に表示される。また表示装置105には、所定のコマンドの実行結果が画面上の第2の領域A2(図5参照)に表示される。第1の領域A1は、長方形である画面の少なくとも一辺と辺を共有した棒状の領域であってもよい。また、第2の領域A2は、画面の全領域であってもよい。
キーボード106は、文字、数字、符号を入力する入力装置である。
マウス107は、入力装置の一種であり、机上を移動させることで表示装置105のカーソルを移動させる等の機能を有する。
光学読取装置108は、CD(Compact Disk)、DVD(Digital Versatile Disc)やCD−R(Compact Disc-Recordable)等の光学媒体を読み取る機能を有する。
増幅回路102は、マイクロフォン101からの電気信号を増幅する回路である。
スピーカ103は、電気信号を音声に変換する機能を有する。スピーカ103は、主にPCを擬人化したアバターの発話内容をユーザへ伝達する機能を有する。
増幅回路104は、音声信号を、スピーカ103を駆動させるレベルまで増幅する回路である。
表示装置105は、アバターやアバターの発話内容を文字で表示した吹き出しを含む画像や文字等を表示する機能を有する。表示装置105としては、例えば、液晶表示素子が挙げられる。表示装置105には、音声情報の入力を受け付け可能であることが画面上の第1の領域A1(後述する図5参照)に表示される。また表示装置105には、所定のコマンドの実行結果が画面上の第2の領域A2(図5参照)に表示される。第1の領域A1は、長方形である画面の少なくとも一辺と辺を共有した棒状の領域であってもよい。また、第2の領域A2は、画面の全領域であってもよい。
キーボード106は、文字、数字、符号を入力する入力装置である。
マウス107は、入力装置の一種であり、机上を移動させることで表示装置105のカーソルを移動させる等の機能を有する。
光学読取装置108は、CD(Compact Disk)、DVD(Digital Versatile Disc)やCD−R(Compact Disc-Recordable)等の光学媒体を読み取る機能を有する。
制御手段109は、PC100を統括制御機能、及び音声処理機能を有する素子であり、例えばCPU(Central Processing Unit)が挙げられる。音声処理機能とは、主に入力した音声をテキストデータとして出力し、解析し、合成する機能である。
制御手段109は、それぞれソフトウェアで構成される入力制御手段109a、音声認識手段109b、音声解析手段109c、検索手段109d、音声合成手段109e、及び表示装置制御手段109fを有する。
制御手段109は、それぞれソフトウェアで構成される入力制御手段109a、音声認識手段109b、音声解析手段109c、検索手段109d、音声合成手段109e、及び表示装置制御手段109fを有する。
入力制御手段109aは、マイクロフォン101に入力された音声が変換された信号を解析して得られたコマンドに基づいて処理させる機能の他、キーボード106からのキー入力、及びマウス107からのクリックやドラッグ等による信号を文字表示、数字表示、符号表示、カーソル移動、コマンド等に変換する機能を有する。
音声認識手段109bについては、後述するクライアント型音声認識部203である。
音声解析手段109cは、後述する音声信号解釈部202である。
検索手段109dは、ネットワーク207を介してインターネット検索する手段である。検索手段109dは、ユーザから検索の指示があると、予め設定されたブラウザでネットワークに接続し、予め設定されたインターネット検索サービス会社に接続し、キーワード検索する機能を有する。
音声合成手段109eは、後述するクライアント型音声合成部210である。
音声認識手段109bについては、後述するクライアント型音声認識部203である。
音声解析手段109cは、後述する音声信号解釈部202である。
検索手段109dは、ネットワーク207を介してインターネット検索する手段である。検索手段109dは、ユーザから検索の指示があると、予め設定されたブラウザでネットワークに接続し、予め設定されたインターネット検索サービス会社に接続し、キーワード検索する機能を有する。
音声合成手段109eは、後述するクライアント型音声合成部210である。
表示装置制御手段109fは、音声認識処理に関して表示装置105に表示すべきアバター、吹き出し、コマンド実行結果などが画面上に表示される領域を領域A1もしくは領域A2のいずれかに選択する機能を有する。すなわち、表示装置制御手段109fは、PC100が音声入力待機状態(第1のモード)のときは、第1の領域A1に音声入力を受け付け可能であることを表示する。音声入力を受け付け可能であることの表示は、棒状の領域にアバターと「音声入力受け付け可能」な旨が記載された吹き出しとを表示することによって可能であるが、これに限らない。また、会話中、すなわち音声情報の入力と音声情報により特定されたコマンドの実行とが所定時間内に連続している状態(第2のモード)のときは、第2の領域A2にコマンドの実行結果を表示する。第2の領域A2には、コマンドの実行結果に加えて、アバター、アバターの吹き出し、棒状の領域、ガイドアイコンまたはガイドアイコンの説明などをあわせて表示してもよい。アバターの吹き出しに、コマンド実行結果の補足情報を記載するようにすると、ユーザはコマンド実行結果をより的確に把握することができる。
アバターの吹き出しは、例えば、PC100の設定により、ユーザからの音声による問いかけへの応答を文字化するようにしてもよく、空白のままにしてもよい。
表示装置制御手段109fの他の機能については後述するクライアントアプリケーション部204、及びローカルコンテンツ部208が対応する。
アバターの吹き出しは、例えば、PC100の設定により、ユーザからの音声による問いかけへの応答を文字化するようにしてもよく、空白のままにしてもよい。
表示装置制御手段109fの他の機能については後述するクライアントアプリケーション部204、及びローカルコンテンツ部208が対応する。
HDD110は、記憶装置の一種であり、ROM(Read Only Memory)エリア、及びRAM(Random Access Memory)エリアを有する。ROMエリアは制御プログラムを格納するエリアであり、RAMエリアはメモリとして用いられるエリアである。
ネットワーク接続部111は、ネットワーク207を介して外部のサーバに接続する機能を有する公知の装置である。無線もしくは有線のいずれの手段を用いてもよい。
I/O112は、外部の電子機器、例えばUSB(Universal Serial Bus line)フラッシュメモリやプリンタを接続する機能を有する入出力装置である。
I/O112は、外部の電子機器、例えばUSB(Universal Serial Bus line)フラッシュメモリやプリンタを接続する機能を有する入出力装置である。
図2は、図1に示したPCの主要部のブロック図の一例である。
図2において、本発明の実施形態におけるPC100は、マイクロフォン101から入力されたユーザ200の音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
図2において、本発明の実施形態におけるPC100は、マイクロフォン101から入力されたユーザ200の音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
クライアントアプリケーション部204は、ユーザ200からの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ103から音声出力する。
ユーザ200からの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ103から音声出力する。
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ103に渡す。スピーカ103は、音声データ(電気信号)を音声に変換する。また、スピーカ103から音声を発するのに合わせて、表示装置105に当該音声に関連する詳細な情報を表示する。
次に、本発明の実施形態における情報処理装置の起動時の画面表示について説明する。図3から図5は、本発明の実施形態における情報処理装置の起動時の画面表示について説明する図である。
本発明の実施形態に係るPC100のアバターは、起動時の時間帯や曜日に応じて、様々な挨拶を行うことができる。例えば、起動時が朝の時間帯であるときには、図5に示すアバターが、「おはようございます!」と発声するのに合わせて表示装置105(図1)に関連情報を表示する。同様に、起動時が昼間アバターは、「こんにちは!」と発声する。また、時間帯以外にも、平日と休日といった曜日に応じた発声も行うことができる。
<動 作>
図3は、図1に示したPCの動作の一例を示すフローチャートである。図4は、ユーザが音声でPCに指示している状態を示す図である。図5(a)は、図4に示したPCの表示装置に表示される画面のうち、音声認識処理が作動中であって、ユーザからの指示前の状態を示し、図5(b)は、音声認識処理が作動中であってユーザからの指示後の状態を示す図である。
図3は、図1に示したPCの動作の一例を示すフローチャートである。図4は、ユーザが音声でPCに指示している状態を示す図である。図5(a)は、図4に示したPCの表示装置に表示される画面のうち、音声認識処理が作動中であって、ユーザからの指示前の状態を示し、図5(b)は、音声認識処理が作動中であってユーザからの指示後の状態を示す図である。
図3において、動作の主体は制御手段である。
音声認識によってコマンドを実行する一連の処理の開始の指示を受けると、まず、制御手段109は、音声認識開始指示を受け付け可能な第1のモードに遷移し、音声認識開始指示を受け付け可能であることを表示装置105の領域A1に表示させる(ステップS1)。領域A1には、音声入力を受け付け可能であることとともに、アバターを表示してもよく、音声入力を受け付け可能であることをアバターの発話内容として吹き出しで表示してもよい。領域A1は、表示装置105における長方形の画面の少なくとも一辺と辺を共有するタスクバーとして表示することができるが、これに限らない。
続いて、制御手段109は、ユーザから音声認識開始指示の入力があったか否かを判断する(ステップS2)。音声認識開始指示は、ユーザの音声によるウェークアップキーワード(例えば、「シェリー」)の入力の簡易音声認識処理による認識であってもよいし、画面に表示された所定のアイコンやハードウェアスイッチへの操作などであってもよい。
制御手段109は、ユーザからの音声認識開始指示の入力があるまで待機し(ステップS2/N)、ユーザから音声認識開始指示の入力があると(ステップS2/Y)、制御手段109は、音声認識処理を開始する(ステップS3)。
続いて、制御手段109は、ユーザからの音声認識停止指示を待つ(ステップS4)。ユーザからの音声認識停止指示の入力があると(ステップS4/Y)、音声認識処理を終了した後にステップS1に戻る。ユーザからの音声認識停止指示は、音声により指示されたコマンドの実行後の所定時間連続して音声入力がないことにより判断してもよく、ユーザの音声によるスリープワード(例えば、「バイバイ」)の入力を音声認識処理によって認識するのでもよく、画面に表示された所定のアイコンやハードウェアスイッチへの操作であってもよい。また、音声認識処理を終了するときに、音声認識を終了する旨をアバターの発話内容として吹き出しで表示するなどしてもよい。
ユーザからの音声認識停止指示の入力がなされないと(ステップS4/N)、制御手段109は、ユーザからのコマンドを指示する音声の入力があったか否かを判断する(ステップS5)。
音声認識によってコマンドを実行する一連の処理の開始の指示を受けると、まず、制御手段109は、音声認識開始指示を受け付け可能な第1のモードに遷移し、音声認識開始指示を受け付け可能であることを表示装置105の領域A1に表示させる(ステップS1)。領域A1には、音声入力を受け付け可能であることとともに、アバターを表示してもよく、音声入力を受け付け可能であることをアバターの発話内容として吹き出しで表示してもよい。領域A1は、表示装置105における長方形の画面の少なくとも一辺と辺を共有するタスクバーとして表示することができるが、これに限らない。
続いて、制御手段109は、ユーザから音声認識開始指示の入力があったか否かを判断する(ステップS2)。音声認識開始指示は、ユーザの音声によるウェークアップキーワード(例えば、「シェリー」)の入力の簡易音声認識処理による認識であってもよいし、画面に表示された所定のアイコンやハードウェアスイッチへの操作などであってもよい。
制御手段109は、ユーザからの音声認識開始指示の入力があるまで待機し(ステップS2/N)、ユーザから音声認識開始指示の入力があると(ステップS2/Y)、制御手段109は、音声認識処理を開始する(ステップS3)。
続いて、制御手段109は、ユーザからの音声認識停止指示を待つ(ステップS4)。ユーザからの音声認識停止指示の入力があると(ステップS4/Y)、音声認識処理を終了した後にステップS1に戻る。ユーザからの音声認識停止指示は、音声により指示されたコマンドの実行後の所定時間連続して音声入力がないことにより判断してもよく、ユーザの音声によるスリープワード(例えば、「バイバイ」)の入力を音声認識処理によって認識するのでもよく、画面に表示された所定のアイコンやハードウェアスイッチへの操作であってもよい。また、音声認識処理を終了するときに、音声認識を終了する旨をアバターの発話内容として吹き出しで表示するなどしてもよい。
ユーザからの音声認識停止指示の入力がなされないと(ステップS4/N)、制御手段109は、ユーザからのコマンドを指示する音声の入力があったか否かを判断する(ステップS5)。
ユーザからのコマンドを指示する音声の入力があると(ステップS5/Y)、音声により指示されたコマンドを特定して実行し、表示装置105の領域A1より大きい領域A2にコマンドの実行結果を表示させ(ステップS6)、ステップS4に戻って音声認識停止指示を待つ。領域A2は、表示装置105における表示画面全体であってもよいが、これに限らない。また、領域A2に、コマンドの実行結果とあわせてアバターを表示させてもよく、さらにコマンドの実行結果の補足情報をアバターの発話内容として吹き出しで表示させてもよい。このとき、ステップS1で領域A1に表示するアバターと共通の表示縮尺で領域A2にアバターを表示するようにすると、第1のモードと第2のモードとの間の移行によるユーザの違和感を減少させることができるため、好適である。
また、ユーザからのコマンドを指示する音声の入力があったときに、指示されたコマンドの実行結果が画面表示を必要とするものであるかをさらに判断し、画面表示を必要とする実行結果のときにその結果を領域A2に表示するステップをステップS5に続いて実行するようにしてもよい。このようにすると、例えば音量調整や画面の明るさ調整などのコマンド実行時に画面の表示領域の不要な変更を防止することができ、ユーザの使い勝手が向上する。このステップで、コマンドの実行結果が画面表示を必要としないときは、ステップS5実行後と同様にステップS4に戻る。
ユーザからのコマンドを指示する音声の入力がないと(ステップS5/N)、ステップS4に戻って音声認識停止指示の入力およびコマンドを指示する音声の入力の待機を継続する。
また、ユーザからのコマンドを指示する音声の入力があったときに、指示されたコマンドの実行結果が画面表示を必要とするものであるかをさらに判断し、画面表示を必要とする実行結果のときにその結果を領域A2に表示するステップをステップS5に続いて実行するようにしてもよい。このようにすると、例えば音量調整や画面の明るさ調整などのコマンド実行時に画面の表示領域の不要な変更を防止することができ、ユーザの使い勝手が向上する。このステップで、コマンドの実行結果が画面表示を必要としないときは、ステップS5実行後と同様にステップS4に戻る。
ユーザからのコマンドを指示する音声の入力がないと(ステップS5/N)、ステップS4に戻って音声認識停止指示の入力およびコマンドを指示する音声の入力の待機を継続する。
すなわち、図4に示すように、例えばユーザ200がドレッサーのチェストに座りながらメークしており、ソファーの上に音声認識動作中のPC100が載置されているとする。尚、キーワードとしてのウェークアップキーワードがユーザ200から発せられると、判別手段としての制御手段が判別し、コマンドとしての問いかけに対する応答動作を開始する。
ユーザ200がメークをしながら、PC100に「シェリー」と呼ぶと、瞬時にPC100のスピーカ103から「おはようございます。いかがいいたしましょうか?お手伝いできることがあれば言ってくださいね。」等の音声が発せられる。これと同時にモニタ100aには領域A2が表示される。図4ではPC100とユーザ200とは離れているが、ユーザ200はいつでもPC100のモニタ100aを見ることができる。このため、アバターの大きさがほとんど変わらないため、一連のモードの連続性が得られ、違和感なく操作できる。
ユーザ200がメークをしながら、PC100に「シェリー」と呼ぶと、瞬時にPC100のスピーカ103から「おはようございます。いかがいいたしましょうか?お手伝いできることがあれば言ってくださいね。」等の音声が発せられる。これと同時にモニタ100aには領域A2が表示される。図4ではPC100とユーザ200とは離れているが、ユーザ200はいつでもPC100のモニタ100aを見ることができる。このため、アバターの大きさがほとんど変わらないため、一連のモードの連続性が得られ、違和感なく操作できる。
図5は、図1に示したパーソナルコンピュータ100の起動から入力待機、会話、タイムアウト、及びセッション起動待機までの遷移概要を示す概念図である。
<起動>
図1に示したパーソナルコンピュータ100の音声認識の機能は、ソフナビ(ソフトウェアナビゲータ)から起動するか、またはアプリ(アプリケーションソフトウェア)から起動する。ソフナビもしくはアプリの起動は、ユーザ200によりマウス107、キーボード106、もしくは図示しないタッチパネルにて行われる。
<起動>
図1に示したパーソナルコンピュータ100の音声認識の機能は、ソフナビ(ソフトウェアナビゲータ)から起動するか、またはアプリ(アプリケーションソフトウェア)から起動する。ソフナビもしくはアプリの起動は、ユーザ200によりマウス107、キーボード106、もしくは図示しないタッチパネルにて行われる。
<入力待機(Active Waiting)>
音声認識機能が起動すると、表示装置105の画面上に第1の領域A1が表示される。第1の領域A1は、アバター150、アバター150の吹き出し151、及び棒状の領域152を有する。棒状の領域152にはキーボード入力もしくはマウス入力するための領域153が配置されている。
音声認識機能が起動すると、表示装置105の画面上に第1の領域A1が表示される。第1の領域A1は、アバター150、アバター150の吹き出し151、及び棒状の領域152を有する。棒状の領域152にはキーボード入力もしくはマウス入力するための領域153が配置されている。
<会話中>
入力待機状態において、ユーザ200がパーソナルコンピュータ100に対して音声による会話が開始されると、領域A1より大きい領域A2が表示される。領域A2のサイズは画面の全領域である。領域A2には、アバター150、アバター150の吹き出し151、棒状の領域152に加えて、例えばレストランを意味するアイコン155a、電車を意味するアイコン155b、天気を意味するアイコン155c、乗換案内を意味するアイコン155d、カレンダーを意味するアイコン155e等の各種アイコン、及び各アイコン155a〜155eの説明156a〜156eが箇条書き表示される。
ユーザ200はパーソナルコンピュータ100のアバター150とあたかも会話をするように質疑や検索の依頼等を行うことができる。会話を開始後所定の時間が経過してもユーザ200からの音声が途絶えると、画面の表示が領域A2から元の領域A1に戻る(セッションタイムアウト)。
入力待機状態において、ユーザ200がパーソナルコンピュータ100に対して音声による会話が開始されると、領域A1より大きい領域A2が表示される。領域A2のサイズは画面の全領域である。領域A2には、アバター150、アバター150の吹き出し151、棒状の領域152に加えて、例えばレストランを意味するアイコン155a、電車を意味するアイコン155b、天気を意味するアイコン155c、乗換案内を意味するアイコン155d、カレンダーを意味するアイコン155e等の各種アイコン、及び各アイコン155a〜155eの説明156a〜156eが箇条書き表示される。
ユーザ200はパーソナルコンピュータ100のアバター150とあたかも会話をするように質疑や検索の依頼等を行うことができる。会話を開始後所定の時間が経過してもユーザ200からの音声が途絶えると、画面の表示が領域A2から元の領域A1に戻る(セッションタイムアウト)。
入力待機状態を示す領域A1もしくは会話中の状態を示す領域A2は、棒状の領域152の中の最小化ボタン157をキーボード106、マウス107、もしくは図示しないタッチパネルでクリックもしくはタップすることにより(タスクバーもしくはタスクトレイ)にアイコン化される。アイコンをダブルタップすることによりセッション起動待機状態(Inactive Waiting)状態に遷移する。
以上において、本実施形態によれば、サイズが異なる領域A1、A2においてアバターのサイズがほぼ同一であるので、一連のモードの連続性が得られるようにした。このため操作上の違和感がなくなる。
以上において、本実施形態によれば、サイズが異なる領域A1、A2においてアバターのサイズがほぼ同一であるので、一連のモードの連続性が得られるようにした。このため操作上の違和感がなくなる。
<プログラム>
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばパーソナルコンピュータが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばパーソナルコンピュータが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
例えば、
音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置のコンピュータが読み取り可能なプログラムであって、
前記コンピュータが、
表示手段に、
前記音声情報の入力を受け付ける第1のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第1の領域に表示する手順、
前記所定のコマンドを実行する第2のモードにおいて前記所定のコマンドの実行結果を前記画面上の前記第1の領域より大きい第2の領域に表示する手順、
を実行させるためのプログラムが挙げられる。
音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置のコンピュータが読み取り可能なプログラムであって、
前記コンピュータが、
表示手段に、
前記音声情報の入力を受け付ける第1のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第1の領域に表示する手順、
前記所定のコマンドを実行する第2のモードにおいて前記所定のコマンドの実行結果を前記画面上の前記第1の領域より大きい第2の領域に表示する手順、
を実行させるためのプログラムが挙げられる。
これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる情報処理装置を実現することができる。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。
<記憶媒体>
ここで、記憶媒体としては、例えばCD−ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
ここで、記憶媒体としては、例えばCD−ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
フレキシブルディスクは、Flexible Disk:FDを意味する。RAMは、Random-Access Memoryの略である。ROMは、Read-Only Memoryの略である。FeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。
以上において、本発明によれば、音声情報を入力する入力手段と、入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置であって、音声情報の入力を受け付けるとともに音声情報の入力を受け付け可能であることを画面上の第1の領域に表示し、所定のコマンドを実行するとともに実行結果を画面上の第2の領域に表示する表示手段を備え、第1の領域よりも第2の領域の方が大きいことにより、一連のモードの連続性が得られる情報処理方法、情報処理装置、及びプログラムの提供を実現することができる。
尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。例えば、本実施形態ではアバターとして若い女性が用いられているが、本発明はこれに限定されるものでなく、男性であっても、アニメーションキャラクタであってもよい。
100 パーソナルコンピュータ(PC、情報処理装置)
100a モニタ
101 マイクロフォン
102、104 増幅回路
103 スピーカ
105 表示装置
106 キーボード
107 マウス
108 光学読取装置
109 制御手段
109a 入力制御手段
109b 音声認識手段
109c 音声解析手段
109d 検索手段
109e 音声合成手段
109f 表示装置制御手段
110 HDD
111 ネットワーク接続部
112 I/O
113 バスライン
150 アバター
151 吹き出し
200 ユーザ
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
207 ネットワーク
208 ローカルコンテンツ部
209 テキスト読上部
210 クライアント型音声合成部
100a モニタ
101 マイクロフォン
102、104 増幅回路
103 スピーカ
105 表示装置
106 キーボード
107 マウス
108 光学読取装置
109 制御手段
109a 入力制御手段
109b 音声認識手段
109c 音声解析手段
109d 検索手段
109e 音声合成手段
109f 表示装置制御手段
110 HDD
111 ネットワーク接続部
112 I/O
113 バスライン
150 アバター
151 吹き出し
200 ユーザ
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
207 ネットワーク
208 ローカルコンテンツ部
209 テキスト読上部
210 クライアント型音声合成部
Claims (8)
- 入力された音声情報から認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する情報処理方法であって、
前記音声情報の入力を受け付けるとともに前記音声情報の入力を受け付け可能であることを画面上の第1の領域に表示する第1のモードと、前記所定のコマンドを実行するとともに実行結果を前記画面上であって前記第1の領域よりも大きい第2の領域に表示する第2のモードとを有することを特徴とする情報処理方法。 - 前記第2のモードにおいて、実行結果が画面に表示されない前記所定のコマンドを実行したときは、表示領域を変更しないことを特徴とする請求項1記載の情報処理方法。
- 情報処理を実行する情報処理装置を擬人化したアバターを、前記第1のモードにおいては前記音声情報の入力を受け付け可能であることを発話しているように表示し、前記第2のモードにおいては前記実行結果の補足情報を発話しているように表示することを特徴とする請求項1または2記載の情報処理方法。
- 前記アバターの表示縮尺が、前記第1のモードと前記第2のモードとにおいて共通であることを特徴とする請求項3記載の情報処理方法。
- 前記第1の領域は、長方形である前記画面の少なくとも一辺と辺を共有した棒状の領域であることを特徴とする請求項1ないし4のいずれか1項記載の情報処理方法。
- 前記第2の領域は、前記画面の全領域であることを特徴とする請求項1ないし5のいずれか1項記載の情報処理方法。
- 音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置であって、
前記音声情報の入力を受け付ける第1のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第1の領域に表示させ、前記所定のコマンドを実行する第2のモードにおいて前記所定のコマンドの実行結果を前記画面上の第2の領域に表示させる表示手段を備え、
前記第1の領域よりも前記第2の領域の方が大きいことを特徴とする情報処理装置。 - 音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置のコンピュータが読み取り可能なプログラムであって、
前記コンピュータが、
表示手段に、
前記音声情報の入力を受け付ける第1のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第1の領域に表示する手順、
前記所定のコマンドを実行する第2のモードにおいて前記所定のコマンドの実行結果を前記画面上の前記第1の領域より大きい第2の領域に表示する手順、
を実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013213686A JP2015076038A (ja) | 2013-10-11 | 2013-10-11 | 情報処理方法、情報処理装置、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013213686A JP2015076038A (ja) | 2013-10-11 | 2013-10-11 | 情報処理方法、情報処理装置、及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2015076038A true JP2015076038A (ja) | 2015-04-20 |
Family
ID=53000815
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013213686A Pending JP2015076038A (ja) | 2013-10-11 | 2013-10-11 | 情報処理方法、情報処理装置、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2015076038A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019091151A (ja) * | 2017-11-13 | 2019-06-13 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP2020047062A (ja) * | 2018-09-20 | 2020-03-26 | Dynabook株式会社 | 電子機器および制御方法 |
| US12536753B2 (en) | 2014-04-18 | 2026-01-27 | Magic Leap, Inc. | Displaying virtual content in augmented reality using a map of the world |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002169818A (ja) * | 2000-12-04 | 2002-06-14 | Sanyo Electric Co Ltd | ユーザ支援装置およびシステム |
| JP2006154926A (ja) * | 2004-11-25 | 2006-06-15 | Denso Corp | キャラクタ表示を利用した電子機器操作システム及び電子機器 |
| JP2006330576A (ja) * | 2005-05-30 | 2006-12-07 | Sharp Corp | 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 |
| JP2007243602A (ja) * | 2006-03-08 | 2007-09-20 | Bandai Co Ltd | 電子装置の制御装置および制御方法 |
| JP2011209786A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
-
2013
- 2013-10-11 JP JP2013213686A patent/JP2015076038A/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002169818A (ja) * | 2000-12-04 | 2002-06-14 | Sanyo Electric Co Ltd | ユーザ支援装置およびシステム |
| JP2006154926A (ja) * | 2004-11-25 | 2006-06-15 | Denso Corp | キャラクタ表示を利用した電子機器操作システム及び電子機器 |
| JP2006330576A (ja) * | 2005-05-30 | 2006-12-07 | Sharp Corp | 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 |
| JP2007243602A (ja) * | 2006-03-08 | 2007-09-20 | Bandai Co Ltd | 電子装置の制御装置および制御方法 |
| JP2011209786A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12536753B2 (en) | 2014-04-18 | 2026-01-27 | Magic Leap, Inc. | Displaying virtual content in augmented reality using a map of the world |
| JP2019091151A (ja) * | 2017-11-13 | 2019-06-13 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP7009940B2 (ja) | 2017-11-13 | 2022-01-26 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| JP2020047062A (ja) * | 2018-09-20 | 2020-03-26 | Dynabook株式会社 | 電子機器および制御方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113783928B (zh) | 跨设备切换 | |
| US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
| RU2530268C2 (ru) | Способ обучения информационной диалоговой системы пользователем | |
| JP6353786B2 (ja) | ハンズフリーインタラクションに対するユーザインターフェースの自動適合化 | |
| CN107615378B (zh) | 设备语音控制 | |
| US10102854B2 (en) | Dialog system with automatic reactivation of speech acquiring mode | |
| JP2019185011A (ja) | アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 | |
| JP2018532165A (ja) | 個別化されたエンティティ発音の学習 | |
| JP2014203207A (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
| US20100088096A1 (en) | Hand held speech recognition device | |
| JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
| US20200143813A1 (en) | Information processing device, information processing method, and computer program | |
| KR20190091265A (ko) | 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템 | |
| JP2015076038A (ja) | 情報処理方法、情報処理装置、及びプログラム | |
| JP2020113150A (ja) | 音声翻訳対話システム | |
| JP2015052745A (ja) | 情報処理装置、制御方法、及びプログラム | |
| KR20120063281A (ko) | 음성 인식을 통한 전자책 제어 방법 및 그 장치 | |
| JP6310950B2 (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
| JP5882972B2 (ja) | 情報処理装置、及びプログラム | |
| JP2015076040A (ja) | 情報処理方法、情報処理装置、及びプログラム | |
| JP2020149073A (ja) | 通信システム、通信方法、サーバ装置、及びプログラム | |
| JP2025064677A (ja) | 情報処理システム、サーバ装置、情報処理方法及びプログラム | |
| JP2015069101A (ja) | 情報処理装置、制御方法、及びプログラム | |
| JP2007219218A (ja) | 語学学習用電子機器および訳文再生方法 | |
| JP2015052744A (ja) | 情報処理装置、制御方法、及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150812 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150818 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20151222 |