JP2015076038A

JP2015076038A - 情報処理方法、情報処理装置、及びプログラム

Info

Publication number: JP2015076038A
Application number: JP2013213686A
Authority: JP
Inventors: 玲二藤川; Reiji Fujikawa; 雅彦原田; Masahiko Harada
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2015-04-20

Abstract

【課題】音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムを提供する。【解決手段】入力された音声情報から認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する情報処理方法であって、音声情報の入力を受け付けるとともに音声情報の入力を受け付け可能であることを画面上の第１の領域Ａ１に表示する第１のモードと、所定のコマンドを実行するとともに実行結果を画面上であって前記第１の領域よりも大きい第２の領域Ａ２に表示する第２のモードとを有する。【選択図】図５

Description

本発明は、情報処理方法、情報処理装置、及びプログラムに関する。

近年、テレビ受像器やパーソナルコンピュータ等の電子機器に対するユーザ・コマンドの入力を支援する対話型操作支援システムが開発されている（例えば、特許文献１参照）。

特許文献１に記載の発明は、「対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体」に関する発明であり、具体的には、「音声合成やアニメーションによるリアクションを行なう擬人化されたアシスタントと呼ばれるキャラクタのアニメーションをユーザ・インターフェースとすることにより、ユーザに対して親しみを持たせると同時に複雑な命令への対応やサービスへの入り口を提供することができる。また、自然言語に近い感じの命令体系を備えているので、ユーザは、通常の会話と同じ感覚で機器の操作を容易に行なうことができる」ものである。

特開２００２−４１２７６号公報

しかしながら、上述した特許文献１に記載の技術では、音声による命令受け付け状態における表示と命令の実行状態における表示との関係について特段考慮されていない。具体的には、特許文献１に記載の技術によると、命令受け付け状態ではアシスタントが全画面表示され、受け付けた命令が実行されるとその結果が全画面表示される。このため、ユーザは命令受け付け状態ではアシスタント以外の情報処理内容を視認することができない。また、命令実行状態では、音声による命令と実行結果画面との関係を把握することが難しい。
そこで、本発明の目的は、音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムを提供することにある。

上記課題を解決するため、請求項１に記載の発明は、入力された音声情報から認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する情報処理方法であって、前記音声情報の入力を受け付けるとともに前記音声情報の入力を受け付け可能であることを画面上の第１の領域に表示する第１のモードと、前記所定のコマンドを実行するとともに実行結果を前記画面上であって前記第１の領域よりも大きい第２の領域に表示する第２のモードとを有することを特徴とする。

本発明によれば、音声認識による命令実行の使い勝手を向上させる情報処理方法、情報処理装置、及びプログラムの提供を実現することができる。

一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。図１に示したパーソナルコンピュータの主要部のブロック図の一例である。図１に示したパーソナルコンピュータの動作の一例を示すフローチャートである。ユーザが音声でパーソナルコンピュータに指示している状態を示す図である。図１に示したパーソナルコンピュータの起動から入力待機、会話、タイムアウト、及びセッション起動待機までの遷移概要を示す概念図である。

次に実施の形態について述べる。
＜構成＞
図１は、一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
図１に示すパーソナルコンピュータ（以下、ＰＣ）１００は、マイクロフォン１０１、増幅回路１０２、１０４、スピーカ１０３、表示装置１０５、キーボード１０６、マウス１０７、光学読取装置１０８、制御手段１０９、ＨＤＤ(Hard Disk Drive)１１０、ネットワーク接続部１１１、Ｉ／Ｏ(Input/Output)１１２、及びバスライン１１３を有する。

マイクロフォン１０１は、ユーザの音声を電気信号に変換する機能を有する。マイクロフォン１０１としては、例えばコンデンサマイクロフォンが挙げられるが、ダイナミックマイクロフォンでもよい。
増幅回路１０２は、マイクロフォン１０１からの電気信号を増幅する回路である。
スピーカ１０３は、電気信号を音声に変換する機能を有する。スピーカ１０３は、主にＰＣを擬人化したアバターの発話内容をユーザへ伝達する機能を有する。
増幅回路１０４は、音声信号を、スピーカ１０３を駆動させるレベルまで増幅する回路である。
表示装置１０５は、アバターやアバターの発話内容を文字で表示した吹き出しを含む画像や文字等を表示する機能を有する。表示装置１０５としては、例えば、液晶表示素子が挙げられる。表示装置１０５には、音声情報の入力を受け付け可能であることが画面上の第１の領域Ａ１（後述する図５参照）に表示される。また表示装置１０５には、所定のコマンドの実行結果が画面上の第２の領域Ａ２（図５参照）に表示される。第１の領域Ａ１は、長方形である画面の少なくとも一辺と辺を共有した棒状の領域であってもよい。また、第２の領域Ａ２は、画面の全領域であってもよい。
キーボード１０６は、文字、数字、符号を入力する入力装置である。
マウス１０７は、入力装置の一種であり、机上を移動させることで表示装置１０５のカーソルを移動させる等の機能を有する。
光学読取装置１０８は、ＣＤ(Compact Disk)、ＤＶＤ(Digital Versatile Disc)やＣＤ−Ｒ(Compact Disc-Recordable)等の光学媒体を読み取る機能を有する。

制御手段１０９は、ＰＣ１００を統括制御機能、及び音声処理機能を有する素子であり、例えばＣＰＵ(Central Processing Unit)が挙げられる。音声処理機能とは、主に入力した音声をテキストデータとして出力し、解析し、合成する機能である。
制御手段１０９は、それぞれソフトウェアで構成される入力制御手段１０９ａ、音声認識手段１０９ｂ、音声解析手段１０９ｃ、検索手段１０９ｄ、音声合成手段１０９ｅ、及び表示装置制御手段１０９ｆを有する。

入力制御手段１０９ａは、マイクロフォン１０１に入力された音声が変換された信号を解析して得られたコマンドに基づいて処理させる機能の他、キーボード１０６からのキー入力、及びマウス１０７からのクリックやドラッグ等による信号を文字表示、数字表示、符号表示、カーソル移動、コマンド等に変換する機能を有する。
音声認識手段１０９ｂについては、後述するクライアント型音声認識部２０３である。
音声解析手段１０９ｃは、後述する音声信号解釈部２０２である。
検索手段１０９ｄは、ネットワーク２０７を介してインターネット検索する手段である。検索手段１０９ｄは、ユーザから検索の指示があると、予め設定されたブラウザでネットワークに接続し、予め設定されたインターネット検索サービス会社に接続し、キーワード検索する機能を有する。
音声合成手段１０９ｅは、後述するクライアント型音声合成部２１０である。

表示装置制御手段１０９ｆは、音声認識処理に関して表示装置１０５に表示すべきアバター、吹き出し、コマンド実行結果などが画面上に表示される領域を領域Ａ１もしくは領域Ａ２のいずれかに選択する機能を有する。すなわち、表示装置制御手段１０９ｆは、ＰＣ１００が音声入力待機状態（第１のモード）のときは、第１の領域Ａ１に音声入力を受け付け可能であることを表示する。音声入力を受け付け可能であることの表示は、棒状の領域にアバターと「音声入力受け付け可能」な旨が記載された吹き出しとを表示することによって可能であるが、これに限らない。また、会話中、すなわち音声情報の入力と音声情報により特定されたコマンドの実行とが所定時間内に連続している状態（第２のモード）のときは、第２の領域Ａ２にコマンドの実行結果を表示する。第２の領域Ａ２には、コマンドの実行結果に加えて、アバター、アバターの吹き出し、棒状の領域、ガイドアイコンまたはガイドアイコンの説明などをあわせて表示してもよい。アバターの吹き出しに、コマンド実行結果の補足情報を記載するようにすると、ユーザはコマンド実行結果をより的確に把握することができる。
アバターの吹き出しは、例えば、ＰＣ１００の設定により、ユーザからの音声による問いかけへの応答を文字化するようにしてもよく、空白のままにしてもよい。
表示装置制御手段１０９ｆの他の機能については後述するクライアントアプリケーション部２０４、及びローカルコンテンツ部２０８が対応する。

ＨＤＤ１１０は、記憶装置の一種であり、ＲＯＭ(Read Only Memory)エリア、及びＲＡＭ(Random Access Memory)エリアを有する。ＲＯＭエリアは制御プログラムを格納するエリアであり、ＲＡＭエリアはメモリとして用いられるエリアである。

ネットワーク接続部１１１は、ネットワーク２０７を介して外部のサーバに接続する機能を有する公知の装置である。無線もしくは有線のいずれの手段を用いてもよい。
Ｉ／Ｏ１１２は、外部の電子機器、例えばＵＳＢ(Universal Serial Bus line)フラッシュメモリやプリンタを接続する機能を有する入出力装置である。

図２は、図１に示したＰＣの主要部のブロック図の一例である。
図２において、本発明の実施形態におけるＰＣ１００は、マイクロフォン１０１から入力されたユーザ２００の音声が音声データ（電気信号）に変換されて、当該音声データが音声信号解釈部２０２によって解釈され、その結果がクライアント型音声認識部２０３において認識される。クライアント型音声認識部２０３は、認識した音声データをクライアントアプリケーション部２０４に渡す。

クライアントアプリケーション部２０４は、ユーザ２００からの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部２０８に格納されているか否かを確認し、ローカルコンテンツ部２０８に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部２０９、クライアント型音声合成部２１０を経由して、スピーカ１０３から音声出力する。

ユーザ２００からの問い合わせに対する回答が、ローカルコンテンツ部２０８に格納されていない場合は、ＰＣ１００単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク２０７に接続されるネットワーク接続部２０６を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部２０９、クライアント型音声合成部２１０を経由して、スピーカ１０３から音声出力する。

クライアントアプリケーション部２０４は、ローカルコンテンツ部２０８、又はネットワーク２０７から得られた回答をテキスト（文字）データに変換し、テキスト読上部２０９に渡す。テキスト読上部２０９は、テキストデータを読み上げ、クライアント型音声合成部２１０に渡す。クライアント型音声合成部２１０は、音声データを人間が認識可能な音声データに合成しスピーカ１０３に渡す。スピーカ１０３は、音声データ（電気信号）を音声に変換する。また、スピーカ１０３から音声を発するのに合わせて、表示装置１０５に当該音声に関連する詳細な情報を表示する。

次に、本発明の実施形態における情報処理装置の起動時の画面表示について説明する。図３から図５は、本発明の実施形態における情報処理装置の起動時の画面表示について説明する図である。

本発明の実施形態に係るＰＣ１００のアバターは、起動時の時間帯や曜日に応じて、様々な挨拶を行うことができる。例えば、起動時が朝の時間帯であるときには、図５に示すアバターが、「おはようございます！」と発声するのに合わせて表示装置１０５（図１）に関連情報を表示する。同様に、起動時が昼間アバターは、「こんにちは！」と発声する。また、時間帯以外にも、平日と休日といった曜日に応じた発声も行うことができる。

＜動作＞
図３は、図１に示したＰＣの動作の一例を示すフローチャートである。図４は、ユーザが音声でＰＣに指示している状態を示す図である。図５（ａ）は、図４に示したＰＣの表示装置に表示される画面のうち、音声認識処理が作動中であって、ユーザからの指示前の状態を示し、図５（ｂ）は、音声認識処理が作動中であってユーザからの指示後の状態を示す図である。

図３において、動作の主体は制御手段である。
音声認識によってコマンドを実行する一連の処理の開始の指示を受けると、まず、制御手段１０９は、音声認識開始指示を受け付け可能な第１のモードに遷移し、音声認識開始指示を受け付け可能であることを表示装置１０５の領域Ａ１に表示させる（ステップＳ１）。領域Ａ１には、音声入力を受け付け可能であることとともに、アバターを表示してもよく、音声入力を受け付け可能であることをアバターの発話内容として吹き出しで表示してもよい。領域Ａ１は、表示装置１０５における長方形の画面の少なくとも一辺と辺を共有するタスクバーとして表示することができるが、これに限らない。
続いて、制御手段１０９は、ユーザから音声認識開始指示の入力があったか否かを判断する（ステップＳ２）。音声認識開始指示は、ユーザの音声によるウェークアップキーワード（例えば、「シェリー」）の入力の簡易音声認識処理による認識であってもよいし、画面に表示された所定のアイコンやハードウェアスイッチへの操作などであってもよい。
制御手段１０９は、ユーザからの音声認識開始指示の入力があるまで待機し（ステップＳ２／Ｎ）、ユーザから音声認識開始指示の入力があると（ステップＳ２／Ｙ）、制御手段１０９は、音声認識処理を開始する（ステップＳ３）。
続いて、制御手段１０９は、ユーザからの音声認識停止指示を待つ（ステップＳ４）。ユーザからの音声認識停止指示の入力があると（ステップＳ４／Ｙ）、音声認識処理を終了した後にステップＳ１に戻る。ユーザからの音声認識停止指示は、音声により指示されたコマンドの実行後の所定時間連続して音声入力がないことにより判断してもよく、ユーザの音声によるスリープワード（例えば、「バイバイ」）の入力を音声認識処理によって認識するのでもよく、画面に表示された所定のアイコンやハードウェアスイッチへの操作であってもよい。また、音声認識処理を終了するときに、音声認識を終了する旨をアバターの発話内容として吹き出しで表示するなどしてもよい。
ユーザからの音声認識停止指示の入力がなされないと（ステップＳ４／Ｎ）、制御手段１０９は、ユーザからのコマンドを指示する音声の入力があったか否かを判断する（ステップＳ５）。

ユーザからのコマンドを指示する音声の入力があると（ステップＳ５／Ｙ）、音声により指示されたコマンドを特定して実行し、表示装置１０５の領域Ａ１より大きい領域Ａ２にコマンドの実行結果を表示させ（ステップＳ６）、ステップＳ４に戻って音声認識停止指示を待つ。領域Ａ２は、表示装置１０５における表示画面全体であってもよいが、これに限らない。また、領域Ａ２に、コマンドの実行結果とあわせてアバターを表示させてもよく、さらにコマンドの実行結果の補足情報をアバターの発話内容として吹き出しで表示させてもよい。このとき、ステップＳ１で領域Ａ１に表示するアバターと共通の表示縮尺で領域Ａ２にアバターを表示するようにすると、第１のモードと第２のモードとの間の移行によるユーザの違和感を減少させることができるため、好適である。
また、ユーザからのコマンドを指示する音声の入力があったときに、指示されたコマンドの実行結果が画面表示を必要とするものであるかをさらに判断し、画面表示を必要とする実行結果のときにその結果を領域Ａ２に表示するステップをステップＳ５に続いて実行するようにしてもよい。このようにすると、例えば音量調整や画面の明るさ調整などのコマンド実行時に画面の表示領域の不要な変更を防止することができ、ユーザの使い勝手が向上する。このステップで、コマンドの実行結果が画面表示を必要としないときは、ステップＳ５実行後と同様にステップＳ４に戻る。
ユーザからのコマンドを指示する音声の入力がないと（ステップＳ５／Ｎ）、ステップＳ４に戻って音声認識停止指示の入力およびコマンドを指示する音声の入力の待機を継続する。

すなわち、図４に示すように、例えばユーザ２００がドレッサーのチェストに座りながらメークしており、ソファーの上に音声認識動作中のＰＣ１００が載置されているとする。尚、キーワードとしてのウェークアップキーワードがユーザ２００から発せられると、判別手段としての制御手段が判別し、コマンドとしての問いかけに対する応答動作を開始する。
ユーザ２００がメークをしながら、ＰＣ１００に「シェリー」と呼ぶと、瞬時にＰＣ１００のスピーカ１０３から「おはようございます。いかがいいたしましょうか？お手伝いできることがあれば言ってくださいね。」等の音声が発せられる。これと同時にモニタ１００ａには領域Ａ２が表示される。図４ではＰＣ１００とユーザ２００とは離れているが、ユーザ２００はいつでもＰＣ１００のモニタ１００ａを見ることができる。このため、アバターの大きさがほとんど変わらないため、一連のモードの連続性が得られ、違和感なく操作できる。

図５は、図１に示したパーソナルコンピュータ１００の起動から入力待機、会話、タイムアウト、及びセッション起動待機までの遷移概要を示す概念図である。
＜起動＞
図１に示したパーソナルコンピュータ１００の音声認識の機能は、ソフナビ（ソフトウェアナビゲータ）から起動するか、またはアプリ（アプリケーションソフトウェア）から起動する。ソフナビもしくはアプリの起動は、ユーザ２００によりマウス１０７、キーボード１０６、もしくは図示しないタッチパネルにて行われる。

＜入力待機(Active Waiting)＞
音声認識機能が起動すると、表示装置１０５の画面上に第１の領域Ａ１が表示される。第１の領域Ａ１は、アバター１５０、アバター１５０の吹き出し１５１、及び棒状の領域１５２を有する。棒状の領域１５２にはキーボード入力もしくはマウス入力するための領域１５３が配置されている。

＜会話中＞
入力待機状態において、ユーザ２００がパーソナルコンピュータ１００に対して音声による会話が開始されると、領域Ａ１より大きい領域Ａ２が表示される。領域Ａ２のサイズは画面の全領域である。領域Ａ２には、アバター１５０、アバター１５０の吹き出し１５１、棒状の領域１５２に加えて、例えばレストランを意味するアイコン１５５ａ、電車を意味するアイコン１５５ｂ、天気を意味するアイコン１５５ｃ、乗換案内を意味するアイコン１５５ｄ、カレンダーを意味するアイコン１５５ｅ等の各種アイコン、及び各アイコン１５５ａ〜１５５ｅの説明１５６ａ〜１５６ｅが箇条書き表示される。
ユーザ２００はパーソナルコンピュータ１００のアバター１５０とあたかも会話をするように質疑や検索の依頼等を行うことができる。会話を開始後所定の時間が経過してもユーザ２００からの音声が途絶えると、画面の表示が領域Ａ２から元の領域Ａ１に戻る（セッションタイムアウト）。

入力待機状態を示す領域Ａ１もしくは会話中の状態を示す領域Ａ２は、棒状の領域１５２の中の最小化ボタン１５７をキーボード１０６、マウス１０７、もしくは図示しないタッチパネルでクリックもしくはタップすることにより（タスクバーもしくはタスクトレイ）にアイコン化される。アイコンをダブルタップすることによりセッション起動待機状態（Inactive Waiting）状態に遷移する。
以上において、本実施形態によれば、サイズが異なる領域Ａ１、Ａ２においてアバターのサイズがほぼ同一であるので、一連のモードの連続性が得られるようにした。このため操作上の違和感がなくなる。

＜プログラム＞
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばパーソナルコンピュータが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。

例えば、
音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置のコンピュータが読み取り可能なプログラムであって、
前記コンピュータが、
表示手段に、
前記音声情報の入力を受け付ける第１のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第１の領域に表示する手順、
前記所定のコマンドを実行する第２のモードにおいて前記所定のコマンドの実行結果を前記画面上の前記第１の領域より大きい第２の領域に表示する手順、
を実行させるためのプログラムが挙げられる。

これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる情報処理装置を実現することができる。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。

＜記憶媒体＞
ここで、記憶媒体としては、例えばＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、ＲＡＭ、ＲＯＭ、ＦｅＲＡＭ等の半導体メモリやＨＤＤが挙げられる。

フレキシブルディスクは、Flexible Disk：ＦＤを意味する。ＲＡＭは、Random-Access Memoryの略である。ＲＯＭは、Read-Only Memoryの略である。ＦｅＲＡＭは、Ferroelectric RAMの略で、強誘電体メモリを意味する。

以上において、本発明によれば、音声情報を入力する入力手段と、入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置であって、音声情報の入力を受け付けるとともに音声情報の入力を受け付け可能であることを画面上の第１の領域に表示し、所定のコマンドを実行するとともに実行結果を画面上の第２の領域に表示する表示手段を備え、第１の領域よりも第２の領域の方が大きいことにより、一連のモードの連続性が得られる情報処理方法、情報処理装置、及びプログラムの提供を実現することができる。

尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。例えば、本実施形態ではアバターとして若い女性が用いられているが、本発明はこれに限定されるものでなく、男性であっても、アニメーションキャラクタであってもよい。

１００パーソナルコンピュータ（ＰＣ、情報処理装置）
１００ａモニタ
１０１マイクロフォン
１０２、１０４増幅回路
１０３スピーカ
１０５表示装置
１０６キーボード
１０７マウス
１０８光学読取装置
１０９制御手段
１０９ａ入力制御手段
１０９ｂ音声認識手段
１０９ｃ音声解析手段
１０９ｄ検索手段
１０９ｅ音声合成手段
１０９ｆ表示装置制御手段
１１０ＨＤＤ
１１１ネットワーク接続部
１１２Ｉ／Ｏ
１１３バスライン
１５０アバター
１５１吹き出し
２００ユーザ
２０２音声信号解釈部
２０３クライアント型音声認識部
２０４クライアントアプリケーション部
２０７ネットワーク
２０８ローカルコンテンツ部
２０９テキスト読上部
２１０クライアント型音声合成部

Claims

入力された音声情報から認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する情報処理方法であって、
前記音声情報の入力を受け付けるとともに前記音声情報の入力を受け付け可能であることを画面上の第１の領域に表示する第１のモードと、前記所定のコマンドを実行するとともに実行結果を前記画面上であって前記第１の領域よりも大きい第２の領域に表示する第２のモードとを有することを特徴とする情報処理方法。
前記第２のモードにおいて、実行結果が画面に表示されない前記所定のコマンドを実行したときは、表示領域を変更しないことを特徴とする請求項１記載の情報処理方法。
情報処理を実行する情報処理装置を擬人化したアバターを、前記第１のモードにおいては前記音声情報の入力を受け付け可能であることを発話しているように表示し、前記第２のモードにおいては前記実行結果の補足情報を発話しているように表示することを特徴とする請求項１または２記載の情報処理方法。
前記アバターの表示縮尺が、前記第１のモードと前記第２のモードとにおいて共通であることを特徴とする請求項３記載の情報処理方法。
前記第１の領域は、長方形である前記画面の少なくとも一辺と辺を共有した棒状の領域であることを特徴とする請求項１ないし４のいずれか１項記載の情報処理方法。
前記第２の領域は、前記画面の全領域であることを特徴とする請求項１ないし５のいずれか１項記載の情報処理方法。
音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置であって、
前記音声情報の入力を受け付ける第１のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第１の領域に表示させ、前記所定のコマンドを実行する第２のモードにおいて前記所定のコマンドの実行結果を前記画面上の第２の領域に表示させる表示手段を備え、
前記第１の領域よりも前記第２の領域の方が大きいことを特徴とする情報処理装置。
音声情報を入力する入力手段と、前記入力手段に入力された音声情報から所定のテキスト情報を認識する認識手段と、認識された所定のテキスト情報に基づいて特定される所定のコマンドを実行する実行手段と、を備えた情報処理装置のコンピュータが読み取り可能なプログラムであって、
前記コンピュータが、
表示手段に、
前記音声情報の入力を受け付ける第１のモードにおいて前記音声情報の入力を受け付け可能であることを画面上の第１の領域に表示する手順、
前記所定のコマンドを実行する第２のモードにおいて前記所定のコマンドの実行結果を前記画面上の前記第１の領域より大きい第２の領域に表示する手順、
を実行させるためのプログラム。