JP2000112610A

JP2000112610A - コンテンツ表示選択システム及びコンテンツ記録媒体

Info

Publication number: JP2000112610A
Application number: JP29311498A
Authority: JP
Inventors: Toshihiro Maruyama; 俊弘丸山
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1998-09-30
Filing date: 1998-09-30
Publication date: 2000-04-21

Abstract

(57)【要約】【課題】音声認識のみならず、少なくとも画像認識を
含む複数の認識方法を用いてコンピュータを操作するユ
ーザの意志やコマンドを受け付けることができ、指定さ
れたリンク先にリンクすることを可能とするコンテンツ
表示選択システムを提供する。【解決手段】コンテンツの記述テキストには、認識装
置の種類を示す「カテゴリー」と、認識装置により認識
するユーザの選択事項としての「認識候補データ」と、
選択結果のリンク先である「リンク情報」を記述してお
き、本システムの制御手段１０が表示装置１２に表示さ
れている表示コンテンツの有する「カテゴリー」を認識
装置１４Ａ、１４Ｂに送り、表示されている「認識候補
データ」を認識できるよう、認識装置に送り、かつ認識
結果を受けて該当するリンク情報を選択し、表示コンテ
ンツをリンク情報で示されるコンテンツに変更する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータによ
るデータの表示とコンピュータ使用者からのコマンドな
どの受け付けに関し、特にインターネットなどにおける
ホームページのコンテンツ閲覧システムとして利用され
るコンピュータによるコンテンツ表示選択システム及び
コンテンツが記録されたコンテンツ記録媒体に関する。

【０００２】

【従来の技術】コンピュータがマルチメディア対応にな
り、通信回線などを経由してネットワークにおいて利用
されるようになり、またインターネットの普及に伴い、
コンピュータ利用者が飛躍的に増大している。これま
で、コンピュータへのコマンドの付与は、主としてキー
ボードやマウスなど手動操作の器具を用いて行なわれて
いる。かかる手動操作の器具に代って人間が発生する音
声を認識し、コンピュータ利用者の意志やコマンドを受
け付けるシステムが開発されている。かかる音声認識を
用いた音声対話型のコンピュータシステムが、例えば特
開平８−３３５１６０号公報に示されている。この公報
に記載された従来技術によれば、データ接続によって取
得したビデオスクリーン表示の信号とデータリンク集合
を認識する手段を設け、そのデータリンクに対応する文
法を取得し、その文法を音声認識部で受け取ることがで
きるというものである。

【０００３】また、他の従来技術として、電子通信学会
の信学技法IE95-46,MVE95-39(1995,7月)には、既存のコ
ンテンツ記述言語から機械的に認識に必要な情報を抽出
する技術が開示されている。

【０００４】

【発明が解決しようとする課題】これらの従来の技術で
は、ある限定したシステムで限られた認識方法のみを選
択できるにすぎない。すなわち、上記特開平８−３３５
１６０号公報の方式では音声認識のみによりユーザの意
志やコマンドを受け付けることができるのであり、例え
ばジェスチャー、手話、顔表情、手書きパターンなどの
認識を行なうことにより、同時に複数の認識手段に対し
て同一のコンテンツ記述テキスト上で記述しておき、こ
れらの複数の認識手段を用いてユーザの意志やコマンド
を受け付けるという技術は考えられていなかった。

【０００５】さらに、機械的な抽出では、上記信学技法
の第３６頁に記述されている通り、同じ文字列で、別の
リンク先が定義されていたりすると、どのコンテンツ
（表示部分）をどの音声で指定してよいかわからない、
という問題点がある。また、特別の認識が可能だったと
しても、システムに精通しているか、特別な訓練を行わ
なければ操作方法を理解することが難しく、初心者で
は、取り扱いが難しいという問題もあった。また、手の
不自由なハンディキャップユーザへのアシストの観点か
らも、複数の認識方法を用いることが望まれていて、ホ
ームページなどのコンテンツ閲覧システムを提供するイ
ンターネットビジネス業者にとって、コンテンツ自体の
改良が望まれ、これに対応してコンテンツを閲覧するユ
ーザ側のハード面の改良が望まれている。

【０００６】したがって、本発明は音声認識のみなら
ず、少なくとも画像認識を含む複数の認識方法を用いて
コンピュータを操作するユーザの意志やコマンドを受け
付けることができ、ユーザの指示に従って指定されたリ
ンク先にリンクすることを可能とするコンテンツ表示選
択システムを提供することを第１の目的とする。

【０００７】また、本発明は音声認識のみならず、少な
くとも画像認識を含む複数の認識方法を用いてコンピュ
ータを操作するユーザの意志やコマンドを受け付けるこ
とができ、ユーザの指示に従って指定されたリンク先に
リンクすることを可能とするためのコンテンツが記録さ
れたコンテンツ記録媒体を提供することを第２の目的と
する。なお、本発明において「画像認識」とは、コンピ
ュータを操作するユーザのジェスチャー、手話、顔表
情、手書きパターンなどの認識を含む概念である。した
がって、ビデオカメラなどを用いた光学的認識のみなら
ず、筆圧などによる形状認識など、あらゆる画像認識手
段による認識を含むものとする。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め、本発明ではコンピュータの表示装置に表示すべきコ
ンテンツに少なくとも音声認識と画像認識を含む複数の
認識方法のいずれかによりユーザの意志を認識できるよ
うに、認識方法のカテゴリーを音声又は画像にて与える
ための記述をあらかじめ含めておき、このコンテンツを
ブラウザソフトがインストールされたコンピュータとし
てのコンテンツ表示選択システムにて表示するとき、こ
のコンピュータが少なくとも音声認識と画像認識を含む
認識装置と、コンテンツを表示する表示装置と、認識装
置と表示装置を関連付けて制御する制御手段とを有する
構成であって、表示すべきコンテンツを記述する記述テ
キストには、認識装置の種類を示す「カテゴリー」と、
認識装置により認識するユーザの選択事項の候補である
「認識候補データ」と、選択された事項のリンク先であ
る「リンク情報」を認識情報として記述しておき、制御
手段が表示装置に表示されている表示コンテンツの有す
る「カテゴリー」を認識装置に送り、表示装置に表示さ
れている「認識候補データ」を認識装置にて認識できる
よう、「認識候補データ」を認識装置に送り、かつ認識
装置による認識結果を受けて該当するリンク情報を選択
し、表示装置に表示されるコンテンツを該当するリンク
情報で示されるコンテンツに変更するよう表示装置を制
御するよう構成されているのである。

【０００９】すなわち、本発明によれば少なくとも音声
認識と画像認識を含む認識装置と、コンテンツを表示す
る表示装置と、前記認識装置と前記表示装置を関連付け
て制御する制御手段とを有するコンテンツ表示選択シス
テムであって、表示すべきコンテンツを記述する記述テ
キストには、前記認識装置の種類を示す「カテゴリー」
と、前記認識装置により認識するユーザの選択事項の候
補である「認識候補データ」と、選択された事項のリン
ク先である「リンク情報」を認識情報として記述してお
き、前記制御手段が前記表示装置に表示されている表示
コンテンツの有する「カテゴリー」を前記認識装置に送
り、前記表示装置に表示されている「認識候補データ」
を前記認識装置にて認識できるよう、前記「認識候補デ
ータ」を前記認識装置に送り、かつ前記認識装置による
認識結果を受けて該当するリンク情報を選択し、前記表
示装置に表示されるコンテンツを前記該当するリンク情
報で示されるコンテンツに変更するよう前記表示装置を
制御するよう構成されているコンテンツ表示選択システ
ムが提供される。

【００１０】また、本発明によれば少なくとも音声認識
と画像認識を含む複数の認識方法のいずれかによりユー
ザの意志を認識できるように、認識方法のカテゴリーを
音声又は画像にて与えるための記述を含むコンテンツ
が、コンピュータが読み取り可能な状態で記録されたコ
ンテンツ記録媒体が提供される。

【００１１】なお、前記記述テキストには、前記認識候
補データに関する補足文字列を表示するための「補助情
報」を前記認識情報として記述しておき、前記制御手段
が前記「補助情報」を前記表示装置に送り、前記表示装
置が前記「補助情報」によって画面上に前記認識候補デ
ータに関する補足文字列を表示するよう構成されている
ことは本発明の好ましい態様である。

【００１２】また、前記記述テキストには、前記認識装
置が含む認識方法を示す「ガイド情報」を前記認識情報
として記述しておき、前記制御手段が前記「ガイド情
報」を前記表示装置に送り、前記表示装置が前記「ガイ
ド情報」によって画面上に前記認識装置が含む認識方法
を示してユーザに前記認識手法のガイドを提供するよう
構成されていることは本発明の好ましい態様である。

【００１３】さらに、前記画像認識がジェスチャー、手
話、顔表情、手書きパターンの少なくとも１つを認識す
るものであることは本発明の好ましい態様である。

【００１４】本発明によれば、インターネットなどのホ
ームページを表示する際に、表示しているコンテンツを
キーボード、マウスなどで指定する以外に、音声確認、
ジェスチャー、手話、顔表情、手書きパターンなどによ
る選択を行えるように、ホームページの記述テキストに
認識システムのカテゴリーと、関連するコンテンツの情
報を記述する書式を備え、表示システムではその表示シ
ステムが備える認識装置に応じて記述テキストにより認
識に必要な情報を取得するようにしている。

【００１５】さらに、対応する認識システムごとに、ホ
ームページ表示の際に、どのような音声認識、ジェスチ
ャー、手話、顔表情、手書きパターン認識が用意されて
いるかを示すガイドデータを提供し、音声認識ならば音
声によるアナウンス、ジェスチャー、手話、顔表情なら
アニメーション、動画データによる表示、手書きパター
ンなら、参考になる図形の表示（アニメーションも含
む）を同時に提供することは本発明の好ましい態様であ
る。

【００１６】

【発明の実施の形態】以下、図面を参照して本発明の好
ましい実施の形態について説明する。図１は本発明に係
るコンテンツ表示選択システムの好ましい実施の形態を
概念的に示すブロック図である。このコンテンツ表示選
択システムはコンピュータとその関連装置により構成さ
れるが、これを機能的に示すと、図示省略のＣＰＵ（中
央演算処理装置）、主記憶装置及びインタフェースを含
む制御装置１０、画像を表示し音声を再生する表示装置
１２、音声認識を行なう第１認識装置１４Ａ、画像認識
を行なう第２認識装置１４Ｂ、リンク情報を記憶するリ
ンク情報記憶部１６、補助情報の表示を制御する補助情
報表示制御部１８が存在し、サーバ２２からコンテンツ
記述テキスト２０を受け取る様子が示されている。

【００１７】まず制御装置１０の主記憶装置にはＨＴＭ
Ｌ記述コンテンツを表示するためのブラウザソフトがあ
らかじめインストールされているものとする。なお、第
２認識装置１４Ｂはユーザの上半身又は全身によるジェ
スチャー、手話、手書きパターンなどの１つ以上を認識
するものである。したがって、第１認識装置１４Ａと第
２認識装置１４Ｂを併用することで、音声認識とジェス
チャー認識、音声認識と手話認識、音声認識と手書きパ
ターン認識、あるいは音声認識とジェスチャー認識、手
話認識、手書きパターン認識のうちの２つ以上によりユ
ーザの意志やコマンドを認識することができる。

【００１８】図２は、図１の構成の動作を示すフローチ
ャートであり、このフローチャートに従って図１の構成
の動作について説明する。ブラウザソフトが起動して、
図２のプログラムがスタートし、いま、制御装置１０が
サーバ２２からネットワーク、ファイルシステムなどを
通してコンテンツ記述テキスト２０を取得したものとす
る（ステップＳ１）。制御装置１０は、コンテンツ記述
テキスト２０を解析し（ステップＳ２）、拡張された認
識情報が含まれているか否かを判断する（ステップＳ
３）。拡張された認識情報が含まれていない場合、すな
わち通常のコンテンツであるときは、従来どおりの表示
処理により画像、テキストなどを表示する（ステップＳ
４）。

【００１９】一方、拡張された認識情報を確認すると、
制御装置１０に接続された認識装置１４Ａ、１４Ｂの認
識方法と一致する認識情報が含まれているか検索し、用
意された認識装置１４Ａ、１４Ｂの認識方法（図１の例
では音声認識と画像認識）に該当する認識情報が発見さ
れると、制御装置１０はコンテンツ記述テキストから認
識情報を抽出する（ステップＳ５）。次いで、第１の認
識装置１４Ａと第２の認識装置１４Ｂに対応する認識候
補データを送付する（ステップＳ６Ａ、Ｓ６Ｂ）。同時
にリンク情報記憶部１６に、認識候補と関連するリンク
先を記憶する。また、これらのステップＳ６Ａ、Ｓ６Ｂ
では、コンテンツ記述テキストに記述された対応する
「補助情報」を補助情報表示制御部１８にそれぞれ送
る。次いで制御装置１０は認識開始命令を認識装置１４
Ａ、１４Ｂに送り（ステップＳ７）、これを受けて認識
装置１４Ａ、１４Ｂは、制御装置１０から送付された認
識情報を基に、認識処理を開始する。

【００２０】次いで、各認識装置１４Ａ、１４Ｂで認識
が行なわれたか否かがチェックされる（ステップＳ
８）。なお、このフローチャートでは、２つの認識装置
１４Ａ、１４Ｂを順番にチェックしているが、認識装置
が多い場合や、チェックに時間を要する場合などは、割
込処理を用いることができる。認識が行われたことがス
テップＳ８で判断されると、認識装置１４Ａ、１４Ｂは
それぞれ対応する認識候補中のどの認識候補に対する認
識が行われたかを制御装置１０に返し、制御装置１０は
認識結果を表示装置１２にて表示し（ステップＳ９）、
制御装置１０はその認識結果からリンク情報記憶部１６
に記憶されたリンク先を検索し（ステップＳ１０）、該
当するリンク先を選択し、新しいリンク先として新たな
コンテンツ記述テキスト２０をサーバ２２から取得する
（ステップＳ１１）。なお、補助情報表示制御部１８で
は、コンテンツ記述テキストに記述された「補助情報」
を受けて、対応する表示を表示装置１２にて行う。な
お、表示装置１２は、画像のみならず、音声の再生をも
行うものであり、具体的にはディスプレイとスピーカ
（ヘッドフォン）を含む。

【００２１】次に図３と図４により本発明の第２の実施
の形態について説明する。第２の実施の形態は、コンテ
ンツに「ガイド情報」が加えて記述されている場合に有
効なものである。すなわち、「ガイド情報」がコンテン
ツに付記されていた場合は、そのガイド情報が示す別の
データ、コンテンツを取得し、音声、動画、アニメーシ
ョンなどのガイド情報を基にガイド情報表示制御部２４
が表示装置１２を制御して再生することができる。すな
わち、図３に示されるように、第２の実施の形態では、
図１の構成に加えてガイド情報表示制御部２４が制御装
置に接続されている。この、ガイド情報表示制御部２４
には、コンテンツに含まれるガイド情報１とガイド情報
２が一時記憶され、表示装置１２における表示の態様が
制御される。また、図４のフローチャートは、図２のフ
ローチャートのステップＳ６ＢとステップＳ７の間にガ
イド情報１とガイド情報２を順次表示・再生するステッ
プＳ１２Ａ、Ｓ１２Ｂが設けられたものとなっている。

【００２２】次に、コンテンツに付加される認識情報の
例について説明する。認識情報は、コンテンツを記述す
る記述テキストに付加された、「カテゴリー」、「認識
候補データ」、「リンク情報」、「補助情報」で表わさ
れた情報である。カテゴリーには、認識装置の種類を記
述する。例えば音声認識、ジェスチャー、手話、顔表
情、手書きパターンなどがある。

【００２３】音声認識の認識情報は、音声認識に必要な
音声の候補を提供するものである。認識装置１４で認識
された結果から制御装置１０がリンク情報を選択する。
ジェスチャーはユーザの上半身又は全身の動作を、カメ
ラ映像で取り込み、その一連の動作をモーションキャプ
チャーなどにより解析し、画面上のコンテンツとのリン
クを関連づける。ジェスチャーについては、一連の動作
を定型化し、例えば「おじぎ」、「右手上げる」、「左
手上げる」、「座る」、「飛び跳ねる」、「右手腰に付
ける」、「左手振る」、「右足上げる」などの動作を決
めておき、第２認識装置１４Ｂによる動作解析の結果を
標準化しておくとさらに汎用性がある。

【００２４】手話については、すでに一連の動作が定義
されており、第２認識装置１４Ｂの解析能力により、単
純な動作から複雑な動作まで選択することが可能であ
る。特に手話として認識しない場合はジェスチャーによ
る認識の１つとすることができる。顔表情についても、
カメラ画像などにより認識が可能である。ジェスチャー
と同様に「右目つぶる」、「左目つぶる」、「口を開け
る」、「舌を出す」などがある。手書きパターンについ
ては、手書き文字認識などの技術の応用により、キーボ
ードの代用として用いることも可能であるが、完全な文
字認識に至らずとも、「まる」、「バツ」、「波線」、
「やま」、「四角」、「三角」などの単純図形でも十分
である。

【００２５】これらの種々の認識手法に対応した認識装
置の種類をカテゴリーとし、それぞれの認識情報として
以下のように定義する。＜Extend Recognition Category=”xxxx”＞ xxxx：カテゴリー＜Language=yyyyy＞ yyyy：記述言語に関する情報＜List aaaa, bbbb, cccc＞ aaaa：認識候補 bbbb：リンク先 cccc：補助情報＜／Extend Recognition＞

【００２６】カテゴリーについては、以下のように定義
する ”Voice” 音声認識 ”Gesture”ジェスチャー ”Sign language” 手話 ”Face” 顔表情 ”Pen” 手書きパターン、タブレットなどカテゴリーはこれ以外にも、拡張が可能である。

【００２７】制御装置１０は自分に用意されていない拡
張部分は無視するので、上記フォーマットに沿って記述
されていれば、コンテンツ記述テキストに未知の認識装
置に関する記述があっても無視される。

【００２８】認識情報には以下のような例がある、音声認識の場合＜Language＝”Japanese”＞言語体系は日本語＜List”りんくいち”，http://www.server1.com,”りんく１”＞読みの候補は”りんくいち” リンク先はhttp://www.server1.com 画面に表示する場合は”リンク１”という文字列を使う

【００２９】ここで示すListの場合、”りんくいち”と
いう音声が認識されると、リンク先であるhttp://www.s
erver1.comのコンテンツを表示する。また画面に認識候
補を表示する場合は、３つめの”りんく１”という文字
列を使う。言語体系は、認識候補の表記にどういう言語
を使うかを示し、日本語以外の認識システムに候補を提
供する場合は、Languageタグをいくつか用意して、他国
語への対応も可能とする。

【００３０】ジェスチャーの場合は、＜Language＝”Japanese”＞動作記述は日本語＜List”右手上げ”，http://www.server1.com,”右手を上げる”＞読みの候補は”右手を上げる” リンク先はhttp://www.server1.com 画面に表示する場合は”右手上げる”という文字列を使う

【００３１】ここでも動作の記述に日本語以外を使うこ
とを考慮し、Languageタグを用意する。ここにあげたLi
stの場合は、右手を上げるという動作が認識された場合
はリンク先であるhttp://www.server1.comのコンテンツ
を表示する。画面に動作の候補を表示する場合に３つめ
の”右手を上げる”という文字列を表示する。

【００３２】手話の場合、＜Language＝”Japanese”＞手話体系は日本語＜List”こんにちわ”，http://www.server1.com,”こんにちわ”＞手話の候補は”こんにちわ” リンク先はhttp://www.server1.com 画面に表示する場合は”こんにちわ”という文字列を使う

【００３３】手話に手話体系として言語を指定するの
は、国によって手話の定義がそれぞれ違うからである。
手話体系としてここでもLanguageタグを用意する。ここ
にあげたListの場合は、”こんにちわ”ということを表
現する手話動作が認識された場合はリンク先であるhtt
p://www.server1.comのコンテンツを表示する。画面に
手話動作の候補を表示する場合に、３つめの”こんにち
わ”という文字列を表示する。

【００３４】顔表情の場合は、＜Language＝”Japanese”＞動作表記は日本語＜List”口開ける”，http://www.server1.com,”口を開ける”＞動作の候補は”口を開ける” リンク先はhttp://www.server1.com 画面に表示する場合は”口を開ける”という文字列を使う

【００３５】ここでも動作の記述に日本語以外を使うこ
とを考慮し、Languageタグを用意する。ここにあげたLi
stの場合は、”口を開ける”ということを動作が認識さ
れた場合はリンク先であるhttp://www.server1.comのコ
ンテンツを表示する。画面に顔表情の候補を表示する場
合に３つめ”口を開ける”という文字列を表示する。

【００３６】手書きのパターンの場合は、＜Language＝”Japanese”＞表記は日本語＜List”丸”，http://www.server1.com,”丸を書く”＞動作の候補は”丸”を書くリンク先はhttp://www.server1.com 画面に表示する場合は”丸を書く”という文字列を使う

【００３７】ここでも動作の記述に日本語以外を使うこ
とを考慮し、Languageタグを用意する。日本語以外で
は、記号をそのまま記述したり、Draw Circle、などの
英語表記もある。ここにあげたListの場合は、丸を書く
という動作が認識された場合はリンク先であるhttp://w
ww.server1.comのコンテンツを表示する。画面に動作、
記号の候補を表示する場合に３つめの”丸を書く”とい
う文字列を表示する。

【００３８】以上のように、様々な認識方式について、
認識候補とリンク先、補助情報を提供できるようにコン
テンツ記述テキストを用意する。制御装置１０では、読
み込まれたコンテンツ記述テキストに、上記の認識シス
テムのための候補があることが確認されると、自分の制
御装置１０で備える認識システムに合致する認識情報を
選択し、候補データから、認識システムの認識部に登録
する。認識システムでは、登録された動作、候補が選択
された場合に、どの候補が認識されたかを返し、制御装
置１０では、認識された結果からリンク先を選択し、リ
ンク先のコンテンツを表示する。

【００３９】また、第２の実施の形態の場合は、上記の
List表記の４つめのパラメータに、その認識候補をガイ
ドする、ガイド情報を記述する。例えば音声認識用のLi
stであれば、＜List”りんくいち”，http://www.server1.com,”リ
ンク１”，Link1.wav＞というように、４つめのパラメータに、音声データであ
る波形ファイルを記述する。表示システムにおいて、こ
の第４パラメータを確認した場合、コンテンツの表示を
行う際に、同時に音声でこの波形ファイルの再生を行
う。

【００４０】例えば、ページが表示され、音声による認
識で”りんくいち”という音声でリンクを指定できる場
合には、「このページに表示されたコンテンツはりんく
いちという音声で選択できます」というように音声のガ
イドを付けることができる。これが複数のListが含まれ
ているときは、「このページに表示されたコンテンツ
は」と「という音声で選択できます。」という音声を制
御装置１０で用意しておいて、各Listから「りんくい
ち」「りんくに」という候補に対する音声を抽出し、
「このページに表示されたコンテンツはりんくいち、り
んくにという音声で選択できます」というようにメッセ
ージを連結してガイドを行う。

【００４１】また、ジェスチャー、顔表情、手話の場合
は、第４パラメータには、動画、アニメーションなどの
データを記述し、＜List”右手上げる”，http://www.server1.com，”右
手上げる”，motion1.avi＞というように、音声付きの動画データガイド情報として
用い、コンテンツの表示と同時に「このページに表示さ
れたコンテンツは画面でごらんできるように、右手を上
げることによって選択できます」というメッセージと動
画によって候補のガイダンスを行える。複数の選択が可
能な場合は、音声認識の時と同様に、音声によるガイダ
ンスを連結することによって複数の候補をガイドする。

【００４２】手話、手書きパターンについても同様に、
音声と動画、アニメーション、または静止画の候補を画
面に表示することにより、初心者でも操作に迷うことな
く操作を行える。また、これらの認識情報は、制御装置
１０によっては複数同時に対応することも可能であり、
ガイダンスについても表示システムにより「音声認識」
「ジェスチャー」の複数のガイダンスを行うようにする
ことが可能である。

【００４３】

【発明の効果】以上説明したように本発明によれば、同
一のコンテンツ記述テキスト上に、複数の認識装置に対
する認識候補データとリンク情報を提供することがで
き、制御装置１０においても制御装置１０に備えられた
認識装置に応じて必要な認識候補データ、リンク情報の
取得が可能となる。また、同時にガイド情報を提供、表
示することにより、ユーザに対して、認識手段のガイド
を行えるようになる。

【図面の簡単な説明】

【図１】本発明に係るコンテンツ表示選択システムの第
１の実施の形態の模式的ブロック図である。

【図２】図１の第１の実施の形態における動作を示すフ
ローチャートである。

【図３】本発明に係るコンテンツ表示選択システムの第
２の実施の形態の模式的ブロック図である。

【図４】図３の第２の実施の形態における動作を示すフ
ローチャートである。

【符号の説明】

１０制御装置１２画像を表示し音声を再生する表示装置１４Ａ音声認識を行なう第１認識装置１４Ｂ画像認識を行なう第２認識装置１６リンク情報記憶部１８補助情報表示制御部２０コンテンツ記述テキスト２２サーバ２４ガイド情報表示制御部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｐ

Claims

【特許請求の範囲】

【請求項１】少なくとも音声認識と画像認識を含む認
識装置と、コンテンツを表示する表示装置と、前記認識
装置と前記表示装置を関連付けて制御する制御手段とを
有するコンテンツ表示選択システムであって、表示すべきコンテンツを記述する記述テキストには、前
記認識装置の種類を示す「カテゴリー」と、前記認識装
置により認識するユーザの選択事項の候補である「認識
候補データ」と、選択された事項のリンク先である「リ
ンク情報」を認識情報として記述しておき、前記制御手段が前記表示装置に表示されている表示コン
テンツの有する「カテゴリー」を前記認識装置に送り、
前記表示装置に表示されている「認識候補データ」を前
記認識装置にて認識できるよう、前記「認識候補デー
タ」を前記認識装置に送り、かつ前記認識装置による認
識結果を受けて該当するリンク情報を選択し、前記表示
装置に表示されるコンテンツを前記該当するリンク情報
で示されるコンテンツに変更するよう前記表示装置を制
御するよう構成されているコンテンツ表示選択システ
ム。
【請求項２】前記記述テキストには、前記認識候補デ
ータに関する補足文字列を表示するための「補助情報」
を前記認識情報として記述しておき、前記制御手段が前記「補助情報」を前記表示装置に送
り、前記表示装置が前記「補助情報」によって画面上に前記
認識候補データに関する補足文字列を表示するよう構成
されていることを特徴とする請求項１記載のコンテンツ
表示選択システム。
【請求項３】前記記述テキストには、前記認識装置が
含む認識方法を示す「ガイド情報」を前記認識情報とし
て記述しておき、前記制御手段が前記「ガイド情報」を前記表示装置に送
り、前記表示装置が前記「ガイド情報」によって画面上に前
記認識装置が含む認識方法を示してユーザに前記認識手
法のガイドを提供するよう構成されていることを特徴と
する請求項１記載のコンテンツ表示選択システム。
【請求項４】前記画像認識がジェスチャー、手話、顔
表情、手書きパターンの少なくとも１つを認識するもの
である請求項１又は２記載のコンテンツ表示選択システ
ム。
【請求項５】少なくとも音声認識と画像認識を含む複
数の認識方法のいずれかによりユーザの意志を認識でき
るように、認識方法のカテゴリーを音声又は画像にて与
えるための記述を含むコンテンツが、コンピュータが読
み取り可能な状態で記録されたコンテンツ記録媒体。