JPH0981364A

JPH0981364A - マルチモーダル情報入力方法及び装置

Info

Publication number: JPH0981364A
Application number: JP7231667A
Authority: JP
Inventors: Hideji Nakajima; 秀治中嶋; Tsuneaki Kato; 恒昭加藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1995-09-08
Filing date: 1995-09-08
Publication date: 1997-03-28
Also published as: US5781179A

Abstract

(57)【要約】【課題】マウスの直接操作と入力場面での指示動作と
を識別することが不可能であり、マウス操作の曖昧性が
生じる。【解決手段】本発明は、マウスによる指示動作におけ
る表示手段上のオブジェクトの領域中でのカーソルの移
動速度が所定の速度より遅くなった場合に、オブジェク
トを指示対象候補として認識し、発声された音声の言葉
を認識し、音声中の言葉が指示語を含む場合には、表示
手段中の指示対象候補であるオブジェクトにカーソルが
滞在していた時間帯と、音声中の言葉の開始から終了ま
での時間帯との相関関係に基づいて、該指示語に対応す
る指示対象であるオブジェクトを候補から選択してコマ
ンドに変換する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マルチモーダル情
報入力方法及び装置に係り、特に、音声や身振りといっ
た複数の入力手段を有するマルチモーダル情報入力方法
及び装置に関する。詳しくは、マウス等のポインティン
グデバイスを使った指示動作と音声を利用して電子計算
機に情報を入力する際に、ポインティングデバイスの指
示動作によって指示された対象と音声中の指示語を対応
付けて、アプリケーションプログラムのコマンドへ変換
を行うことにより、効率的な情報入力を行うためのマル
チモーダル情報入力方法及び装置に関する。

【０００２】

【従来の技術】従来、電子計算機に情報を入力する作業
には、文章や図面の作成、帳票への入力や、ヘルプ機能
への質問事項の入力がある。これらの情報入力作業で
は、音声だけ、または、マウスだけを用いて情報入力を
行うよりも、両方を用いて入力し、それぞれの曖昧な部
分をそれぞれの明白な部分によって相互に補完する方
が、入力の効率が高い。

【０００３】例えば、ウィンドウ表示が可能な計算機デ
ィスプレイ上に表示されたあるアイコンの機能を問い合
わせる質問を入力する場合に、「システムホルダーとい
うホルダーの中の右上にあるアイコンは何ですか？」と
質問を入力するよりも、そのアイコンをマウスで指し示
して、「これはなんですか？」と質問する方が、アイコ
ン等の指示対象の位置や形状に関しての修飾語を発声し
ない分、また、ユーザ自身がその指示対象の位置を厳密
に認識しないで済む分だけ、入力の効率が高くなる。

【０００４】従来の入力装置（M. Hiyoshi and H. Shim
azu: "Drawing Pictures with Natural Language and D
irect Manipulation", Proceedings of COLING 94 vol.
2, p.722-726, 1994) では、指示動作としてマウス・ク
リックを用いている。

【０００５】

【発明が解決しようとする課題】しかしながら、上記従
来の技術をマウスのクリックによって直接操作可能なボ
タンがディスプレイに表示されたアプリケーション・プ
ログラムに適用した場合、指示のためにボタンをクリッ
クすれば、ボタンに割り当てられた操作が始まってしま
う。

【０００６】即ち、従来の技術では、指示語や名詞等の
物体を示す言葉を伴う質問等の情報入力場面での指示動
作を意味するマウスクリック（例えば、「これは何です
か」といいながら、指示語の「これ」が意味する物体を
マウスでクリックする場合）と、直接操作を意味するマ
ウス・クリック（例えば、ラジオボタンを押して、ボタ
ンをオンの状態にするためにクリックする場合）とを識
別することが不可能であり、マウス操作の曖昧性が生じ
るという問題がある。

【０００７】この問題への対処方法として、（１）質問等の情報入力のモードと、マウスを使う直
接操作のモードとの間でのモードの切り替え；（２）質問等の情報入力のモードでは、マウスの右ボ
タンを使う一方で、マウスを使う直接操作のモードでは
左ボタンを使う；（３）両モードのうちのどちらか一方で特殊キーを同
時に利用すること、等が可能である。

【０００８】しかし、その都度ユーザが意識して、モー
ドの切り替え、ボタンの使い分け、及び特殊キーの同時
利用を行わなければならないために、入力効率を低下さ
せるという問題がある。本発明は、上記の点に鑑みなさ
れたもので、モードの切り替え、ボタンの使い分け、及
び特殊キーの同時利用で生じる効率の低下を回避し、ユ
ーザの指示動作によって指示された対象と、指示動作と
並行して入力された音声中の指示語とを対応付けて効率
的な情報入力を実現する、マルチモーダル情報入力方法
及び装置を提供することを目的とする。

【０００９】

【課題を解決するための手段】本発明は、ポインティン
グデバイスによる指示動作と、該指示動作と並行して発
声された音声とを用いてアプリケーションプログラムに
情報入力を行う際に、該指示動作により指示された電子
計算機の表示手段上のオブジェクトと、該音声中の指示
語とを対応付けてアプリケーションプログラムのコマン
ドへ変換するマルチモーダル情報入力方法において、ポ
インティングデバイスの指示動作における表示手段上で
のカーソルの動きから指示されたオブジェクトを認識す
る。

【００１０】図１は、本発明の原理を説明するための図
である。本発明は、ポインティングデバイスによる指示
動作における表示手段上のオブジェクトの領域中でのカ
ーソルの移動速度が所定の速度より遅くなった場合に、
該オブジェクトを指示対象候補として認識する指示対象
認識ステップと、発声された音声の言葉を認識する音声
言語認識ステップ（ステップ１）と、音声言語認識ステ
ップにおいて音声中の言葉が指示語を含む場合には、該
指示語を含む該音声に対応する指示対象を、指示対象認
識ステップで認識された指示対象候補から選択する統合
ステップ（ステップ２）と、統合ステップにより選択さ
れた指示対象候補をアプリケーションプログラムのコマ
ンドに変換するコマンド変換ステップ（ステップ３）よ
りなる。

【００１１】また、上記の指示対象認識ステップは、表
示手段中の指示対象候補であるオブジェクトの領域中に
カーソルが滞在していた第１の時間帯を出力する。ま
た、上記の音声言語認識ステップは、音声中の言葉の開
始から終了までの第２の時間帯を出力する。

【００１２】また、上記の統合ステップは、指示対象認
識ステップと音声言語認識ステップの終了後に、第２の
時間帯に対して、第１の時間帯との時間的重なりが最も
大きい指示対象候補を選択する。本発明は、ポインティ
ングデバイスによる指示動作と、該指示動作と並行して
発声された音声とを用いてアプリケーションプログラム
に情報入力を行う際に、該指示動作により指示された電
子計算機の表示手段上のオブジェクトと、該音声中の指
示語とを対応付けてアプリケーションプログラムのコマ
ンドへ変換するマルチモーダル情報入力装置において、
ポインティングデバイスの指示動作における表示手段上
でのカーソルの動きから指示されたオブジェクトを認識
する手段を有する。

【００１３】図２は、本発明の原理構成図である。本発
明は、ポインティングデバイスによる指示動作における
表示手段上のオブジェクトの領域中でのカーソルの移動
速度が所定の速度より遅くなった場合に、該オブジェク
トを指示対象候補として認識する指示対象認識手段２
と、発声された音声の言葉を認識する音声言語認識手段
１と、音声言語認識手段１において音声中の言葉が指示
語を含む場合には、該指示語を含む該音声に対応する指
示対象を、指示対象認識手段２で認識された指示対象候
補から選択する統合手段３と、統合手段３により選択さ
れた指示対象候補をアプリケーションプログラムのコマ
ンドに変換するコマンド変換手段４を含む。

【００１４】また、上記の指示対象認識手段２は、表示
手段中の指示対象候補であるオブジェクトの領域中にカ
ーソルが滞在していた第１の時間帯を出力する。また、
上記の音声言語認識手段１は、音声中の言葉の開始から
終了までの第２の時間帯を出力する。

【００１５】また、上記の統合手段３は、第２の時間帯
に対して、第１の時間帯との時間的重なりが最も大きい
指示対象候補を選択する。このように、本発明は、指示
対象認識手段が電子計算機の表示画面上の対象の領域内
でのポインティングデバイス（マウス）のカーソルの移
動速度の降下に基づいて指示対象候補を認識し、音声言
語認識手段が音声中の言葉を認識し、音声中の言葉が指
示語である場合には、統合手段が指示語に対応する指示
対象を、当該指示対象候補が指示された時間と音声中の
言葉が発声された時間帯との相関関係に基づいて決定し
対応付ける。また、音声中の言葉が指示動作に関係のな
い言葉である場合には、当該言葉がそのまま出力され
る。コマンド変換手段は、出力中の言葉がコマンド変換
データベースに登録された言葉でない場合には、スタッ
クに格納し、コマンド変換データベースに登録された言
葉である場合にはスタックの全内容を利用してコマンド
に変換する。

【００１６】以上のように、本発明によれば、クリック
を使わないマウス・カーソルの動き（速度の低下）を利
用して指示動作が可能であるので、直接操作にはクリッ
クを利用することができる。従って、質問や命令等の音
声を伴う指示動作でのマウスの動きと、マウスを使った
直接操作でのマウスの動きとを区別でき、マウスの動作
には曖昧性が発生せず、また、ユーザの手によるモード
の切り替え、ボタンの使い分け、及び特殊キーの同時利
用が不要となるため、ユーザにとって効率的な情報入力
が実現可能となる。

【００１７】

【発明の実施の形態】図３は、本発明のシステム構成を
示す。同図に示す構成は、音声言語認識部１、指示対象
認識部２、統合部３、指示語辞書４、コマンド変換デー
タベース５及びコマンド変換部６より構成される。

【００１８】音声言語認識部１は、アプリケーションプ
ログラムを通して音声と該音声の開始時刻と終了時刻を
入力として取得し、音声データを音がある部分（有音
部）と音が無い部分（無音部）に分け、有音部がどのよ
うな言葉であるのかの言語認識処理を行い、後述する指
示語辞書４を参照して、言語認識処理の結果である言葉
とその言葉の示す対象の数と有音部の開始時刻と終了時
刻からなる組を出力する。この組を以後の説明のためｘ
と表す。ｘ（開始時刻・終了時刻）のフィールド構成と
ｘの例を図４に示す。図４に示すｘのフィールドは、言
語認識の結果の言葉、言葉の示す対象の数、有音部の開
始時刻、有音部の終了時刻から構成される。

【００１９】指示対象認識部２は、アプリケーションプ
ログラムを通してマウス・イベント名、マウス・イベン
トを取得した時刻、マウス・カーソルの位置座標、マウ
ス・イベントの発生にかかわった領域名の名前を入力と
して取得し、指示対象になり得る領域に滞在した時間帯
でのマウス・カーソルの移動速度の降下を検出し、速度
が一定値以下となった時に、滞在していた領域の名前と
その領域へマウス・カーソルが侵入した時刻（領域侵入
時刻）と出た時刻（領域退出時刻）からなる組を出力す
る。この組を以後の説明のためｙと表す。ｙのフィール
ド構成図とｙの例を図５に示す。図５に示すｙのフィー
ルドには、指示対象候補、指示対象候補の領域侵入時
刻、指示対象候補の領域退出時刻から構成される。

【００２０】統合部３は、音声言語認識部１の出力結果
であるｘ（有音部の開始・終了時刻）と、指示対象認識
部２の出力結果であるｙ（領域侵入・退出時刻）とを対
応付ける。各ｘは、ｘの第１番目のフィールドの言葉が
指示語である場合に、ｘの開始時刻からｘの終了時刻ま
での時間と、ｙの領域侵入時刻とｙの退出時刻までの時
間との間で時間的に重なりを持つｙのうち、時間的重な
りが最大のｙと対応付けられる。そして、統合部３から
ｘの持つ全情報と、当該ｘと対応付けられたｙの全情報
とをマージした統合結果を出力する。統合結果を以後の
説明のためｚと表す。統合結果ｚのフィールド構成図と
ｚの例を図６に示す。図６に示すｚのフィールドには、
言語認識結果の言葉、言葉の表す対象の数、有音部の開
始時刻、有音部の終了時刻、指示対象候補、指示対象候
補の領域に入った時刻（領域侵入時刻）、指示対象候補
の領域から出た時刻（領域退出時刻）から構成される。

【００２１】指示語辞書４は、指示語とその語が指示す
る対象の数を記録している。指示語辞書４のフィールド
構成を図７に示す。コマンド変換データベース５は、言
葉とコマンドと該コマンドの書式を記録している。コマ
ンド変換データベース５のフィールド構成を図８に示
す。同図において、［］で囲まれた項目は、複数存在し
ても構わないことを示す。

【００２２】コマンド変換部６は、統合部３の出力結果
ｚの第１番目のフィールドの言葉をキーとしてコマンド
変換データベース５を検索し、マッチしなかった場合に
は、ｚをスタックに格納する。マッチした場合には、コ
マンド変換データベース５からコマンド書式を読み、ス
タックの全内容と、コマンドの書式を用いてアプリケー
ションプログラムのコマンドに変換する。

【００２３】次に、本発明の動作の概要を説明する。図
９は、本発明のマルチモーダル情報入力装置の動作の概
略を示すフローチャートである。なお、以下の説明にお
いて、各部で取得した結果はそれぞれキューＸ，Ｙ及び
スタックＺに格納されるものとする。

【００２４】ステップ１００）マルチモーダル情報入
力装置は、アプリケーションプログラムから音声、音声
の開始時刻と、終了時刻、マウス・イベント名、マウス
・イベントを取得した時刻、マウス・カーソルの位置座
標、マウス・イベントの発生にかかわった領域の名前を
入力として取得する。

【００２５】ステップ２００）次に、音声、音声の開
始時刻と終了時刻が音声言語認識部１で処理され、ｘを
作成し、“キューＸ”に格納する。ステップ３００）マウス・イベント名、マウス・イベ
ントを取得した時刻、マウス・カーソルの位置座標、マ
ウス・イベントの発生にかかわった領域の名前が指示対
象認識部２で処理され、ｙを作り、“キューＹ”に格納
する。

【００２６】ステップ４００）次に、統合部３が“キ
ューＸ”の先頭から、認識結果の部分が指示語句である
ｘをｙとマージし、統合結果ｚを作り、出力する。ステプ５００）コマンド変換部６は、統合結果ｚの言
語認識結果の部分をキーとしてコマンド変換データベー
ス５を検索し、マッチしなかった場合には、スタックＺ
に統合結果ｚを格納し、マッチした場合には、スタック
Ｚの全内容とコマンド変換データベース５に格納された
コマンドの書式を用いてコマンドに変換する。

【００２７】次に、上記のステップ２００における音声
言語認識部１の処理を詳しく説明する。図１０は、本発
明の音声言語認識部の処理（ステップ２００）の詳細な
動作を示すフローチャートである。ステップ２１０）まず、音声言語認識部１は、音声と
音声の開始時刻と終了時刻を取得する。

【００２８】ステップ２２０）次に、音声の振幅を用
いて短時間平均エネルギーを計算し、そのエネルギーが
一定値以上である音声区間を抽出する。ステップ２３０）次に、前ステップで抽出された区間
のうち、音声が有声音である確率を計算し、その確率が
一定値以上である音声区間だけ残す。

【００２９】ステップ２４０）ステップ２３０で残っ
た音声区間の音声を入力として、その音声がどのような
言葉であるのかを認識する音声言語認識処理を行う。ステップ２５０）ステップ２４０の結果である言葉
と、その言葉が指示する対象の数と、その言葉に相当す
る音声の開始時刻と、その終了時刻からなる認識結果ｘ
を作成する。

【００３０】ステップ２６０）ｘを“キューＸ”に格
納する。次に、上記のステップ３００における指示対象認識部２
の処理を詳しく説明する。図１１は、本発明の指示対象
認識部の処理（ステップ３００）の詳細な動作を示すフ
ローチャートである。

【００３１】以下の説明において、物体の領域にマウス
・カーソルが入るときに生じるマウス・イベントを"Ent
er”、出るときに生じるマウス・イベントを"Leave" と
する。ステップ３１０）まず、マウス・イベント名、マウス
・イベントを取得した時刻、マウス・カーソルの位置座
標、マウス・イベントの発生にかかわった領域の名前を
取得する。

【００３２】ステップ３２０）ステップ３１０で取得
したマウス・イベントの"Enter" と"Leave" とそれらが
取得された時刻を利用して、マウスカーソルが領域に滞
在している時間帯を抽出する。ステップ３３０）ステップ３２０で抽出した時間帯の
うち、マウス・カーソル座標位置からマウス・カーソル
の平均移動速度を求め、その速度の絶対値が減少から増
加に変化した時刻を含む時間帯だけを残す。

【００３３】ステップ３４０）ステップ３３０で残っ
た時間帯のうち、その中でのマウスの速度の絶対値が一
定値以下になった時刻を含む時間帯だけを残す。ステップ３５０）マウス・イベントの発生にかかわっ
た領域の名前と、その領域へ入った時刻と出た時刻から
なるｙを作成する。

【００３４】ステップ３６０）ｙを“キューＹ”に格
納する。次に、ステップ４００における統合部３の処理を詳しく
説明する。図１２は、本発明の統合部の処理（ステップ
４００）の詳細な動作を示すフローチャートである。

【００３５】ステップ４１０）統合部３は、“キュー
Ｘ”からｘを１つ取り出す。ステップ４２０） “キューＹ”からｙを１つずつ取り
出し、ｘとの時間的重なりを計算し、時間的重なりがあ
るｙを記録する。ステップ４３０）次に、記録されたすべてのｙのう
ち、ｘとの時間的重なりが最大となるｙを探索する。

【００３６】ステップ４４０）ｘと、当該ｘと時間的
重なりが最大であったｙとをマージし、統合結果ｚとし
て出力する。次に、ステップ５００におけるコマンド変換部６の処理
を詳しく説明する。図１３は、本発明のコマンド変換部
の処理（ステップ５００）の詳細な動作を示すフローチ
ャートである。

【００３７】ステップ５１０）まず、ｚの言語認識結
果のフィールドの内容がコマンド変換データベース５に
格納された言葉であるかどうかの判断を行う。ステップ５２０）ステップ５１０でｙｅｓの場合は、
コマンド変換データベース５からコマンドの書式を取り
出し、スタックＺの全内容を利用してコマンドを変換す
る。

【００３８】ステップ５３０）ステップ５１０でｎｏ
の場合には、ｚはスタックＺに追加する。

【００３９】

【実施例】以下、本発明の実施例を図面及び具体例を用
いて説明する。以下の具体例の説明において、音声言語
認識部１の処理として、従来の単語音声認識装置を用
い、その装置には、以下の例で挙げる言葉が既に登録さ
れており、全て認識できるものと仮定して説明する。さ
らに、音声は十分大きくはっきりとした声で発せられた
ものであると仮定する。また、物体を指示している間の
マウス・カーソルの移動速度は、移動している場合に比
較して十分小さく、ステップ３４０の一定値以下になる
速度であると仮定し、説明する。

【００４０】図１４は、本発明の一実施例の入力画面と
入力でのユーザの動きを示す図である。同図において、
αで示される線がマウスの軌跡である。ユーザがマウス
を図１４のように移動しながら、次に示すように発声
し、情報入力を行った場合について説明する。

【００４１】ユーザがカーソルを“ｏｊｂ１”の領
域に侵入させ、マウスの速度を遅くして、「これと」と
発声し、その後、カーソルを“ｏｂｊ２”の領域に侵入さ
せ、マウスの速度を遅くして、「これを」と発声し、そのカーソルを“ｏｂｊ３”の領域に入れ、マウス
の速度を遅くして、「ここに移動する」と発声し、カー
ソルをその領域から出す場合について説明する。

【００４２】ここで、発声の開始から終了までの時刻と
指示対象の領域に入る時刻の関係が図１５になるような
場合を説明する。また、ｏｂｊＡ，ｏｂｊＢ，ｏｂｊ
Ｃ，ｏｂｊＤ，ｏｂｊＥを通過する際の速度は、ステッ
プ３４０の一定値よりも十分大きい値であると仮定す
る。

【００４３】（１）ステップ１００により、「これ
と」という音声データとその開始と終了の時刻、「これ
を」という音声データとその開始と終了の時刻、「ここ
に移動する」とう音声データとその開始と終了の時刻、
ｏｂｊＡへのEnter とLeave とその時刻、及びその間の
マウス・カーソルの位置座標、ｏｂｊ１へのEnter とLe
ave とその時刻、及びその間のマウス・カーソルの位置
座標、ｏｂｊＢへのEnter とLeave とその時刻、及びそ
の間のマウス・カーソルの位置座標、ｏｂｊＣへのEnte
r とLeave とその時刻、及びその間のマウス・カーソル
の位置座標、ｏｂｊ２へのEnter とLeave とその時刻、
及びその間のマウス・カーソルの位置座標、ｏｂｊＤへ
のEnter とLeave とその時刻、及びその間のマウス・カ
ーソルの位置座標、ｏｂｊ３へのEnter とLeave とその
時刻、及びその間のマウス・カーソルの位置座標、ｏｂ
ｊＥへのEnter とLeave とその時刻、及びその間のマウ
ス・カーソルの位置座標、及びその他の時刻のマウス・
カーソルの位置座標、が取得される。

【００４４】（２）ステップ２００の結果として、
（“これと”，１，０，２１０）（“これを”，１，４００，６９０）（“ここに移動する”，１，１０００，１２００）が
“キューＸ”に入る。

【００４５】（３）ステップ３００の結果、ｙとし
て、（ｏｂｊＡ，０，５），（ｏｂｊ１，５，２０
０），（ｏｂｊＢ，２０５，２１０），（ｏｂｊＣ，４
８０，４９０），（ｏｂｊ２，５００，７００），（ｏ
ｂｊＤ，９６０，９７９），（ｏｂｊ３，８９０，１３
００），（ｏｂｊＥ，１３５０，１３６０）が“キュー
Ｙ”に入る。

【００４６】（４）次にステップ４００において、・“キューＸ”の（“これと”，１，０，２１０）は、
“キューＹ”の各ｙとの時間的重なりが、５，１９５，
５，０，０，…であるので、２番目の（ｏｂｊ１，５，
２００）が対応付けられ、統合結果ｚとして、（“これ
と”，１，０，２１０，ｏｂｊ１，５，２００）が出力
される。

【００４７】・ “キューＸ”の（“これを”，１，４
００，６９０）は、“キューＹ”の各ｙとの時間的重な
りが、０，０，０，１０，１９０，０，０，…であるの
で、５番目の（ｏｂｊ２，５００，７００）が対応付け
られ、統合結果ｚとして、（“これを”，１，４００，
６９０，ｏｂｊ２，５００，７００）が出力される。

【００４８】・ “キューＸ”の（“ここに移動す
る”，１，１０００，１２００）は、“キューＹ”の各
ｙとの時間的重なりが、…，０，２００，０であるの
で、７番目の（ｏｂｊ３，９８０，１３００）が対応付
けられ、統合結果ｚとして、（“ここに移動する”，
１，１０００，１２００，ｏｂｊ３，９８０，１３０
０）が出力される。

【００４９】（５）上記の（４）において、ｚとし
て、（“これと”，１，０，２１０，ｏｂｊ１，５，２
００）（“これを”，１，４００，６９０，ｏｂｊ２，５０
０，７００）（“ここに移動する”，１，１０００，１２００，ｏｂ
ｊ３，９８０，１３００）が統合部３から順次出力され
るが、コマンド変換部６は、１番目と２番目のｚは、図
８のコマンド変換データベース５の項目とマッチしない
ので、“スタックＺ”に格納される。一方、３番目のｚ
は、図８のコマンド変換データベース５の項目にマッチ
するので、書式を読み込み、“スタックＺ”の内容を全
てポップして、コマンド “move(obj1, obj2, obj3)” に変換する。

【００５０】上記に示すように、指示対象認識部２が表
示画面上の対象の領域内でのマウス・カーソルの移動速
度が遅くなったことより、指示対象の候補のアイコンを
認識し、音声言語認識部１が音声中の言葉を認識し、音
声中の言葉が指示語であるときに、統合部３により指示
語に対応する指示対象のアイコンを、指示対象候補が指
示された時間と音声中の言葉が発声された時間帯との相
関関係に基づいて、決定し、対応付ける。コマンド変換
部６は、出力中の言葉がコマンド変換データベース５に
登録された言葉である場合には、スタックの全内容を利
用してコマンドに変換する。従って、オペレータが音声
と共にカーソルで所望のアイコンを指定する場合には、
カーソルの移動速度をある一定の速度より遅く移動させ
るのみで、クリックを使用しなくとも、指示動作が可能
となる。

【００５１】以上のように、クリックを使用せずに、指
示対応が指定できるので、指示動作を用いる質問や命令
のモードとマウスを使った直接操作のモードとの間のモ
ード切り替えが不要であり、効率的な情報入力が可能と
なる。なお、本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。

【００５２】

【発明の効果】上記の説明から明らかなように、本発明
のマルチモーダル情報入力方法及び装置によれば、以下
のような効果が得られる。まず、クリックを使わずに、
指示対象が指定できるので、質問や命令での指示動作と
直接操作の間で曖昧性が生じない。従って、指示動作を
伴う質問や命令のモードと、マウスを使った直接操作の
モードとの間のモード切り替え、マウス・ボタンの使い
分け、及び特殊キーの同時利用が不要となり、効率的か
つ、誤りの少ない情報入力が可能となる。

【図面の簡単な説明】

【図１】本発明の原理を説明するための図である。

【図２】本発明の原理構成図である。

【図３】本発明のシステム構成図である。

【図４】本発明のｘのフィールド構成図とｘの例を示す
図である。

【図５】本発明のｙのフィールド構成図とｙの例を示す
図である。

【図６】本発明のｚのフィールド構成図とｚの例を示す
図である。

【図７】本発明の指示語辞書のフィールドの例を示す図
である。

【図８】本発明のコマンド変換データベースのフィール
ドの例を示す図である。

【図９】本発明の動作概略を示すフローチャートであ
る。

【図１０】本発明の音声言語認識部の処理（ステップ２
００）の詳細な動作を示すフローチャートである。

【図１１】本発明の指示対象認識部の処理（ステップ３
００）の詳細な動作を示すフローチャートである。

【図１２】本発明の統合部の処理（ステップ４００）の
詳細な動作を示すフローチャートである。

【図１３】本発明のコマンド変換部の処理（ステップ５
００）の詳細な動作を示すフローチャートである。

【図１４】本発明の一実施例の入力画面と入力でのユー
ザの動きを示す具体例を示す図である。

【図１５】本発明の一実施例のマウスの動きと音声の関
係を示す具体例を示す図である。

【符号の説明】

１音声言語認識部、音声言語認識手段２指示対象認識部、指示対象認識手段３統合部、統合手段４指示語辞書５コマンド変換データベース６コマンド変換部、コマンド変換手段７表示手段８アプリケーションプログラム

Claims

【特許請求の範囲】

【請求項１】ポインティングデバイスによる指示動作
と、該指示動作と並行して発声された音声とを用いてア
プリケーションプログラムに情報入力を行う際に、該指
示動作により指示された電子計算機の表示手段上のオブ
ジェクトと、該音声中の指示語とを対応付けてアプリケ
ーションプログラムのコマンドへ変換するマルチモーダ
ル情報入力方法において、前記ポインティングデバイスの指示動作における前記表
示手段上でのカーソルの動きから指示されたオブジェク
トを認識することを特徴とするマルチモーダル情報入力
方法。
【請求項２】前記ポインティングデバイスによる指示
動作における前記表示手段上のオブジェクトの領域中で
のカーソルの移動速度が所定の速度より遅くなった場合
に、該オブジェクトを指示対象候補として認識する指示
対象認識ステップと、発声された音声の言葉を認識する音声言語認識ステップ
と、前記音声言語認識ステップにおいて前記音声中の言葉が
指示語を含む場合には、該指示語を含む該音声に対応す
る指示対象を、前記指示対象認識ステップで認識された
指示対象候補から選択する統合ステップと、前記統合ステップにより選択された指示対象候補を前記
アプリケーションプログラムのコマンドに変換するコマ
ンド変換ステップよりなる請求項１記載のマルチモーダ
ル情報入力方法。
【請求項３】前記指示対象認識ステップは、前記表示手段中の指示対象候補であるオブジェクトの領
域中にカーソルが滞在していた第１の時間帯を出力する
請求項２記載のマルチモーダル情報入力方法。
【請求項４】前記音声言語認識ステップは、前記音声中の言葉の開始から終了までの第２の時間帯を
出力する請求項２記載のマルチモーダル情報入力方法。
【請求項５】前記統合ステップは、前記第２の時間帯に対して、前記第１の時間帯との時間
的重なりが最も大きい指示対象候補を選択する請求項項
２、３及び４記載のマルチモーダル情報入力方法。
【請求項６】ポインティングデバイスによる指示動作
と、該指示動作と並行して発声された音声とを用いてア
プリケーションプログラムに情報入力を行う際に、該指
示動作により指示された電子計算機の表示手段上のオブ
ジェクトと、該音声中の指示語とを対応付けてアプリケ
ーションプログラムのコマンドへ変換するマルチモーダ
ル情報入力装置において、前記ポインティングデバイスの指示動作における前記表
示手段上でのカーソルの動きから指示されたオブジェク
トを認識する手段を有することを特徴とするマルチモー
ダル情報入力装置。
【請求項７】前記ポインティングデバイスによる指示
動作における前記表示手段上のオブジェクトの領域中で
のカーソルの移動速度が所定の速度より遅くなった場合
に、該オブジェクトを指示対象候補として認識する指示
対象認識手段と、発声された音声の言葉を認識する音声言語認識手段と、前記音声言語認識手段において前記音声中の言葉が指示
語を含む場合には、該指示語を含む該音声に対応する指
示対象を、前記指示対象認識手段で認識された指示対象
候補から選択する統合手段と、前記統合手段により選択された指示対象候補を前記アプ
リケーションプログラムのコマンドに変換するコマンド
変換手段を含む請求項６記載のマルチモーダル情報入力
装置。
【請求項８】前記指示対象認識手段は、前記表示手段中の指示対象候補であるオブジェクトの領
域中にカーソルが滞在していた第１の時間帯を出力する
請求項７記載のマルチモーダル情報入力装置。
【請求項９】前記音声言語認識手段は、前記音声中の言葉の開始から終了までの第２の時間帯を
出力する請求項７記載のマルチモーダル情報入力装置。
【請求項１０】前記統合手段は、前記第２の時間帯に対して、前記第１の時間帯との時間
的重なりが最も大きい指示対象候補を選択する請求項
７、８及び９記載のマルチモーダル情報入力装置。