JPH0981364A - マルチモーダル情報入力方法及び装置 - Google Patents
マルチモーダル情報入力方法及び装置Info
- Publication number
- JPH0981364A JPH0981364A JP7231667A JP23166795A JPH0981364A JP H0981364 A JPH0981364 A JP H0981364A JP 7231667 A JP7231667 A JP 7231667A JP 23166795 A JP23166795 A JP 23166795A JP H0981364 A JPH0981364 A JP H0981364A
- Authority
- JP
- Japan
- Prior art keywords
- pointing
- information input
- word
- voice
- cursor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Abstract
(57)【要約】
【課題】 マウスの直接操作と入力場面での指示動作と
を識別することが不可能であり、マウス操作の曖昧性が
生じる。 【解決手段】 本発明は、マウスによる指示動作におけ
る表示手段上のオブジェクトの領域中でのカーソルの移
動速度が所定の速度より遅くなった場合に、オブジェク
トを指示対象候補として認識し、発声された音声の言葉
を認識し、音声中の言葉が指示語を含む場合には、表示
手段中の指示対象候補であるオブジェクトにカーソルが
滞在していた時間帯と、音声中の言葉の開始から終了ま
での時間帯との相関関係に基づいて、該指示語に対応す
る指示対象であるオブジェクトを候補から選択してコマ
ンドに変換する。
を識別することが不可能であり、マウス操作の曖昧性が
生じる。 【解決手段】 本発明は、マウスによる指示動作におけ
る表示手段上のオブジェクトの領域中でのカーソルの移
動速度が所定の速度より遅くなった場合に、オブジェク
トを指示対象候補として認識し、発声された音声の言葉
を認識し、音声中の言葉が指示語を含む場合には、表示
手段中の指示対象候補であるオブジェクトにカーソルが
滞在していた時間帯と、音声中の言葉の開始から終了ま
での時間帯との相関関係に基づいて、該指示語に対応す
る指示対象であるオブジェクトを候補から選択してコマ
ンドに変換する。
Description
【0001】
【発明の属する技術分野】本発明は、マルチモーダル情
報入力方法及び装置に係り、特に、音声や身振りといっ
た複数の入力手段を有するマルチモーダル情報入力方法
及び装置に関する。詳しくは、マウス等のポインティン
グデバイスを使った指示動作と音声を利用して電子計算
機に情報を入力する際に、ポインティングデバイスの指
示動作によって指示された対象と音声中の指示語を対応
付けて、アプリケーションプログラムのコマンドへ変換
を行うことにより、効率的な情報入力を行うためのマル
チモーダル情報入力方法及び装置に関する。
報入力方法及び装置に係り、特に、音声や身振りといっ
た複数の入力手段を有するマルチモーダル情報入力方法
及び装置に関する。詳しくは、マウス等のポインティン
グデバイスを使った指示動作と音声を利用して電子計算
機に情報を入力する際に、ポインティングデバイスの指
示動作によって指示された対象と音声中の指示語を対応
付けて、アプリケーションプログラムのコマンドへ変換
を行うことにより、効率的な情報入力を行うためのマル
チモーダル情報入力方法及び装置に関する。
【0002】
【従来の技術】従来、電子計算機に情報を入力する作業
には、文章や図面の作成、帳票への入力や、ヘルプ機能
への質問事項の入力がある。これらの情報入力作業で
は、音声だけ、または、マウスだけを用いて情報入力を
行うよりも、両方を用いて入力し、それぞれの曖昧な部
分をそれぞれの明白な部分によって相互に補完する方
が、入力の効率が高い。
には、文章や図面の作成、帳票への入力や、ヘルプ機能
への質問事項の入力がある。これらの情報入力作業で
は、音声だけ、または、マウスだけを用いて情報入力を
行うよりも、両方を用いて入力し、それぞれの曖昧な部
分をそれぞれの明白な部分によって相互に補完する方
が、入力の効率が高い。
【0003】例えば、ウィンドウ表示が可能な計算機デ
ィスプレイ上に表示されたあるアイコンの機能を問い合
わせる質問を入力する場合に、「システムホルダーとい
うホルダーの中の右上にあるアイコンは何ですか?」と
質問を入力するよりも、そのアイコンをマウスで指し示
して、「これはなんですか?」と質問する方が、アイコ
ン等の指示対象の位置や形状に関しての修飾語を発声し
ない分、また、ユーザ自身がその指示対象の位置を厳密
に認識しないで済む分だけ、入力の効率が高くなる。
ィスプレイ上に表示されたあるアイコンの機能を問い合
わせる質問を入力する場合に、「システムホルダーとい
うホルダーの中の右上にあるアイコンは何ですか?」と
質問を入力するよりも、そのアイコンをマウスで指し示
して、「これはなんですか?」と質問する方が、アイコ
ン等の指示対象の位置や形状に関しての修飾語を発声し
ない分、また、ユーザ自身がその指示対象の位置を厳密
に認識しないで済む分だけ、入力の効率が高くなる。
【0004】従来の入力装置(M. Hiyoshi and H. Shim
azu: "Drawing Pictures with Natural Language and D
irect Manipulation", Proceedings of COLING 94 vol.
2, p.722-726, 1994) では、指示動作としてマウス・ク
リックを用いている。
azu: "Drawing Pictures with Natural Language and D
irect Manipulation", Proceedings of COLING 94 vol.
2, p.722-726, 1994) では、指示動作としてマウス・ク
リックを用いている。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の技術をマウスのクリックによって直接操作可能なボ
タンがディスプレイに表示されたアプリケーション・プ
ログラムに適用した場合、指示のためにボタンをクリッ
クすれば、ボタンに割り当てられた操作が始まってしま
う。
来の技術をマウスのクリックによって直接操作可能なボ
タンがディスプレイに表示されたアプリケーション・プ
ログラムに適用した場合、指示のためにボタンをクリッ
クすれば、ボタンに割り当てられた操作が始まってしま
う。
【0006】即ち、従来の技術では、指示語や名詞等の
物体を示す言葉を伴う質問等の情報入力場面での指示動
作を意味するマウスクリック(例えば、「これは何です
か」といいながら、指示語の「これ」が意味する物体を
マウスでクリックする場合)と、直接操作を意味するマ
ウス・クリック(例えば、ラジオボタンを押して、ボタ
ンをオンの状態にするためにクリックする場合)とを識
別することが不可能であり、マウス操作の曖昧性が生じ
るという問題がある。
物体を示す言葉を伴う質問等の情報入力場面での指示動
作を意味するマウスクリック(例えば、「これは何です
か」といいながら、指示語の「これ」が意味する物体を
マウスでクリックする場合)と、直接操作を意味するマ
ウス・クリック(例えば、ラジオボタンを押して、ボタ
ンをオンの状態にするためにクリックする場合)とを識
別することが不可能であり、マウス操作の曖昧性が生じ
るという問題がある。
【0007】この問題への対処方法として、 (1) 質問等の情報入力のモードと、マウスを使う直
接操作のモードとの間でのモードの切り替え; (2) 質問等の情報入力のモードでは、マウスの右ボ
タンを使う一方で、マウスを使う直接操作のモードでは
左ボタンを使う; (3) 両モードのうちのどちらか一方で特殊キーを同
時に利用すること、等が可能である。
接操作のモードとの間でのモードの切り替え; (2) 質問等の情報入力のモードでは、マウスの右ボ
タンを使う一方で、マウスを使う直接操作のモードでは
左ボタンを使う; (3) 両モードのうちのどちらか一方で特殊キーを同
時に利用すること、等が可能である。
【0008】しかし、その都度ユーザが意識して、モー
ドの切り替え、ボタンの使い分け、及び特殊キーの同時
利用を行わなければならないために、入力効率を低下さ
せるという問題がある。本発明は、上記の点に鑑みなさ
れたもので、モードの切り替え、ボタンの使い分け、及
び特殊キーの同時利用で生じる効率の低下を回避し、ユ
ーザの指示動作によって指示された対象と、指示動作と
並行して入力された音声中の指示語とを対応付けて効率
的な情報入力を実現する、マルチモーダル情報入力方法
及び装置を提供することを目的とする。
ドの切り替え、ボタンの使い分け、及び特殊キーの同時
利用を行わなければならないために、入力効率を低下さ
せるという問題がある。本発明は、上記の点に鑑みなさ
れたもので、モードの切り替え、ボタンの使い分け、及
び特殊キーの同時利用で生じる効率の低下を回避し、ユ
ーザの指示動作によって指示された対象と、指示動作と
並行して入力された音声中の指示語とを対応付けて効率
的な情報入力を実現する、マルチモーダル情報入力方法
及び装置を提供することを目的とする。
【0009】
【課題を解決するための手段】本発明は、ポインティン
グデバイスによる指示動作と、該指示動作と並行して発
声された音声とを用いてアプリケーションプログラムに
情報入力を行う際に、該指示動作により指示された電子
計算機の表示手段上のオブジェクトと、該音声中の指示
語とを対応付けてアプリケーションプログラムのコマン
ドへ変換するマルチモーダル情報入力方法において、ポ
インティングデバイスの指示動作における表示手段上で
のカーソルの動きから指示されたオブジェクトを認識す
る。
グデバイスによる指示動作と、該指示動作と並行して発
声された音声とを用いてアプリケーションプログラムに
情報入力を行う際に、該指示動作により指示された電子
計算機の表示手段上のオブジェクトと、該音声中の指示
語とを対応付けてアプリケーションプログラムのコマン
ドへ変換するマルチモーダル情報入力方法において、ポ
インティングデバイスの指示動作における表示手段上で
のカーソルの動きから指示されたオブジェクトを認識す
る。
【0010】図1は、本発明の原理を説明するための図
である。本発明は、ポインティングデバイスによる指示
動作における表示手段上のオブジェクトの領域中でのカ
ーソルの移動速度が所定の速度より遅くなった場合に、
該オブジェクトを指示対象候補として認識する指示対象
認識ステップと、発声された音声の言葉を認識する音声
言語認識ステップ(ステップ1)と、音声言語認識ステ
ップにおいて音声中の言葉が指示語を含む場合には、該
指示語を含む該音声に対応する指示対象を、指示対象認
識ステップで認識された指示対象候補から選択する統合
ステップ(ステップ2)と、統合ステップにより選択さ
れた指示対象候補をアプリケーションプログラムのコマ
ンドに変換するコマンド変換ステップ(ステップ3)よ
りなる。
である。本発明は、ポインティングデバイスによる指示
動作における表示手段上のオブジェクトの領域中でのカ
ーソルの移動速度が所定の速度より遅くなった場合に、
該オブジェクトを指示対象候補として認識する指示対象
認識ステップと、発声された音声の言葉を認識する音声
言語認識ステップ(ステップ1)と、音声言語認識ステ
ップにおいて音声中の言葉が指示語を含む場合には、該
指示語を含む該音声に対応する指示対象を、指示対象認
識ステップで認識された指示対象候補から選択する統合
ステップ(ステップ2)と、統合ステップにより選択さ
れた指示対象候補をアプリケーションプログラムのコマ
ンドに変換するコマンド変換ステップ(ステップ3)よ
りなる。
【0011】また、上記の指示対象認識ステップは、表
示手段中の指示対象候補であるオブジェクトの領域中に
カーソルが滞在していた第1の時間帯を出力する。ま
た、上記の音声言語認識ステップは、音声中の言葉の開
始から終了までの第2の時間帯を出力する。
示手段中の指示対象候補であるオブジェクトの領域中に
カーソルが滞在していた第1の時間帯を出力する。ま
た、上記の音声言語認識ステップは、音声中の言葉の開
始から終了までの第2の時間帯を出力する。
【0012】また、上記の統合ステップは、指示対象認
識ステップと音声言語認識ステップの終了後に、第2の
時間帯に対して、第1の時間帯との時間的重なりが最も
大きい指示対象候補を選択する。本発明は、ポインティ
ングデバイスによる指示動作と、該指示動作と並行して
発声された音声とを用いてアプリケーションプログラム
に情報入力を行う際に、該指示動作により指示された電
子計算機の表示手段上のオブジェクトと、該音声中の指
示語とを対応付けてアプリケーションプログラムのコマ
ンドへ変換するマルチモーダル情報入力装置において、
ポインティングデバイスの指示動作における表示手段上
でのカーソルの動きから指示されたオブジェクトを認識
する手段を有する。
識ステップと音声言語認識ステップの終了後に、第2の
時間帯に対して、第1の時間帯との時間的重なりが最も
大きい指示対象候補を選択する。本発明は、ポインティ
ングデバイスによる指示動作と、該指示動作と並行して
発声された音声とを用いてアプリケーションプログラム
に情報入力を行う際に、該指示動作により指示された電
子計算機の表示手段上のオブジェクトと、該音声中の指
示語とを対応付けてアプリケーションプログラムのコマ
ンドへ変換するマルチモーダル情報入力装置において、
ポインティングデバイスの指示動作における表示手段上
でのカーソルの動きから指示されたオブジェクトを認識
する手段を有する。
【0013】図2は、本発明の原理構成図である。本発
明は、ポインティングデバイスによる指示動作における
表示手段上のオブジェクトの領域中でのカーソルの移動
速度が所定の速度より遅くなった場合に、該オブジェク
トを指示対象候補として認識する指示対象認識手段2
と、発声された音声の言葉を認識する音声言語認識手段
1と、音声言語認識手段1において音声中の言葉が指示
語を含む場合には、該指示語を含む該音声に対応する指
示対象を、指示対象認識手段2で認識された指示対象候
補から選択する統合手段3と、統合手段3により選択さ
れた指示対象候補をアプリケーションプログラムのコマ
ンドに変換するコマンド変換手段4を含む。
明は、ポインティングデバイスによる指示動作における
表示手段上のオブジェクトの領域中でのカーソルの移動
速度が所定の速度より遅くなった場合に、該オブジェク
トを指示対象候補として認識する指示対象認識手段2
と、発声された音声の言葉を認識する音声言語認識手段
1と、音声言語認識手段1において音声中の言葉が指示
語を含む場合には、該指示語を含む該音声に対応する指
示対象を、指示対象認識手段2で認識された指示対象候
補から選択する統合手段3と、統合手段3により選択さ
れた指示対象候補をアプリケーションプログラムのコマ
ンドに変換するコマンド変換手段4を含む。
【0014】また、上記の指示対象認識手段2は、表示
手段中の指示対象候補であるオブジェクトの領域中にカ
ーソルが滞在していた第1の時間帯を出力する。また、
上記の音声言語認識手段1は、音声中の言葉の開始から
終了までの第2の時間帯を出力する。
手段中の指示対象候補であるオブジェクトの領域中にカ
ーソルが滞在していた第1の時間帯を出力する。また、
上記の音声言語認識手段1は、音声中の言葉の開始から
終了までの第2の時間帯を出力する。
【0015】また、上記の統合手段3は、第2の時間帯
に対して、第1の時間帯との時間的重なりが最も大きい
指示対象候補を選択する。このように、本発明は、指示
対象認識手段が電子計算機の表示画面上の対象の領域内
でのポインティングデバイス(マウス)のカーソルの移
動速度の降下に基づいて指示対象候補を認識し、音声言
語認識手段が音声中の言葉を認識し、音声中の言葉が指
示語である場合には、統合手段が指示語に対応する指示
対象を、当該指示対象候補が指示された時間と音声中の
言葉が発声された時間帯との相関関係に基づいて決定し
対応付ける。また、音声中の言葉が指示動作に関係のな
い言葉である場合には、当該言葉がそのまま出力され
る。コマンド変換手段は、出力中の言葉がコマンド変換
データベースに登録された言葉でない場合には、スタッ
クに格納し、コマンド変換データベースに登録された言
葉である場合にはスタックの全内容を利用してコマンド
に変換する。
に対して、第1の時間帯との時間的重なりが最も大きい
指示対象候補を選択する。このように、本発明は、指示
対象認識手段が電子計算機の表示画面上の対象の領域内
でのポインティングデバイス(マウス)のカーソルの移
動速度の降下に基づいて指示対象候補を認識し、音声言
語認識手段が音声中の言葉を認識し、音声中の言葉が指
示語である場合には、統合手段が指示語に対応する指示
対象を、当該指示対象候補が指示された時間と音声中の
言葉が発声された時間帯との相関関係に基づいて決定し
対応付ける。また、音声中の言葉が指示動作に関係のな
い言葉である場合には、当該言葉がそのまま出力され
る。コマンド変換手段は、出力中の言葉がコマンド変換
データベースに登録された言葉でない場合には、スタッ
クに格納し、コマンド変換データベースに登録された言
葉である場合にはスタックの全内容を利用してコマンド
に変換する。
【0016】以上のように、本発明によれば、クリック
を使わないマウス・カーソルの動き(速度の低下)を利
用して指示動作が可能であるので、直接操作にはクリッ
クを利用することができる。従って、質問や命令等の音
声を伴う指示動作でのマウスの動きと、マウスを使った
直接操作でのマウスの動きとを区別でき、マウスの動作
には曖昧性が発生せず、また、ユーザの手によるモード
の切り替え、ボタンの使い分け、及び特殊キーの同時利
用が不要となるため、ユーザにとって効率的な情報入力
が実現可能となる。
を使わないマウス・カーソルの動き(速度の低下)を利
用して指示動作が可能であるので、直接操作にはクリッ
クを利用することができる。従って、質問や命令等の音
声を伴う指示動作でのマウスの動きと、マウスを使った
直接操作でのマウスの動きとを区別でき、マウスの動作
には曖昧性が発生せず、また、ユーザの手によるモード
の切り替え、ボタンの使い分け、及び特殊キーの同時利
用が不要となるため、ユーザにとって効率的な情報入力
が実現可能となる。
【0017】
【発明の実施の形態】図3は、本発明のシステム構成を
示す。同図に示す構成は、音声言語認識部1、指示対象
認識部2、統合部3、指示語辞書4、コマンド変換デー
タベース5及びコマンド変換部6より構成される。
示す。同図に示す構成は、音声言語認識部1、指示対象
認識部2、統合部3、指示語辞書4、コマンド変換デー
タベース5及びコマンド変換部6より構成される。
【0018】音声言語認識部1は、アプリケーションプ
ログラムを通して音声と該音声の開始時刻と終了時刻を
入力として取得し、音声データを音がある部分(有音
部)と音が無い部分(無音部)に分け、有音部がどのよ
うな言葉であるのかの言語認識処理を行い、後述する指
示語辞書4を参照して、言語認識処理の結果である言葉
とその言葉の示す対象の数と有音部の開始時刻と終了時
刻からなる組を出力する。この組を以後の説明のためx
と表す。x(開始時刻・終了時刻)のフィールド構成と
xの例を図4に示す。図4に示すxのフィールドは、言
語認識の結果の言葉、言葉の示す対象の数、有音部の開
始時刻、有音部の終了時刻から構成される。
ログラムを通して音声と該音声の開始時刻と終了時刻を
入力として取得し、音声データを音がある部分(有音
部)と音が無い部分(無音部)に分け、有音部がどのよ
うな言葉であるのかの言語認識処理を行い、後述する指
示語辞書4を参照して、言語認識処理の結果である言葉
とその言葉の示す対象の数と有音部の開始時刻と終了時
刻からなる組を出力する。この組を以後の説明のためx
と表す。x(開始時刻・終了時刻)のフィールド構成と
xの例を図4に示す。図4に示すxのフィールドは、言
語認識の結果の言葉、言葉の示す対象の数、有音部の開
始時刻、有音部の終了時刻から構成される。
【0019】指示対象認識部2は、アプリケーションプ
ログラムを通してマウス・イベント名、マウス・イベン
トを取得した時刻、マウス・カーソルの位置座標、マウ
ス・イベントの発生にかかわった領域名の名前を入力と
して取得し、指示対象になり得る領域に滞在した時間帯
でのマウス・カーソルの移動速度の降下を検出し、速度
が一定値以下となった時に、滞在していた領域の名前と
その領域へマウス・カーソルが侵入した時刻(領域侵入
時刻)と出た時刻(領域退出時刻)からなる組を出力す
る。この組を以後の説明のためyと表す。yのフィール
ド構成図とyの例を図5に示す。図5に示すyのフィー
ルドには、指示対象候補、指示対象候補の領域侵入時
刻、指示対象候補の領域退出時刻から構成される。
ログラムを通してマウス・イベント名、マウス・イベン
トを取得した時刻、マウス・カーソルの位置座標、マウ
ス・イベントの発生にかかわった領域名の名前を入力と
して取得し、指示対象になり得る領域に滞在した時間帯
でのマウス・カーソルの移動速度の降下を検出し、速度
が一定値以下となった時に、滞在していた領域の名前と
その領域へマウス・カーソルが侵入した時刻(領域侵入
時刻)と出た時刻(領域退出時刻)からなる組を出力す
る。この組を以後の説明のためyと表す。yのフィール
ド構成図とyの例を図5に示す。図5に示すyのフィー
ルドには、指示対象候補、指示対象候補の領域侵入時
刻、指示対象候補の領域退出時刻から構成される。
【0020】統合部3は、音声言語認識部1の出力結果
であるx(有音部の開始・終了時刻)と、指示対象認識
部2の出力結果であるy(領域侵入・退出時刻)とを対
応付ける。各xは、xの第1番目のフィールドの言葉が
指示語である場合に、xの開始時刻からxの終了時刻ま
での時間と、yの領域侵入時刻とyの退出時刻までの時
間との間で時間的に重なりを持つyのうち、時間的重な
りが最大のyと対応付けられる。そして、統合部3から
xの持つ全情報と、当該xと対応付けられたyの全情報
とをマージした統合結果を出力する。統合結果を以後の
説明のためzと表す。統合結果zのフィールド構成図と
zの例を図6に示す。図6に示すzのフィールドには、
言語認識結果の言葉、言葉の表す対象の数、有音部の開
始時刻、有音部の終了時刻、指示対象候補、指示対象候
補の領域に入った時刻(領域侵入時刻)、指示対象候補
の領域から出た時刻(領域退出時刻)から構成される。
であるx(有音部の開始・終了時刻)と、指示対象認識
部2の出力結果であるy(領域侵入・退出時刻)とを対
応付ける。各xは、xの第1番目のフィールドの言葉が
指示語である場合に、xの開始時刻からxの終了時刻ま
での時間と、yの領域侵入時刻とyの退出時刻までの時
間との間で時間的に重なりを持つyのうち、時間的重な
りが最大のyと対応付けられる。そして、統合部3から
xの持つ全情報と、当該xと対応付けられたyの全情報
とをマージした統合結果を出力する。統合結果を以後の
説明のためzと表す。統合結果zのフィールド構成図と
zの例を図6に示す。図6に示すzのフィールドには、
言語認識結果の言葉、言葉の表す対象の数、有音部の開
始時刻、有音部の終了時刻、指示対象候補、指示対象候
補の領域に入った時刻(領域侵入時刻)、指示対象候補
の領域から出た時刻(領域退出時刻)から構成される。
【0021】指示語辞書4は、指示語とその語が指示す
る対象の数を記録している。指示語辞書4のフィールド
構成を図7に示す。コマンド変換データベース5は、言
葉とコマンドと該コマンドの書式を記録している。コマ
ンド変換データベース5のフィールド構成を図8に示
す。同図において、[]で囲まれた項目は、複数存在し
ても構わないことを示す。
る対象の数を記録している。指示語辞書4のフィールド
構成を図7に示す。コマンド変換データベース5は、言
葉とコマンドと該コマンドの書式を記録している。コマ
ンド変換データベース5のフィールド構成を図8に示
す。同図において、[]で囲まれた項目は、複数存在し
ても構わないことを示す。
【0022】コマンド変換部6は、統合部3の出力結果
zの第1番目のフィールドの言葉をキーとしてコマンド
変換データベース5を検索し、マッチしなかった場合に
は、zをスタックに格納する。マッチした場合には、コ
マンド変換データベース5からコマンド書式を読み、ス
タックの全内容と、コマンドの書式を用いてアプリケー
ションプログラムのコマンドに変換する。
zの第1番目のフィールドの言葉をキーとしてコマンド
変換データベース5を検索し、マッチしなかった場合に
は、zをスタックに格納する。マッチした場合には、コ
マンド変換データベース5からコマンド書式を読み、ス
タックの全内容と、コマンドの書式を用いてアプリケー
ションプログラムのコマンドに変換する。
【0023】次に、本発明の動作の概要を説明する。図
9は、本発明のマルチモーダル情報入力装置の動作の概
略を示すフローチャートである。なお、以下の説明にお
いて、各部で取得した結果はそれぞれキューX,Y及び
スタックZに格納されるものとする。
9は、本発明のマルチモーダル情報入力装置の動作の概
略を示すフローチャートである。なお、以下の説明にお
いて、各部で取得した結果はそれぞれキューX,Y及び
スタックZに格納されるものとする。
【0024】ステップ100) マルチモーダル情報入
力装置は、アプリケーションプログラムから音声、音声
の開始時刻と、終了時刻、マウス・イベント名、マウス
・イベントを取得した時刻、マウス・カーソルの位置座
標、マウス・イベントの発生にかかわった領域の名前を
入力として取得する。
力装置は、アプリケーションプログラムから音声、音声
の開始時刻と、終了時刻、マウス・イベント名、マウス
・イベントを取得した時刻、マウス・カーソルの位置座
標、マウス・イベントの発生にかかわった領域の名前を
入力として取得する。
【0025】ステップ200) 次に、音声、音声の開
始時刻と終了時刻が音声言語認識部1で処理され、xを
作成し、“キューX”に格納する。 ステップ300) マウス・イベント名、マウス・イベ
ントを取得した時刻、マウス・カーソルの位置座標、マ
ウス・イベントの発生にかかわった領域の名前が指示対
象認識部2で処理され、yを作り、“キューY”に格納
する。
始時刻と終了時刻が音声言語認識部1で処理され、xを
作成し、“キューX”に格納する。 ステップ300) マウス・イベント名、マウス・イベ
ントを取得した時刻、マウス・カーソルの位置座標、マ
ウス・イベントの発生にかかわった領域の名前が指示対
象認識部2で処理され、yを作り、“キューY”に格納
する。
【0026】ステップ400) 次に、統合部3が“キ
ューX”の先頭から、認識結果の部分が指示語句である
xをyとマージし、統合結果zを作り、出力する。 ステプ500) コマンド変換部6は、統合結果zの言
語認識結果の部分をキーとしてコマンド変換データベー
ス5を検索し、マッチしなかった場合には、スタックZ
に統合結果zを格納し、マッチした場合には、スタック
Zの全内容とコマンド変換データベース5に格納された
コマンドの書式を用いてコマンドに変換する。
ューX”の先頭から、認識結果の部分が指示語句である
xをyとマージし、統合結果zを作り、出力する。 ステプ500) コマンド変換部6は、統合結果zの言
語認識結果の部分をキーとしてコマンド変換データベー
ス5を検索し、マッチしなかった場合には、スタックZ
に統合結果zを格納し、マッチした場合には、スタック
Zの全内容とコマンド変換データベース5に格納された
コマンドの書式を用いてコマンドに変換する。
【0027】次に、上記のステップ200における音声
言語認識部1の処理を詳しく説明する。図10は、本発
明の音声言語認識部の処理(ステップ200)の詳細な
動作を示すフローチャートである。 ステップ210) まず、音声言語認識部1は、音声と
音声の開始時刻と終了時刻を取得する。
言語認識部1の処理を詳しく説明する。図10は、本発
明の音声言語認識部の処理(ステップ200)の詳細な
動作を示すフローチャートである。 ステップ210) まず、音声言語認識部1は、音声と
音声の開始時刻と終了時刻を取得する。
【0028】ステップ220) 次に、音声の振幅を用
いて短時間平均エネルギーを計算し、そのエネルギーが
一定値以上である音声区間を抽出する。 ステップ230) 次に、前ステップで抽出された区間
のうち、音声が有声音である確率を計算し、その確率が
一定値以上である音声区間だけ残す。
いて短時間平均エネルギーを計算し、そのエネルギーが
一定値以上である音声区間を抽出する。 ステップ230) 次に、前ステップで抽出された区間
のうち、音声が有声音である確率を計算し、その確率が
一定値以上である音声区間だけ残す。
【0029】ステップ240) ステップ230で残っ
た音声区間の音声を入力として、その音声がどのような
言葉であるのかを認識する音声言語認識処理を行う。 ステップ250) ステップ240の結果である言葉
と、その言葉が指示する対象の数と、その言葉に相当す
る音声の開始時刻と、その終了時刻からなる認識結果x
を作成する。
た音声区間の音声を入力として、その音声がどのような
言葉であるのかを認識する音声言語認識処理を行う。 ステップ250) ステップ240の結果である言葉
と、その言葉が指示する対象の数と、その言葉に相当す
る音声の開始時刻と、その終了時刻からなる認識結果x
を作成する。
【0030】ステップ260) xを“キューX”に格
納する。 次に、上記のステップ300における指示対象認識部2
の処理を詳しく説明する。図11は、本発明の指示対象
認識部の処理(ステップ300)の詳細な動作を示すフ
ローチャートである。
納する。 次に、上記のステップ300における指示対象認識部2
の処理を詳しく説明する。図11は、本発明の指示対象
認識部の処理(ステップ300)の詳細な動作を示すフ
ローチャートである。
【0031】以下の説明において、物体の領域にマウス
・カーソルが入るときに生じるマウス・イベントを"Ent
er”、出るときに生じるマウス・イベントを"Leave" と
する。 ステップ310) まず、マウス・イベント名、マウス
・イベントを取得した時刻、マウス・カーソルの位置座
標、マウス・イベントの発生にかかわった領域の名前を
取得する。
・カーソルが入るときに生じるマウス・イベントを"Ent
er”、出るときに生じるマウス・イベントを"Leave" と
する。 ステップ310) まず、マウス・イベント名、マウス
・イベントを取得した時刻、マウス・カーソルの位置座
標、マウス・イベントの発生にかかわった領域の名前を
取得する。
【0032】ステップ320) ステップ310で取得
したマウス・イベントの"Enter" と"Leave" とそれらが
取得された時刻を利用して、マウスカーソルが領域に滞
在している時間帯を抽出する。 ステップ330) ステップ320で抽出した時間帯の
うち、マウス・カーソル座標位置からマウス・カーソル
の平均移動速度を求め、その速度の絶対値が減少から増
加に変化した時刻を含む時間帯だけを残す。
したマウス・イベントの"Enter" と"Leave" とそれらが
取得された時刻を利用して、マウスカーソルが領域に滞
在している時間帯を抽出する。 ステップ330) ステップ320で抽出した時間帯の
うち、マウス・カーソル座標位置からマウス・カーソル
の平均移動速度を求め、その速度の絶対値が減少から増
加に変化した時刻を含む時間帯だけを残す。
【0033】ステップ340) ステップ330で残っ
た時間帯のうち、その中でのマウスの速度の絶対値が一
定値以下になった時刻を含む時間帯だけを残す。 ステップ350) マウス・イベントの発生にかかわっ
た領域の名前と、その領域へ入った時刻と出た時刻から
なるyを作成する。
た時間帯のうち、その中でのマウスの速度の絶対値が一
定値以下になった時刻を含む時間帯だけを残す。 ステップ350) マウス・イベントの発生にかかわっ
た領域の名前と、その領域へ入った時刻と出た時刻から
なるyを作成する。
【0034】ステップ360) yを“キューY”に格
納する。 次に、ステップ400における統合部3の処理を詳しく
説明する。図12は、本発明の統合部の処理(ステップ
400)の詳細な動作を示すフローチャートである。
納する。 次に、ステップ400における統合部3の処理を詳しく
説明する。図12は、本発明の統合部の処理(ステップ
400)の詳細な動作を示すフローチャートである。
【0035】ステップ410) 統合部3は、“キュー
X”からxを1つ取り出す。 ステップ420) “キューY”からyを1つずつ取り
出し、xとの時間的重なりを計算し、時間的重なりがあ
るyを記録する。 ステップ430) 次に、記録されたすべてのyのう
ち、xとの時間的重なりが最大となるyを探索する。
X”からxを1つ取り出す。 ステップ420) “キューY”からyを1つずつ取り
出し、xとの時間的重なりを計算し、時間的重なりがあ
るyを記録する。 ステップ430) 次に、記録されたすべてのyのう
ち、xとの時間的重なりが最大となるyを探索する。
【0036】ステップ440) xと、当該xと時間的
重なりが最大であったyとをマージし、統合結果zとし
て出力する。 次に、ステップ500におけるコマンド変換部6の処理
を詳しく説明する。図13は、本発明のコマンド変換部
の処理(ステップ500)の詳細な動作を示すフローチ
ャートである。
重なりが最大であったyとをマージし、統合結果zとし
て出力する。 次に、ステップ500におけるコマンド変換部6の処理
を詳しく説明する。図13は、本発明のコマンド変換部
の処理(ステップ500)の詳細な動作を示すフローチ
ャートである。
【0037】ステップ510) まず、zの言語認識結
果のフィールドの内容がコマンド変換データベース5に
格納された言葉であるかどうかの判断を行う。 ステップ520) ステップ510でyesの場合は、
コマンド変換データベース5からコマンドの書式を取り
出し、スタックZの全内容を利用してコマンドを変換す
る。
果のフィールドの内容がコマンド変換データベース5に
格納された言葉であるかどうかの判断を行う。 ステップ520) ステップ510でyesの場合は、
コマンド変換データベース5からコマンドの書式を取り
出し、スタックZの全内容を利用してコマンドを変換す
る。
【0038】ステップ530) ステップ510でno
の場合には、zはスタックZに追加する。
の場合には、zはスタックZに追加する。
【0039】
【実施例】以下、本発明の実施例を図面及び具体例を用
いて説明する。以下の具体例の説明において、音声言語
認識部1の処理として、従来の単語音声認識装置を用
い、その装置には、以下の例で挙げる言葉が既に登録さ
れており、全て認識できるものと仮定して説明する。さ
らに、音声は十分大きくはっきりとした声で発せられた
ものであると仮定する。また、物体を指示している間の
マウス・カーソルの移動速度は、移動している場合に比
較して十分小さく、ステップ340の一定値以下になる
速度であると仮定し、説明する。
いて説明する。以下の具体例の説明において、音声言語
認識部1の処理として、従来の単語音声認識装置を用
い、その装置には、以下の例で挙げる言葉が既に登録さ
れており、全て認識できるものと仮定して説明する。さ
らに、音声は十分大きくはっきりとした声で発せられた
ものであると仮定する。また、物体を指示している間の
マウス・カーソルの移動速度は、移動している場合に比
較して十分小さく、ステップ340の一定値以下になる
速度であると仮定し、説明する。
【0040】図14は、本発明の一実施例の入力画面と
入力でのユーザの動きを示す図である。同図において、
αで示される線がマウスの軌跡である。ユーザがマウス
を図14のように移動しながら、次に示すように発声
し、情報入力を行った場合について説明する。
入力でのユーザの動きを示す図である。同図において、
αで示される線がマウスの軌跡である。ユーザがマウス
を図14のように移動しながら、次に示すように発声
し、情報入力を行った場合について説明する。
【0041】 ユーザがカーソルを“ojb1”の領
域に侵入させ、マウスの速度を遅くして、「これと」と
発声し、 その後、カーソルを“obj2”の領域に侵入さ
せ、マウスの速度を遅くして、「これを」と発声し、 そのカーソルを“obj3”の領域に入れ、マウス
の速度を遅くして、「ここに移動する」と発声し、カー
ソルをその領域から出す場合について説明する。
域に侵入させ、マウスの速度を遅くして、「これと」と
発声し、 その後、カーソルを“obj2”の領域に侵入さ
せ、マウスの速度を遅くして、「これを」と発声し、 そのカーソルを“obj3”の領域に入れ、マウス
の速度を遅くして、「ここに移動する」と発声し、カー
ソルをその領域から出す場合について説明する。
【0042】ここで、発声の開始から終了までの時刻と
指示対象の領域に入る時刻の関係が図15になるような
場合を説明する。また、objA,objB,obj
C,objD,objEを通過する際の速度は、ステッ
プ340の一定値よりも十分大きい値であると仮定す
る。
指示対象の領域に入る時刻の関係が図15になるような
場合を説明する。また、objA,objB,obj
C,objD,objEを通過する際の速度は、ステッ
プ340の一定値よりも十分大きい値であると仮定す
る。
【0043】(1) ステップ100により、「これ
と」という音声データとその開始と終了の時刻、「これ
を」という音声データとその開始と終了の時刻、「ここ
に移動する」とう音声データとその開始と終了の時刻、
objAへのEnter とLeave とその時刻、及びその間の
マウス・カーソルの位置座標、obj1へのEnter とLe
ave とその時刻、及びその間のマウス・カーソルの位置
座標、objBへのEnter とLeave とその時刻、及びそ
の間のマウス・カーソルの位置座標、objCへのEnte
r とLeave とその時刻、及びその間のマウス・カーソル
の位置座標、obj2へのEnter とLeave とその時刻、
及びその間のマウス・カーソルの位置座標、objDへ
のEnter とLeave とその時刻、及びその間のマウス・カ
ーソルの位置座標、obj3へのEnter とLeave とその
時刻、及びその間のマウス・カーソルの位置座標、ob
jEへのEnter とLeave とその時刻、及びその間のマウ
ス・カーソルの位置座標、及びその他の時刻のマウス・
カーソルの位置座標、が取得される。
と」という音声データとその開始と終了の時刻、「これ
を」という音声データとその開始と終了の時刻、「ここ
に移動する」とう音声データとその開始と終了の時刻、
objAへのEnter とLeave とその時刻、及びその間の
マウス・カーソルの位置座標、obj1へのEnter とLe
ave とその時刻、及びその間のマウス・カーソルの位置
座標、objBへのEnter とLeave とその時刻、及びそ
の間のマウス・カーソルの位置座標、objCへのEnte
r とLeave とその時刻、及びその間のマウス・カーソル
の位置座標、obj2へのEnter とLeave とその時刻、
及びその間のマウス・カーソルの位置座標、objDへ
のEnter とLeave とその時刻、及びその間のマウス・カ
ーソルの位置座標、obj3へのEnter とLeave とその
時刻、及びその間のマウス・カーソルの位置座標、ob
jEへのEnter とLeave とその時刻、及びその間のマウ
ス・カーソルの位置座標、及びその他の時刻のマウス・
カーソルの位置座標、が取得される。
【0044】(2) ステップ200の結果として、
(“これと”,1,0,210) (“これを”,1,400,690) (“ここに移動する”,1,1000,1200)が
“キューX”に入る。
(“これと”,1,0,210) (“これを”,1,400,690) (“ここに移動する”,1,1000,1200)が
“キューX”に入る。
【0045】(3) ステップ300の結果、yとし
て、(objA,0,5),(obj1,5,20
0),(objB,205,210),(objC,4
80,490),(obj2,500,700),(o
bjD,960,979),(obj3,890,13
00),(objE,1350,1360)が“キュー
Y”に入る。
て、(objA,0,5),(obj1,5,20
0),(objB,205,210),(objC,4
80,490),(obj2,500,700),(o
bjD,960,979),(obj3,890,13
00),(objE,1350,1360)が“キュー
Y”に入る。
【0046】(4)次にステップ400において、 ・“キューX”の(“これと”,1,0,210)は、
“キューY”の各yとの時間的重なりが、5,195,
5,0,0,…であるので、2番目の(obj1,5,
200)が対応付けられ、統合結果zとして、(“これ
と”,1,0,210,obj1,5,200)が出力
される。
“キューY”の各yとの時間的重なりが、5,195,
5,0,0,…であるので、2番目の(obj1,5,
200)が対応付けられ、統合結果zとして、(“これ
と”,1,0,210,obj1,5,200)が出力
される。
【0047】・ “キューX”の(“これを”,1,4
00,690)は、“キューY”の各yとの時間的重な
りが、0,0,0,10,190,0,0,…であるの
で、5番目の(obj2,500,700)が対応付け
られ、統合結果zとして、(“これを”,1,400,
690,obj2,500,700)が出力される。
00,690)は、“キューY”の各yとの時間的重な
りが、0,0,0,10,190,0,0,…であるの
で、5番目の(obj2,500,700)が対応付け
られ、統合結果zとして、(“これを”,1,400,
690,obj2,500,700)が出力される。
【0048】・ “キューX”の(“ここに移動す
る”,1,1000,1200)は、“キューY”の各
yとの時間的重なりが、…,0,200,0であるの
で、7番目の(obj3,980,1300)が対応付
けられ、統合結果zとして、(“ここに移動する”,
1,1000,1200,obj3,980,130
0)が出力される。
る”,1,1000,1200)は、“キューY”の各
yとの時間的重なりが、…,0,200,0であるの
で、7番目の(obj3,980,1300)が対応付
けられ、統合結果zとして、(“ここに移動する”,
1,1000,1200,obj3,980,130
0)が出力される。
【0049】(5) 上記の(4)において、zとし
て、(“これと”,1,0,210,obj1,5,2
00) (“これを”,1,400,690,obj2,50
0,700) (“ここに移動する”,1,1000,1200,ob
j3,980,1300)が統合部3から順次出力され
るが、コマンド変換部6は、1番目と2番目のzは、図
8のコマンド変換データベース5の項目とマッチしない
ので、“スタックZ”に格納される。一方、3番目のz
は、図8のコマンド変換データベース5の項目にマッチ
するので、書式を読み込み、“スタックZ”の内容を全
てポップして、コマンド “move(obj1, obj2, obj3)” に変換する。
て、(“これと”,1,0,210,obj1,5,2
00) (“これを”,1,400,690,obj2,50
0,700) (“ここに移動する”,1,1000,1200,ob
j3,980,1300)が統合部3から順次出力され
るが、コマンド変換部6は、1番目と2番目のzは、図
8のコマンド変換データベース5の項目とマッチしない
ので、“スタックZ”に格納される。一方、3番目のz
は、図8のコマンド変換データベース5の項目にマッチ
するので、書式を読み込み、“スタックZ”の内容を全
てポップして、コマンド “move(obj1, obj2, obj3)” に変換する。
【0050】上記に示すように、指示対象認識部2が表
示画面上の対象の領域内でのマウス・カーソルの移動速
度が遅くなったことより、指示対象の候補のアイコンを
認識し、音声言語認識部1が音声中の言葉を認識し、音
声中の言葉が指示語であるときに、統合部3により指示
語に対応する指示対象のアイコンを、指示対象候補が指
示された時間と音声中の言葉が発声された時間帯との相
関関係に基づいて、決定し、対応付ける。コマンド変換
部6は、出力中の言葉がコマンド変換データベース5に
登録された言葉である場合には、スタックの全内容を利
用してコマンドに変換する。従って、オペレータが音声
と共にカーソルで所望のアイコンを指定する場合には、
カーソルの移動速度をある一定の速度より遅く移動させ
るのみで、クリックを使用しなくとも、指示動作が可能
となる。
示画面上の対象の領域内でのマウス・カーソルの移動速
度が遅くなったことより、指示対象の候補のアイコンを
認識し、音声言語認識部1が音声中の言葉を認識し、音
声中の言葉が指示語であるときに、統合部3により指示
語に対応する指示対象のアイコンを、指示対象候補が指
示された時間と音声中の言葉が発声された時間帯との相
関関係に基づいて、決定し、対応付ける。コマンド変換
部6は、出力中の言葉がコマンド変換データベース5に
登録された言葉である場合には、スタックの全内容を利
用してコマンドに変換する。従って、オペレータが音声
と共にカーソルで所望のアイコンを指定する場合には、
カーソルの移動速度をある一定の速度より遅く移動させ
るのみで、クリックを使用しなくとも、指示動作が可能
となる。
【0051】以上のように、クリックを使用せずに、指
示対応が指定できるので、指示動作を用いる質問や命令
のモードとマウスを使った直接操作のモードとの間のモ
ード切り替えが不要であり、効率的な情報入力が可能と
なる。なお、本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
示対応が指定できるので、指示動作を用いる質問や命令
のモードとマウスを使った直接操作のモードとの間のモ
ード切り替えが不要であり、効率的な情報入力が可能と
なる。なお、本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
【0052】
【発明の効果】上記の説明から明らかなように、本発明
のマルチモーダル情報入力方法及び装置によれば、以下
のような効果が得られる。まず、クリックを使わずに、
指示対象が指定できるので、質問や命令での指示動作と
直接操作の間で曖昧性が生じない。従って、指示動作を
伴う質問や命令のモードと、マウスを使った直接操作の
モードとの間のモード切り替え、マウス・ボタンの使い
分け、及び特殊キーの同時利用が不要となり、効率的か
つ、誤りの少ない情報入力が可能となる。
のマルチモーダル情報入力方法及び装置によれば、以下
のような効果が得られる。まず、クリックを使わずに、
指示対象が指定できるので、質問や命令での指示動作と
直接操作の間で曖昧性が生じない。従って、指示動作を
伴う質問や命令のモードと、マウスを使った直接操作の
モードとの間のモード切り替え、マウス・ボタンの使い
分け、及び特殊キーの同時利用が不要となり、効率的か
つ、誤りの少ない情報入力が可能となる。
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明のシステム構成図である。
【図4】本発明のxのフィールド構成図とxの例を示す
図である。
図である。
【図5】本発明のyのフィールド構成図とyの例を示す
図である。
図である。
【図6】本発明のzのフィールド構成図とzの例を示す
図である。
図である。
【図7】本発明の指示語辞書のフィールドの例を示す図
である。
である。
【図8】本発明のコマンド変換データベースのフィール
ドの例を示す図である。
ドの例を示す図である。
【図9】本発明の動作概略を示すフローチャートであ
る。
る。
【図10】本発明の音声言語認識部の処理(ステップ2
00)の詳細な動作を示すフローチャートである。
00)の詳細な動作を示すフローチャートである。
【図11】本発明の指示対象認識部の処理(ステップ3
00)の詳細な動作を示すフローチャートである。
00)の詳細な動作を示すフローチャートである。
【図12】本発明の統合部の処理(ステップ400)の
詳細な動作を示すフローチャートである。
詳細な動作を示すフローチャートである。
【図13】本発明のコマンド変換部の処理(ステップ5
00)の詳細な動作を示すフローチャートである。
00)の詳細な動作を示すフローチャートである。
【図14】本発明の一実施例の入力画面と入力でのユー
ザの動きを示す具体例を示す図である。
ザの動きを示す具体例を示す図である。
【図15】本発明の一実施例のマウスの動きと音声の関
係を示す具体例を示す図である。
係を示す具体例を示す図である。
1 音声言語認識部、音声言語認識手段 2 指示対象認識部、指示対象認識手段 3 統合部、統合手段 4 指示語辞書 5 コマンド変換データベース 6 コマンド変換部、コマンド変換手段 7 表示手段 8 アプリケーションプログラム
Claims (10)
- 【請求項1】 ポインティングデバイスによる指示動作
と、該指示動作と並行して発声された音声とを用いてア
プリケーションプログラムに情報入力を行う際に、該指
示動作により指示された電子計算機の表示手段上のオブ
ジェクトと、該音声中の指示語とを対応付けてアプリケ
ーションプログラムのコマンドへ変換するマルチモーダ
ル情報入力方法において、 前記ポインティングデバイスの指示動作における前記表
示手段上でのカーソルの動きから指示されたオブジェク
トを認識することを特徴とするマルチモーダル情報入力
方法。 - 【請求項2】 前記ポインティングデバイスによる指示
動作における前記表示手段上のオブジェクトの領域中で
のカーソルの移動速度が所定の速度より遅くなった場合
に、該オブジェクトを指示対象候補として認識する指示
対象認識ステップと、 発声された音声の言葉を認識する音声言語認識ステップ
と、 前記音声言語認識ステップにおいて前記音声中の言葉が
指示語を含む場合には、該指示語を含む該音声に対応す
る指示対象を、前記指示対象認識ステップで認識された
指示対象候補から選択する統合ステップと、 前記統合ステップにより選択された指示対象候補を前記
アプリケーションプログラムのコマンドに変換するコマ
ンド変換ステップよりなる請求項1記載のマルチモーダ
ル情報入力方法。 - 【請求項3】 前記指示対象認識ステップは、 前記表示手段中の指示対象候補であるオブジェクトの領
域中にカーソルが滞在していた第1の時間帯を出力する
請求項2記載のマルチモーダル情報入力方法。 - 【請求項4】 前記音声言語認識ステップは、 前記音声中の言葉の開始から終了までの第2の時間帯を
出力する請求項2記載のマルチモーダル情報入力方法。 - 【請求項5】 前記統合ステップは、 前記第2の時間帯に対して、前記第1の時間帯との時間
的重なりが最も大きい指示対象候補を選択する請求項項
2、3及び4記載のマルチモーダル情報入力方法。 - 【請求項6】 ポインティングデバイスによる指示動作
と、該指示動作と並行して発声された音声とを用いてア
プリケーションプログラムに情報入力を行う際に、該指
示動作により指示された電子計算機の表示手段上のオブ
ジェクトと、該音声中の指示語とを対応付けてアプリケ
ーションプログラムのコマンドへ変換するマルチモーダ
ル情報入力装置において、 前記ポインティングデバイスの指示動作における前記表
示手段上でのカーソルの動きから指示されたオブジェク
トを認識する手段を有することを特徴とするマルチモー
ダル情報入力装置。 - 【請求項7】 前記ポインティングデバイスによる指示
動作における前記表示手段上のオブジェクトの領域中で
のカーソルの移動速度が所定の速度より遅くなった場合
に、該オブジェクトを指示対象候補として認識する指示
対象認識手段と、 発声された音声の言葉を認識する音声言語認識手段と、 前記音声言語認識手段において前記音声中の言葉が指示
語を含む場合には、該指示語を含む該音声に対応する指
示対象を、前記指示対象認識手段で認識された指示対象
候補から選択する統合手段と、 前記統合手段により選択された指示対象候補を前記アプ
リケーションプログラムのコマンドに変換するコマンド
変換手段を含む請求項6記載のマルチモーダル情報入力
装置。 - 【請求項8】 前記指示対象認識手段は、 前記表示手段中の指示対象候補であるオブジェクトの領
域中にカーソルが滞在していた第1の時間帯を出力する
請求項7記載のマルチモーダル情報入力装置。 - 【請求項9】 前記音声言語認識手段は、 前記音声中の言葉の開始から終了までの第2の時間帯を
出力する請求項7記載のマルチモーダル情報入力装置。 - 【請求項10】 前記統合手段は、 前記第2の時間帯に対して、前記第1の時間帯との時間
的重なりが最も大きい指示対象候補を選択する請求項
7、8及び9記載のマルチモーダル情報入力装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7231667A JPH0981364A (ja) | 1995-09-08 | 1995-09-08 | マルチモーダル情報入力方法及び装置 |
| US08/711,694 US5781179A (en) | 1995-09-08 | 1996-09-05 | Multimodal information inputting method and apparatus for embodying the same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7231667A JPH0981364A (ja) | 1995-09-08 | 1995-09-08 | マルチモーダル情報入力方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0981364A true JPH0981364A (ja) | 1997-03-28 |
Family
ID=16927097
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7231667A Pending JPH0981364A (ja) | 1995-09-08 | 1995-09-08 | マルチモーダル情報入力方法及び装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5781179A (ja) |
| JP (1) | JPH0981364A (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100576553B1 (ko) * | 2000-01-20 | 2006-05-03 | 한국전자통신연구원 | 멀티모달 인터페이스 처리 장치 및 그 방법 |
| KR100758789B1 (ko) * | 2006-05-29 | 2007-09-14 | 주식회사 케이티 | 멀티모달 시스템 |
| WO2007145003A1 (ja) * | 2006-06-14 | 2007-12-21 | Mitsubishi Electric Corporation | 車載情報装置 |
| US7630901B2 (en) | 2004-06-29 | 2009-12-08 | Canon Kabushiki Kaisha | Multimodal input method |
| JP2015153324A (ja) * | 2014-02-18 | 2015-08-24 | 株式会社Nttドコモ | 情報検索装置、情報検索方法及び情報検索プログラム |
| CN106168895A (zh) * | 2016-07-07 | 2016-11-30 | 北京行云时空科技有限公司 | 用于智能终端的语音控制方法及智能终端 |
Families Citing this family (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7181692B2 (en) * | 1994-07-22 | 2007-02-20 | Siegel Steven H | Method for the auditory navigation of text |
| US5973670A (en) * | 1996-12-31 | 1999-10-26 | International Business Machines Corporation | Tactile feedback controller for computer cursor control device |
| US6438523B1 (en) * | 1998-05-20 | 2002-08-20 | John A. Oberteuffer | Processing handwritten and hand-drawn input and speech input |
| DE69906540T2 (de) * | 1998-08-05 | 2004-02-19 | British Telecommunications P.L.C. | Multimodale benutzerschnittstelle |
| US6731309B1 (en) | 1998-08-28 | 2004-05-04 | Corel Corporation | Real time preview |
| DE59814256D1 (de) * | 1998-09-01 | 2008-08-28 | Juergen Held | Verfahren und Vorrichtung zum manuellen Erfassen unterschiedlicher Ereignisse oder Zustände |
| GB0003903D0 (en) | 2000-02-18 | 2000-04-05 | Canon Kk | Improved speech recognition accuracy in a multimodal input system |
| GB2378776A (en) * | 2001-05-22 | 2003-02-19 | Canon Kk | Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other |
| CA2397703C (en) * | 2001-08-15 | 2009-04-28 | At&T Corp. | Systems and methods for abstracting portions of information that is represented with finite-state devices |
| US7257575B1 (en) * | 2002-10-24 | 2007-08-14 | At&T Corp. | Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs |
| US7152033B2 (en) * | 2002-11-12 | 2006-12-19 | Motorola, Inc. | Method, system and module for multi-modal data fusion |
| JP4027269B2 (ja) * | 2003-06-02 | 2007-12-26 | キヤノン株式会社 | 情報処理方法及び装置 |
| US20050165601A1 (en) * | 2004-01-28 | 2005-07-28 | Gupta Anurag K. | Method and apparatus for determining when a user has ceased inputting data |
| US20050216254A1 (en) * | 2004-03-24 | 2005-09-29 | Gupta Anurag K | System-resource-based multi-modal input fusion |
| CA2578640C (en) * | 2006-01-31 | 2015-04-21 | Jerry Moscovitch | Cursor management system |
| US20070294122A1 (en) * | 2006-06-14 | 2007-12-20 | At&T Corp. | System and method for interacting in a multimodal environment |
| JP2008065789A (ja) * | 2006-09-11 | 2008-03-21 | Canon Inc | 入力操作支援装置およびその制御方法 |
| US8219406B2 (en) * | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
| US7813998B1 (en) * | 2007-03-22 | 2010-10-12 | Trading Technologies International, Inc. | System and method for selectively displaying market information related to a plurality of tradeable objects |
| WO2010006087A1 (en) * | 2008-07-08 | 2010-01-14 | David Seaberg | Process for providing and editing instructions, data, data structures, and algorithms in a computer system |
| US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
| US8782549B2 (en) | 2012-10-05 | 2014-07-15 | Google Inc. | Incremental feature-based gesture-keyboard decoding |
| US9021380B2 (en) * | 2012-10-05 | 2015-04-28 | Google Inc. | Incremental multi-touch gesture recognition |
| US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
| US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
| US8701032B1 (en) | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
| US8819574B2 (en) | 2012-10-22 | 2014-08-26 | Google Inc. | Space prediction for text input |
| US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
| US9081500B2 (en) | 2013-05-03 | 2015-07-14 | Google Inc. | Alternative hypothesis error correction for gesture typing |
| US10649635B2 (en) * | 2014-09-26 | 2020-05-12 | Lenovo (Singapore) Pte. Ltd. | Multi-modal fusion engine |
| US10444977B2 (en) * | 2014-12-05 | 2019-10-15 | Verizon Patent And Licensing Inc. | Cellphone manager |
| US10198246B2 (en) | 2016-08-19 | 2019-02-05 | Honeywell International Inc. | Methods and apparatus for voice-activated control of an interactive display |
| US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
| US5068645A (en) * | 1987-10-14 | 1991-11-26 | Wang Laboratories, Inc. | Computer input device using an orientation sensor |
| US5329609A (en) * | 1990-07-31 | 1994-07-12 | Fujitsu Limited | Recognition apparatus with function of displaying plural recognition candidates |
| JPH05108302A (ja) * | 1991-10-14 | 1993-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声と指示動作を用いた情報入力方法 |
| US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
| JPH06110486A (ja) * | 1992-09-25 | 1994-04-22 | Toshiba Corp | 音声入力手段を持つマルチメディア装置 |
| US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
-
1995
- 1995-09-08 JP JP7231667A patent/JPH0981364A/ja active Pending
-
1996
- 1996-09-05 US US08/711,694 patent/US5781179A/en not_active Expired - Fee Related
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100576553B1 (ko) * | 2000-01-20 | 2006-05-03 | 한국전자통신연구원 | 멀티모달 인터페이스 처리 장치 및 그 방법 |
| US7630901B2 (en) | 2004-06-29 | 2009-12-08 | Canon Kabushiki Kaisha | Multimodal input method |
| KR100758789B1 (ko) * | 2006-05-29 | 2007-09-14 | 주식회사 케이티 | 멀티모달 시스템 |
| WO2007145003A1 (ja) * | 2006-06-14 | 2007-12-21 | Mitsubishi Electric Corporation | 車載情報装置 |
| JPWO2007145003A1 (ja) * | 2006-06-14 | 2009-10-29 | 三菱電機株式会社 | 車載情報装置 |
| JP4554707B2 (ja) * | 2006-06-14 | 2010-09-29 | 三菱電機株式会社 | 車載情報装置 |
| JP2015153324A (ja) * | 2014-02-18 | 2015-08-24 | 株式会社Nttドコモ | 情報検索装置、情報検索方法及び情報検索プログラム |
| CN106168895A (zh) * | 2016-07-07 | 2016-11-30 | 北京行云时空科技有限公司 | 用于智能终端的语音控制方法及智能终端 |
Also Published As
| Publication number | Publication date |
|---|---|
| US5781179A (en) | 1998-07-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0981364A (ja) | マルチモーダル情報入力方法及び装置 | |
| JP4416643B2 (ja) | マルチモーダル入力方法 | |
| JP3267047B2 (ja) | 音声による情報処理装置 | |
| US5937380A (en) | Keypad-assisted speech recognition for text or command input to concurrently-running computer application | |
| EP1291753B1 (en) | Systems and methods for classifying and representing gestural inputs | |
| US7720682B2 (en) | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input | |
| Nagao et al. | Ubiquitous talker: Spoken language interaction with real world objects | |
| JPH06138815A (ja) | 手話/単語変換システム | |
| JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
| JP2003241790A (ja) | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム | |
| JPH06131437A (ja) | 複合形態による操作指示方法 | |
| CN111843986B (zh) | 机器人示教装置 | |
| JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
| JPH06208389A (ja) | 情報処理方法及び装置 | |
| JP3399674B2 (ja) | 画面制御装置とその方法 | |
| JPH08166866A (ja) | 対話型インターフェースを具備した編集支援システム | |
| JP3762191B2 (ja) | 情報入力方法、情報入力装置及び記憶媒体 | |
| JPH1124813A (ja) | マルチモーダル入力統合システム | |
| JP2000250587A (ja) | 音声認識装置及び音声認識翻訳装置 | |
| JPS60146327A (ja) | 計算機対話方法 | |
| JP2002156996A (ja) | 音声認識装置、認識結果修正方法及び記録媒体 | |
| JPH08129476A (ja) | 音声データ入力装置 | |
| KR20030010279A (ko) | 음성인식이 가능한 컴퓨터시스템 및 그 제어방법 | |
| JPH06110495A (ja) | 音声認識装置 | |
| CN111800657B (zh) | 一种基于Gaia AI语音控制的智能电视多语种识别系统 |