JP2018181294A

JP2018181294A - カメラベースのグラフィカルユーザインタフェースを提供するための方法およびシステム、コンピュータシステム、プログラム

Info

Publication number: JP2018181294A
Application number: JP2017178018A
Authority: JP
Inventors: パトリック　チィーウ; Patrick Chiu; チィーウパトリック; ジョセフデラペーニャ; Andrew Alkuino De La Penia Joseph; ローラン　ドゥヌ; Laurent Denoue; ドゥヌローラン; チョルファンキム; Kim Chul-Hwan
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-04-20
Filing date: 2017-09-15
Publication date: 2018-11-15
Also published as: US20180307316A1; US10691217B2

Abstract

【課題】電子文書の作成を向上するカメラベースのグラフィカルユーザインタフェースを提供するための方法を提供する。
【解決手段】コンピュータシステムは、複数の文書要素を備える電子文書を取得し、文書要素とともにホットスポットを表示する。ホットスポットは、文書要素に対応付けられ、所定の身体ジェスチャと文書アクションとにそれぞれ対応付けられた１つ以上のホットスポット属性を規定する。ホットスポットは、電子文書の閲覧者が表示された電子文書と所定の身体ジェスチャを用いて対話可能であることを示す。所定の身体ジェスチャは、カメラシステムの視野にある電子文書の表示されたものを少なくとも部分的に覆う位置で行われる。または、カメラシステムによって撮像されるものであり、身体ジェスチャにより、文書アクションが表示された電子文書上でそれぞれ実行される。
【選択図】図４

Description

本願は、一般に、グラフィカルユーザインタフェースに関し、特に、ジェスチャアクション認識を用いたカメラベースのグラフィカルユーザインタフェースを提供するための方法およびシステムに関する。

文書などのコンテンツを提示するディスプレイに代わるものとして、プロジェクタが広く使用されている。プロジェクタは、提示用表面にコンテンツを投影する。投影されたコンテンツとユーザとの対話をカメラで撮像することにより、投影されたコンテンツの対話可能性をさらに高めることができる。

Xiao, R., Harrison, C., Hudson, S. WorldKit: Rapid and easy creation of ad-hoc interactive applications on everyday surfaces. Proc. CHI ’13, pp. 879-888. Kjeldsen, R., Pingali, G., Hartman, J., Levas, T., Podlaseck, M. Interacting with steerable projected displays. Intl. Conf. on Automatic Face and Gesture Recognition (FGR ’02), pp. 402-407.

米国S特許第9,317,171号公報

しかしながら、カメラベースシステムでサポートされたユーザインタフェースを用いて行うコンテンツ作成には問題がある。カメラベースシステムのコンテンツを作成するために、そのカメラベースシステムに特化した新しいマークアップ言語が開発されることもあるが、カメラベースシステムは、実用性が限られた全く新しいマークアップ言語の習得に見合う程に普及しているとはいえない。さらに、カメラベースシステムに合わせてカスタマイズされたものではないが、大規模コンテンツコーパスはすでに存在し、特にカメラベースシステムでの提示用にこのようなコンテンツコーパスを再度作成することは非効率である。
本開示の技術は、従来技術より、電子文書の作成を向上することを目的とする。

いくつかの実施形態によれば、方法が、１つ以上のプロセッサと、１つ以上のプロセッサにより実行されるために構成された１つ以上のプログラムを記憶するメモリとを有するコンピュータシステムで実行される。この方法は、複数の文書要素を含む電子文書を取得するステップと、複数の文書要素のうちの第１の文書要素に関連する電子文書に、電子文書が表示システムによって表示されるときに第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定するものであって、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられた１つ以上の第１のホットスポット属性を導入するステップとを含み、この導入は、第１のホットスポットが、表示された電子文書の一部として表示システムによって表示されるとき、表示された電子文書の閲覧者が表示された電子文書と１つ以上の所定の身体ジェスチャを用いて対話可能であることを示すように行われ、１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）対応付けられたカメラシステムによって撮像されるものである。１つ以上の身体ジェスチャが対応付けられたカメラシステムによってそれぞれ撮像されると、表示された電子文書上で１つ以上の文書アクションがそれぞれ実行される。

いくつかの実施形態によれば、コンピュータシステムは、１つ以上のプロセッサと、１つ以上のプロセッサにより実行される１つ以上のプログラムを記憶するメモリとを含む。１つ以上のプログラムは、複数の文書要素を備える電子文書を取得する命令と、複数の文書要素のうちの第１の文書要素に関連する電子文書に、電子文書が表示システムによって表示されるときに第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定するものであって、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられた１つ以上の第１のホットスポット属性を導入する命令とを含み、この導入は、第１のホットスポットが、表示された電子文書の一部として表示システムによって表示されるとき、表示された電子文書の閲覧者が表示された電子文書と１つ以上の所定の身体ジェスチャを用いて対話可能であることを示すように行われ、１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）対応付けられたカメラシステムによって撮像されるものである。１つ以上の身体ジェスチャが対応付けられたカメラシステムによってそれぞれ撮像されると、表示された電子文書上で１つ以上の文書アクションがそれぞれ実行される。

前記１つ以上の文書アクションは、（ｉ）前記表示された電子文書から前記複数の文書要素のうちの１つ以上の文書要素を除去することと、（ｉｉ）前記複数の文書要素のうちの１つ以上の文書要素を特定の言語に翻訳することと、（ｉｉｉ）前記表示された電子文書に対応付けられた音声出力を消音または再開することと、（ｉｖ）前記表示された電子文書に対応付けられた映像表示を消音または再開することと、（ｖ）前記表示された電子文書に対応付けられたスクリプトの実行を終了または再開することと、（ｖｉ）前記表示された電子文書から表示されたホットスポットを追加または除去することと、（ｖｉｉ）表示されたホットスポットに関連する前記表示された電子文書に不可視ホットスポットを追加することと、（ｖｉｉｉ）前記表示された電子文書からリンクされた他の電子文書に移動することと、（ｉｘ）前記カメラシステムを制御することと、（ｘ）遠隔会議システムを制御することの１つ以上を含むようにしてもよい。
前記表示された電子文書に追加または前記表示された電子文書から削除された前記表示されたホットスポットは電子商取引ウィジェットであるとしてもよい。
前記１つ以上の第１のホットスポット属性は、ホットスポットのタイプおよび／またはホットスポットの視覚的特性を含むようにしてもよい。
前記ホットスポットのタイプは、ボタンまたはスワイプウィジェットのうちの１つであるとしてもよい。
前記第１のホットスポットの視覚的特性は、前記スワイプウィジェットに対応付けられたスワイプジェスチャの方向を示すようにしてもよい。
前記視覚的特性は、前記表示されたホットスポットのサイズを示し、前記サイズは、前記ホットスポットが表示されるとき、前記ホットスポットの前方でユーザが行ったジェスチャによりホットスポット全体が覆われることがないようなサイズに規定されるようにしてもよい。
前記複数の文書要素は、コンテンツ部分と、前記コンテンツ部分の各々の特性を規定するタグ部分とをそれぞれ備え、第１のタグ部分を含む前記第１の文書要素を含む前記複数の文書要素のうちの１つ以上の文書要素に対応付けられた１つ以上のタグ部分のタイプを評価することによって、前記電子文書の構造を解析するステップと、前記第１のタグ部分の前記評価されたタイプに基づいて、前記第１の文書要素がホットスポットとの対応付け候補であるかを判定するステップと、前記判定に応答して、前記第１の文書要素に関連する前記第１のホットスポット属性の導入を実行するステップとをさらに含むようにしてもよい。
前記表示システムは、投影システムまたはダイレクトディスプレイシステムであるとしてもよい。
前記カメラシステムは、前記ジェスチャおよび前記表示された電子文書が前記カメラシステムの視野内に同時に存在するように配置され、前記表示システムおよび前記カメラシステムは、前記カメラシステムが前記ジェスチャに関する情報を前記表示システムに送信して、前記情報が送信された前記ジェスチャに対応付けられた前記文書アクションを前記ディスプレイが前記電子文書上で実行できるように互いに通信可能に接続されるようにしてもよい。

いくつかの実施形態によれば、非一時的なコンピュータ可読記憶媒体が１つ以上のプログラムを記憶する。１つ以上のプログラムは、１つ以上のプロセッサを備えるコンピュータシステムによって実行されると、コンピュータシステムに、複数の文書要素を備える電子文書を取得させ、複数の文書要素のうちの第１の文書要素に関連する電子文書に、電子文書が表示システムによって表示されるときに第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定するものであって、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられた１つ以上の第１のホットスポット属性を導入させる命令を含み、この導入は、第１のホットスポットが、表示された電子文書の一部として表示システムによって表示されるとき、表示された電子文書の閲覧者が表示された電子文書と１つ以上の所定の身体ジェスチャを用いて対話可能であることを示すように行われ、１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）対応付けられたカメラシステムによって撮像されるものである。１つ以上の身体ジェスチャが対応付けられたカメラシステムによってそれぞれ撮像されると、表示された電子文書上で１つ以上の文書アクションがそれぞれ実行される。

いくつかの実施形態によれば、方法が、１つ以上のプロセッサと、１つ以上のプロセッサによって実行されるために構成された１つ以上のプログラムを記憶するメモリと、表示システムと、視野を有するカメラとを有するコンピュータシステムで実行される。この方法は、複数の表示可能な文書要素と、対応付けられた複数のホットスポット属性セットとを備える電子文書を取得するステップであって、複数のホットスポット属性セットは、１つ以上の所定の身体ジェスチャと、対応付けられた文書アクションとにそれぞれ対応付けられ、電子文書が表示されるときに表示可能な表示可能ホットスポットのそれぞれの１つ以上の属性を規定するものであるステップと、カメラの視野内にあるディスプレイ上に電子文書を表示するステップであって、表示された電子文書は１つ以上の表示されたホットスポットを含み、１つ以上の表示されたホットスポットは、対応付けられた複数のホットスポット属性セットに従うとともに、対応付けられた複数のホットスポット属性セットに応じて表示されるステップと、カメラの視野内にある表示された文書の前方においてなされたユーザの身体ジェスチャをカメラで撮像するステップと、複数の身体ジェスチャのうちの第１の身体ジェスチャが、カメラから見たとき、表示された第１のホットスポットと一致していると判定するステップであって、この判定はユーザがホットスポットを選択している可能性があることを示すものであるステップと、複数の身体ジェスチャのうちの第１の身体ジェスチャを、第１のホットスポットに対応付けられた所定のジェスチャの１つとして認識するステップと、第１の身体ジェスチャが第１の文書アクションに対応すると判定し、第１の文書アクションを電子文書上で実行するステップとを含む。
前記実行された第１の文書アクションを反映するように前記表示された電子文書を更新するステップをさらに含むようにしてもよい。

前記複数の身体ジェスチャのうちの前記第１の身体ジェスチャが、前記カメラから見たとき、前記表示された第１のホットスポットと一致すると判定すると、前記表示された第１のホットスポットをユーザが選択した可能性があることを示すために、前記表示された第１のホットスポットの第１の視覚的特性を変更するステップをさらに含むようにしてもよい。
前記複数の身体ジェスチャのうちの前記第１の身体ジェスチャを、前記第１のホットスポットに対応付けられた所定のジェスチャの１つとして認識すると、前記第１の身体ジェスチャが認識されたことを示すために、前記表示された第１のホットスポットの第２の視覚的特性を変更するステップをさらに含むようにしてもよい。
前記複数の身体ジェスチャのうちの第１の身体ジェスチャが、前記カメラから見たとき、表示された第１のホットスポットと一致すると判定するステップは、前記表示された第１のホットスポットがユーザジェスチャによって遮られる遮蔽度を評価することと、前記遮蔽度が第１のしきい値を超えると、前記ユーザが前記表示された第１のホットスポットを選択する意図がなかったものと判定することと、前記遮蔽度が前記第１のしきい値未満であると、前記ユーザが前記表示された第１のホットスポットを選択する意図があったと判定することを含むようにしてもよい。
前記取得ステップの前に、前記複数の文書要素の第１の文書要素に関連する前記電子文書に１つ以上のホットスポット属性の第１のセットを導入するステップをさらに含み、前記第１のホットスポット属性セットは、前記電子文書が表示されるときに前記第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定し、前記第１のホットスポット属性セットは、１つ以上の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられるようにしてもよい。
前記１つ以上の文書アクションを実行することは、（ｉ）前記表示された電子文書から前記複数の文書要素のうちの１つ以上の文書要素を除去することと、（ｉｉ）前記複数の文書要素のうちの１つ以上の文書要素を特定の言語に翻訳することと、（ｉｉｉ）前記表示された電子文書に対応付けられた音声出力を消音または再開することと、（ｉｖ）前記表示された電子文書に対応付けられた映像表示を消音または再開することと、（ｖ）前記表示された電子文書に対応付けられたスクリプトの実行を終了または再開することと、（ｖｉ）前記表示された電子文書から表示されたホットスポットを追加または除去することと、（ｖｉｉ）表示されたホットスポットに関連する前記表示された電子文書に不可視ホットスポットを追加することと、（ｖｉｉｉ）表示された電子文書からリンクされた第２の電子文書に移動することと、（ｉｘ）カメラシステムを制御することと、（ｘ）遠隔会議システムを制御することの１つ以上を含むようにしてもよい。
前記表示された電子文書に追加または前記表示された電子文書から削除された前記表示されたホットスポットは電子商取引ウィジェットであるとしてもよい。
前記第１のホットスポット属性セットは、ホットスポットのタイプおよび／またはホットスポットの視覚的特性を含むようにしてもよい。

いくつかの実施形態によれば、コンピュータシステムは、１つ以上のプロセッサと、表示システムと、視野を有するカメラと、１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリとを含む。１つ以上のプログラムは、複数の表示可能な文書要素と、対応付けられた複数のホットスポット属性セットとを備える電子文書を取得し、複数のホットスポット属性セットは、１つ以上の所定の身体ジェスチャと、対応付けられた文書アクションとにそれぞれ対応付けられ、電子文書が表示されるときに表示可能な表示可能ホットスポットのそれぞれの１つ以上の属性を規定するものであり、カメラの視野内にあるディスプレイ上に電子文書を表示し、表示された電子文書は１つ以上の表示されたホットスポットを含み、１つ以上の表示されたホットスポットは、対応付けられた複数のホットスポット属性セットに対応するとともに、対応付けられた複数のホットスポット属性セットに応じて表示され、カメラの視野内にある表示された文書の前方においてなされたユーザの身体ジェスチャをカメラで撮像し、複数の身体ジェスチャのうちの第１の身体ジェスチャが、カメラから見たとき、表示された第１のホットスポットと一致していると判定し、この判定は、ユーザがホットスポットを選択している可能性を示し、複数の身体ジェスチャのうちの第１の身体ジェスチャを、第１のホットスポットに対応付けられた所定のジェスチャの１つとして認識し、第１の身体ジェスチャが第１の文書アクションに対応すると判定し、第１の文書アクションを電子文書上で実行するための命令を含む。

いくつかの実施形態によれば、非一時的なコンピュータ可読記憶媒体が１つ以上のプログラムを記憶する。１つ以上のプログラムは、１つ以上のプロセッサと、表示システムと、視野を有するカメラとを備えたコンピュータシステムによって実行されると、コンピュータシステムに、複数の表示可能な文書要素と、対応付けられた複数のホットスポット属性セットとを備える電子文書を取得させ、複数のホットスポット属性セットは、１つ以上の所定の身体ジェスチャと、対応付けられた文書アクションとにそれぞれ対応付けられ、電子文書が表示されるときに表示可能な表示可能ホットスポットのそれぞれの１つ以上の属性を規定するものであり、カメラの視野内にあるディスプレイ上に電子文書を表示させ、表示された電子文書は１つ以上の表示されたホットスポットを含み、１つ以上の表示されたホットスポットは、対応付けられた複数のホットスポット属性セットに従うとともに、対応付けられた複数のホットスポット属性セットに応じて表示され、カメラの視野内にある表示された文書の前方においてなされたユーザの身体ジェスチャをカメラで撮像させ、複数の身体ジェスチャのうちの第１の身体ジェスチャが、カメラから見たとき、表示された第１のホットスポットと一致していると判定させ、判定は、ユーザがホットスポットを選択している可能性を示し、複数の身体ジェスチャのうちの第１の身体ジェスチャを、第１のホットスポットに対応付けられた所定のジェスチャの１つとして認識させ、第１の身体ジェスチャが第１の文書アクションに対応すると判定させ、第１の文書アクションを電子文書上で実行させる命令を含む。

いくつかの実施形態によるカメラベースのグラフィカルユーザインタフェースを提供する環境の一例を示すブロック図である。いくつかの実施形態によるコンピュータシステムの一例を示すブロック図である。いくつかの実施形態による複数のホットスポットを有する対話型文書の一例を示す図である。いくつかの実施形態によるカメラベースのグラフィカルユーザインタフェースを提供する方法の一例のフローチャートである。いくつかの実施形態による文書アクションを実行する方法の一例のフローチャートである。

図中、対応する部品には同様の参照番号を付している。

以下、添付図面に例示したさまざまな実施形態について詳述する。以下の詳細な説明では、本発明および記載する実施形態について十分な理解が得られるように、さまざまな具体的な詳細が示されている。しかしながら、本発明は、これらの具体的な詳細を用いずに実施されてもよい。なお、場合に応じて、実施形態の態様について不要に明瞭さが損なわれることがないように、既知の方法、手順、構成要素および回路については詳細に説明していない。

図１は、いくつかの実施形態による、カメラベースのグラフィカルユーザインタフェースを提供するための環境１００を示す。環境１００は、コンピュータシステム１０２を含む。いくつかの実施形態において、コンピュータシステム１０２は、デスクトップコンピュータ、ラップトップまたはノートブックコンピュータ、スマートフォン、タブレットデバイスまたはマルチメディアデバイスのいずれかであってもよい。

コンピュータシステム１０２は、１つ以上の通信ネットワーク（図示せず）を介して他のコンピュータシステムまたはコンピュータデバイスと通信することができる。通信ネットワークは、ローカルエリアネットワーク、広域ネットワーク、セルラーネットワーク、アドホックネットワークおよびインターネットのうちの１つ以上を含むものであってもよい。

コンピュータシステム１０２は、文書１０４を取得するように構成される。文書１０４は、コンピュータシステム１０２のメモリまたは記憶部（例えば、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、光ディスクまたは他の不揮発性メモリもしくは揮発性メモリ）や１つ以上の通信ネットワークを介したリモートソース（図示せず）等の任意の適切なソースから取得することができる。いくつかの実施形態において、文書１０４は、既知の１つ以上のウェブページ構成言語（例えば、ＨＴＭＬ（ハイパーテキストマークアップ言語（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ））、ＸＭＬ（拡張可能なマークアップ言語（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ））、ＪａｖａＳｃｒｉｐｔ（登録商標）、ＣＳＳ（カスケーディングスタイルシート（ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔｓ）等）を用いて構成されたウェブページである。文書１０４は、１つ以上の文書要素を含む。文書要素は、テキスト、図形、画像および／またはユーザインタフェースオブジェクト（例えば、ボタン、チェックボックス、選択可能なハイパーリンク、メニュー等）であってもよい。

コンピュータシステム１０２は、複数の文書要素のうちの１つ以上の文書要素を検出し識別するように文書１０４を処理する。コンピュータシステム１０２は、１つ以上のホットスポット属性と検出された文書要素とを対応付けてもよい。ホットスポット属性は、文書が出力されたときに文書要素に対応付けられたホットスポットの１つ以上の属性を規定する。この処理により、検出された文書要素と、対応付けられたホットスポット属性とを含むホットスポット対応文書１０６が得られる。

いくつかの実施形態において、コンピュータシステム１０２は、検出された文書要素に対応する文書の部分に対する１つ以上のホットスポット属性を文書に追加（例えば、導入）することで、ホットスポット属性と検出された要素とを対応付ける。ホットスポット属性はテキスト文字列で表されたものであってもよく、このテキスト文字列は、カメラベースシステムのホットスポットおよびホットスポット属性の定義および仕様に合わせて設計されたマークアップ言語で構成されたものであってもよい。以下、便宜上および簡潔さのために、ホットスポットおよびホットスポット属性のためのこのようなマークアップ言語のことを、「ホットスポットマークアップ言語」と呼ぶ。いくつかの実施形態において、テキスト文字列は、ホットスポットマークアップ言語でタグ、属性等を指定する。文書には、文書要素に対応付けられる対象のホットスポット属性のテキスト文字列が導入される。テキスト文字列は、文書のマークアップにおいて文書要素のためのタグに（例えば、１つ以上の属性特性を指定する１つ以上のテキスト文字列をターゲット文書要素のタグに追加したり、サブ要素を規定する１つ以上のテキスト文字列をターゲット文書要素に追加したりすること等によって）導入されてもよく、あるいは、対応付けられた文書要素への参照を含んでもよい。いくつかの実施形態において、「ホットスポットマークアップ言語」の別の態様として、「ホットスポットスタイルシート」があり、ホットスポットスタイルシートは、既存の文書要素（例えば、ＨＴＭＬボタン、ハイパーテキストリンク等）に適用されて、例えば、ホットスポット属性特性やサブ要素を文書要素に導入することなく、文書要素の見た目を視覚的に変更してホットスポットのように見せることができる。

コンピュータシステム１０２は、ホットスポット対応文書１０６を対話型文書プレゼンテーション１０８として出力してもよい。いくつかの実施形態において、対話型文書プレゼンテーション１０８は、コンピュータシステム１０２に接続された投影装置によって表面（例えば、壁、投影スクリーン、テーブルトップ等）に投影される。いくつかの実施形態において、対話型文書プレゼンテーション１０８は、（例えば、コンピュータシステム１０２に接続された表示装置に）表示される。以下、便宜上および簡潔さのために、対話型文書プレゼンテーション１０８のことを「対話型文書」と呼び、対話型文書プレゼンテーション１０８が表示されるか、または投影されるかにかかわらず、表示される、と記載する。

対話型文書１０８が表示されている間、ユーザ１１０は、対話型文書１０８と対話することができる。例えば、ユーザは、対話型文書１０８を見る外部基準点から、対話型文書１０８の一部を覆ったり遮ったりするジェスチャアクションを行うことがある。対話（例えば、ジェスチャアクション）は、対話型文書１０８と、対話型文書１０８の少なくとも一部を覆ったり遮ったりすることがあるジェスチャアクションとを視野に捉える外部基準点に配置されたカメラシステム１１２によって撮像されてもよい。いくつかの実施形態において、カメラシステム１１２は、コンピュータシステム１０２に接続される。カメラシステム１１２は、撮像データ（例えば、映像、画像等）をコンピュータシステム１０２に送信し、コンピュータシステム１０２は、ユーザ１１０が行うジェスチャアクションと、ジェスチャアクションが行われた対象のホットスポットとを決定するために撮像データを処理する。いくつかの実施形態において、上記処理では、ジェスチャアクションと、作用を受けたホットスポットとを決定するための撮像データの処理に、ニューラルネットワーク、機械学習、画像分類アルゴリズム等を使用することを含む。

決定されたジェスチャアクションおよびホットスポットに基づいて、コンピュータシステム１０２は、実行される１つ以上の操作またはアクションを決定し、１つ以上の操作またはアクションを実行する。いくつかの実施形態において、アクションまたは操作は、対話型文書１０８に関連するものであってもよい（例えば、文書内のハイパーリンクへのアクセス、文書内のメニュー項目の選択、文書内での移動、別の文書への移動、文書内のフォームでのコンテンツ提出、ディスプレイまたはプロジェクタにおける文書の提示等）。いくつかの実施形態において、アクションまたは操作は、文書１０８とは独立したものであってもよい（例えば、遠隔会議システムの制御等）。

図２は、いくつかの実施形態によるコンピュータシステム１０２を示すブロック図である。コンピュータシステム１０２は、典型的には、１つ以上の処理部（ＣＰＵ）２０２と、１つ以上のネットワークまたは他の通信インタフェース２０４と、メモリ２０６と、これらのコンポーネントを相互接続するための１つ以上の通信バス２０８とを含む。通信バス２０８は、システムコンポーネント間の相互接続および通信制御を行う回路（チップセットと呼ばれることもある）を所望により含んでもよい。コンピュータシステム１０２は、１つ以上の入力装置２１０（例えば、マウス２１２、キーボード２１４、マイクロフォン等）を含んでもよい。入力装置２１０の他の例として、タッチセンシティブ面（例えば、トラックパッド、タッチパッド、タッチセンシティブディスプレイ等）、トラックボール、ジョイスティックおよびキーパッド等がある。コンピュータシステム１０２は、１つ以上の出力装置２１８（例えば、スピーカ、ヘッドフォン等の音声出力装置２２０、ディスプレイ２２２、プロジェクタ２２４等）をさらに含んでもよい。いくつかの実施形態において、コンピュータシステム１０２は、カメラシステム１１２をさらに含み、またはカメラシステム１１２に接続される。

メモリ２０６は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭまたは他のランダムアクセスソリッドステートメモリデバイスなどの高速ランダムアクセスメモリを含み、１つ以上の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイスまたは他の不揮発性ソリッドステート記憶装置などの不揮発性メモリを含んでもよい。メモリ２０６は、ＣＰＵ２０２から離れた位置に設けられた１つ以上の記憶装置を所望により含んでもよい。メモリ２０６、あるいはその代わりとして、メモリ２０６内の不揮発性メモリデバイスは、非一時的なコンピュータ可読記憶媒体を備える。いくつかの実施形態において、メモリ２０６またはメモリ２０６のコンピュータ可読記憶媒体は、以下のプログラム、モジュールおよびデータ構造またはそれらのサブセットを記憶する。
・さまざまな基本システムサービスの処理手順およびハードウェア依存タスクの実行手順を含むオペレーティングシステム２３２
・１つ以上の通信ネットワークインタフェース２０４（有線または無線）および１つ以上の通信ネットワーク（図示せず）を介して、他の装置、コンピュータ、およびシステム（例えば、他のコンピュータシステム、サーバシステム、コンテンツホスト）に対してコンピュータシステム１０２を接続し通信を容易にするためのネットワーク通信モジュール２３４
・ホットスポットが対応付けられうる文書要素を検出するために文書を処理するための文書解析モジュール２３６
・ホットスポットを文書内の１つ以上の文書要素に対応付けるために、文書解析モジュール２３６によって解析された文書にホットスポットの属性、タグ等を導入するためのホットスポット導入モジュール２３８
・行われたジェスチャとジェスチャが行われた対象のホットスポットとを決定するために、入力データ（例えば、カメラシステム１１２からの画像／映像データ）を解析するジェスチャ収集解析モジュール２４０
・文書の編集および表示を容易にするための文書編集表示モジュール２４２
・ジェスチャを認識するジェスチャ収集解析モジュール２４０を訓練するためのジェスチャ訓練モジュール２４４
・文書に導入されてもよいホットスポットのタグ、属性等のデータベースを記憶するためのホットスポット導入データベース２６４

いくつかの実施形態において、ジェスチャ訓練モジュール２４４は、ユーザジェスチャの検出および識別の向上（例えば、ジェスチャのタイプの区別の向上、誤検知の発生の低減、見逃しの発生の低減等）を図るために、コンピュータシステム１０２（例えば、ジェスチャ収集解析モジュール２４０）を訓練する。訓練は、コンピュータシステム１０２で実行されてもよく、別のシステムで実行されてもよい。訓練は、例えば、機械学習、ニューラルネットワークまたは他の既知の訓練技術を使用してもよい。

いくつかの実施形態において、ホットスポット導入モジュール２３８、ジェスチャ収集解析モジュール２４０およびジェスチャ訓練モジュール２４４は、同じコンピュータシステムまたは異なるコンピュータシステムに実装されてもよい。

上記に示した各要素は、前述したメモリデバイスの１つ以上に記憶されてもよく、各モジュールまたはプログラムは、上述した機能を実行するための命令セットに対応する。命令セットは、１つ以上のプロセッサ（例えば、ＣＰＵ２０２）によって実行されうる。上記に示したモジュールまたはプログラム（すなわち、命令セット）は、別個のソフトウェアプログラム、手順またはモジュールとして実装される必要はなく、したがって、さまざまな実施形態において、これらのモジュールのさまざまなサブセットが組み合わされたり、再構成されたりしてもよい。いくつかの実施形態において、メモリ２０６は、上記に示したモジュールおよびデータ構造のサブセットを記憶してもよい。また、メモリ２０６は、上述していないさらなるモジュールおよびデータ構造を記憶してもよい。

図２は、コンピュータシステムを示しているが、本明細書に記載の実施形態の構造概略図というよりも、コンピュータシステム内に存在しうる種々の特徴の機能的記載として更に意図したものである。実際には、当業者には認識されるように、別個に示したものを組み合わせたり、１つのものを別個にしたりしてもよい。

図３は、いくつかの実施形態による、ホットスポットを有する表示された対話型文書３００の例を示す。対話型文書３００（例えば、対話型文書１０８）は、コンテンツ３０２と、コンテンツ３０２全体に散在する１つ以上のホットスポット３０４、３０６、３０８、３１０および３１２とを含む。ホットスポットは、それぞれのユーザインタフェース要素またはグラフィカルウィジェット（例えば、ボタン、矢印、アイコン、下線付または他の書式設定の文章等）として文書内に表示されてもよい。いくつかの実施形態において、ホットスポットアイコン（例えば、インジケータバー）３１４をホットスポットに隣接して（例えば、その下に）表示することで、ホットスポットがユーザにより明らかになるようにするとともに、ホットスポットに対するジェスチャアクションのコンピュータシステム１０２の検出および解析を支援するようにしてもよい。

いくつかの実施形態において、ホットスポットは、１つ以上の所定の身体ジェスチャアクションと、１つ以上のアクションまたは操作とに対応付けられてもよい。身体ジェスチャアクションは、アクションまたは操作にそれぞれマッピングされ、身体ジェスチャアクションが検出されると、マッピングされたアクションまたは操作が実行される。

例えば、ボタンホットスポット３０４は、タップ／プレスジェスチャアクションに対応付けられてもよい。ボタンホットスポット３０４に対するタップ／プレスジェスチャアクションの検出に応答して、ボタンホットスポット３０４に対応付けられた操作（例えば、文書内のフォームのコンテンツをリモートシステムに送信する）が実行される。

別の例として、スワイプホットスポット３０６は、スワイプホットスポット３０６に沿ってドラッグするスワイプジェスチャアクションに対応付けられてもよい。スワイプホットスポット３０６に対するスワイプジェスチャアクションの検出に応答して、スワイプホットスポット３０６に対応付けられた操作（例えば、前または次の文書へ移動する）が実行される。

別の例として、タップジェスチャアクションにハイパーリンクホットスポット３０８が対応付けられてもよい。ハイパーリンクホットスポット３０８に対するタップジェスチャアクションの検出に応答して、ハイパーリンクホットスポット３０８に対応付けられた操作（例えば、ハイパーリンクホットスポット３０８でリンクされた文書へ移動する）が実行される。

別の例として、タップジェスチャアクションに音量制御トグルホットスポット３１０が対応付けられてもよい。音量制御トグルホットスポット３１０に対するタップジェスチャアクションの検出に応答して、音量制御トグルホットスポット３１０に対応付けられた操作（例えば、音量の消音／消音解除）が実行される。

別の例として、タップジェスチャアクションにディスプレイ／プロジェクタ制御トグルホットスポット３１２が対応付けられてもよい。ディスプレイ／プロジェクタトグルホットスポット３１２に対するタップジェスチャアクションの検出に応答して、ディスプレイ／プロジェクタ制御トグルホットスポット３１２に対応付けられた操作（例えば、ディスプレイおよびプロジェクタ間の表示モードの変更）が実行される。

文書３００が表示され、ユーザが表示された文書３００上のホットスポットに対してジェスチャアクションを行うと、ジェスチャアクションは、ホットスポットおよび隣接するホットスポットインジケータバー３１４の少なくとも一部を覆ったり遮ったりする。カメラシステム（例えば、カメラシステム１１２）が、ホットスポットおよびホットスポットインジケータバーを遮るジェスチャアクションの映像または画像を撮像してもよい。撮像された映像／画像は、ホットスポットに対するジェスチャアクションを検出するために撮像された映像／画像を処理するコンピュータシステム（例えば、コンピュータシステム１０２）に提供される。ホットスポットが検出されたアクションに対応付けられ、ホットスポットに対する検出されたアクションが操作にマッピングされている場合、コンピュータシステムはその操作を実行する。

なお、文書３００および文書３００に含まれる要素は例示的なものにすぎず、文書およびホットスポットの他の実施例および実施形態も可能である。

プロセスの例
図４は、いくつかの実施形態によるカメラベースのグラフィカルユーザインタフェースを提供するための方法（プログラム）のフローチャート４００を示す。いくつかの実施形態において、方法４００は、１つ以上のプロセッサと、１つ以上のプロセッサにより実行される１つ以上のプログラムを記憶するメモリとを備えるコンピュータシステム（例えば、図２の文書解析モジュール２３６またはホットスポット導入モジュール２３８の１つ以上を実行する図１のコンピュータシステム１０２）で実行される。以下の説明において、図１および図２に示すシステムおよびプログラム要素について参照するが、これらの参照は、非限定的であり、例示的な目的でのみなされるものである。

システムは、複数の文書要素を含む電子文書（例えば、図１の電子文書１０４）を取得する（４０２）。いくつかの実施形態において、取得された文書は、既知の言語（例えば、ＨＴＭＬ、ＪａｖａＳｃｒｉｐｔ（登録商標）、ＣＳＳ、ＸＭＬ）を用いて構成される。いくつかの実施形態において、文書要素は、グラフィカルウィジェット（例えば、ボタン、プルダウンメニュー、スライダ、チェックボックス）、ハイパーリンク、アイコン等を含むものであってもよい。

システムは、複数の文書要素のうちの第１の文書要素に応じた電子文書に、１つ以上の第１のホットスポット属性を導入する（４０４）。第１のホットスポット属性は、電子文書が表示システムによって表示されるときに第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定する。第１のホットスポット属性は、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションにそれぞれ対応付けられる。コンピュータシステム１０２（例えば、文書解析モジュール２３６および／またはホットスポット導入モジュール２３８）は、文書内の文書要素を検出し、検出された文書要素の１つ以上の文書要素に対して、１つ以上のホットスポット属性の各セットを文書に導入する文書処理を行う。結果として得られる文書は、ホットスポット対応文書（例えば、図１の文書１０６）である。

いくつかの実施形態において、利用可能なホットスポットタグ、属性等は、ホットスポット導入データベース２６４に記憶され、ホットスポット導入データベース２６４から読み出されてもよく、ここで、データベース２６４は、文書への導入に利用可能なホットスポットタグ、属性等のテキスト文字列、パラメータ等を含む。システムは、データベース２６４から所望のタグ、属性等を読み出し、読み出されたタグ、属性等を関連する値とともに文書に導入する。

取得された文書１０２内の文書要素に対して、１つ以上のホットスポット属性のセットが文書に導入されてもよい。いくつかの実施形態において、１つ以上のホットスポット属性は、マークアップ言語で構成されたテキスト文字列として表され、テキスト文字列は、文書要素に対応する文書の一部内またはその付近に（例えば、属性プロパティを特定するテキスト文字列を文書要素のタグに追加することや、サブ要素を規定するテキスト文字列を文書要素に追加すること等によって）導入される。属性は、ホットスポット対応文書１０６が対話型文書（例えば、図１の対話型文書１０８）として表示されるときに対応付けられた要素とともに表示されうるホットスポットの属性を規定する。要素の属性は、１つ以上の予め規定された身体ジェスチャアクションおよび１つ以上の文書アクションにそれぞれ対応付けられる。対応付けられたジェスチャアクションおよび文書アクションは、ホットスポットに対してジェスチャアクションが行われると、そのジェスチャアクションがどの文書アクションをトリガするかを規定し、ホットスポットに対して行われた他のジェスチャアクションは、システム１０２によって無視される。

文書１０４への属性の導入は、第１のホットスポットが、表示された電子文書の一部として表示システムによって表示されるとき、表示された電子文書（例えば、対話型文書１０８）の閲覧者が、表示された電子文書と１つ以上の身体ジェスチャを用いて対話可能であることを示すように行われ、１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）対応付けられたカメラシステムによって撮像されるものであり、１つ以上の身体ジェスチャが対応付けられたカメラシステムによってそれぞれ撮像されると、表示された電子文書上で１つ以上の文書アクションがそれぞれ実行される（４０６）。対話型文書１０８において、ホットスポットは、対応付けられた文書要素とともに表示される。ホットスポットは、対話型文書１０８の閲覧者に対して、ホットスポットに対する１つ以上の身体ジェスチャを行うことにより閲覧者が対話型文書１０８と対話可能であることを示す。ジェスチャは、カメラシステム（例えば、カメラシステム１１２）によって撮像されると、検出するためにジェスチャ収集解析モジュール２４０によって取得される。ジェスチャ収集解析モジュール２４０は、ジェスチャを解析して、ジェスチャに応じて実行されるべき文書アクションを決定する。ジェスチャが検出されると、ホットスポットに対応付けられた文書アクションが実行される。

いくつかの実施形態において、１つ以上の文書アクションは、（ｉ）表示された電子文書から複数の文書要素のうちの１つ以上の文書要素を削除することと、（ｉｉ）複数の文書要素のうちの１つ以上の文書要素を特定の言語に翻訳することと、（ｉｉｉ）表示された電子文書に対応付けられた音声出力を消音または再開することと、（ｉｖ）表示された電子文書に対応付けられた映像表示を消音または再開することと、（ｖ）表示された電子文書に対応付けられたスクリプトの実行を終了または再開することと、（ｖｉ）表示された電子文書から表示されたホットスポットを追加または削除することと、（ｖｉｉ）表示されたホットスポットに関連する表示された電子文書に不可視ホットスポットを追加することと、（ｖｉｉｉ）表示された電子文書からリンクされた第２の電子文書に移動することと、（ｉｘ）カメラシステムを制御することと、（ｘ）遠隔会議システムを制御することのうちの１つ以上のアクションである。ホットスポットに対応付けられた文書アクションは、文書から文書要素を除去または削除することと、文書を機械翻訳に翻訳させることと、文書に対応付けられた音声出力を切り替えること（例えば、文書内で再生中の音声からの音声出力の消音または消音解除等）と、文書に対応付けられた映像から音声を切り替えること（例えば、文書内で再生中の映像からの音声の消音または消音解除等）と、文章に対応付けられた音声または映像の再生を切り替えること（例えば、文書内で再生中の音声または映像の再生または一時停止）と、文書へ可視ホットスポットを追加または文書から可視ホットスポットを除去することと、文書内の文書要素へ不可視ホットスポットを追加することと、リンクされた文書に移動することと、カメラシステムを制御すること（例えば、カメラシステム１１２への撮像実行命令の発行等）と、遠隔会議システムを制御すること（例えば、遠隔会議システムでの文書閲覧の共有等）とを含んでもよい。

いくつかの実施形態において、表示された電子文書に追加され、または表示された電子文書から除去された表示されたホットスポットは、電子商取引ウィジェットである。追加または除去されるホットスポットは、電子商取引エンティティに対応付けられたウィジェット（例えば、特定の販売元の文書に示された商品を購入するためのアフォーダンス）であってもよい。

いくつかの実施形態において、１つ以上の第１のホットスポット属性は、ホットスポットのタイプおよび／またはホットスポットの視覚的特性を含む。文書要素に対して文書に導入されるホットスポット属性は、ホットスポットのタイプ（例えば、ボタン、アイコン等）および／またはホットスポットの視覚的特性（例えば、サイズ、色等）を指定するものであってもよい。

いくつかの実施形態において、ホットスポットのタイプはボタンまたはスワイプウィジェットのうちの１つである。ホットスポットは、ボタン（例えば、仮想ボタン、トグルアイコン等）（例えば、ボタンホットスポット３０４、トグルホットスポット３１０、３１２等）またはスワイプウィジェット（例えば、スワイプホットスポット３０６等）であってもよい。いくつかの実施形態において、スワイプウィジェットは、スワイプジェスチャアクションによって文書に沿ってドラッグされてもよいアイコンである。スワイプウィジェットは、ユーザがスワイプジェスチャアクションを誘導するための視覚的なヒントを提供する。ホットスポットの他の例には、ハイパーリンク、プルダウンメニュー、チェックボックス、ラジオボタン、テキストボックス等がある。

いくつかの実施形態において、第１のホットスポットの視覚的特性は、スワイプウィジェットに対応付けられたスワイプジェスチャの方向を示す。スワイプウィジェットは、例えば、対応付けられたスワイプジェスチャアクションの方向を示す矢印を含んでもよい。

いくつかの実施形態において、視覚的特性は、表示されたホットスポットのサイズを示し、そのサイズは、ホットスポットが表示されるとき、ホットスポットの前方でユーザが行ったジェスチャによりホットスポット全体が覆われることがないようなサイズに規定される。視覚的特性属性は、ホットスポットが、ユーザのジェスチャアクションによって全体が覆われたり遮られたりしない程度に大きい（例えば、ジェスチャを行うために用いられる大人の指の幅より大きい）もとのなるように、ホットスポットのサイズを指定してもよい。

いくつかの実施形態において、複数の文書要素は、コンテンツ部分と、コンテンツ部分の特性を規定するタグ部分とをそれぞれ備える。システムは、第１の文書要素を含む複数の文書要素のうちの１つ以上の文書要素に対応付けられた１つ以上のタグ部分のタイプを評価することによって電子文書の構造を解析し、第１の文書要素は第１のタグ部分を含み、システムは、第１のタグ部分の評価されたタイプに基づいて、第１の文書要素がホットスポットとの対応付け候補であるかどうかを判定し、判定に応答して、第１の文書要素に関連する第１のホットスポット属性の導入を実行する。文書１０４は、マークアップ言語（例えば、ＨＴＭＬ、ＸＭＬ）を使用して構成することができ、文書１０４は、コンテンツ（例えば、コンテンツテキスト）およびタグ（例えば、開始タグおよび終了タグ）を含むことができる。タグ、具体的には、開始タグ・終了タグの対でコンテンツ部分を囲む。文書解析モジュール２３６および／またはホットスポット導入モジュール２３８は、タグ部分（例えば、開始タグおよび終了タグの対によって囲まれた部分）を識別し、それらのタイプを決定するために文書１０４の構造を解析する。文書要素は、識別されたタグ部分から識別される。文書解析モジュール２３６および／またはホットスポット導入モジュール２３８は、文書要素がホットスポット属性導入の候補であるかどうかを判定する。文書要素がホットスポット属性導入の候補である場合、１つ以上のホットスポット属性が対応するタグ部分に導入される。

いくつかの実施形態において、ディスプレイシステムは、投影システムまたはダイレクトディスプレイシステムである。対話型文書１０８は、プロジェクタによって表面に投影されるか、またはディスプレイ上に表示されてもよい。

いくつかの実施形態において、カメラシステムは、ジェスチャと表示された電子文書とがカメラシステムの視野内に同時に存在するように配置され、ディスプレイシステムおよびカメラシステムは、カメラシステムがジェスチャに関する情報をディスプレイシステムに送信して、情報送信が行われたジェスチャに対応付けられた文書アクションの表示が電子文書上で行われるように互いに通信可能に接続される。カメラシステム１１２は、表示されるときの対話型文書１０８とユーザ１１０によるジェスチャアクションとがカメラ１１２の視野内にあることで、カメラシステム１１２によって撮像可能なように配置される。カメラシステム１１２と、対話型文書１０８を表示するためのディスプレイシステム（例えば、プロジェクタシステム、ディスプレイ等）は、コンピュータシステム１０２を介して通信可能に接続される。カメラシステム１１２は、対話型文書１０８上でユーザ１１０によって行われるジェスチャを撮像し、撮像したデータをコンピュータシステム１０２に送信する。コンピュータシステム１０２は、撮像データを処理して、実行すべき文書アクションを決定する。コンピュータシステム１０２は、文書アクションを実行し、ディスプレイシステムに表示データを送信して、ユーザ１１０に対して対話型文書１０８上に文書アクションの結果を示す。

図５は、いくつかの実施形態による文書アクションを実行するための方法（プログラム）のフローチャート５００を示す。いくつかの実施形態において、方法５００は、１つ以上のプロセッサと、表示システム（例えば、プロジェクタシステム、ディスプレイ等）と、視野を有するカメラシステム（例えば、カメラシステム１１２等）と、（例えば、図２のジェスチャ収集解析モジュール２４０および文書編集表示モジュール２４２の１つ以上を実行する図１のコンピュータシステム１０２で）１つ以上のプロセッサにより実行される１つ以上のプログラムを記憶するメモリとを備えるコンピュータシステムで実行される。

コンピュータシステムは、複数の表示可能な文書要素と、対応付けられたホットスポット属性セットとを含む電子文書を取得し（５０２）、ホットスポット属性セットは、１つ以上の所定の身体ジェスチャおよび対応付けられた文書アクションにそれぞれ対応付けられ、電子文書が表示されたときに表示可能である表示可能ホットスポットの１つ以上の属性をそれぞれ規定する。コンピュータシステム１０２は、（例えば、ホットスポット属性を文書１０４に導入することによって）ホットスポット対応文書１０６を取得する。ホットスポット対応文書１０６は、複数の文書要素と、１つ以上のホットスポット属性セットとをそれぞれ対応付けて含む。文書要素のホットスポット属性セットは、その文書要素と、１つ以上のジェスチャアクションおよび１つ以上の文書アクションに対応付けられたホットスポットとを対応付ける。

いくつかの実施形態において、ホットスポットは、文書要素の特定のタグに対応付けられる。例えば、ある要素に対応付けられたホットスポットは、文書内での当該要素の始点タグおよび終点タグに対応付けられることで、文書内における当該要素にリンク付けされてもよい。

システムは、カメラの視野内のディスプレイ上に電子文書を表示し（５０４）、表示された電子文書は、１つ以上の表示されたホットスポットを含み、１つ以上の表示されたホットスポットは、ホットスポット属性セットに対応し、対応付けられたホットスポット属性セットに応じて表示される。コンピュータシステム１０２は、ホットスポット対応文書１０６を対話型文書１０８としてカメラシステム１１２の視界内に表示させる（例えば、ホットスポット文書１０６をディスプレイまたは表示用プロジェクタシステムに出力する）。対話型文書１０８は、ホットスポット属性セットに対応するとともに、対応付けられたホットスポット属性セットに応じて表示されるホットスポットを含む。

コンピュータシステムは、カメラの視野内にある表示された文書の前方でなされたユーザの身体ジェスチャをカメラで撮像する（５０６）。カメラシステム１１２は、カメラ１１２の視野において対話型文書１０８の一部を遮るようにユーザ１１０によって行われるジェスチャを撮像する。

コンピュータシステムは、カメラから見たときに身体ジェスチャの第１の身体ジェスチャが表示された第１のホットスポットと一致していると判定する（５０８）。このような一致は、ユーザがホットスポットを選択している可能性があることを示すものである。ジェスチャ収集解析モジュール２４０は、カメラシステム１１２からの撮像データを解析し、１つ以上のジェスチャを検出する。ジェスチャ収集解析モジュール２４０は、ジェスチャの１つが、対話型文書のホットスポットの少なくとも一部をを覆ったり遮ったりしていると判定し、このような状態は、ユーザ１１０がホットスポットをアクティブにしている可能性があることを示すものである。

コンピュータシステムは、身体ジェスチャのうち第１の身体ジェスチャを、第１のホットスポットに対応付けられた所定のジェスチャの１つとして認識する（５１０）。コンピュータシステムは、第１の身体ジェスチャが第１の文書アクションに対応すると判定し、電子文書に対して第１の文書アクションを実行する（５１２）。ジェスチャ収集解析モジュール２４０は、検出されたジェスチャをホットスポットに対応付けられたジェスチャとして認識し、ホットスポットに対応付けられたジェスチャは、文書アクションに対応付けられる。この認識に応じて、コンピュータシステム１０２は文書アクションを実行する。

いくつかの実施形態において、コンピュータシステムは、表示された電子文書を更新して、実行された第１の文書アクションを反映する。コンピュータシステム１０２が文書アクションを実行すると、コンピュータシステム１０２（例えば、文書編集表示モジュール２４２）は、実行された文書アクションに応じて文書の出力を更新する。

いくつかの実施形態において、コンピュータシステムは、カメラから見たときに身体ジェスチャのうち第１の身体ジェスチャが、表示された第１のホットスポットと一致していると判定すると、表示された第１のホットスポットの第１の視覚的特性を変更して、表示された第１のホットスポットをユーザが選択した可能性があることを示す。コンピュータシステム１０２（例えば、文書編集表示モジュール２４２）は、ジェスチャが行われる対象のホットスポットの視覚的外観を更新する。

いくつかの実施形態において、コンピュータシステムは、第１のホットスポットに対応付けられた所定のジェスチャの１つとして身体ジェスチャの第１の身体ジェスチャを認識すると、表示された第１のホットスポットの第２の視覚的特性を変更して、第１の身体ジェスチャの認識を示す。コンピュータシステム１０２（例えば、文書編集表示モジュール２４２）は、ジェスチャと、ジェスチャが行われる対象のホットスポットとが対応付けられているという判定に応じて、ホットスポットの視覚的外観をさらに更新する。

例えば、コンピュータシステム１０２がホットスポットに対して行われたジェスチャを検出すると、コンピュータシステム１０２（例えば、文書編集表示モジュール２４２）は、ホットスポットの視覚的外観を更新する。視覚的外観は、ホットスポットの１つ以上の視覚的特性（例えば、色、サイズ、境界線の太さ、テキストサイズ、テキストの色）を変更する。コンピュータシステム１０２が、ジェスチャがホットスポットに対応付けられた所定のジェスチャの１つであるとさらに判定すると、コンピュータシステム１０２（例えば、文書編集表示モジュール２４２）は、ホットスポットの視覚的外観をさらに更新する。この更新は、ジェスチャがホットスポットに対して行われたと検出されたときの更新と同じ視覚的特性または異なる視覚的特性を変更するものであってもよい。

いくつかの実施形態において、カメラから見たときに身体ジェスチャの第１の身体ジェスチャが表示された第１のホットスポットと一致すると判定することは、表示された第１のホットスポットがユーザジェスチャによって遮られる遮蔽度を評価することと、遮蔽度が第１のしきい値を超えると、ユーザが表示された第１のホットスポットを選択する意図がなかったものと判定することと、遮蔽度が第１のしきい値未満であると、ユーザが表示された第１のホットスポットを選択する意図があったと判定することを含む。コンピュータシステム１０２（例えば、ジェスチャ収集解析モジュール２４０）は、ジェスチャがどの程度ホットスポットを遮るかを判定する。遮蔽度がしきい値より大きいと判定された場合、コンピュータシステム１０２は、ユーザ１１０がホットスポットを選択またはアクティブ化する意図はなかったと判定する。遮蔽度がしきい値未満であると判定された場合、コンピュータシステム１０２は、ユーザ１１０がホットスポットを選択またはアクティブ化する意図があったと判定する。

いくつかの実施形態において、コンピュータシステムは、取得ステップの前に、複数の文書要素のうちの第１の文書要素に関連する電子文書に１つ以上のホットスポット属性の第１のセットを導入し、第１のホットスポット属性セットは、電子文書が表示されるときに第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定し、第１のホットスポット属性セットは、１つ以上の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられる。コンピュータシステム１０２は、ホットスポット属性を文書１０２に導入することで、ホットスポット対応文書１０６を取得する。

いくつかの実施形態において、１つ以上の文書アクションを実行することは、（ｉ）表示された電子文書から複数の文書要素のうちの１つ以上の文書要素を除去することと、（ｉｉ）複数の文書要素のうちの１つ以上の文書要素を特定の言語に翻訳することと、（ｉｉｉ）表示された電子文書に対応付けられた音声出力を消音または再開することと、（ｉｖ）表示された電子文書に対応付けられた映像表示を消音または再開することと、（ｖ）表示された電子文書に対応付けられたスクリプトの実行を終了または再開することと、（ｖｉ）表示された電子文書から表示されたホットスポットを追加または除去することと、（ｖｉｉ）表示されたホットスポットに関連する表示された電子文書に不可視ホットスポットを追加することと、（ｖｉｉｉ）表示された電子文書からリンクされた他の電子文書に移動することと、（ｉｘ）カメラシステムを制御することと、（ｘ）遠隔会議システムを制御することとを含む。コンピュータシステム１０２によって実行される文書アクションは、文書から文書要素を除去または削除することと、文書を機械翻訳に翻訳させることと、文書に対応付けられた音声出力を切り替えること（例えば、文書内で再生中の音声からの音声出力の消音または消音解除等）と、文書に対応付けられた映像から音声を切り替えること（例えば、文書内で再生中の映像からの音声の消音または消音解除等）と、文章に対応付けられた音声または映像の再生を切り替えること（例えば、文書内で再生中の音声または映像の再生または一時停止）と、文書へ可視ホットスポットを追加または文書から可視ホットスポットを除去することと、文書内の文書要素へ不可視ホットスポットを追加することと、リンクされた文書に移動することと、カメラシステムを制御すること（例えば、カメラシステム１１２への撮像実行命令の発行等）と、遠隔会議システムを制御すること（例えば、遠隔会議システムでの文書閲覧の共有等）であってもよい。

いくつかの実施形態において、第１のホットスポット属性セットは、ホットスポットのタイプおよび／またはホットスポットの視覚的特性を含む。ホットスポット属性は、ホットスポットのタイプ（例えば、ボタン、アイコン等）および／またはホットスポットの視覚的特性（例えば、サイズ、色等）を指定するものであってもよい。

いくつかの実施形態において、視覚的特性は、表示されたホットスポットのサイズを示し、そのサイズは、ホットスポットが表示されるとき、ホットスポットの前方でユーザが行ったジェスチャによりホットスポット全体が覆われることがないようなサイズに規定される。視覚的特性属性は、ホットスポットのサイズを指定するものであって、ホットスポットが、ユーザのジェスチャアクションによって全体が覆われたり遮られたりしない程度の大きさになるようにしてもよい。

なお、「第１」、「第２」等の用語は、本明細書においてさまざまな要素を説明するために用いられうるが、これらの要素は、これらの用語によって限定されるものではないことが理解される。これらの用語は、要素を互いに区別するためにのみ用いられる。例えば、説明の意味は変わるが、第１の接点を第２の接点と呼び、同様に第２の接点を第１の接点と呼んでもよい。ただし、「第１の接点」と記載されている箇所すべてが一貫して第２の接点と読み替えられ、第２の接点と記載されている箇所すべてが一貫して第１の接点と読み替えられている場合に限る。第１の接点と第２の接点は両方とも接点であるが、それらは同じ接点ではない。

本明細書において使用される用語は、特定の実施形態のみを説明するためのものであり、特許請求の範囲を限定するものではない。単数形「ａ」、「ａｎ」および「ｔｈｅ」は、特段別の記載がない限り、複数形も含むことが意図されている。なお、本明細書において使用される「および／または」という用語は、関連する列挙された１つ以上のものの任意のあらゆる可能な組み合わせをさし、包含するものである。さらに、「含む（ｃｏｍｐｒｉｓｅ）」および／または「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、本明細書において使用される場合、記載された特徴、完全体、工程、操作、要素および／または構成要素の存在を特定するが、１つ以上の他の特徴、完全体、工程、操作、要素、構成要素および／またはそれらの群のうちの１つ以上のものの存在または追加を排除するものではない。

「場合（ｉｆ）」という用語は、本明細書において使用される場合、文脈に応じて、記載した前提条件が成り立つ「場合（ｗｈｅｎ）」または「と（ｕｐｏｎ）」または「という判定に応答して」または「という判定に応じて」または「という検出に応答して」を意味すると解釈されてもよい。同様に、「（記載された前提条件が成り立つことが）判定される場合」または「（記載された前提条件が成り立つ）と」または「（記載された前提条件が成り立つ）場合」という表現は、文脈に応じて、記載した前提条件が成り立つ「場合（ｗｈｅｎ）」または「と（ｕｐｏｎ）」または「という判定に応答して」または「という判定に応じて」または「という検出に応答して」を意味すると解釈されてもよい。

上記記載は、説明を目的として、特定の実施形態を参照しながら説明したものである。しかしながら、上述したような例示的な説明は、網羅的であることを意図したものではなく、または本発明を開示された形態そのものに限定することを意図したものでもない。上記教示を考慮して多くの修正および変形が可能である。本実施形態の選択および説明は、他の当業者が想定された特定の用途に合わせてさまざまな修正を加えて本発明およびさまざまな実施形態を最良に利用することができるように、本発明の原理およびその実用的な応用を最良に説明するためになされたものである。

Claims

コンピュータにより実行される方法であって、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
複数の文書要素を備える電子文書を取得するステップと、
前記複数の文書要素のうちの第１の文書要素に関連する前記電子文書に、前記電子文書が表示システムによって表示されるときに前記第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定するものであって、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられた１つ以上の第１のホットスポット属性を導入するステップとを含み、
前記導入するステップにおいて、前記導入は、前記第１のホットスポットが、表示された電子文書の一部として前記表示システムによって表示されるとき、前記表示された電子文書の閲覧者が前記表示された電子文書と前記１つ以上の所定の身体ジェスチャを用いて対話可能であることを示すように行われ、前記１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある前記電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）前記対応付けられたカメラシステムによって撮像されるものであり、前記１つ以上の身体ジェスチャが前記対応付けられたカメラシステムによってそれぞれ撮像されると、前記表示された電子文書上で前記１つ以上の文書アクションがそれぞれ実行される方法。
前記１つ以上の文書アクションは、（ｉ）前記表示された電子文書から前記複数の文書要素のうちの１つ以上の文書要素を除去することと、（ｉｉ）前記複数の文書要素のうちの１つ以上の文書要素を特定の言語に翻訳することと、（ｉｉｉ）前記表示された電子文書に対応付けられた音声出力を消音または再開することと、（ｉｖ）前記表示された電子文書に対応付けられた映像表示を消音または再開することと、（ｖ）前記表示された電子文書に対応付けられたスクリプトの実行を終了または再開することと、（ｖｉ）前記表示された電子文書から表示されたホットスポットを追加または除去することと、（ｖｉｉ）表示されたホットスポットに関連する前記表示された電子文書に不可視ホットスポットを追加することと、（ｖｉｉｉ）前記表示された電子文書からリンクされた他の電子文書に移動することと、（ｉｘ）前記カメラシステムを制御することと、（ｘ）遠隔会議システムを制御することの１つ以上を含む、請求項１に記載の方法。
前記表示された電子文書に追加または前記表示された電子文書から削除された前記表示されたホットスポットは電子商取引ウィジェットである、請求項２に記載の方法。
前記１つ以上の第１のホットスポット属性は、ホットスポットのタイプおよび／またはホットスポットの視覚的特性を含む、請求項１に記載の方法。
前記ホットスポットのタイプは、ボタンまたはスワイプウィジェットのうちの１つであることを特徴とする、請求項４に記載の方法。
前記第１のホットスポットの視覚的特性は、前記スワイプウィジェットに対応付けられたスワイプジェスチャの方向を示す、請求項５に記載の方法。
前記視覚的特性は、前記表示されたホットスポットのサイズを示し、前記サイズは、前記ホットスポットが表示されるとき、前記ホットスポットの前方でユーザが行ったジェスチャによりホットスポット全体が覆われることがないようなサイズに規定される、請求項５に記載の方法。
前記複数の文書要素は、コンテンツ部分と、前記コンテンツ部分の各々の特性を規定するタグ部分とをそれぞれ備え、
第１のタグ部分を含む前記第１の文書要素を含む前記複数の文書要素のうちの１つ以上の文書要素に対応付けられた１つ以上のタグ部分のタイプを評価することによって、前記電子文書の構造を解析するステップと、
前記第１のタグ部分の前記評価されたタイプに基づいて、前記第１の文書要素がホットスポットとの対応付け候補であるかを判定するステップと、
前記判定に応答して、前記第１の文書要素に関連する前記第１のホットスポット属性の導入を実行するステップと
をさらに含む、請求項１に記載の方法。
前記表示システムは、投影システムまたはダイレクトディスプレイシステムである、請求項１に記載の方法。
前記カメラシステムは、前記身体ジェスチャおよび前記表示された電子文書が前記カメラシステムの視野内に同時に存在するように配置され、前記表示システムおよび前記カメラシステムは、前記カメラシステムが前記身体ジェスチャに関する情報を前記表示システムに送信して、前記情報が送信された前記身体ジェスチャに対応付けられた前記文書アクションをディスプレイが前記電子文書上で実行できるように互いに通信可能に接続される、請求項１に記載の方法。
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリとを備えるコンピュータシステムであって、前記１つ以上のプログラムは、
複数の文書要素を備える電子文書を取得する命令と、
前記複数の文書要素のうちの第１の文書要素に関連する前記電子文書に、前記電子文書が表示システムによって表示されるときに前記第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定するものであって、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられた１つ以上の第１のホットスポット属性を導入する命令とを含み、
前記導入は、前記第１のホットスポットが、表示された電子文書の一部として前記表示システムによって表示されるとき、前記表示された電子文書の閲覧者が前記表示された電子文書と前記１つ以上の所定の身体ジェスチャを用いて対話可能であることを示すように行われ、前記１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある前記電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）前記対応付けられたカメラシステムによって撮像されるものであり、前記１つ以上の身体ジェスチャが前記対応付けられたカメラシステムによってそれぞれ撮像されると、前記表示された電子文書上で前記文書アクションがそれぞれ実行されるコンピュータシステム。
コンピュータにより実行される方法であって、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行される１つ以上のプログラムを記憶するメモリと、表示システムと、視野を有するカメラとを有するコンピュータシステムにおいて、
複数の表示可能な文書要素と、対応付けられた複数のホットスポット属性セットとを備える電子文書を取得するステップを含み、前記複数のホットスポット属性セットは、１つ以上の所定の身体ジェスチャと、対応付けられた文書アクションとにそれぞれ対応付けられ、前記電子文書が表示されるときに表示可能な表示可能ホットスポットのそれぞれの１つ以上の属性を規定し、
前記カメラの前記視野内にあるディスプレイ上に前記電子文書を表示するステップを含み、前記表示された電子文書は１つ以上の表示されたホットスポットを含み、前記１つ以上の表示されたホットスポットは、前記対応付けられた複数のホットスポット属性セットに対応するとともに、前記対応付けられた複数のホットスポット属性セットに応じて表示され、
前記カメラの前記視野内にある前記表示された文書の前方においてなされたユーザの身体ジェスチャを前記カメラで撮像するステップを含み、
前記複数の身体ジェスチャのうちの第１の身体ジェスチャが、前記カメラから見たとき、表示された第１のホットスポットと一致していると判定するステップを含み、前記判定は、ユーザが前記ホットスポットを選択している可能性があることを示し、
前記複数の身体ジェスチャのうちの前記第１の身体ジェスチャを、前記第１のホットスポットに対応付けられた前記所定のジェスチャの１つとして認識するステップを含み、
前記第１の身体ジェスチャが第１の文書アクションに対応すると判定し、前記第１の文書アクションを前記電子文書上で実行するステップとを含む方法。
前記実行された第１の文書アクションを反映するように前記表示された電子文書を更新するステップをさらに含む、請求項１２に記載の方法。
前記複数の身体ジェスチャのうちの前記第１の身体ジェスチャが、前記カメラから見たとき、前記表示された第１のホットスポットと一致すると判定すると、前記表示された第１のホットスポットをユーザが選択した可能性があることを示すために、前記表示された第１のホットスポットの第１の視覚的特性を変更するステップをさらに含む、請求項１２に記載の方法。
前記複数の身体ジェスチャのうちの前記第１の身体ジェスチャを、前記第１のホットスポットに対応付けられた所定のジェスチャの１つとして認識すると、前記第１の身体ジェスチャが認識されたことを示すために、前記表示された第１のホットスポットの第２の視覚的特性を変更するステップをさらに含む、請求項１４に記載の方法。
前記複数の身体ジェスチャのうちの第１の身体ジェスチャが、前記カメラから見たとき、表示された第１のホットスポットと一致すると判定するステップは、
前記表示された第１のホットスポットがユーザジェスチャによって遮られる遮蔽度を評価することと、
前記遮蔽度が第１のしきい値を超えると、前記ユーザが前記表示された第１のホットスポットを選択する意図がなかったものと判定することと、
前記遮蔽度が前記第１のしきい値未満であると、前記ユーザが前記表示された第１のホットスポットを選択する意図があったと判定することを含む、請求項１２に記載の方法。
前記取得するステップの前に、前記複数の文書要素の第１の文書要素に関連する前記電子文書に１つ以上のホットスポット属性の第１のセットを導入するステップをさらに含み、第１のホットスポット属性セットは、前記電子文書が表示されるときに前記第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定し、前記第１のホットスポット属性セットは、１つ以上の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられる、請求項１２に記載の方法。
前記１つ以上の文書アクションを実行することは、（ｉ）前記表示された電子文書から前記複数の文書要素のうちの１つ以上の文書要素を除去することと、（ｉｉ）前記複数の文書要素のうちの１つ以上の文書要素を特定の言語に翻訳することと、（ｉｉｉ）前記表示された電子文書に対応付けられた音声出力を消音または再開することと、（ｉｖ）前記表示された電子文書に対応付けられた映像表示を消音または再開することと、（ｖ）前記表示された電子文書に対応付けられたスクリプトの実行を終了または再開することと、（ｖｉ）前記表示された電子文書から表示されたホットスポットを追加または除去することと、（ｖｉｉ）表示されたホットスポットに関連する前記表示された電子文書に不可視ホットスポットを追加することと、（ｖｉｉｉ）表示された電子文書からリンクされた第２の電子文書に移動することと、（ｉｘ）カメラシステムを制御することと、（ｘ）遠隔会議システムを制御することの１つ以上を含む、請求項１２に記載の方法。
前記表示された電子文書に追加または前記表示された電子文書から削除された前記表示されたホットスポットは電子商取引ウィジェットである、請求項１８に記載の方法。
第１のホットスポット属性セットは、ホットスポットのタイプおよび／またはホットスポットの視覚的特性を含む、請求項１２に記載の方法。
１つ以上のプロセッサを備えるコンピュータシステムによって実行されると、コンピュータシステムに、複数の文書要素を備える電子文書を取得させ、前記複数の文書要素のうちの第１の文書要素に関連する電子文書に、前記電子文書が表示システムによって表示されるときに第１の文書要素とともに表示可能な第１のホットスポットの１つ以上の属性を規定するものであって、１つ以上の所定の身体ジェスチャと１つ以上の文書アクションとにそれぞれ対応付けられた１つ以上の第１のホットスポット属性を導入させプログラムであって、
前記導入は、前記第１のホットスポットが、表示された電子文書の一部として前記表示システムによって表示されるとき、前記表示された電子文書の閲覧者が前記表示された電子文書と１つ以上の所定の身体ジェスチャを用いて対話可能であることを示すように行われ、前記１つ以上の所定の身体ジェスチャは、（ｉ）対応付けられたカメラシステムの視野にある電子文書の表示されたものを少なくとも部分的に覆う位置で行われ、（ｉｉ）前記対応付けられたカメラシステムによって撮像されるものであり、１つ以上の身体ジェスチャが対応付けられたカメラシステムによってそれぞれ撮像されると、表示された電子文書上で１つ以上の文書アクションがそれぞれ実行される、プログラム。