JP2010529542A - Time-series templates for text-to-animation systems - Google Patents
Time-series templates for text-to-animation systems Download PDFInfo
- Publication number
- JP2010529542A JP2010529542A JP2010510625A JP2010510625A JP2010529542A JP 2010529542 A JP2010529542 A JP 2010529542A JP 2010510625 A JP2010510625 A JP 2010510625A JP 2010510625 A JP2010510625 A JP 2010510625A JP 2010529542 A JP2010529542 A JP 2010529542A
- Authority
- JP
- Japan
- Prior art keywords
- action
- information
- template
- predicate
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Processing Or Creating Images (AREA)
Abstract
入力テキストをアニメーションジェネレータのための入力に変換する方法であって、この方法が、前記入力テキストを受信するステップと、前記入力テキストにおいて識別されたアクションに関連する情報を表す第1の組のデータをこの入力テキストから抽出し、この第1の組のデータを用いて意味的に注釈されたアクションテンプレートを完成させるステップと、前記アクションに含まれるあらゆるパーティシパントの記述に関連する情報を表す第2の組のデータを前記入力テキストから抽出し、この第2の組のデータを用いて意味的に注釈された記述テンプレートを完成させるステップと、前記意味的に注釈されたアクションテンプレート及び前記意味的に注釈された記述テンプレートを前記アニメーションジェネレータに送信するステップとを具える方法を提供する。A method of converting input text into input for an animation generator, the method comprising: receiving the input text; and a first set of data representing information associated with an action identified in the input text Is extracted from the input text, and the first set of data is used to complete the semantically annotated action template, and the first step represents information related to the description of any participants included in the action. Extracting two sets of data from the input text and using the second set of data to complete a semantically annotated description template; the semantically annotated action template and the semantic The description template annotated to the animation generator is sent to the animation generator. To provide a method comprising the flop.
Description
本発明は、テキスト・トゥ・アニメーションシステムに関するものであり、特にアニメーションシーケンスを発生させるために、テキストから時間的情報、意味(セマンティック)情報及び一般的知識を抽出することに関するものである。 The present invention relates to text-to-animation systems, and more particularly to extracting temporal information, semantic information, and general knowledge from text to generate animation sequences.
アニメーションは、使用可能なツールの急速な進化のみならず、これらを適用するための専門知識が得られるようにする為に、種々のアプリケーションに対し創出されている。その一部のアプリケーションは、アクション概念の自然言語を理解するための、テキスト・トゥ・シーン(TTS)システム、テキスト・トゥ・アニメーション(TTA)システム又はテキスト・トゥ・ムービー(TTM)システムのようなアニメーションシステムの性能からもたらされる。 Animations are being created for various applications not only to rapidly evolve the tools available, but also to gain the expertise to apply them. Some of its applications, such as text-to-scene (TTS), text-to-animation (TTA), or text-to-movie (TTM) systems, for understanding the natural language of action concepts. Resulting from the performance of the animation system.
ある初期のシステムでは、静止画像のみを用いて描写(リプリゼンテーション)を行っていた。又、あるシステムでは、テキスト中のキーコンセプト(重要な概念)又はワードを識別し、次にこれらを表わすために画像を採用しているが、テキストの意味を正確にとらえる明解なシーケンスを提供するものではない。テキストのアニメーション変換を行う他のシステムはアニメーションシーケンスを互いに編集することにより構築され、従って、使用が制限されるミニアニメーションクリップの大規模な静的データベースを必要とする。従って、自然言語テキストを解析し、これを自動的にアニメ化しうる形態にするシステムが必要となる。 In some early systems, presentation (representation) was performed using only still images. Some systems also identify key concepts (words) or words in the text and then employ images to represent them, but provide a clear sequence that accurately captures the meaning of the text. It is not a thing. Other systems that perform animation conversion of text are built by editing animation sequences with each other, thus requiring a large static database of mini-animation clips that are restricted in use. Therefore, there is a need for a system that analyzes natural language text and places it into a form that can be automatically animated.
本発明の一般的な第1の態様によれば、入力テキストをアニメーションジェネレータのための入力に変換する方法であって、この方法が、前記入力テキストを受信するステップと、前記入力テキストにおいて識別されたアクションに関連する情報を表す第1の組のデータをこの入力テキストから抽出し、少なくともこの第1の組のデータを用いて意味的に注釈されたアクションテンプレートを完成させるステップと、前記アクションに含まれるあらゆるパーティシパントの記述に関連する情報を表す第2の組のデータを前記入力テキストから抽出し、少なくともこの第2の組のデータを用いて意味的に注釈された記述テンプレートを完成させるステップと、前記意味的に注釈されたアクションテンプレート及び前記意味的に注釈された記述テンプレートを前記アニメーションジェネレータに送信するステップとを具える方法を提供する。 According to a first general aspect of the invention, a method of converting input text into input for an animation generator, the method being identified in the input text and receiving the input text Extracting from the input text a first set of data representing information associated with the action, and completing an action template semantically annotated with at least the first set of data; A second set of data representing information related to the description of any included participants is extracted from the input text, and at least the second set of data is used to complete a semantically annotated description template. Steps, the semantically annotated action template and the semantically annotated description text. A method comprising the steps of: transmitting a plate to the animation generator.
本発明の一般的な第2の態様によれば、入力テキストをアニメーションジェネレータのための入力に変換するシステムであって、このシステムが、前記入力テキストを受信して意味構造を出力する自然言語処理モジュールと、意味情報を記憶する概念的背景のデータベースと、アクション述語(プレディケート)に対する常識的な知識を記憶する述語インターアクションデータベースと、アクション述語の定義及びこれに関連するパラメータを記憶する3次元マッピングデータベースと、前記自然言語処理モジュールから前記意味構造を受信し、アクションに関連する情報を表す第1のテンプレート及びこれらアクションに含まれるあらゆるパーティシパントの記述に関連する情報を表す第2のテンプレートを、前記データベースに含まれる情報を用いて自動的に完成させ、これら第1のテンプレート及び第2のテンプレートを前記アニメーションジェネレータに送信するようにしたテンプレートジェネレータとを具えるシステムを提供する。 According to a second general aspect of the present invention, a system for converting input text into input for an animation generator, the system receiving said input text and outputting a semantic structure A module, a conceptual background database that stores semantic information, a predicate interaction database that stores common sense knowledge about action predicates, and a three-dimensional mapping that stores action predicate definitions and associated parameters A database, a first template that receives the semantic structure from the natural language processing module and represents information related to actions, and a second template that represents information related to descriptions of all participants included in the actions. Included in the database Automatically completed using multicast, it provides a system comprising a template generator which is adapted to send these first template and second template to the animation generator.
本発明の一般的な第3の態様によれば、アニメーションを創出するのに用いるためにテキストから抽出される情報を描写する方法であって、この方法が、
アクション述語に関連する情報と、このアクション述語に対する意味情報と、フルーエント/イベントから抽出した時間情報と、常識的な推論に対する推定情報とを生ぜしめることにより、意味的に注釈されたアクションテンプレートを完成させるステップと、
アクション中のパーティシパントに関連するパーティシパント情報と、シーン中のパーティシパントの位置に関連する空間情報と、パーティシパントの感情的な状態、物理的な状態及び行動のうちの少なくとも1つに影響を及ぼす動的情報と、パーティシパントをアクションに結合させるリンクとを生ぜしめることにより、少なくとも1つの意味的に注釈された記述テンプレートを完成させるステップと
を具え、
前記テンプレートが、前記アニメーションに対し用いる必要がある統語及び意味パラメータを全て包含するようにする方法を提供する。
According to a third general aspect of the invention, a method for rendering information extracted from text for use in creating an animation, the method comprising:
Complete the semantically annotated action template by generating information related to the action predicate, semantic information for this action predicate, time information extracted from the fluent / event, and estimated information for common sense inference Step to
Participant information related to the participant in action, spatial information related to the position of the participant in the scene, and at least one of the emotional state, physical state, and behavior of the participant. Completing at least one semantically annotated descriptive template by generating dynamic information that influences one another and a link that joins the participant to the action;
A method is provided in which the template includes all the syntactic and semantic parameters that need to be used for the animation.
本発明の一般的な第4の態様によれば、アクションを記述している自然言語テキストを解析し、アニメーションを創出するのに用いるべき順序付けされたアクション構造を創出するシステムであって、このシステムが、
前記自然言語テキストを入力として受信し、意味構造を出力する自然言語処理モジュールと、
意味情報を記憶する概念的背景のデータベースと、
アクション述語に対する常識的な知識を記憶する述語インターアクションデータベースと、
アクション述語の定義及びこれに関連するパラメータを記憶する3次元マッピングデータベースと、
概念構造を発生させ、アクションに関連する情報を表す意味的に注釈されたアクションテンプレートと、これらアクションに含まれるあらゆるパーティシパントの記述に関連する意味的に注釈された記述テンプレートとを自動的に完成させる順序付けアクション構造ジェネレータと
を具え、前記テンプレートは、前記意味構造と前記データベースに含まれる情報とを用いて完成させるようになっているシステムを提供する。
According to a fourth general aspect of the present invention, a system for analyzing a natural language text describing an action and creating an ordered action structure to be used to create an animation, the system But,
A natural language processing module that receives the natural language text as input and outputs a semantic structure;
A conceptual background database for storing semantic information;
A predicate interaction database that stores common sense knowledge about action predicates;
A three-dimensional mapping database storing action predicate definitions and associated parameters;
Automatically generate semantically annotated action templates that generate conceptual structure and represent information related to actions, and semantically annotated description templates that are related to the description of any participants involved in these actions The ordering action structure generator is completed, and the template provides a system adapted to be completed using the semantic structure and information contained in the database.
種々のデータベースに記憶させた情報のいくらかはジェネリック(一般)情報にでき、他の情報は文脈に特有のものである。 Some of the information stored in the various databases can be generic information, and other information is context specific.
本明細書において、用語“イベント”は、時間ライン上の特定の点に生じるアニメーションユニットを意味するものである。イベント/フルーエントの区別は設計結果であり、アクションの固有特性ではない。用語“フルーエント”は、ある期間に亘って保持されるアニメーションユニットを意味するものである。フルーエントは、真理値をある期間に亘って変えうる述語であるといえる。イベントは任意の個数のフルーエントと同時に生ぜしめることができる。 As used herein, the term “event” is intended to mean an animation unit that occurs at a specific point on a time line. The event / fluid distinction is a design result, not an inherent property of the action. The term “fluent” refers to an animation unit that is held for a period of time. A fluent is a predicate whose truth value can be changed over a period of time. An event can occur simultaneously with any number of fluents.
言語学の文脈では、述語は、アニメーション世界における何かに関してステートメントを発表するのに用いうる言葉の特徴であると理解されている。述語は“アニメーションワード”であり、このことは、述語がアニメーションジェネレータにより理解される意義を有するということを意味している。例えば、述語“table (テーブル)”は、テーブルのグラフィカル描写を表示するアニメーションジェネレータにより理解される。この述語“table ”に関連している述語“on(上に)”は、アニメーションジェネレータにより位置を表すものとして理解される。アニメーションジェネレータは、テーブルのグラフィカル描写上に何かが位置することを理解する。述語の組全体が、アニメーション言語を形成する。アクション述語は、言語学の文脈において、アクタント(actant)スロットと一緒に到来するとともに、特に、アクション概念に言及する特別な種類の述語であると理解される。アクタントは、述語のパラメータ(変量)である。形式上、give(X,Y,Z) (与える(X、Y、Z))は、3つのアクタント(X、Y、Z)を有するアクション述語の一例である。giveがアクション述語give(X,Y,Z) の名称である場合にも、我々はしばしばアクション述語giveを言及する。意味情報は、ワード及び文章の双方又はいずれか一方の意味に関連する情報として理解される。統語情報は、文章の形態に関連する情報として理解される。モジュレータ情報は、アクション述語に影響を及ぼしうる情報である。例えば、quickly (足早に)はwalking (歩く)に影響を及ぼす。アニメーション終了情報は、進行中のアニメーションを終了させる情報である。例えば、killed(死んだ)はwalking (歩く)を終了させる。時間グラフ情報は、意味構造に応じてアクション述語に関して時間的に順序付ける情報である。存在及び制約情報は、アクション述語の特定の前提条件及び後の条件に関連する。例えば、アクション述語take(x) (取る(x))は前提条件としてexists(x) (存在する(x))を有し、このことは、取るべき目的物を実際の環境に存在させる必要があるということを意味する。例えば、非アニメ化物(table (テーブル))は、概念テーブルが非アニメ化概念である場合に真である述語である。アニメーションチャネルは、アクションを適用しうる(body(体)、eyes(目)、head(頭)のような)実体(エンティティ)を言及する。意味構造は、述語‐アクタントの関連を特徴付けるグラフである。これらのグラフのアークには、述語に対するアクタントの意味関係がラベル付けされる。これらの関係はしばしば、用語の意味役割と称される。 In the context of linguistics, predicates are understood to be a characteristic of words that can be used to make statements about something in the animation world. The predicate is an “animation word”, which means that the predicate has the meaning of being understood by the animation generator. For example, the predicate “table” is understood by an animation generator that displays a graphical representation of the table. The predicate “on” associated with this predicate “table” is understood as representing a position by the animation generator. The animation generator understands that something is on the graphical representation of the table. The entire set of predicates forms an animation language. Action predicates come with an actant slot in the context of linguistics and are understood to be a special kind of predicate that specifically refers to the action concept. An actor is a parameter (variable) of a predicate. Formally, give (X, Y, Z) (giving (X, Y, Z)) is an example of an action predicate having three actors (X, Y, Z). We often mention the action predicate give, even if give is the name of the action predicate give (X, Y, Z). Semantic information is understood as information relating to the meaning of either or both of words and sentences. Syntactic information is understood as information related to the form of a sentence. The modulator information is information that can affect the action predicate. For example, quickly affects walking. The animation end information is information for ending the ongoing animation. For example, killed terminates walking. The time graph information is information that temporally orders the action predicates according to the semantic structure. Existence and constraint information relates to certain preconditions and later conditions of the action predicate. For example, the action predicate take (x) (take (x)) has exists (x) (exist (x)) as a precondition, which requires that the object to be taken exist in the actual environment. It means that there is. For example, a non-animated object (table) is a predicate that is true if the concept table is a non-animated concept. An animation channel refers to an entity (such as a body, eyes, or head) to which an action can be applied. The semantic structure is a graph that characterizes the predicate-actant association. The arcs in these graphs are labeled with the semantic relationship of the actor to the predicate. These relationships are often referred to as term semantic roles.
本発明の更なる特徴及び利点は、以下の添付図面に関する詳細な説明から明らかとなるであろう。 Further features and advantages of the present invention will become apparent from the following detailed description taken in conjunction with the accompanying drawings.
図1は、アクションを記載してある自然言語テキストを解析し、アニメーションジェネレータによりアクションのアニメーションを生ぜしめるのに用いるべき、順序付けられたアクション構造を発生させるシステム10を示している。このシステムには、自然言語処理(NLP)モジュール12が存在している。このモジュールは、テキスト14を入力として取り、概念的背景(CB)のデータベース18と、用語集20と、3Dマッピングデータベース22とに含まれる情報を用いて、意味構造16を出力するものである。次に、SAAT及びSADTジェネレータ24が、意味構造16と、CBのデータベース18、3Dマッピングデータベース22及びアクション述語のインターアクション関係(Action Predicate Interaction Relation :APIR)のマトリックスデータベース30に含まれている情報とを使用して、意味的に注釈されたアクションテンプレート(Semantically Annotated Action Template:SAAT)26と、意味的に注釈された記述テンプレート( Semantically Annotated Description Template :SADT)28とを生ぜしめる。
FIG. 1 illustrates a
用語集20は、NLPモジュール12の一部であり、言語に依存しており、含まれている全ての語彙(字句)単位に対する形態学的情報、統語(構文)情報及び意味情報を有している。各語彙単位には、印刷された辞書に見られる定義に類似する語彙の定義が与えられている。NLPモジュール12では、語彙単位が入力テキストの各ワードに割り当てられる。NLPモジュール12の他の部分には、テキストセグメンテーション、ワードの意味の明確化、統語的曖昧性及び発話行為をアドレスするツールを含めることができるが、これらに限定されるものではない。現在当該技術分野で既知のNLPモジュールを本発明のシステムに用いることができる為、その更なる説明は省略する。用語集はNLPモジュールとは別にすることができることを銘記すべきである。
The
3Dマッピングデータベースと称される他のデータベースは、NLPとアニメーションとの間のブリッジである。3Dマッピングデータベース22はNLPモジュール12とSAAT及びSADTジェネレータ24との間のブリッジであり、この3Dマッピングデータベース22には、アニメーションジェネレータが認識及び理解するアニメーションの語彙(ボキャブラリー)が含まれており、これにアニメーション中のグラフィック描写又はファンクションが割り当てられる。アニメーションの語彙のユニットエンティティ又はワードを述語と称される。このデータベースは、述語がピボット言語で書かれているという意味で言語に依存しない。入力テキスト14は例えば、英語、仏語又は独語のような所定の言語で書かれており、3Dマッピングデータベース22に含まれる述語はピボット言語で書かれている。
Another database, called the 3D mapping database, is a bridge between NLP and animation. The
一実施例では、3Dマッピングデータベースに含まれる述語は6組に、すなわちアクション述語(AP)と、モジュレータ述語(MLP)と、モディファイア述語(MFP)と、概念上のアセット(CA;Conceptual Assets )と、空間関係の述語(SRP)と、変化述語(ALP;ALteration Predicate)とに分類される。アクション述語は、アニメーションで実行されるアクションを記載するのに用いられるアニメーションワード又は述語である。通常、アクション述語は動詞である。述語“walk(歩く)”、“take(取る)”及び“kiss(キスする)”はアクション述語の例である。概念上のアセットはアクションに加わる述語であり、通常名詞である。述語“table (テーブル)”、“car (自動車)”、“box (箱)”、“human (人間)”及び“hand(手)”は概念上のアセットの例である。モジュレータ述語は、アクション述語又は概念上のアセットに関連するパラメータである。モジュレータ述語は、アクションを実行する方法や、人物の感情や、物体の特徴等を特定するのに用いることができる。通常、副詞及び形容詞がモジュレータ述語である。又、“speed (速度)”、“emotion (感情)”、“color (色)”及び“side(サイド)”のような述語がモジュレータ述語の例である。モディファイア述語はモジュレータ述語を修飾するのに用いられる。“plus(プラス)”のようなモディファイア述語は、これが適用されるモジュレータ述語を増大させ、“minus (マイナス)”のようなモディファイア述語は、これが適用されるモジュレータ述語を減少させる。空間関係の述語は、初期の、最終の又は不変の空間関係を特定するのに用いられる。例えば、入力されたテキスト“Paul takes the book from the table(ポールは本をテーブルから取る)”では、トークン“from(から)”は、本(the book)が最初はテーブル(the table)上にある(初期の空間関係)ということを意味し、一方、入力されたテキスト“Paul puts the book on the table (ポールは本をテーブル上に置く)”では、トークン“on(上に)”は、本がアクション後にテーブル上にある(最終の空間関係)ということを意味する。空間関係の述語の例は、“on(上に)”、“under (下に)”、“above (上方に)”等である。変化述語は、アクション述語を変化させる。“stop(停止する)”、“continue(連続する)”及び“pause (休止する)”のような述語は、変化述語の例である。 In one embodiment, the 3D mapping database includes six predicates: an action predicate (AP), a modulator predicate (MLP), a modifier predicate (MFP), and a conceptual asset (CA). And a spatial predicate (SRP) and a change predicate (ALP). An action predicate is an animation word or predicate that is used to describe an action to be performed on an animation. Usually, action predicates are verbs. The predicates “walk”, “take” and “kiss” are examples of action predicates. A conceptual asset is a predicate that adds to an action, usually a noun. The predicates “table”, “car”, “box”, “human” and “hand” are examples of conceptual assets. A modulator predicate is a parameter associated with an action predicate or conceptual asset. The modulator predicate can be used to specify a method of executing an action, a person's emotion, a feature of an object, and the like. Adverbs and adjectives are usually modulator predicates. Also, predicates such as “speed”, “emotion”, “color” and “side” are examples of modulator predicates. Modifier predicates are used to modify modulator predicates. A modifier predicate such as “plus” increases the modulator predicate to which it applies, and a modifier predicate such as “minus” decreases the modulator predicate to which it applies. Spatial relationship predicates are used to identify an initial, final or invariant spatial relationship. For example, in the entered text “Paul takes the book from the table”, the token “from” is the first time the book is on the table. Mean (initial spatial relationship), while in the input text “Paul puts the book on the table”, the token “on” It means that the book is on the table after the action (final spatial relationship). Examples of spatial predicates are "on (up)", "under (down)", "above" (up). The change predicate changes the action predicate. Predicates such as “stop”, “continue” and “pause” are examples of change predicates.
システム10は、アプリケーションのセマンティックユニバースをカバーする目的の多重継承概念構造であるCBデータベース18をも有する。3Dマッピングデータベース22はアニメーションワールド(アニメーションワード又は述語)に関する意味情報を含んでいるが、CBデータベースはリアルワールド(実社会)に関する意味情報を含んでいる。CBデータベースは最高位の概念、中位の概念及びインスタンスのオントロジーを有しており、アプリケーションのセマンティックワールドを表すものとして作用する。オントロジーはCBデータベース18の要素間の関係を表す。CBデータベース18のオントロジーは、ピボット言語で書かれる為に言語に依存しない。
The
オントロジーは、図2Aに示すように、ノードが互いに接続された(結ばれた)有向グラフの形態をとる。ノードは概念又はインスタンスの何れかとしうる。インスタンスは、概念の特別な場合とするか、又は概念に関する追加情報を提供するようにしうる。図2Aを参照するに、インスタンス“estate car(ステーションワゴン車)”及び“sedan car (セダン車)”は概念“family car(自家用車)”の特別な場合である。CBデータベース18により得られる他の種類の追加情報は概念又はインスタンスをアニメ化する可能性に関するものである。例えば、概念“table (テーブル)”は、あるアプリケーションでは、アニメ化概念として分類することができ、この概念は、3Dアニメーションでテーブルが歩くことができるということを意味する。他のアニメーションでは、概念“table ”が非アニメ化とみなされ、テーブルは3Dアニメーションで固定物体となる。オントロジーは、概念又はインスタンスをアニメ化するかアニメ化しないかを決定する。概念を互いに接続する関係や、概念をインスタンスに接続する関係は、いかなる種類のものにもでき、これらの関係は言語に無関係に常に正しいという意味で普遍的である。
The ontology takes the form of a directed graph in which nodes are connected (connected) as shown in FIG. 2A. Nodes can be either concepts or instances. An instance can be a special case of a concept or provide additional information about the concept. Referring to FIG. 2A, the instances “estate car” and “sedan car” are special cases of the concept “family car”. Another type of additional information obtained by the
図2Aを参照するに、概念“vehicle (ビークル)”は、概念“car (自動車)”、“boat(ボート)”及び“motorbike (オートバイ)”のような中位の概念を含む最上位の概念である。中位の概念“car ”は、“sports car(スポーツカー)”及び“family car(自家用車)”のような中位の概念をも含む。有向グラフは、概念とインスタンスとの間に、最も広い意味を有する概念から出発して最も狭い定義を有するインスタンスに至る階層を描く。全ての概念及びインスタンスは、CBデータベースが言語に依存しないようにピボット言語で表されている。図2Bは、CBデータベース18内に含まれるオントロジーの他の例である。最上位の概念である“visual attribute(視覚特性)”は中位の概念である“color (色)”にリンク(ひも付け)されており、この中位の概念は“blue(青)”、“white (白)”、“black (黒)”のような幾つかのインスタンスに接続されている。図2cは、CBデータベース18内に含まれるオントロジーの他の例を示しており、本例では、インスタンス“sprint(スプリント)”が概念“run (走る)”に接続されている。この場合、オントロジーが動きの速度のグラデーションを表している。オントロジーは、“talk(話す)”、“shout (叫ぶ)”、“yell(怒鳴る)”のようなインテンシティのグラデーションを表しうる。
Referring to FIG. 2A, the concept “vehicle” is a top-level concept that includes medium concepts such as the concepts “car”, “boat” and “motorbike”. It is. The medium concept “car” also includes medium concepts such as “sports car” and “family car”. A directed graph depicts a hierarchy between concepts and instances, starting with the concept with the broadest meaning and ending with the instance with the narrowest definition. All concepts and instances are expressed in a pivot language so that the CB database is language independent. FIG. 2B is another example of an ontology included in the
用語集20の各語彙単位は、この用語集20の言語に無関係にCBデータベース18の単一の概念又はインスタンスに接続されている。例えば、NLPモジュール12がトークン“run ”を受け、用語集20は2つの語彙記載項“run 1”及び“run 2”を有し、第1の語彙記載項は“operate (動作する)”と同義であり、第2の語彙記載項はある種のディスプレイスメント(変位)を表す。語彙記載項“run 1”は概念“operate ”と関連しており、第2の語彙記載項、すなわち、“run 2”は概念“run ”に関連している。
Each vocabulary unit of the
他の実施例では、用語集20の各語彙単位を、この用語集20の言語に無関係にCBデータベース18の単一の概念又はインスタンスに接続する。語彙単位は1つよりも多い概念又はインスタンスに接続しうることを理解すべきである。例えば、語彙単位“run ”は少なくとも2つの概念“run 1”及び“run 2”に接続する。概念“run 1”は“operate ”と同義であり、概念“run 2”は一種のディスプレイスメントを表す。例えば、入力されたテキストが仏語で書かれており、ピボット言語が英語である場合には、仏語で表された各語彙単位は、英語で表された少なくとも1つの概念又はインスタンスに接続され、翻訳は不必要となる。この場合、語彙単位“courir(走る)”が概念“run 2”にのみ接続される。語彙単位と概念又はインスタンスとの間の接続は、用語集20の言語に依存することを理解すべきである。
In another embodiment, each lexical unit of
2つ以上の語彙単位を、同一の概念又はインスタンスと称しうることを理解すべきである。例えば、語彙単位“kiss(キス)”及び“give a kiss (キスをする)”は双方とも概念“kissing (キシング)”と関連する。 It should be understood that two or more vocabulary units may be referred to as the same concept or instance. For example, the lexical units “kiss” and “give a kiss” are both associated with the concept “kissing”.
APIRマトリックスデータベース30は、1つのアクションが、既に存在するアクションにかかわる場合に、2つの(又はそれよりも多い)アクション述語が相互にいかに作用し合うかに関する情報を生じる。ある意味では、この情報にはアクション述語に対する常識的な知識が含まれる。このマトリックスデータベース30を介して実行される基礎構造はグラフである。ノードはアプリケーションにより支持されているアクション述語である。エッジ(リレーション)とはアニメーション環境で有効な意味関係(リレーション)である。ノードAが意味関係SによりノードBに結合されている場合には、ASBと言うことができる。例えば、A:=KISS、B:=SPEAK、S:=CAN_CLIPPEDとする。この場合、APIRグラフには、図3に示すものが含まれている。従って、話のアクションが生じている間にキスのアクションをトリガする必要がある場合には、システムは、キスの間に話しをクリップする必要があるということを知る。APIRマトリックスデータベース30における情報は共時性(シンクロニシティ)問題を扱う。APIRマトリックスデータベース内で実施される主たる意味関係の幾つかの例を以下の表に示す。
再び図1を参照するに、テキスト14はアプリケーションのユーザーによって入力される。このテキスト14は如何なる言語でも書き表すことができる。NLPモジュール12は、入力されたテキスト14の統語及び意味の双方を解析してその意味するところを決定する。このステップを実行するために、NLPモジュール12は、用語集20に入れられている情報と、CBデータベース18のオントロジーとを、意味及び推論(リーズニング)アルゴリズムに加えて用いる。例えば、これらのアルゴリズムを用いて、メトニミー(換喩)解析、同一指示解析、意味役割ラベリング、ワードの意味の明確化、暗黙的なアクションのプランニング等のステップを実行する。NLPモジュール12により実行される上述したステップの幾つかは、NLPモジュール12とは異なるモジュールによって実行しうることを理解すべきである。例えば、暗黙的なアクションのプランニングはNLPモジュール12とは独立したアクションプランナーモジュールによって実行しうる。NLPモジュール12の役割は、入力されたテキスト14を意味構造16及び統語構造に翻訳することである。第1のステップは、一連の入力文字を区分けする処理であるトークン化である。NLPモジュール12は、テキストをワード又はトークンに分割する。次の処理は、入力されたテキスト14のワードをスピーチの特定部分に対応するようにマークするタグ付け(タギング)処理である。スピーチの各部分は、ワードを名詞、動詞、前置詞等のように分類するのに用いられる種々の異なる文法的範疇に入る。次に、NLPモジュール12は、一連のワードの文法構造を所定の文法に対して決定するために、この一連のワードを解析することにある統語解析処理を実行する。意味情報を検索するのは、NLPモジュール12に含まれている意味役割ラベリングモジュールにより実行される最後のステップである。このステップは、所定のアクションのパーティシパント間の関係をこれらのそれぞれの意味役割に対しラベリングすることにある。意味役割は、CBデータベース18のオントロジー内に含まれる情報及び静的ルールの組み合わせを用いることにより得られる。
Referring again to FIG. 1,
意味構造を形成するためには、NLPモジュールは、入力されたワードの意味するところを決定する必要がある。例えば、NLPモジュール12は、入力されたテキストのワード“runs”を、概念“run 1”及び“run 2”に接続された語彙単位“run ”と関連づける。次に、NLPモジュールは、CBデータベースのオントロジー及びワードの意味の明確化アルゴリズムを用いることにより、語彙単位“run ”に関連する入力ワードの意味をこれら2つの概念のどちらが表すかを決定する。例えば、NLPモジュール12は、概念“run 1”が適切な概念であり、この概念“run 1”が入力ワード“runs”に関連することを決定する。次に、入力ワード“runs”を3Dマッピングデータベース内に含まれるアクション述語“operate ”にマッピングされる。意味構造16はノードを図式的に相互接続したものである。各ノードは、入力テキスト14の言語で書かれたトークンを有し、これにピボット言語で書かれた概念が関連している。
In order to form a semantic structure, the NLP module needs to determine what the input word means. For example, the
図2Aに示す例を参照するに、表現“grand tourer(グランドツアラー)”が入力されると、NLPモジュール12は、この表現をCBデータベース内のインスタンス“grand tourer”に接続された語彙単位“grand tourer”と関連させる。“grand tourer”に対応する述語が3Dマッピングデータベース22に存在する場合には、NLPモジュール12は入力表現“grand tourer”を述語“grand tourer”にマッピングさせる。3Dマッピングデータベース22に、述語“grand tourer”が存在しないが、述語“sport car ”が存在する場合には、NLPモジュール12は、表現“grand tourer”を述語“sport car ”にマッピングする。本例は英語で書かれたテキストや、ピボット言語として英語を用いるCBデータベース18及び3Dマッピングデータベース22を参照しているが、テキストが他の言語で書かれている場合にも同じ処理が生じることを理解すべきである。例えば、入力テキスト14を仏語で書くことができ、この場合、表現“voiture grand tourisme”(英語では、grand tourer)が仏語の用語集が設けられているNLPモジュールに入力される。この場合、表現“voiture grand tourisme”は、CBデータベース18のインスタンス“grand tourer”に接続された語彙単位“voiture grand tourisme”に結合される。NLPモジュール12は、述語“grand tourer”が3Dマッピングデータベース22内に存在する場合には、表現“voiture grand tourisme”を述語“grand tourer”にマッピングする。さもなければ、表現“voiture grand tourisme”は述語“sport car ”にマッピングされる。
Referring to the example shown in FIG. 2A, when the expression “grand tourer” is input, the
図2Cを参照するに、ユーザーにより用語“sprints (ダッシュする)”がNLPモジュール12に入力される。NLPモジュール12は、用語“sprints ”を語彙単位“sprint”に接続する。インスタンス“sprint”に対応するアクション述語が3Dマッピングデータベース22内に存在する場合には、NLPモジュールが用語“sprints ”をアクション述語“sprint”にマッピングするとともに用語“sprints ”をインスタント“sprint”に関連させる。しかし、アクション述語“sprint”が存在しない場合には、NLPモジュール12は用語“sprint”をアクション述語“run ”にマッピングする。或いはまた、NLPモジュールが図2Cに示すオントロジーを用いて、動詞“sprint”を表現“run fast(速く走る)”に変換する。この場合、用語“sprints ”はアクション述語“run ”及びモジュレータ述語“fast(速く)”にマッピングされる。
Referring to FIG. 2C, the term “sprints” is entered into the
入力されたワードが一旦対応するインスタンス又は概念に関連し、対応する述語にマッピングされると、NLPモジュール12の意味役割ラベリングモジュールが意味構造16を生じる。図4は、意味構造16の一例を示す。文章“Fred walks very quickly to the table(フレッドはテーブルまで極めて迅速に歩く)”がNLPモジュール12に入力され、このNLPモジュール12が無視するワード“the ”及び“to”を除いてこのNLPモジュール12によりこの文章の各ワードに概念を割り当てる。ワード“Fred(フレッド)”、“walks (歩く)”、“very(極めて)”、“quickly (迅速に)”及び“table (テーブル)”は、語彙単位“Fred”、“walk”、“very”、“quickly ”及び“table ”にそれぞれ関連しており、これらの語彙単位は、概念“human (人間)”、“walking (歩き)”、“intensifier (強調)”、“speed of event(イベントの速度)”及び“table (テーブル)”にそれぞれ関連する。これらの概念“human ”、“walking ”、“intensifier ”、“speed of event”及び“table”も、3Dマッピングデータベース22にマッピングされる。各ワード及びその関連の概念は、意味構造中のノードを占める。文章の動作を表わす関連のワード及び概念は、意味構造の最上部に位置している。他のノードは、文章中での重要度の関数として動作ノードの下側に位置している。又、これらのノードは、これらが果たす統語機能を、これらが依存するノードに対して表わす矢印により接続されている。例えば、ノード“Fred:human”はノード“walks:walking ”に依存し、これらは、ノード“walks:walking ”に対するエージェント(動作主)の役割に依存している。ノード“very:intensifier”は、ノード“quickly:speed of event”に接続されている。その理由は、ワード“very”はワード“quickly ”を修飾し、矢印は、ノード“very:intensifier”がノード“quickly:speed of event”を修飾する程度を表わす為である。意味
役割ラベリングアルゴリズムにより発生されるノードの意味役割はノードを指す矢印に添付される。
Once the entered word is associated with the corresponding instance or concept and mapped to the corresponding predicate, the semantic role labeling module of the
上述したデータベース及びNLPモジュールは、入力されたテキストから抽出された知識を表わすために、テンプレートジェネレータ24によりテンプレートを満たすのに用いられる。テンプレートジェネレータ24は、入力されたテキストに含まれる1つのアクション当り1つのSAATと、各アクションに含まれる各パーティシパントに対し1つのSADTとを発生する。SAAT及びSADTジェネレータ24は、NLPモジュール12から意味構造を受け、CBデータベース18と、3Dマッピングデータベース22と、APIRマトリックスデータベース30に対するアクセスを有する。SAAT及びSADTジェネレータ24は、NLPモジュール12により発生された入力テキスト14の統語構造をも用いる。SAAT及びSADTジェネレータ24は、(言語に依存しない)概念構造を発生する。この概念構造は一種の意味構造であるが、述語やアニメーションシステムにより支持されている意味役割を示すラベルが付されている。概念構造は、時間順序付けされたSAATのグラフとして表わすことができ、各SAATは対応するSADTと関連している。ある意味では、概念構造は、入力テキスト14を論理的に表わすものとして作用する。
The database and NLP module described above are used to fill the template by the
一実施例では、NLPモジュール12により発生された意味構造を用いる場合、SAAT及びSADTジェネレータ24は、全てのアクションを識別する。これらのアクションは、あらゆる意味のトークンを介して、3Dマッピングデータベース22内のアクション述語に対するリンクのための語彙データベースをどこで解析し問い合わせるかをルーピングすることにより検出される。アクション述語にリンクすべきものとして見いだされた何れの意味のトークンもアクションを導入するためのものとみなされる。次に、SAAT及びSADTジェネレータ24は、意味構造の各ノードを2つのパラメータファミリー、すなわち、アクタント対モジュレータに分類する。その区別はノードの意味役割に基づいており、全ての意味役割の静的分類は3Dマッピングデータベース22内に規定されている。SAAT及びSADTジェネレータ24は、前に識別された各アクションを時間的に位置決めする時間グラフを発生する。SAAT及びSADTジェネレータ24は、アクションを順序付けるのに、各意味のトークンの概念的背景の情報と、文法的関係と、APIRマトリックスデータベース30からの情報と、各アクションのアクタントとを考慮する。この時間グラフはステップ4でステンシルとして用いられる。この時間グラフの各ノードには、時間グラフの時間情報を形成する他のノードに対するタイプリンク(前回、次回、同時)が含まれている。又、SAAT及びSADTジェネレータ24は、1つのアクション当たり1つのSAATを発生させ、このSAATと関連するアクションに応じて前に発生された時間グラフ内にこのSAATを配置する。SAAT及びSADTジェネレータ24は、各SAATに対しSADTを発生させ、SADTを対応のSAATに関連づける。SAAT及びSADTで満たされた時間グラフは、SAAT及びSADTジェネレータ24により出力された概念構造を表す。
In one embodiment, when using the semantic structure generated by the
一実施例では、テンプレートジェネレータ24は、第1のステップで、アクションに関する常識的な推論に対し用いられる前提条件、不変条件及び後の条件のような属性述語を発生させる。これらの属性述語は、アクションプランナーモジュールが、アクションの流れに対し明確ではないが本質的なアクションをトリガしうるようにする。これらの属性に用いられる述語のパラメータのドメインは、述語自体に等しい。実際、ドメインは、述語に応じて、意味役割又は概念的背景の何れかとなる。X,Yを意味役割とし、Wをタイプ位置とし、Pをタイプアクション述語とし、Zを概念的背景の数とした、実際に支持された述語を以下の表2に示す。
一実施例では、SAATを6つの部分を以て構成する。各部分は、意味構造と、データベース18、22及び30と、システムとのユーザーのインターアクションとの何れかから抽出された情報を有する。SAATの6つの主区分を以下の表3に示す。
図5は、SAATテンプレートの代表的なフォーマットを示す。本発明の一実施例では、SADTを4部分から構成する。各部分は、意味構造と、非アクション述語と、システムとのユーザーのインターアクションとの何れかから抽出された情報を有する。SADTの4つの主区分を以下の表に示す。
図6は、SADTテンプレートの代表的なフォーマットを示す。テンプレート(SAAT及びSADT)は以下の通りテンプレートジェネレータ24により満たされる。SAATの場合、一般的な情報が、イベント/フルーエント(event/fluent)情報と一緒に、所定のアクション述語に対する3Dマッピングデータベースに存在する情報から直接得られる。この一般的な情報には、論理的な情報及び実存する情報に対する意味構造におけるアクション述語を処理することによりテンプレートジェネレータ24により発生される前提条件及び後の条件も含まれる。この一般的な情報は、アクション述語がフルーエントであるか又はイベントであるかをも表す。アクション述語と関連する概念はこの一般的な情報の一部でもある。動詞テンプレートの区分には、モジュレータ情報に加えてNLPモジュール12により出力された意味構造が含まれている。モジュレータ情報は、“マナー”等のような意味構造の幾つかの特別な意味役割に与えられたフィルタから生ぜしめられ、この情報はアニメーションの使用のためにデジタル化される。モジュレータ情報には、アクション述語に適用される全てのモジュレータ述語が含まれている。時間区分情報には、ジェネレータ24によりアクション述語のイベント/フルーエントから抽出されたアニメーション終了情報、時間グラフ情報及び時間情報が含まれている。時間グラフ情報には、他のアクション述語と関連する前の及び次のSAATへのリンクが含まれている。時間グラフにより、SAATの実行順序が与えられ、この時間グラフはテキストから順次に発生される。APIRマトリックスの情報区分は、特定の時間点における事前のフルーエントを有する現在のアクションユニットを考慮することにより追加される。この情報は更に、意味構造から生じる情報に加えて時間モジュール内にアニメーション終了情報を加えるのにも用いられる。常識的な推論の影響は、述語をAPIRマトリックスデータベース30及びCBデータベース18で解決することにより引き出される。例えば、CBデータベース18を用いた場合、ジェネレータ24により、アクション述語“kiss(キスする)”が“look(見る)”及び“walk(歩く)”のような暗黙的なアクションを有することを決定する。バラク(Barack)は、ヒラリー(Hillary )にキスする前に、ヒラリーを見て、ヒラリーの方向に歩き、最終的に彼女にキスする。テンプレートジェネレータは、アクション述語と、“look”のアクション及び“walk”のアクションに対する対応するテンプレートとを発生させる。ユーザーのインターアクションから得られる如何なる動的情報もユーザーのインターアクションモジュール(ユーザーインタフェースモジュールの結果としてユーザーから供給される情報に対する特別なプレースホルダ)内に記憶されている。
FIG. 6 shows a typical format of the SADT template. The templates (SAAT and SADT) are filled by the
SADTの場合、パーティシパント情報の区分には、SADTが関連している述語に関する全ての静的情報が含まれている。この区分は、SADTが関連している非アクション述語の意味役割、その感情(情動)的な状態等のような情報をも有している。パーティシパントに付随する意味役割や、パーティシパントに適用されるモジュレータ述語や、(うれしい、悲しい等のような)感情的な状態はNLPモジュール12から出力される意味構造16から得られる。CBデータベース18から、又はユーザーのインターアクションを介して得られるアニメ化/非アニメ化情報もSADTのパーティシパント情報の区分内に含まれる。ユーザーインタフェースから得られる他の如何なる情報もこの区分内に配置される。空間情報区分には、SADTが関連している要素のシーンにおける位置に関する情報が含まれている。この位置は意味構造16から抽出される。空間情報には、他の非アクション述語に対するSADTの要素に適用される空間制約も含まれている。これらの空間制約は、3Dマッピングデータベースに含まれている情報を用いることにより決定される。アニメーションチャネルは3D知識マップデータベースから生ぜしめられる。アニメーションチャネルは、アクションがパーティシパントに適用される場合にアニメ化されるこのパーティシパントの部分である。例えば、アクション“walking (歩き)”が人間に適用される場合に、人間の足がアニメーションチャネルである。その理由は、足がアニメ化されて、人間が歩くアクションを実行する為である。アクション“walking ”が蛇に適用される場合には、アニメーションチャネルは蛇の体全体である。動的情報の区分は、感情的な状態、物理的な状態、行動等に影響を及ぼす修飾述語を有する。動的情報は意味構造16から抽出される。又、グラフ情報の区分は、SADTが関連付けられているSAATを表す。
In the case of SADT, the participant information classification includes all static information related to predicates related to SADT. This category also has information such as the semantic role of the non-action predicate with which SADT is related, its emotional (emotional) state, and the like. Semantic roles associated with the participants, modulator predicates applied to the participants, and emotional states (such as happy, sad, etc.) are obtained from the
一実施例によれば、システム中の時間的順序は、以下の仮定(1)及び(2)を用いることにより対処する。
(1)イベントの実行は、これがテキスト中に導入された際に終了される。
(2)フルーエントの実行は、これがテキスト中に導入された際に開始され、この実行は、明確な終了がテキスト中に生じるか、他のあるフルーエント/イベントが導入された結果として、その終了をマークするまで継続される。APIRマトリックスは、イベント又はフルーエントの導入が現存するフルーエントに如何に影響を及ぼすかに関する情報を提供する。述語はイベント又はフルーエントとしてタグ付けされ、この情報は3Dマッピングデータベースから取り出される。
According to one embodiment, the temporal order in the system is addressed by using the following assumptions (1) and (2).
(1) The execution of the event is terminated when it is introduced into the text.
(2) The execution of a fluent begins when it is introduced into the text, and this execution is terminated as a result of a clear end occurring in the text or as some other fluent / event is introduced. Continue until you mark. The APIR matrix provides information about how events or fluent introductions affect existing fluents. The predicate is tagged as an event or fluent, and this information is retrieved from the 3D mapping database.
上述した説明は、6つの区分を有するSAAT及び4つの区分を有するSADTを参照するものであるが、これらの区分の個数は、アニメーションを生ぜしめるのに必要な全ての情報がテンプレート中に存在する限り、変えることができることを理解すべきである。 The above description refers to a SAAT with six sections and a SADT with four sections, but the number of these sections has all the information necessary to produce an animation in the template. It should be understood that as long as it can be changed.
SAAT及びSADTジェネレータ24により発生される概念的な構造の一例を以下に示す。
An example of a conceptual structure generated by the SAAT and
以下のテキストがNLPモジュール内に入力される。
文章1:“Fred walks very quickly to the table. ”
文章2:“Sally looks at him and talks to Mary. ”
文章3:“Mary slowly gives a red book to Paul while he sits on a chair.”
文章4:“Peter tiptoes happily to the table and runs to the door.”
The following text is entered into the NLP module:
Sentence 1: “Fred walks very quickly to the table.”
Sentence 2: “Sally looks at him and talks to Mary.”
Sentence 3: “Mary slowly gives a red book to Paul while he sits on a chair.”
Sentence 4: “Peter tiptoes happily to the table and runs to the door.”
図4、7、8及び9は、これらの文章1、2、3及び4に対しNLPモジュール12により出力される意味構造をそれぞれ示す。文章3におけるワード“book(本)”に関連する形容詞“red (赤い)”は、図8のその対応する意味構造にノードを発生しない。その理由は、テンプレートジェネレータ24はこの文章の統語構造に対するアクセスを有する為である。テンプレートジェネレータ24は、NLPモジュール12により出力された統語構造を用いて本の色を決定する。
4, 7, 8 and 9 show the semantic structures output by the
図10は、テンプレートジェネレータ24から出力される概念構造50の一実施例を示す。文章1に対しSAAT52が発生され、このSAAT52に2つのSADT54及び56が関連付けられている。図7の意味構造を用いることにより、2つのSAAT58及び60が発生される。SAAT58及び60は、これらのSAAT58及び60により記載されたアクションがSAAT52により記載されたアクションの後に生じるということを示すために、SAAT52の下側に位置させる。又、これらのSAAT58及び60は、これらのSAAT58及び60により記載されたアクションが同時に生じることを示すために、同じライン上に位置させる。テンプレートジェネレータ24は、図8に示す意味構造を用いてSAAT62及び64を発生する。図9に示す意味構造に対応するSAAT66及び68は、これらのSAAT66及び68と関連するアクションが順次に生じる為に、一方が他方の下に位置する。
FIG. 10 shows an example of a conceptual structure 50 output from the
概念構造50は、アニメーションを発生させるのに要する全ての情報を含んでおり、アニメーションジェネレータに送られる。このアニメーションジェネレータはこの概念構造を読み出して全ての情報を取り出すようになっている。アニメーションジェネレータはこの情報を用いて、入力されたテキストに相当するアニメーションを発生する。 The conceptual structure 50 contains all the information required to generate an animation and is sent to the animation generator. This animation generator reads out this conceptual structure and extracts all information. The animation generator uses this information to generate an animation corresponding to the input text.
個々のデータ信号の接続を介して互いにつながっている個々の要素の群をブロック線図で示しているが、当業者にとって理解されるように、ハードウェア及びソフトウェアの要素を組み合わせることにより好適な実施例が得られ、図示のデータ経路の多くがコンピュータアプリケーション又は動作システム内のデータ通信により達成されるものである。従って、図示の構造は、本発明の好適な実施例を開示するためのものである。 A group of individual elements connected to each other via individual data signal connections is shown in block diagram form, but, as will be understood by those skilled in the art, a preferred implementation by combining hardware and software elements. An example is obtained, where many of the illustrated data paths are achieved by data communication within a computer application or operating system. Accordingly, the depicted structure is intended to disclose a preferred embodiment of the invention.
本発明は、方法として実行でき、システム、コンピュータ可読媒体、又は電気或いは電子‐磁気信号で実行しうる。上述した本発明の実施例は例示的なものにすぎず、本発明の範囲は、特許請求の範囲によってのみ限定されるものである。 The present invention can be implemented as a method and can be performed on a system, a computer readable medium, or an electrical or electro-magnetic signal. The above-described embodiments of the present invention are illustrative only, and the scope of the present invention is limited only by the claims.
Claims (23)
前記入力テキストを受信するステップと、
前記入力テキストにおいて識別されたアクションに関連する情報を表す第1の組のデータをこの入力テキストから抽出し、少なくともこの第1の組のデータを用いて意味的に注釈されたアクションテンプレートを完成させるステップと、
前記アクションに含まれるあらゆるパーティシパントの記述に関連する情報を表す第2の組のデータを前記入力テキストから抽出し、少なくともこの第2の組のデータを用いて意味的に注釈された記述テンプレートを完成させるステップと、
前記意味的に注釈されたアクションテンプレートと、前記意味的に注釈された記述テンプレートとを前記アニメーションジェネレータに送信するステップと
を具える方法。 A method of converting input text to input for an animation generator,
Receiving the input text;
A first set of data representing information associated with the action identified in the input text is extracted from the input text, and at least the first set of data is used to complete a semantically annotated action template. Steps,
A second set of data representing information relating to the description of any participant included in the action is extracted from the input text and is semantically annotated with at least the second set of data Steps to complete
Transmitting the semantically annotated action template and the semantically annotated description template to the animation generator.
アクション述語に関連する情報と、
このアクション述語に対する意味情報と、
フルーエント/イベントから抽出した時間情報と、
常識的な推論に対する推定情報と
を抽出するステップを有する方法。 The method of claim 1, wherein extracting the first set of data from the input text comprises:
Information related to the action predicate, and
Semantic information for this action predicate,
Time information extracted from fluent / event,
A method comprising the step of extracting estimated information for common sense inference.
アクション中のパーティシパントに関連するパーティシパント情報と、
シーン中のパーティシパントの位置に関連する空間情報と、
パーティシパントの感情的な状態、物理的な状態及び行動のうちの少なくとも1つに影響を及ぼす動的情報と、
パーティシパントを前記アクション述語に結合させるリンクと
を抽出するステップを有する方法。 3. The method of claim 1 or 2, wherein extracting the second set of data from the input text comprises:
Participant information related to the participant in action,
Spatial information related to the position of the participant in the scene,
Dynamic information affecting at least one of the participant's emotional state, physical state and behavior;
Extracting a link that joins a participant to the action predicate.
ユーザー情報を受信するステップと、
このユーザー情報を用いて、前記意味的に注釈されたアクションテンプレートと、前記意味的に注釈された記述テンプレートとの少なくとも一方を完成させるステップと
を具える方法。 7. The method according to any one of claims 1-6, further comprising:
Receiving user information;
Using the user information to complete at least one of the semantically annotated action template and the semantically annotated description template.
前記入力テキストから複数のアクションを決定するステップと、
これらアクションの各々に対し前記第1の組のデータを抽出するステップと、
これらアクションの各々に対し前記意味的に注釈されたアクションテンプレートを完成させるステップと、
これらアクションの各々に関連する各パーティシパント対し前記第2の組のデータを抽出するステップと、
前記各パーティシパントに対し少なくとも1つの前記意味的に注釈された記述テンプレートを完成させるステップと、
少なくとも1つの前記意味的に注釈された記述テンプレートを対応する意味的に注釈されたアクションテンプレートにリンクさせるステップと、
完成された意味的に注釈されたアクションテンプレートを時間的に順序付けることにより、概念構造を発生させるステップと
を具える方法。 The method according to any one of claims 1 to 10, wherein the method further comprises:
Determining a plurality of actions from the input text;
Extracting the first set of data for each of these actions;
Completing the semantically annotated action template for each of these actions;
Extracting the second set of data for each participant associated with each of these actions;
Completing at least one said semantically annotated description template for each said participant;
Linking at least one said semantically annotated description template to a corresponding semantically annotated action template;
Generating a conceptual structure by temporally ordering the completed semantically annotated action templates.
前記入力テキストを受信して意味構造を出力する自然言語処理モジュールと、
意味情報を記憶する概念的背景のデータベースと、
アクション述語に対する常識的な知識を記憶する述語インターアクションデータベースと、
アクション述語の定義及びこれに関連するパラメータを記憶する3次元マッピングデータベースと、
前記自然言語処理モジュールから前記意味構造を受信し、アクションに関連する情報を表す第1のテンプレートと、これらアクションに含まれるあらゆるパーティシパントの記述に関連する情報を表す第2のテンプレートとを、前記データベースに含まれる情報を用いて自動的に完成させ、これら第1のテンプレート及び第2のテンプレートを前記アニメーションジェネレータに送信するようにしたテンプレートジェネレータと
を具えるシステム。 A system that converts input text into input for an animation generator,
A natural language processing module that receives the input text and outputs a semantic structure;
A conceptual background database for storing semantic information;
A predicate interaction database that stores common sense knowledge about action predicates;
A three-dimensional mapping database storing action predicate definitions and associated parameters;
A first template that receives the semantic structure from the natural language processing module and represents information related to actions, and a second template that represents information related to descriptions of all participants included in the actions, A system comprising: a template generator that is automatically completed using information contained in the database and that sends the first template and the second template to the animation generator.
アクション述語に関連する情報と、このアクション述語に対する意味情報と、フルーエント/イベントから抽出した時間情報と、常識的な推論に対する推定情報とを生ぜしめることにより、意味的に注釈されたアクションテンプレートを完成させるステップと、
アクション中のパーティシパントに関連するパーティシパント情報と、シーン中のパーティシパントの位置に関連する空間情報と、パーティシパントの感情的な状態、物理的な状態及び行動のうちの少なくとも1つに影響を及ぼす動的情報と、パーティシパントをアクションに結合させるリンクとを生ぜしめることにより、少なくとも1つの意味的に注釈された記述テンプレートを完成させるステップと
を具え、
前記テンプレートが、前記アニメーションに対し用いる必要がある統語及び意味パラメータを全て包含するようにする方法。 A method for representing information extracted from text for use in creating an animation, the method comprising:
Complete the semantically annotated action template by generating information related to the action predicate, semantic information for this action predicate, time information extracted from the fluent / event, and estimated information for common sense inference Step to
Participant information related to the participant in action, spatial information related to the position of the participant in the scene, and at least one of the emotional state, physical state, and behavior of the participant. Completing at least one semantically annotated descriptive template by generating dynamic information that influences one another and a link that joins the participant to the action;
A method in which the template contains all the syntactic and semantic parameters that need to be used for the animation.
前記自然言語テキストを入力として受信し、意味構造を出力する自然言語処理モジュールと、
意味情報を記憶する概念的背景のデータベースと、
アクション述語に対する常識的な知識を記憶する述語インターアクションデータベースと、
アクション述語の定義及びこれに関連するパラメータを記憶する3次元マッピングデータベースと、
概念構造を発生させ、アクションに関連する情報を表す意味的に注釈されたアクションテンプレートと、これらアクションに含まれるあらゆるパーティシパントの記述に関連する意味的に注釈された記述テンプレートとを自動的に完成させる順序付けアクション構造ジェネレータと
を具え、前記テンプレートは、前記意味構造と前記データベースに含まれる情報とを用いて完成させるようになっているシステム。 A system that parses natural language text describing an action and creates an ordered action structure that should be used to create an animation,
A natural language processing module that receives the natural language text as input and outputs a semantic structure;
A conceptual background database for storing semantic information;
A predicate interaction database that stores common sense knowledge about action predicates;
A three-dimensional mapping database storing action predicate definitions and associated parameters;
Automatically generate semantically annotated action templates that generate conceptual structure and represent information related to actions, and semantically annotated description templates that are related to the description of any participants involved in these actions A sequencing action structure generator for completion, wherein the template is completed using the semantic structure and information contained in the database.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US92494507P | 2007-06-06 | 2007-06-06 | |
| PCT/CA2008/001088 WO2008148211A1 (en) | 2007-06-06 | 2008-06-06 | Time-ordered templates for text-to-animation system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010529542A true JP2010529542A (en) | 2010-08-26 |
Family
ID=40093116
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010510625A Pending JP2010529542A (en) | 2007-06-06 | 2008-06-06 | Time-series templates for text-to-animation systems |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP2165271A1 (en) |
| JP (1) | JP2010529542A (en) |
| WO (1) | WO2008148211A1 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010081225A1 (en) * | 2009-01-13 | 2010-07-22 | Xtranormal Technology Inc. | Digital content creation system |
| KR101652009B1 (en) | 2009-03-17 | 2016-08-29 | 삼성전자주식회사 | Apparatus and method for producing animation of web text |
| US8731339B2 (en) | 2012-01-20 | 2014-05-20 | Elwha Llc | Autogenerating video from text |
| CN109308730A (en) * | 2018-09-10 | 2019-02-05 | 尹岩 | A kind of action planning system based on simulation |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20010049596A1 (en) * | 2000-05-30 | 2001-12-06 | Adam Lavine | Text to animation process |
-
2008
- 2008-06-06 JP JP2010510625A patent/JP2010529542A/en active Pending
- 2008-06-06 WO PCT/CA2008/001088 patent/WO2008148211A1/en not_active Ceased
- 2008-06-06 EP EP08757220A patent/EP2165271A1/en not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| WO2008148211A1 (en) | 2008-12-11 |
| EP2165271A1 (en) | 2010-03-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Gebhard et al. | Visual scenemaker—a tool for authoring interactive virtual characters | |
| Maier | Presupposing acquaintance: a unified semantics for de dicto, de re and de se belief reports | |
| Liang et al. | A comprehensive survey and guide to multimodal large language models in vision-language tasks | |
| Basu et al. | Knowledge-driven natural language understanding of english text and its applications | |
| US11544041B2 (en) | Next generation digitized modeling system and methods | |
| Fliedl et al. | Deriving static and dynamic concepts from software requirements using sophisticated tagging | |
| Sur | RBN: enhancement in language attribute prediction using global representation of natural language transfer learning technology like Google BERT | |
| Pichl et al. | Alquist 3.0: Alexa prize bot using conversational knowledge graph | |
| Jain et al. | Vishit: A visualizer for hindi text | |
| JP2010529542A (en) | Time-series templates for text-to-animation systems | |
| Porzel | Contextual computing: models and applications | |
| Krishnaswamy et al. | A formal analysis of multimodal referring strategies under common ground | |
| Scheutz et al. | A real-time robotic model of human reference resolution using visual constraints | |
| Corblin | Compositionality and complexity in multiple negation | |
| Couto et al. | Application of ontologies in identifying requirements patterns in use cases | |
| US8706477B1 (en) | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code | |
| Hinzen | Recursion and truth | |
| Dethlefs et al. | Optimising natural language generation decision making for situated dialogue | |
| Saulwick | Lexpresso: a controlled natural language | |
| Filhol et al. | Synthesising Sign Language from semantics, approaching" from the target and back" | |
| Maxwell | Grammar debugging | |
| Heitsch et al. | High-level Petri Nets for a Model of Organizational Decision Making | |
| Pineda et al. | Dialogue model specification and interpretation for intelligent multimodal HCI | |
| Pastra | Vision-language integration: a double-grounding case. | |
| Xue et al. | Constructing Controlled English for Both Human Usage and Machine Processing. |