JP5578571B2 - Multimodal dialogue program, system and method considering input / output device information - Google Patents
Multimodal dialogue program, system and method considering input / output device information Download PDFInfo
- Publication number
- JP5578571B2 JP5578571B2 JP2011080019A JP2011080019A JP5578571B2 JP 5578571 B2 JP5578571 B2 JP 5578571B2 JP 2011080019 A JP2011080019 A JP 2011080019A JP 2011080019 A JP2011080019 A JP 2011080019A JP 5578571 B2 JP5578571 B2 JP 5578571B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- probability
- dialogue
- terminal
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、マルチモーダル対話(Multimodal Interaction)システムの技術に関する。 The present invention relates to a technique of a multimodal interaction system.
「マルチモーダル対話システム」は、文字による入力情報だけではなく、音声処理や画像処理の技術を用いて、ユーザと対話的にシナリオを進行することよって、最適な結果へ導く技術をいう。この技術によれば、自然な対話によって、ユーザ毎に最適に対象機器を制御することができる。「マルチモーダル」とは、「多モード」を意味し、文字のほか、音声や映像等の異なるメディアを用いることができることを意味する。 The “multimodal dialogue system” refers to a technology that leads to an optimum result by advancing a scenario interactively with a user using not only input information by characters but also voice processing and image processing techniques. According to this technology, it is possible to optimally control the target device for each user through natural dialogue. “Multi-modal” means “multi-mode” and means that different media such as audio and video can be used in addition to characters.
従来、人間に対する対話の待ち時間を短縮することによって、自然な対話を実現した対話装置の技術がある(例えば特許文献1参照)。この技術によれば、端末は、PDA(Personal Digital Assistance)やパーソナルコンピュータであって、ユーザからの音声を入力するマイク部と、ユーザの身体の動きを撮影するビデオカメラ部とを有する。マイク部によってユーザの声が検出されなくても、ビデオカメラ部によって撮影された身体の動き、例えば「相づち」を検出することによって、対話の終了(応答)を予測することができる。ユーザにおける対話の終了を検出することによって、次の対話シナリオへ進行することができ、人間に対する応答の待ち時間を短縮することができる。 2. Description of the Related Art Conventionally, there is a technology of a dialogue device that realizes a natural dialogue by shortening the waiting time for dialogue with a human (see, for example, Patent Document 1). According to this technique, the terminal is a PDA (Personal Digital Assistance) or a personal computer, and includes a microphone unit that inputs voice from the user and a video camera unit that captures the movement of the user's body. Even if the voice of the user is not detected by the microphone unit, the end (response) of the dialogue can be predicted by detecting the body movement taken by the video camera unit, for example, “coincidence”. By detecting the end of the dialogue in the user, it is possible to proceed to the next dialogue scenario, and to shorten the waiting time for the response to the human.
また、マルチモーダル対話システムを、オンラインショッピング(Online Shopping)に適用した技術もある(例えば非特許文献1参照)。この技術によれば、ショッピングで用いるドキュメントを格納するドキュメントサーバモジュールと、対話進行を管理する対話制御モジュールと、入出力端末を管理するフロントエンドモジュールとから構成される。ドキュメントサーバモジュールが蓄積するドキュメントとは、例えば、対話シナリオ、顧客・商品データ(XML(Extensible Markup Language)形式)、表示スタイル等を含む。このシステムによれば、フロントエンドモジュールを搭載する端末として、パーソナルコンピュータを想定している。パーソナルコンピュータにおける音声入力部、ポインティング入力部、合成音声出力部、擬人化エージェント出力部等を利用して、ショッピング対話を進行することができる。 There is also a technique in which a multimodal dialogue system is applied to online shopping (see, for example, Non-Patent Document 1). According to this technology, it is composed of a document server module for storing documents used for shopping, a dialog control module for managing the progress of dialog, and a front-end module for managing input / output terminals. The document stored in the document server module includes, for example, a dialogue scenario, customer / product data (XML (Extensible Markup Language) format), display style, and the like. According to this system, a personal computer is assumed as a terminal on which a front end module is mounted. A shopping dialogue can be performed using a voice input unit, a pointing input unit, a synthesized voice output unit, an anthropomorphic agent output unit, and the like in a personal computer.
更に、部分観測マルコフ決定過程POMDP(Partially-Observed Markov Decision Process)を用いた対話心理学習の技術もある(例えば特許文献2参照)。部分観測マルコフ決定過程(以下「POMDP」という)とは、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する処理をいう。以下では、POMDPについて、詳細に説明する。 Furthermore, there is a technology of interactive psychological learning using a partially-observed Markov decision process POMDP (Partially-Observed Markov Decision Process) (see, for example, Patent Document 2). The partial observation Markov determination process (hereinafter referred to as “POMDP”) refers to a process of determining the action a in the state s so that the reward Vt is maximized using the reward expectation value r (s, a). Hereinafter, POMDP will be described in detail.
図1は、POMDPを対話システムに適用したシステム構成図である。 FIG. 1 is a system configuration diagram in which POMDP is applied to an interactive system.
図1によれば、対話サーバモジュールプログラム1と、端末モジュールプログラム2とから構成されている。例えば、対話サーバモジュールプログラム1はサーバによって実行され、ネットワークを介して、端末モジュールプログラム2は端末によって実行される。
According to FIG. 1, the dialogue
対話サーバモジュールプログラム1は、報酬期待値蓄積部11と、POMDP部12と、対話シナリオ蓄積部13と、回答情報受信部14と、対話シナリオ送信部15とを有する。
The dialogue
報酬期待値蓄積部11は、状態sで行動aを実行した際に得られる報酬期待値r(s,a)を蓄積している。「報酬期待値」とは、状態sで行動aを実行した際に得られる報酬の「見込み」を表したものである。報酬期待値r(s,a)は、一般に、経験値によって設定される。
The expected reward
対話シナリオ蓄積部13は、行動a毎に、端末に送信すべき対話シナリオを蓄積している。「対話シナリオ」とは、質問と回答とからなるツリー状に表現されるデータ構造をいう。例えば、質問「何色の機種がお好みですか?」に対する、回答「赤色」「青色」「白色」等に応じて、色毎に異なる次の質問(又は情報提供)へ移行する。
The dialogue
部分観測マルコフ決定過程POMDP部12は、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する。図1によれば、POMDP部12は、行動系列蓄積部121と、確率分布算出部122と、報酬算出部123と、行動決定部124とを有する。
The partial observation Markov decision
行動系列蓄積部121は、以下の確率を蓄積している。
・観測期待確率P(o'|s',a):
行動aを実行した後の状態s'について観測o'を受け取る確率
・状態遷移確率P(s'|s,a):
行動aを実行した後に状態sから状態s'へ移行する確率
ここで、以下のように定義する。
S:有限な「状態s」の集合,{s}
O:有限な「観測o」の集合,{o}
A:有限な「行動a」の集合,{a}
The action
・ Observation expectation probability P (o ′ | s ′, a):
Probability of receiving observation o 'for state s' after execution of action a-State transition probability P (s' | s, a):
Probability of transition from state s to state s ′ after executing action a Here, the definition is as follows.
S: finite set of “states s”, {s}
O: a set of finite “observations o”, {o}
A: A finite set of “actions a”, {a}
観測期待確率P(o'|s',a)及び状態遷移確率P(s'|s,a)は、大量の対話シミュレーションの実験による蓄積された行動系列データ(学習データ)に基づいて、機械学習分野における強化学習(例えばQ-learningやTD-learning)方法で得られる。 The observation expectation probability P (o ′ | s ′, a) and the state transition probability P (s ′ | s, a) are determined based on the action sequence data (learning data) accumulated by a large amount of dialog simulation experiments. Reinforcement learning (for example, Q-learning or TD-learning) in the learning field
「状態s」は、以下のような4つに区分される。
「s0」:初期状態
「s1」:ユーザからの回答情報の入力なし
「s2」:対話シナリオの範囲内で、ユーザからの回答情報の入力あり
「s3」:ユーザからの回答の入力は必要なく、次の動作へ自動遷移
「s4」:その他の状態
The “state s” is divided into the following four.
“S0”: Initial state “s1”: No input of answer information from the user “s2”: Input of answer information from the user within the range of the dialogue scenario “s3”: No input of answer from the user is required , Automatic transition to the next action “s4”: Other states
「行動a」は、以下のように3つに区分される。
「ain」:入力受け付け
「aout」:情報を提供する
「await」:待機
ここで、各行動aは、対話シナリオ蓄積部13に蓄積された各対話シナリオと対応付けられている。例えば、「携帯電話機の機種選定」をタスクとした場合に、以下のような行動aの対話シナリオがある。
「ain」:入力受け付け
「携帯電話の色を入力」、「年齢を入力」、・・・
「aout」:情報を提供する
「対話装置の紹介」、「携帯電話の色に関する質問」、・・・
“Action a” is divided into three as follows.
“Ain”: Accepting input “aout”: Providing information “await”: Waiting Here, each action a is associated with each dialogue scenario stored in the dialogue
"Ain": Accept input
"Enter cell phone color", "Enter age", ...
“Aout”: Provides information
"Introduction of interactive device", "Question about color of mobile phone", ...
確率分布算出部122は、観測期待確率P(o'|s',a)と状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出する。確率分布とは、各状態s(確率変数)に対する、その起こりやすさを表す。対話状態に応じて最適な行動系列を出力する方策関数を決めるために、時刻tにおける状態の確率分布bt(s')は、1つ前の時刻における状態の確率分布bt-1(s)を用いて、以下の式によって算出される。
報酬算出部123は、報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出する。行動系列aτ+tが与えられた場合、時刻t以降に獲得できる報酬Vtは、以下の式によって表される。
行動決定部124は、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する。ここで、決定された行動aに対応する対話シナリオを、対話シナリオ蓄積部13から取得する。取得された対話シナリオは、ユーザに対して提示される。
The
回答情報受信部14は、端末モジュールプログラム2から、入力デバイスに基づく回答情報を受信する。受信された回答情報は、POMDP部12の行動決定部124へ入力される。
The answer
対話シナリオ送信部15は、POMDP部12の行動決定部124によって取得された対話シナリオを、端末モジュールプログラム2へ送信する。
The dialogue
端末モジュールプログラム2は、ユーザに対する入力デバイス及び出力デバイスを有する。入力デバイスがマイクである場合、入力音声処理部は、マイクによって取得された音声信号を回答情報に変換し、その回答情報を対話モジュールプログラム1へ送信する。また、出力デバイスがスピーカである場合、出力音声処理部は、対話モジュールプログラム1から受信した回答情報を音声信号に変換し、その音声信号がスピーカから出力される。
The
近年、ユーザ操作可能な端末は、パーソナルコンピュータに限られず、カーナビゲーション端末、デジタルサイネージ端末、デジタルフォトフレーム、携帯電話機、スマートフォン等、様々な機器に広がってきた。これら多様な端末に、対話的(インタラクティブ)なインタフェースをユーザに提供することによって、様々な機器に対する操作の利便性を向上させることが期待されている。 In recent years, terminals that can be operated by a user are not limited to personal computers, but have spread to various devices such as car navigation terminals, digital signage terminals, digital photo frames, mobile phones, and smartphones. It is expected that convenience of operation for various devices is improved by providing an interactive interface to these various terminals.
しかしながら、対話シナリオは、一般に、端末に搭載される入出力デバイスに対応させて記述されている。前述した特許文献1及び非特許文献1によれば、端末が、マイク部及びビデオカメラ部を予め搭載していることを前提としており、その対話シナリオも、マイク部及びビデオカメラ部を用いるように予め設計されている。そうすると、マイク部及びビデオカメラ部を予め搭載していないカーナビゲーション端末やデジタルサイネージ端末等は、この対話システムに適用することはできない。即ち、対話シナリオは、搭載されている入出力デバイスが異なる端末毎に、設計又は調整されなければならない。
However, the dialogue scenario is generally described corresponding to an input / output device mounted on the terminal. According to
一方で、近年、端末毎に、多様な入出力デバイスが複数搭載されている。入出力デバイスとしても、例えば、カメラ、タッチパネル、ディスプレイ(タッチパネルディスプレイ、マルチタッチスクリーン、3次元ディスプレイ)、マイク、スピーカ(イヤホン)、加速度センサ、地磁気センサ、温度センサ、気圧センサ、振動子等、様々なものがある。また、同一種別の入出力デバイスであっても、その端末種別に応じて、異なる特性(例えば表示サイズ)を搭載している場合もある。このような様々な入出力デバイスを搭載した端末毎に、対話シナリオを設計又は調整することは高コストを招く。 On the other hand, in recent years, a plurality of various input / output devices are mounted for each terminal. Various input / output devices such as cameras, touch panels, displays (touch panel displays, multi-touch screens, three-dimensional displays), microphones, speakers (earphones), acceleration sensors, geomagnetic sensors, temperature sensors, barometric sensors, vibrators, etc. There is something. Even in the same type of input / output device, different characteristics (for example, display size) may be mounted depending on the terminal type. Designing or adjusting a dialogue scenario for each terminal equipped with such various input / output devices results in high costs.
そこで、本発明は、1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させることができるマルチモーダル対話プログラム、システム及び方法を提供することを目的とする。 Therefore, the present invention provides a multimodal dialogue program, system and method capable of causing a different dialogue scenario to progress for each terminal equipped with various input / output devices by designing only one dialogue scenario. Objective.
本発明によれば、ユーザ操作に基づく端末との間で、そのユーザと対話的にシナリオを進行するようにコンピュータを機能させるマルチモーダル対話サーバプログラムであって、
行動a毎に、端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積手段と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積手段と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積手段と、
端末に搭載された1つ以上のデバイス種別の有無を取得するデバイス種別取得手段と、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出するデバイス可用報酬値算出手段と、
報酬期待値蓄積手段の報酬期待値r(s0,a0)に対して、デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する報酬期待値算出手段と、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)処理手段と、
対話シナリオ蓄積手段から、決定された行動aに基づく対話シナリオを取得し、該対話シナリオを端末へ送信する対話シナリオ送信手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a multimodal dialogue server program that allows a computer to function to advance a scenario interactively with the user between terminals based on a user operation,
Dialog scenario storage means for storing a dialog scenario to be transmitted to the terminal for each action a;
Remuneration expected value accumulation means for accumulating an expected reward value r (s0, a0) obtained when the action a is executed in the state s;
Device action probability accumulation means for accumulating device action probability r (sd0, ad0) in each device action ain / aout available in state s for each of a plurality of different input / output devices;
Device type acquisition means for acquiring the presence or absence of one or more device types installed in the terminal;
Device available reward value calculating means for calculating the device available reward value r (sd, ad) by multiplying the presence / absence of the device type of the terminal and the device action probability r (sd0, ad0) for each input / output device; ,
Reward expected value calculating means for calculating a reward expected value r (s, a) obtained by weighting a device available reward value r (sd, ad) with respect to a reward expected value r (s0, a0) of the reward expected value accumulating means; ,
A partial observation Markov decision POMDP (Partially-Observed Markov Decision Process) processing means for determining an action a in the state s so that the reward Vt is maximized using the expected reward value r (s, a);
A dialog scenario based on the determined action a is acquired from the dialog scenario storage means, and the computer is caused to function as dialog scenario transmission means for transmitting the dialog scenario to a terminal.
本発明のマルチモーダル対話サーバプログラムにおける他の実施形態によれば、
部分観測マルコフ決定処理手段は、
行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積手段と、
観測期待確率P(o'|s',a)と状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出する確率分布算出手段と、
報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出する報酬算出手段と、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する行動決定手段と
を含むものであってもよい。
According to another embodiment of the multimodal dialog server program of the present invention,
The partial observation Markov decision processing means
Observation expectation probability P (o ′ | s ′, a) for receiving observation o ′ for state s ′ after execution of action a, and state transition probability P for transitioning from state s to state s ′ after execution of action a action sequence accumulating means for accumulating (s ′ | s, a);
A probability distribution calculating means for calculating a probability distribution bt (s) at time t using the observation expected probability P (o ′ | s ′, a) and the state transition probability P (s ′ | s, a);
A reward calculating means for calculating a reward Vt using an expected reward value r (s, a) and a probability distribution bt (s);
It may include action determining means for determining the action a in the state s so that the reward Vt is maximized using the expected reward value r (s, a).
本発明のマルチモーダル対話サーバプログラムにおける他の実施形態によれば、
デバイス行動確率蓄積手段について、デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率であり、
デバイス可用報酬値算出手段について、端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものであってもよい。
According to another embodiment of the multimodal dialog server program of the present invention,
Regarding the device action probability accumulation means, the device action probability r (sd0, ad0) indicates whether or not the device can be used for the dialogue scenario, ranging from 1 (should be used) to 0 to -1 (not to be used). The probability expressed by
Regarding the device available reward value calculation means, the presence / absence of one or more device types mounted on the terminal may be represented by 1 (valid) / 0 (invalid).
本発明によれば、前述のマルチモーダル対話サーバプログラムをコンピュータで機能させる対話サーバと、
ユーザ操作可能であって、1つ以上の入力/出力デバイスを有する端末と、
を有するマルチモーダル対話システムであって、
端末は、
デバイス種別毎の有効/無効を、対話サーバへ送信するデバイス情報送信手段と、
対話サーバから受信した対話シナリオを、出力デバイスによってユーザへ提示する出力デバイス制御手段と、
ユーザ操作によって入力された入力デバイスに対する回答情報を、対話サーバへ送信する入力デバイス制御手段と
を有することを特徴とする。
According to the present invention, a dialog server that causes the above-described multimodal dialog server program to function on a computer;
A user-operable terminal having one or more input / output devices;
A multimodal dialogue system comprising:
The terminal
Device information transmission means for transmitting the validity / invalidity for each device type to the dialogue server
An output device control means for presenting a dialog scenario received from the dialog server to the user by an output device;
It has an input device control means which transmits the reply information with respect to the input device input by user operation to a dialogue server.
本発明のマルチモーダル対話システムにおける他の実施形態によれば、
システムは、ユーザ観測情報分析サーバを更に有し、
端末は、当該入力デバイス毎に検出された観測特徴量を、ユーザ観測分析サーバへ送信する観測特徴量送信手段を更に有し、
ユーザ観測情報分析サーバは、端末から受信した観測特徴量に基づいて、ユーザにおける回答情報を導出し、該回答情報を、対話サーバへ送信する
ものであってもよい。
According to another embodiment of the multimodal interaction system of the present invention,
The system further includes a user observation information analysis server,
The terminal further includes an observation feature value transmission means for transmitting the observation feature value detected for each input device to the user observation analysis server,
The user observation information analysis server may derive answer information for the user based on the observation feature quantity received from the terminal, and transmit the answer information to the dialogue server.
本発明によれば、ユーザ操作に基づく端末と、そのユーザと対話的にシナリオを進行する対話サーバとを有するシステムにおけるマルチモーダル対話方法であって、
対話サーバは、
行動a毎に、端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積部と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積部と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積部と
を有し、
対話サーバが、
端末に搭載された1つ以上のデバイス種別の有無を取得する第1のステップと、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出する第2のステップと、
報酬期待値蓄積部の報酬期待値r(s0,a0)に対して、デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する第3のステップと、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定過程POMDPの第4のステップと、
対話シナリオ蓄積部から、決定された行動aに基づく対話シナリオを取得し、該対話シナリオを端末へ送信する第5のステップと
を有することを特徴とする。
According to the present invention, there is provided a multimodal dialogue method in a system having a terminal based on a user operation and a dialogue server that interactively progresses a scenario with the user,
The conversation server
A dialogue scenario storage unit that stores dialogue scenarios to be transmitted to the terminal for each action a;
An expected reward value accumulating unit that accumulates an expected reward value r (s0, a0) obtained when the action a is executed in the state s;
A device action probability accumulation unit that accumulates device action probabilities r (sd0, ad0) in each device action ain / aout available in the state s for each of a plurality of different input / output devices;
The conversation server
A first step of acquiring presence / absence of one or more device types installed in the terminal;
A second step of multiplying the input / output device by the presence / absence of the device type of the terminal and the device action probability r (sd0, ad0) to calculate a device available reward value r (sd, ad);
A third step of calculating an expected reward value r (s, a) obtained by weighting the device available reward value r (sd, ad) with respect to the expected reward value r (s0, a0) of the expected reward value accumulation unit;
A fourth step of the partial observation Markov decision process POMDP for determining the action a in the state s so that the reward Vt is maximized using the reward expectation value r (s, a);
And a fifth step of acquiring a dialogue scenario based on the determined action a from the dialogue scenario storage unit and transmitting the dialogue scenario to the terminal.
本発明のマルチモーダル対話方法における他の実施形態によれば、
対話サーバは、行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積部を更に有し、
対話サーバの第4のステップについて、
観測期待確率P(o'|s',a)と状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出するステップと、
報酬期待値r(s,a)と確率分布bt(s)とを用いて、報酬Vtを算出するステップと、
報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定するステップと
を含むものであってもよい。
According to another embodiment of the multimodal interaction method of the present invention,
The dialogue server transitions from the state s to the state s ′ after executing the action a, and the observation expected probability P (o ′ | s ′, a) that receives the observation o ′ for the state s ′ after the action a is executed. state transition probability P (s' | s, a ) and further comprising the accumulated action sequence storing section,
For the fourth step of the interactive server,
Calculating a probability distribution bt (s) at time t using the observation expected probability P (o ′ | s ′, a) and the state transition probability P (s ′ | s, a);
Calculating the reward Vt using the expected reward value r (s, a) and the probability distribution bt (s);
A step of determining an action a in the state s so that the reward Vt is maximized using the expected reward value r (s, a).
本発明のマルチモーダル対話方法における他の実施形態によれば、
対話サーバのデバイス行動確率蓄積部について、デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率であり、
対話サーバの第2のステップについて、端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものであってもよい。
According to another embodiment of the multimodal interaction method of the present invention,
Regarding the device action probability storage unit of the dialogue server , the device action probability r (sd0, ad0) indicates whether the device can be used for the dialogue scenario from 1 (should be used) to 0-1 (not to be used). ) In the range of
Regarding the second step of the dialogue server, the presence / absence of one or more device types mounted on the terminal may be represented by 1 (valid) / 0 (invalid).
本発明のマルチモーダル対話プログラム、システム及び方法によれば、1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させることができる。 According to the multimodal dialogue program, system, and method of the present invention, different dialogue scenarios can be advanced for each terminal equipped with various input / output devices by designing only one dialogue scenario.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図2は、本発明におけるマルチモーダル対話システムの構成図である。 FIG. 2 is a configuration diagram of a multimodal dialogue system according to the present invention.
図2によれば、対話サーバ1と、様々な種類の端末2とが、ネットワークを介して接続されている。端末2としては、デジタルサイネージ端末、デジタルフォトフレーム、携帯電話機、スマートフォン等があり、各端末には、カメラ、スピーカ、ディスプレイ、センサ等の様々な入出力デバイスが搭載されている。端末2は、例えばWebブラウザにプラグインされたFLASH Player(登録商標)又はOpenGL(登録商標)に基づいて、入出力デバイスが制御される。Adobe Systems社によるFLASH Playerは、音声、動画、ベクターグラフィックスのアニメーションを組み合わせたWebコンテンツを再生するソフトウェアであって、ユーザによる入力操作も可能なアプリケーション実行環境を提供する。Silicon Graphics社によるOpenGLは、グラフィックス処理のためのプログラミングインターフェースを提供する。例えば、ユーザが、FLASHやOpenGLによって表示されたアバタと対話するように実現できる。
According to FIG. 2, the
尚、図2によれば、対話サーバ1は、端末2に送信すべき対話シナリオに基づくコンテンツを、コンテンツサーバ4から取得するものであってもよい。コンテンツサーバ4は、具体的には、対話シナリオに基づく静止画像、動画像、合成音声等のコンテンツを蓄積する。
Note that, according to FIG. 2, the
また、図2によれば、ユーザ動向分析サーバ3が、ネットワークに更に接続されている。ユーザ動向分析サーバ3は、端末2から、入力デバイスにおける観測特徴量を受信し、その特徴を分析することによって、対話サーバ1に対する回答情報を生成する。その回答情報は、対話サーバ1へ送信される。
Moreover, according to FIG. 2, the user
図2によれば、対話サーバ1に搭載されたコンピュータで、対話サーバモジュールプログラムを実行させる。また、端末2に搭載されたコンピュータで、端末モジュールプログラム2を実行させる。勿論、両モジュールプログラムが、単体装置の1つのコンピュータによって一体的に実行されるものであってもよい。本発明によれば、サーバモジュールプログラムと端末モジュールプログラムとそれぞれが実行されるべき対象装置は、特定されるものではない。
According to FIG. 2, the dialogue server module program is executed by the computer mounted on the
図3は、本発明におけるマルチモーダル対話プログラムの機能構成図である。 FIG. 3 is a functional configuration diagram of the multimodal dialogue program in the present invention.
図3によれば、マルチモーダル対話プログラムにおける対話サーバモジュールプログラム1は、ユーザ操作に基づく端末2との間で、そのユーザと対話的にシナリオを進行するようにコンピュータを機能させる。図3によれば、対話サーバモジュールプログラム1は、図1と同様に、報酬期待値蓄積部11と、部分観測マルコフ決定過程POMDP部12と、対話シナリオ蓄積部13と、回答情報受信部14と、対話シナリオ送信部15とを有する。これら機能構成部の処理内容は、基本的に、従来技術として前述した図1と同じである。
According to FIG. 3, the dialogue
本発明の対話サーバモジュールプログラム1によれば、更に、デバイス行動確率蓄積部16と、デバイス種別取得部17と、デバイス可用報酬値算出部18と、報酬期待値算出部19とを有する。
The dialog
[デバイス行動確率蓄積部16]
デバイス行動確率蓄積部16は、複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積している。デバイス行動確率r(sd0,ad0)は、当該対話シナリオに対して当該デバイスの使用可否を、1(使用すべき)〜0〜−1(使用すべきでない)の範囲で表した確率である。
[Device action probability accumulation unit 16]
The device action
デバイス行動aの集合Aは、A{ain,aout,await}であって、例えば以下のように表される。
ain1:「カメラによる入力要求」
ain2:「タッチパネルによる入力要求」
ain3:「マイクによる入力要求」
aout1:「スピーカで情報提供」(音声の発声)
aout2:「ディスプレイで情報提供」(吹き出しによって文字の表示)
aout3:「ディスプレイで関連情報の提供」(関連画像の表示)
A set A of device actions a is A {ain, aout, await} and is expressed as follows, for example.
ain1: “Input request by camera”
ain2: "Input request via touch panel"
ain3: “Input request by microphone”
aout1: “Providing information through speakers” (voice production)
aout2: “Providing information on the display” (displaying characters by speech balloons)
aout3: “Providing related information on the display” (displaying related images)
また、例えば以下のような入出力デバイスがあるとする。勿論、以下の入出力デバイスを搭載しているか否かは、ユーザ操作に基づく端末によって異なる。
[入力デバイス]
SM:マイク状態
SC:カメラ状態
ST:タッチパネル状態
[出力デバイス]
SS:スピーカ状態
SD:ディスプレイ状態
Further, for example, assume the following input / output device. Of course, whether or not the following input / output devices are installed differs depending on the terminal based on the user operation.
[Input device]
SM: Microphone status
SC: Camera status
ST: Touch panel status [Output device]
SS: Speaker status
SD: Display status
具体的なデバイス行動確率r(sd0,ad0)のテーブルは、例えば以下のように表される。
例えば、行動「ain1」は、カメラ入力の行動を必要とするために、デバイス「カメラSC」の行動確率値は「1」(使用すべき)となっている。ここで、デバイス「マイクSM」の行動確率値は「−1」(使用すべきでない)であり、デバイス「タッチパネルST」の行動確率値も「−1」(使用すべきでない)である。 For example, since the action “ain1” requires a camera input action, the action probability value of the device “camera SC” is “1” (which should be used). Here, the action probability value of the device “microphone SM” is “−1” (not to be used), and the action probability value of the device “touch panel ST” is also “−1” (not to be used).
また、図3によれば、例えば、行動「aout1」は、音声出力の行動を必要とするために、デバイス「スピーカSS」の行動確率値は「1」(使用すべき)となっている。ここで、デバイス「ディスプレイSD」の行動確率値は「0.5」である。これは、音声出力の行動「aout1」の場合であっても、出力デバイスとしてディスプレイを用いる確率は、幾分高いことを意味する(1〜0〜−1の範囲によれば、0.5は上位1/4に相当)。尚、デバイス行動確率のテーブル値は、経験値によって設定するか、又は、大量の利用者評価データに基づいた統計値によって設定する。 Also, according to FIG. 3, for example, the action “aout1” requires an action of sound output, and therefore the action probability value of the device “speaker SS” is “1” (should be used). Here, the action probability value of the device “display SD” is “0.5”. This means that the probability of using a display as the output device is somewhat higher even in the case of the voice output action “aout1” (0.5 is 0.5 according to the range from 1 to −1). Equivalent to the top 1/4). The device action probability table value is set by an experience value or a statistical value based on a large amount of user evaluation data.
[デバイス種別取得部17]
デバイス種別取得部17は、端末に搭載された1つ以上のデバイス種別の有無を取得する。例えば端末がフォトフレームである場合、端末は、以下のようなデバイス種別情報を、対話サーバ1へ送信する。
Sd_t=「SM,SC,ST,SS,SD」=「0,0,1,1,1」
0:無効 1:有効
このデバイス種別情報によれば、当該端末は、タッチパネル、スピーカ及びディスプレイを搭載しているが、マイク及びカメラは搭載していないことを表す。また、端末は、入出力デバイスの有無が変化した際に、リアルタイムに、デバイス種別情報を対話サーバ1へ送信する。
[Device Type Acquisition Unit 17]
The device
Sd_t = “SM, SC, ST, SS, SD” = “0,0,1,1,1”
0: Invalid 1: Valid According to this device type information, the terminal is equipped with a touch panel, a speaker, and a display, but is not equipped with a microphone and a camera. In addition, the terminal transmits device type information to the
[デバイス可用報酬値算出部18]
デバイス可用報酬値算出部18は、入力/出力デバイス毎に、当該端末のデバイス種別の有無と、デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出する。例えば、デバイス種別情報Sd_t=[SM,SC,ST,SS,SD]=[0,0,1,1,1]と、表1のデバイス行動確率r(sd0,ad0)とを乗算すると、以下のr(SM,ainα)、r(SS,aoutβ)等の確率のテーブルが計算される。αとβはainとaoutそれぞれの添字である。
r(sd,ad)=
(r(SM,ainα)+r(SC,ainα)+r(ST,ainα)+
r(SS,aoutβ)+r(SD,aoutβ))
[Device Usable Reward Value Calculation Unit 18]
The device available reward
r (sd, ad) =
(R (SM, ainα) + r (SC, ainα) + r (ST, ainα) +
r (SS, aoutβ) + r (SD, aoutβ))
[報酬期待値算出部19]
報酬期待値算出部19は、状態sに、行動aを実行した際に得られる報酬期待値r(s0,a0)に対して、デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する。これは、既存の報酬期待値r(s0,a0)を、デバイス可用報酬値r(sd,ad)によって最も適切な行動aに導くことができる。
[Reward Expectation Value Calculation Unit 19]
The expected reward
これによって、部分観測マルコフ決定過程POMDP部12は、報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する。POMDP部12は、前述した式2の中の行動aに対する報酬rについて、以下のように定義される。
sd及びadは、デバイス可用報酬値と対話装置動作タイプに関するパラメータである。
Thus, the partial observation Markov decision
sd and ad are parameters related to the device available reward value and the interaction device operation type.
図4は、本発明における対話シナリオの流れを表す説明図である。 FIG. 4 is an explanatory diagram showing the flow of a dialogue scenario in the present invention.
図4によれば、端末2がフォトフレームの場合であって、そのフォトフレームは、入力デバイスとしてタッチパネルSTを有し、出力デバイスとしてスピーカSS及びディスプレイSDとを有する。
According to FIG. 4, when the
[時刻t=0](状態S0)
初期状態について、r(s0,A)を最大とする動作aを決定する。このとき、以下の動作aが決定されたとする。
動作a=「aout」
デバイス行動=(aout1、aout3)
ここでの対話シナリオは、例えば以下のようになる。
「aout1」:スピーカから、「こちらは携帯電話機の推薦サービスです」と発声する。
「aout3」:ディスプレイに、関連情報として、キャラクタの口から最新機種やキャンペーン情報の文字の吹き出しを表示する。
[Time t = 0] (State S0)
For the initial state, the operation a that maximizes r (s0, A) is determined. At this time, it is assumed that the following operation a is determined.
Action a = “aout”
Device action = (aout1, aout3)
The dialogue scenario here is as follows, for example.
“Aout1”: From the speaker, say “This is a recommended service for mobile phones”.
“Aout3”: As a related information, a balloon of the latest model or a character of campaign information is displayed from the mouth of the character on the display.
[時刻t=1]
次に、前述した式2及び式3(POMDP処理)によって、状態s3へ移行している。そして、報酬Vtが最大となる動作a(デバイス行動)が決定される。例えば以下のように決定されたとする。
動作a(デバイス行動)=(aout1,ain2)
「aout1」:スピーカから、「何の色が好きですか」と発声する。
「ain2」 :タッチパネルに色の選択ボタンを表示して、ユーザのタッチを受け付ける。
[Time t = 1]
Next, the state is shifted to the state s3 by the above-described
Action a (device action) = (aout1, ain2)
“Aout1”: Say “What color do you like” from the speaker.
“Ain2”: A color selection button is displayed on the touch panel to accept a user's touch.
[時刻t=2]
これに対し、ユーザがタッチパネルに対して「赤」ボタンに触れたとする。これによって、回答情報red@touchを得られたとする。次に、前述した式2及び式3(POMDP処理)によって状態s2へ移行している。そして、報酬Vtが最大となる動作a(デバイス行動)が決定される。例えば以下のように決定されたとする。
動作a(デバイス行動)=(aout1,aout3)
「aout1」:スピーカから、「お勧めの赤色の携帯はS005とCA006です」と発声する。
「aout3」:ディスプレイに、S005とCA006の機能情報や口コミ情報のような関連情報を表示する。
[Time t = 2]
In contrast, it is assumed that the user touches the “red” button on the touch panel. As a result, it is assumed that the response information red @ touch is obtained. Next, the state s2 is transferred by the above-described
Action a (device action) = (aout1, aout3)
“Aout1”: From the speaker, “Recommended red cell phones are S005 and CA006”.
“Aout3”: Display related information such as function information and word-of-mouth information of S005 and CA006 on the display.
ここで、時刻t=2のとき、ユーザが、端末2のスピーカをミュート(消音)にしたとする(又はスピーカが故障となってもよい)。このとき、端末2は、対話サーバ1へ、スピーカSSが無効(0)になったことを表すデバイス種別情報を送信する。本発明によれば、端末は、有効/無効のデバイス種別情報をリアルタイムに検出し、その情報は直ぐに対話サーバ1へ送信される。
Here, when the time t = 2, it is assumed that the user has muted the speaker of the terminal 2 (or the speaker may be broken). At this time, the
このとき、以下のように変更される。
Sd_t=「SM,SC,ST,SS,SD」=「0,0,1,0,1」
これによって、デバイス可用報酬値r(sd,ad)も以下のように変更される。
Sd_t = “SM, SC, ST, SS, SD” = “0,0,1,0,1”
As a result, the device available reward value r (sd, ad) is also changed as follows.
これによって、報酬Vtが最大となる動作a(デバイス行動)が異なることとなる。例えば以下のように決定されたとする。
動作a(デバイス行動)=(aout2,aout3)
「aout2」:ディスプレイのキャラクタの口元に「お勧めの赤色の携帯はS005とCA006です」と吹き出し文字で表示される。
「aout3」:ディスプレイに、S005とCA006の機能情報や口コミ情報のような関連情報を表示する。
これによって、スピーカに代えて、ディスプレイを用いて、対話シナリオを進行させることができる。
As a result, the operation a (device action) that maximizes the reward Vt is different. For example, assume that the following is determined.
Action a (device action) = (aout2, aout3)
“Aout2”: “Recommended red cell phone is S005 and CA006” is displayed in a balloon character on the display character's mouth.
“Aout3”: Display related information such as function information and word-of-mouth information of S005 and CA006 on the display.
As a result, a dialogue scenario can be advanced using a display instead of a speaker.
図5は、ユーザ動向分析サーバを含むシステム構成図である。 FIG. 5 is a system configuration diagram including a user trend analysis server.
図5によれば、端末2は、入力デバイス(例えばカメラ、マイク、タッチパネル)から観測特徴量を取得し、その観測特徴量をユーザ動向分析サーバ3へ送信している。観測特徴量としては、例えば以下のようなものがある。
According to FIG. 5, the
「ユーザの顔映像観測特徴量」O_face: カメラから得られる観測特徴量
検出された顔の顔向き情報
顔向き角度の軌跡
ユーザの顔合わせ数
顔映像(静止画像)中から直接取り出した低レベルGabor特徴量
顔画像特徴量(顔画像のHaar-Like特徴量)
「ユーザの音声観測特徴量」O_voice: マイクから得られる観測特徴量
音声のパワー・ピッチの平均・標準偏差・最大・最大−最小値差
音声特徴量(音声パワー情報、MFCC情報、ピッチ情報等)
「ユーザのタッチ操作観測特徴量」O_touch: タッチパネルから得られる特徴量
タッチしたパネル座標
タッチしたイベント情報(リンク情報など)
"User's face image observation feature" O_face: Observed feature value obtained from camera Face face information detected Face trajectory of face angle Number of user's face matching Low-level Gabor feature extracted directly from face image (still image) Face image feature value (Haar-Like feature value of face image)
“User's voice observation feature” O_voice: Observation feature obtained from microphone Audio power / pitch average / standard deviation / maximum / maximum-minimum difference Voice feature (voice power information, MFCC information, pitch information, etc.)
“User touch operation observation feature” O_touch: Feature obtained from touch panel Touched panel coordinates Touched event information (link information, etc.)
端末2は、入力デバイスから取得されたデータを対話サーバ1へ送信すると共に、入力デバイスによって検出された観測特徴量をユーザ動向分析サーバ3へ送信する。ユーザ動向分析サーバ3は、観測特徴量に基づいた回答情報(認識結果)を、対話サーバ1へ送信する。これによって、対話サーバ1は、その回答情報も考慮して、対話シナリオを進行させることができる。
The
以上、詳細に説明したように、本発明のマルチモーダル対話プログラム、システム及び方法によれば、1つの対話シナリオを設計するだけで、様々な入出力デバイスを搭載した端末毎に、異なる対話シナリオを進行させることができる。特に、端末に搭載された入出力デバイスの構成に対応させて、対話シナリオを進行させることができる。 As described above in detail, according to the multimodal dialogue program, system and method of the present invention, it is possible to create different dialogue scenarios for each terminal equipped with various input / output devices by designing only one dialogue scenario. Can be advanced. In particular, the dialogue scenario can be advanced in accordance with the configuration of the input / output device mounted on the terminal.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 マルチモーダル対話プログラム、対話サーバ
11 報酬期待値蓄積部
12 部分観測マルコフ決定過程POMDP部
121 行動系列蓄積部
122 確率分布算出部
123 報酬算出部
124 行動決定部
13 対話シナリオ蓄積部
14 回答情報受信部
15 対話シナリオ送信部
16 デバイス行動確率蓄積部
17 デバイス種別取得部
18 デバイス可用報酬値算出部
19 報酬期待値算出部
2 端末
3 ユーザ動向分析サーバ
4 コンテンツサーバ
DESCRIPTION OF
Claims (8)
行動a毎に、前記端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積手段と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積手段と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積手段と、
前記端末に搭載された1つ以上のデバイス種別の有無を取得するデバイス種別取得手段と、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、前記デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出するデバイス可用報酬値算出手段と、
前記報酬期待値蓄積手段の前記報酬期待値r(s0,a0)に対して、前記デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する報酬期待値算出手段と、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)処理手段と、
前記対話シナリオ蓄積手段から、決定された前記行動aに基づく対話シナリオを取得し、該対話シナリオを前記端末へ送信する対話シナリオ送信手段と
してコンピュータを機能させるマルチモーダル対話サーバプログラム。 A multi-modal dialog server program that allows a computer to function to proceed with a scenario interactively with a user based on a user operation,
Dialog scenario storage means for storing a dialog scenario to be transmitted to the terminal for each action a;
Remuneration expected value accumulation means for accumulating an expected reward value r (s0, a0) obtained when the action a is executed in the state s;
Device action probability accumulation means for accumulating device action probability r (sd0, ad0) in each device action ain / aout available in state s for each of a plurality of different input / output devices;
Device type acquisition means for acquiring presence or absence of one or more device types mounted on the terminal;
Device available reward value calculating means for calculating device available reward value r (sd, ad) by multiplying the input / output device by the presence / absence of the device type of the terminal and the device action probability r (sd0, ad0). When,
Expected reward value for calculating an expected reward value r (s, a) obtained by weighting the device available reward value r (sd, ad) with respect to the expected reward value r (s0, a0) of the expected reward value accumulation unit. A calculation means;
Partial observation Markov decision POMDP (Partially-Observed Markov Decision Process) processing means for determining the action a in the state s so that the reward Vt is maximized using the expected reward value r (s, a);
A multimodal dialog server program for causing a computer to function as dialog scenario transmission means for acquiring a dialog scenario based on the determined action a from the dialog scenario storage means and transmitting the dialog scenario to the terminal.
行動aを実行した後の状態s'について観測o'を受け取る観測期待確率P(o'|s',a)と、行動aを実行した後に状態sから状態s'へ移行する状態遷移確率P(s'|s,a)とを蓄積した行動系列蓄積手段と、
前記観測期待確率P(o'|s',a)と前記状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出する確率分布算出手段と、
前記報酬期待値r(s,a)と前記確率分布bt(s)とを用いて、報酬Vtを算出する報酬算出手段と、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する行動決定手段と
を含むことを特徴とする請求項1に記載のマルチモーダル対話サーバプログラム。 The partial observation Markov decision processing means includes:
Observation expectation probability P (o ′ | s ′, a) for receiving observation o ′ for state s ′ after execution of action a, and state transition probability P for transitioning from state s to state s ′ after execution of action a action sequence accumulating means for accumulating (s ′ | s, a);
A probability distribution calculating means for calculating a probability distribution bt (s) at time t using the observed expected probability P (o ′ | s ′, a) and the state transition probability P (s ′ | s, a); ,
A reward calculating means for calculating a reward Vt using the expected reward value r (s, a) and the probability distribution bt (s);
2. The multimodal according to claim 1, further comprising behavior determining means for determining the behavior a in the state s so that the reward Vt is maximized using the reward expectation value r (s, a). Interactive server program.
前記デバイス可用報酬値算出手段について、前記端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものである
ことを特徴とする請求項1又は2に記載の対話サーバプログラム。 Regarding the device action probability accumulation means, the device action probability r (sd0, ad0) indicates whether the device can be used for the dialogue scenario, from 1 (use) to 0-1 (not use). The probability expressed in the range of
The device usable reward value calculating means is represented by 1 (valid) / 0 (invalid) indicating the presence or absence of one or more device types mounted on the terminal. The interactive server program described in 1.
ユーザ操作可能であって、1つ以上の入力/出力デバイスを有する端末と、
を有するマルチモーダル対話システムであって、
前記端末は、
前記デバイス種別毎の有効/無効を、前記対話サーバへ送信するデバイス情報送信手段と、
前記対話サーバから受信した前記対話シナリオを、出力デバイスによってユーザへ提示する出力デバイス制御手段と、
ユーザ操作によって入力された入力デバイスに対する回答情報を、前記対話サーバへ送信する入力デバイス制御手段と
を有することを特徴とするマルチモーダル対話システム。 A dialogue server that causes the multimodal dialogue server program according to any one of claims 1 to 3 to function on a computer;
A user-operable terminal having one or more input / output devices;
A multimodal dialogue system comprising:
The terminal
Device information transmission means for transmitting validity / invalidity for each device type to the dialogue server;
Output device control means for presenting the dialog scenario received from the dialog server to a user by an output device;
A multimodal dialog system comprising: input device control means for transmitting response information to an input device input by a user operation to the dialog server.
前記端末は、当該入力デバイス毎に検出された観測特徴量を、前記ユーザ観測分析サーバへ送信する観測特徴量送信手段を更に有し、
前記ユーザ観測情報分析サーバは、前記端末から受信した観測特徴量に基づいて、前記ユーザにおける回答情報を導出し、該回答情報を、前記対話サーバへ送信する
ことを特徴する請求項4に記載のマルチモーダル対話システム。 The system further includes a user observation information analysis server,
The terminal further includes an observation feature amount transmitting means for transmitting the observation feature amount detected for each input device to the user observation analysis server,
The said user observation information analysis server derives | leads-out the reply information in the said user based on the observation feature-value received from the said terminal, and transmits this reply information to the said dialogue server. Multimodal dialogue system.
前記対話サーバは、
行動a毎に、前記端末に送信すべき対話シナリオを蓄積した対話シナリオ蓄積部と、
状態sで行動aを実行した際に得られる報酬期待値r(s0,a0)を蓄積した報酬期待値蓄積部と、
複数の異なる入力/出力デバイス毎に、状態sで可用な各デバイス行動ain/aoutにおけるデバイス行動確率r(sd0,ad0)を蓄積したデバイス行動確率蓄積部と
を有し、
前記対話サーバが、
前記端末に搭載された1つ以上のデバイス種別の有無を取得する第1のステップと、
入力/出力デバイス毎に、当該端末のデバイス種別の有無と、前記デバイス行動確率r(sd0,ad0)とを乗算し、デバイス可用報酬値r(sd,ad)を算出する第2のステップと、
前記報酬期待値蓄積部の前記報酬期待値r(s0,a0)に対して、前記デバイス可用報酬値r(sd,ad)を重み付けた報酬期待値r(s,a)を算出する第3のステップと、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定する部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)処理の第4のステップと、
前記対話シナリオ蓄積部から、決定された前記行動aに基づく対話シナリオを取得し、該対話シナリオを前記端末へ送信する第5のステップと
を有することを特徴とするマルチモーダル対話方法。 A multimodal interaction method in a system having a terminal based on a user operation and an interaction server that interactively progresses a scenario with the user,
The dialogue server
For each action a, a dialogue scenario storage unit that stores a dialogue scenario to be transmitted to the terminal;
An expected reward value accumulating unit that accumulates an expected reward value r (s0, a0) obtained when the action a is executed in the state s;
A device action probability accumulation unit that accumulates device action probabilities r (sd0, ad0) in each device action ain / aout available in the state s for each of a plurality of different input / output devices;
The dialogue server is
A first step of acquiring presence / absence of one or more device types mounted on the terminal;
A second step of calculating the device available reward value r (sd, ad) by multiplying the input / output device by the presence / absence of the device type of the terminal and the device action probability r (sd0, ad0);
A reward expectation value r (s, a) is calculated by weighting the device available reward value r (sd, ad) with respect to the reward expectation value r (s0, a0) of the reward expectation value storage unit. Steps,
Fourth step of partial observation Markov decision POMDP (Partially-Observed Markov Decision Process) process for determining action a in state s so that reward Vt is maximized using the expected reward value r (s, a) When,
And a fifth step of acquiring a dialogue scenario based on the determined action a from the dialogue scenario storage unit and transmitting the dialogue scenario to the terminal.
前記対話サーバの第4のステップについて、
前記観測期待確率P(o'|s',a)と前記状態遷移確率P(s'|s,a)とを用いて、時刻tにおける確率分布bt(s)を算出するステップと、
前記報酬期待値r(s,a)と前記確率分布bt(s)とを用いて、報酬Vtを算出するステップと、
前記報酬期待値r(s,a)を用いて、報酬Vtが最大となるように、状態sにおける行動aを決定するステップと
を含むことを特徴とする請求項6に記載のマルチモーダル対話方法。 The dialogue server transitions from the state s to the state s ′ after executing the action a, and the observation expected probability P (o ′ | s ′, a) that receives the observation o ′ for the state s ′ after the action a is executed. a state transition probability P (s' | s, a ) and further comprising the accumulated action sequence storing section,
About a fourth step of the interaction server,
Calculating a probability distribution bt (s) at time t using the observed expectation probability P (o ′ | s ′, a) and the state transition probability P (s ′ | s, a);
Calculating a reward Vt using the expected reward value r (s, a) and the probability distribution bt (s);
The multimodal interaction method according to claim 6, further comprising: determining an action a in the state s so that the reward Vt is maximized using the expected reward value r (s, a). .
前記対話サーバの第2のステップについて、前記端末に搭載された1つ以上のデバイス種別の有無を、1(有効)/0(無効)で表したものである
ことを特徴とする請求項6又は7に記載のマルチモーダル対話方法。 Regarding the device action probability accumulation unit of the dialog server, the device action probability r (sd0, ad0) indicates whether the device can be used for the dialog scenario, from 1 (should be used) to 0-1 (use Is a probability expressed in the range of
The second step of the dialogue server is expressed by 1 (valid) / 0 (invalid) indicating whether one or more device types are installed in the terminal. 8. The multimodal dialogue method according to 7.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011080019A JP5578571B2 (en) | 2011-03-31 | 2011-03-31 | Multimodal dialogue program, system and method considering input / output device information |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011080019A JP5578571B2 (en) | 2011-03-31 | 2011-03-31 | Multimodal dialogue program, system and method considering input / output device information |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012216007A JP2012216007A (en) | 2012-11-08 |
| JP5578571B2 true JP5578571B2 (en) | 2014-08-27 |
Family
ID=47268728
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011080019A Expired - Fee Related JP5578571B2 (en) | 2011-03-31 | 2011-03-31 | Multimodal dialogue program, system and method considering input / output device information |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5578571B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6362861B2 (en) * | 2013-12-25 | 2018-07-25 | Kddi株式会社 | Dialog program, server and method for controlling insertion behavior of dynamic dialog node for dialog scenario |
| JP6147691B2 (en) * | 2014-03-27 | 2017-06-14 | 株式会社デンソーアイティーラボラトリ | Parking space guidance system, parking space guidance method, and program |
| JP6738655B2 (en) * | 2016-06-10 | 2020-08-12 | 株式会社大林組 | Guide display system, guide display method, and guide display program |
| JP7574027B2 (en) * | 2020-09-25 | 2024-10-28 | セコム株式会社 | Interactive Guide Device |
| JP7582317B2 (en) | 2020-09-29 | 2024-11-13 | 日本電気株式会社 | Optimization device, optimization method, and program |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3729918B2 (en) * | 1995-07-19 | 2005-12-21 | 株式会社東芝 | Multimodal dialogue apparatus and dialogue method |
| JP2002032370A (en) * | 2000-07-18 | 2002-01-31 | Fujitsu Ltd | Information processing device |
| JP3979209B2 (en) * | 2002-07-23 | 2007-09-19 | オムロン株式会社 | Data input method and data input device |
| JP2010129033A (en) * | 2008-12-01 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Interactive mental state learning device and method thereof, interactive control device and method thereof, program and recording medium |
-
2011
- 2011-03-31 JP JP2011080019A patent/JP5578571B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012216007A (en) | 2012-11-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102194757B1 (en) | Multi-turn canned conversation | |
| KR102214970B1 (en) | Multi-way conversation | |
| CN109491564B (en) | Virtual robot interaction method, device, storage medium and electronic device | |
| EP4336490A1 (en) | Voice processing method and related device | |
| CN108022586B (en) | Method and apparatus for controlling pages | |
| US11455989B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
| WO2021036644A1 (en) | Voice-driven animation method and apparatus based on artificial intelligence | |
| CN109815462B (en) | A text generation method and terminal device | |
| US20220027574A1 (en) | Method for providing sentences on basis of persona, and electronic device supporting same | |
| CN110599557A (en) | Image description generation method, model training method, device and storage medium | |
| KR102193029B1 (en) | Display apparatus and method for performing videotelephony using the same | |
| JP5578571B2 (en) | Multimodal dialogue program, system and method considering input / output device information | |
| US11163377B2 (en) | Remote generation of executable code for a client application based on natural language commands captured at a client device | |
| KR102787542B1 (en) | Electronic device providing variation utterance text and operating method thereof | |
| US11144175B2 (en) | Rule based application execution using multi-modal inputs | |
| KR101567154B1 (en) | Method for processing dialogue based on multiple user and apparatus for performing the same | |
| WO2022227507A1 (en) | Wake-up degree recognition model training method and speech wake-up degree acquisition method | |
| CN110544287B (en) | A picture processing method and electronic equipment | |
| US12183327B2 (en) | Voice recognition service operating method and electronic device supporting same | |
| CN109522543B (en) | An information processing method and terminal equipment | |
| JP5851051B2 (en) | Information processing apparatus, server apparatus, dialogue system, and program | |
| CN110597973B (en) | Man-machine conversation method, device, terminal equipment and readable storage medium | |
| CN109815349B (en) | Information acquisition method and terminal device | |
| KR20190079706A (en) | User-specific acoustic models | |
| US11961505B2 (en) | Electronic device and method for identifying language level of target |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130814 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140417 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140423 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140512 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140702 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140702 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5578571 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |