[go: up one dir, main page]

JP2009037050A - Dialogue device and dialogue program - Google Patents

Dialogue device and dialogue program Download PDF

Info

Publication number
JP2009037050A
JP2009037050A JP2007201916A JP2007201916A JP2009037050A JP 2009037050 A JP2009037050 A JP 2009037050A JP 2007201916 A JP2007201916 A JP 2007201916A JP 2007201916 A JP2007201916 A JP 2007201916A JP 2009037050 A JP2009037050 A JP 2009037050A
Authority
JP
Japan
Prior art keywords
user
topic
feature amount
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007201916A
Other languages
Japanese (ja)
Inventor
Ryo Murakami
涼 村上
Katsuji Yamashita
勝司 山下
Hitoshi Konosu
仁司 鴻巣
Hoethker Anja
ホットカー アンニャ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2007201916A priority Critical patent/JP2009037050A/en
Publication of JP2009037050A publication Critical patent/JP2009037050A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】自然な対話を成立させながら、利用者を退屈させることのない対話装置を実現する技術を提供する。
【解決手段】対話用データベース30には、複数の話題と、夫々の話題に関連付けられた情報が記憶されている。音声特徴量抽出プログラム24が、利用者の音声の特徴量を抽出する。動作特徴量抽出プログラム26が、利用者の動作の特徴量を抽出する。関心度推定プログラム28は音声と動作の特徴量を変数とする状態空間に設定され、順位付けされた複数の領域を記憶しており、抽出された音声の特徴量と動作の特徴量を要素とする特徴量ベクトルが、いずれの領域に属するかを特定する。対話制御プログラム22は、特定された領域の順位が閾値より低い場合に、選択する話題を切り替える。案内ロボット2は、現在の話題に関して出力した情報に対する利用者の関心が低い場合に話題を切り替えるので、利用者を退屈させることがない。
【選択図】図1
The present invention provides a technology for realizing an interactive apparatus that does not bore users while establishing a natural conversation.
A dialogue database 30 stores a plurality of topics and information associated with each topic. The voice feature amount extraction program 24 extracts the feature amount of the user's voice. The motion feature amount extraction program 26 extracts the feature amount of the user's motion. The degree-of-interest estimation program 28 is set in a state space having voice and motion feature values as variables, stores a plurality of ranked regions, and uses the extracted voice feature values and motion feature values as elements. It is specified to which region the feature vector to be assigned belongs. The dialogue control program 22 switches the topic to be selected when the rank of the identified area is lower than the threshold value. Since the guidance robot 2 switches the topic when the user's interest in the information output regarding the current topic is low, the user is not bored.
[Selection] Figure 1

Description

本発明は、利用者と対話する対話装置と、コンピュータを対話装置として機能させるための対話用プログラムに関する。   The present invention relates to an interactive apparatus for interacting with a user and an interactive program for causing a computer to function as the interactive apparatus.

利用者が発した音声に応答して所定の情報をスピーカから出力することによって、利用者に応対する対話装置が開発されている。そのような対話装置は、例えば、展示会場で展示物の説明を行う案内ロボットなどに適用される。そのような対話装置は、利用者の希望する話題を逐一問いかけたり、利用者にボタン操作を強いたりすることなく、できるだけ自然な応答ができることが望ましい。関心のある話題が何であるか明示的に問いかけたりボタン操作を強いたりしない場合には、利用者を退屈させないように話題を選定して情報を提供することが必要とされる。
特許文献1には、利用者が発する音声に含まれるキーワードを抽出し、抽出したキーワードに関連のある情報を出力することによって、利用者を退屈させずに情報を提供する装置が開示されている。
特許文献1に記載された装置は、異なる話題について対話処理を行う話題制御部を複数個備えている。この装置は、利用者が発した音声からキーワードを抽出し、抽出されたキーワードと各話題制御部が提供する話題との類似度を計算し、最も高い類似度が計算された話題を提供する話題制御部が選択されて、対話処理が実行される。
An interactive device that responds to a user by outputting predetermined information from a speaker in response to a voice uttered by the user has been developed. Such an interactive apparatus is applied to, for example, a guide robot that explains exhibits at an exhibition hall. It is desirable that such an interactive device can respond as naturally as possible without asking each user a topic desired by the user or forcing the user to operate a button. If you are not explicitly asking what the topic you are interested in, or if you do not force a button operation, it is necessary to select a topic and provide information so that the user is not bored.
Patent Document 1 discloses an apparatus that provides information without boring the user by extracting a keyword included in a voice uttered by the user and outputting information related to the extracted keyword. .
The device described in Patent Literature 1 includes a plurality of topic control units that perform dialogue processing on different topics. This device extracts a keyword from the voice uttered by the user, calculates the similarity between the extracted keyword and the topic provided by each topic control unit, and provides the topic for which the highest similarity is calculated A control unit is selected, and interactive processing is executed.

特開2005−301017号公報JP 2005-301017 A

特許文献1の技術は、利用者が発した音声からキーワードが抽出できれば、利用者を退屈させないように新たな話題に関する情報を提供することができるが、キーワードが抽出できない場合には機能しない。特許文献1の技術では、利用者が関心のある話題を推定できるように、キーワードは話題に関連する意味内容を有する単語を選定せざるを得ない。しかしながら、それまで装置が提供している話題と異なる話題に関連する意味内容を有するキーワードを利用者が唐突に発するとは想定し難く、利用者が発する音声から次の話題を推定できる可能性は高くはない。新たな話題に関するキーワードを抽出できなければ現在の話題を継続することになり、利用者を退屈させてしまう。利用者が関心のある話題に関するキーワードを発するように、例えば「関心のある言葉をおっしゃってください」などと誘導する質問を唐突に出力することは対話を不自然にしてしまう。
本発明は、上記の課題に鑑みてなされたものであり、できるだけ自然な対話を成立させながら、利用者を退屈させることのない対話装置を実現することを目的とする。
The technique of Patent Document 1 can provide information on a new topic so as not to bore the user if a keyword can be extracted from the voice uttered by the user, but does not function when the keyword cannot be extracted. In the technique of Patent Document 1, it is necessary to select a word having a semantic content related to a topic so that a user can estimate a topic of interest. However, it is difficult to assume that a user suddenly issues a keyword having a semantic content related to a topic different from the topic provided by the device so far, and the possibility that the next topic can be estimated from the voice emitted by the user is not Not expensive. If keywords related to a new topic cannot be extracted, the current topic will be continued, and the user will be bored. For example, abruptly outputting a question that induces a user to issue a keyword related to a topic of interest, such as “Please tell me a word of interest”, makes the conversation unnatural.
The present invention has been made in view of the above problems, and an object of the present invention is to realize an interactive apparatus that does not bore users while establishing a natural conversation as much as possible.

特許文献1の技術は、利用者にとって関心のある話題を積極的に推定しようとするために、選定するキーワードは、特定の話題に関連する意味内容を示す単語に限定せざるを得ない。
発明者らは、装置が提供している情報に対する利用者の関心の程度を推定し、関心が低い場合に話題を切り替えることによって、利用者を退屈させない対話装置を実現できると考えた。一般に、人と人との対話においては、発話者の動作や表情といったいわゆる非言語情報に、現在の話題に対する発話者の関心の度合いが示されていることが知られている。例えば、発話者が「そうですか」と発した場合、相手を正視して発した場合には発話者が現在の話題に大いに関心を示していると推定することができ、よそを向きながら発した場合には発話者がその話題に対して関心が低いと推定できる。「そうですか」という単語は特定の話題に関連する意味内容を含むものではないが、その単語に付随して発話者が発する非言語情報に、現在の話題に関する発話者の関心の度合いが示されるのである。
本発明は、利用者が発する音声と利用者の動作から、装置が出力した情報に対する利用者の関心の度合いを推定し、関心が低い場合に話題を切り替えることによって、利用者に退屈させない対話装置を実現する。
本発明は、特許文献1の技術と異なり、利用者が関心のある話題を積極的に推定するものではないので、特定の話題に関連する意味内容を有するキーワードに限定する必要がない。本発明に係る対話装置は、利用者が発する音声に含まれている、通常の対話でよく発せられるキーワードではあるが特定の話題にのみ関連付けることができないキーワードに対しても反応し、利用者の関心が低いと推定される場合に話題を切り替えるので、不自然な質問を出力することがない。より自然な対話を行いながら、利用者を退屈させることがない。
In the technique of Patent Document 1, in order to actively estimate a topic of interest to the user, a keyword to be selected must be limited to a word indicating meaning content related to a specific topic.
The inventors have thought that it is possible to realize an interactive device that does not bore the user by estimating the degree of interest of the user with respect to information provided by the device and switching the topic when the interest is low. In general, in a dialogue between people, it is known that the degree of interest of the speaker with respect to the current topic is indicated in so-called non-linguistic information such as the motion and expression of the speaker. For example, if a speaker utters `` Is that so? '', If the speaker utters while looking straight at the other party, it can be estimated that the speaker is very interested in the current topic, and utters while facing away. In this case, it can be estimated that the speaker is less interested in the topic. The word “yes” does not include semantic content related to a specific topic, but the nonverbal information that the speaker speaks with the word indicates the degree of interest of the speaker regarding the current topic. It is.
The present invention estimates the degree of interest of the user with respect to information output from the device based on the voice uttered by the user and the operation of the user, and switches the topic when the interest is low, thereby preventing the user from being bored. To realize.
Unlike the technique of Patent Document 1, the present invention does not actively estimate a topic that the user is interested in, and therefore it is not necessary to limit the keyword to a keyword having meaning content related to a specific topic. The dialogue apparatus according to the present invention also reacts to a keyword included in a voice uttered by a user, which is a keyword that is often issued in a normal dialogue but cannot be associated only with a specific topic. Since the topic is switched when the interest is estimated to be low, an unnatural question is not output. Do not bore users while conducting more natural conversations.

本願発明は、利用者と対話する装置であって、記憶装置、制御手段、マイクロホン、カメラ、音声特徴量抽出手段、動作特徴量抽出手段、及び、状態推定手段を備える。記憶装置は、複数の話題と、夫々の話題に関連付けられた情報を記憶している。制御手段は、記憶装置に記憶された複数の話題から一の話題を選択し、選択した話題に関連付けられた情報(例えば音声データ)を利用者へ音声出力する。マイクロホンは、利用者が発した音声を取得する。カメラは、利用者を撮影する。音声特徴量抽出手段は、マイクロホンが取得した音声から、利用者の音声の特徴量を抽出する。動作特徴量抽出手段は、カメラが撮影した利用者の画像から、利用者の動作の特徴量を抽出する。状態推定手段は、音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域であって相互に順位付けされた複数の領域のデータを記憶している。また状態推定手段は、抽出された音声の特徴量と動作の特徴量を要素とする特徴量ベクトルが、状態空間に設定された複数の領域のいずれの領域に属するかを特定する。制御手段は、状態推定手段によって特定された領域の順位が閾値より低い場合に、選択する話題を切り替えることを特徴とする。ここで、「相互に順位付けされた複数の領域」とは、夫々利用者の関心度のレベルによって順位付けされた領域である。具体的には、利用者の関心度が最も高いと推定される領域に最も高い順位が付されており、次に関心度が高いと推定される領域に第2の順位が付されており、最も関心度が低いと推定される領域に最も低い順位が付されている。各領域の具体的な範囲と、各領域の順位付けは、予め実験等によって特定されている。   The present invention is a device that interacts with a user, and includes a storage device, a control unit, a microphone, a camera, an audio feature amount extraction unit, an operation feature amount extraction unit, and a state estimation unit. The storage device stores a plurality of topics and information associated with each topic. The control means selects one topic from a plurality of topics stored in the storage device, and outputs information (for example, voice data) associated with the selected topic to the user. The microphone acquires the voice uttered by the user. The camera photographs the user. The voice feature amount extraction unit extracts the feature amount of the user's voice from the voice acquired by the microphone. The motion feature amount extraction means extracts a feature amount of the user's motion from the user's image captured by the camera. The state estimating means stores data of a plurality of areas set in a state space having the voice feature quantity and the motion feature quantity as variables, and ranked in relation to each other. In addition, the state estimation means specifies which of a plurality of regions set in the state space the feature amount vector having the extracted speech feature amount and motion feature amount as elements. The control unit switches the topic to be selected when the rank of the area specified by the state estimation unit is lower than a threshold value. Here, “a plurality of regions ranked mutually” is a region ranked according to the level of interest of the user. Specifically, the region that is estimated to have the highest degree of interest of the user is assigned the highest rank, and the region that is estimated to have the next highest interest is assigned the second rank. The region that is estimated to have the lowest interest is assigned the lowest rank. The specific range of each area and the ranking of each area are specified in advance by experiments or the like.

本発明の対話装置は、利用者の関心度を、音声の特徴量と動作の特徴量を変数とする状態空間内で、特徴量ベクトルが位置する領域で推定することができる。特徴量ベクトルが位置する領域の順位付けが閾値よりも高い場合(利用者の関心が高いと推定される場合)には、現在提供している話題に関する情報を継続して出力する。他方で、特徴量ベクトルが位置する領域の順位付けが閾値よりも低い場合(利用者の関心が低いと推定される場合)には、話題を切り替える。出力した情報に対する関心度を表わす特徴量ベクトルが閾値よりも順位付けの低い領域に属する場合には新たな話題に関する情報を利用者に提供するので、利用者を退屈させることがない。新たな話題に対する利用者の関心度を表わす特徴量ベクトルが閾値よりも順位付けの低い領域に属する場合には、さらに別の話題に関する情報を提供する。利用者の関心が低い場合に次々と話題を切り替えることによって、自然な対話を行いながら、利用者を退屈させることがない。なお、記憶装置に記憶された情報とは、具体的には、話題に関するコンテンツの音声データであり、例えば話題が展示物である場合はその展示物の説明の音声データである。   The interactive apparatus according to the present invention can estimate the user's interest level in a region where a feature vector is located in a state space in which a voice feature and a motion feature are variables. When the ranking of the region where the feature vector is located is higher than the threshold (when the user's interest is estimated to be high), information on the currently provided topic is continuously output. On the other hand, when the ranking of the region where the feature vector is located is lower than the threshold (when it is estimated that the user's interest is low), the topic is switched. When the feature vector representing the degree of interest in the output information belongs to an area with a lower ranking than the threshold, information on a new topic is provided to the user, so that the user is not bored. When the feature vector representing the degree of interest of the user with respect to a new topic belongs to an area whose ranking is lower than the threshold value, information related to another topic is provided. By switching topics one after another when the user's interest is low, the user is not bored while performing a natural conversation. The information stored in the storage device is specifically audio data of content related to a topic. For example, when the topic is an exhibit, it is audio data describing the exhibit.

特徴量ベクトルは、抽出された音声の特徴量と動作の特徴量を要素とする。同じ特徴量を有する音声であっても(例えば同じ単語の場合)、利用者の動作によって、利用者の関心の度合いは異なることが多い。例えば、装置が出力した情報に対して利用者が「そうですか」という音声を発した場合、利用者がうなずきながら発した場合には装置が出力した情報に対して関心が高いと推定することができる。他方で、利用者がよそ見をしながら「そうですか」と発した場合には、装置が出力した情報に対して注意力が散漫であり関心が低いと推定することができる。上記の状態推定手段では、音声と動作の特徴量に基づいて関心度を算出することによって、装置が出力した情報に対する利用者の関心の度合いを良く推定することができる。   The feature quantity vector includes the extracted speech feature quantity and motion feature quantity as elements. Even for sounds having the same feature amount (for example, in the case of the same word), the degree of interest of the user often varies depending on the user's action. For example, if the user utters “Yes” to the information output by the device, if the user utters it, it is estimated that the information output by the device is highly interested Can do. On the other hand, if the user says “Is that?” While looking away, it can be estimated that attention is distracted and interest is low with respect to the information output by the device. In the above state estimation means, the degree of interest of the user with respect to the information output by the apparatus can be well estimated by calculating the degree of interest based on the voice and the feature amount of the action.

夫々の話題には、複数の情報(具体的には音声データ)が関連付けられている場合がある。その場合、状態推定手段は、制御手段が一の情報の出力を終了してから次の一の情報の出力を開始して終了するまでの間に取得した複数の特徴量ベクトルの前記状態空間の各領域に対する尤度を算出して記憶し、前記した次の一の情報の出力が終了した時点で状態空間の領域毎にその領域に対する複数の特徴量ベクトルの尤度平均を算出し、最も大きい尤度平均を有する領域を特定することが好適である。
一の情報(前記した「次の一の情報」)に対する利用者の反応(利用者が発する音声や動作)から複数の特徴量ベクトルを取得し、その複数の特徴量ベクトルから総合的に利用者の関心の度合いを推定することができる。
また、一の情報の出力が終了した時点、即ち、次の情報の出力を開始する時点で、現在の話題を継続するか、或いは切り替えるかが判断されるので、より自然な対話が実現される。
Each topic may be associated with a plurality of pieces of information (specifically, audio data). In this case, the state estimation means includes a plurality of feature vectors acquired between the time when the control means ends output of one information and the time when output of the next information starts and ends. The likelihood for each region is calculated and stored, and when the output of the next one piece of information is completed, the likelihood average of a plurality of feature vectors for that region is calculated for each region in the state space, and the largest It is preferable to identify a region having a likelihood average.
A plurality of feature quantity vectors are obtained from a user's reaction (speech and action uttered by the user) to one information (the above-mentioned "next one information"), and the user is comprehensively based on the plurality of feature quantity vectors. The degree of interest can be estimated.
Further, when the output of one information is completed, that is, when the output of the next information is started, it is determined whether the current topic is to be continued or switched, so that a more natural dialogue is realized. .

動作の特徴量は、利用者の頭部の動きの変動幅と変動方向の少なくとも一方を含む、利用者の頭部の動きの経時変動量でよい。例えば、利用者の頭部の動きの変動幅が小さいほど、特徴量ベクトルは高い関心度を示す領域に位置する。利用者の頭部の動きの変動幅が小さい場合には、利用者の注意が装置の出力した情報に集中しており、関心が高いと推定できるからである。また、利用者の頭部の動きの変動方向が水平方向に近いほど、特徴量ベクトルは低い関心度を示す領域に位置する。利用者の頭部の動きの変動方向が水平方向に近いほど、利用者がよそ見をしており装置が出力した情報に対して関心が低いと推定できるからである。
或いは、動作の特徴量は、利用者の表情を特定する特徴量であってもよい。利用者が笑顔であることが特定できた場合には、利用者は装置が出力した情報に満足している、すなわち、装置が出力した情報に関心が高いと推定できるからである。
本発明の対話装置は、状態推定手段によって特定された領域の順位が閾値より低い場合に、選択する話題を切り替える。特定された領域の順位が閾値より高い場合には現在選択されている話題に関する情報の出力を継続する。
The feature amount of the motion may be a temporal variation amount of the user's head movement including at least one of the fluctuation range and the fluctuation direction of the user's head movement. For example, the smaller the fluctuation range of the user's head movement, the higher the feature vector is located in a region showing a high degree of interest. This is because when the fluctuation range of the movement of the user's head is small, the user's attention is concentrated on the information output from the apparatus, and it can be estimated that the user is highly interested. In addition, the feature vector is located in a region that shows a lower degree of interest as the direction of movement of the user's head movement is closer to the horizontal direction. This is because it can be estimated that the closer the fluctuation direction of the movement of the user's head is to the horizontal direction, the less the user is looking away and less interest in the information output by the apparatus.
Alternatively, the feature amount of the action may be a feature amount that specifies the facial expression of the user. This is because if the user can be identified as smiling, the user is satisfied with the information output by the device, that is, it can be estimated that the user is highly interested in the information output by the device.
The dialogue apparatus of the present invention switches the topic to be selected when the rank of the area specified by the state estimation means is lower than the threshold value. When the rank of the identified area is higher than the threshold value, the output of information relating to the currently selected topic is continued.

音声の特徴量は、利用者が発した音声の音量やピッチ、エネルギ、周波数の高低等の音声情報である。ここでいう音声の特徴量とは、単語を特定する要素だけでなく、音声のいわゆる音韻に相当する要素を含むものである。本発明は特に、音声音韻に相当する要素に着目する。その意味では、ここでいう音声の特徴量は、音声に含まれる音韻の特徴量と換言することができる。   The voice feature amount is voice information such as the volume, pitch, energy, and frequency of the voice uttered by the user. Here, the feature amount of speech includes not only an element for specifying a word but also an element corresponding to a so-called phoneme of speech. In particular, the present invention focuses on elements corresponding to phonetic phonemes. In that sense, the feature value of the voice here can be translated into the feature value of the phoneme included in the voice.

音韻の特徴量は、具体的には、利用者の音声の音量の変動幅、或いは音質の変動幅で表すことができる。従って、音声の特徴量は、利用者の音声の音量の変動幅と音質の変動幅の少なくとも一方を含むものであること好ましい。
音韻の特徴量は、動作の特徴量と同様に、出力された情報に対する利用者の興味や関心の度合いを表している。例えば、「そうですか」という言葉が、抑揚の大きな変動幅(音量の大きな変動幅)を伴って発せられた場合と、抑揚の小さな変動幅(音量の小さな変動幅)を伴って発せられた場合とでは、装置が出力した情報に対する利用者の関心度は異なっている。抽出された動作の特徴量と音声の特徴量を要素とする特徴量ベクトルから、装置が出力した情報に対する利用者の関心の度合いを正確に推定することができる。
More specifically, the phoneme feature amount can be expressed by the fluctuation range of the volume of the user's voice or the fluctuation range of the sound quality. Therefore, it is preferable that the voice feature amount includes at least one of the fluctuation range of the sound volume of the user and the fluctuation range of the sound quality.
The phoneme feature quantity represents the degree of interest and interest of the user with respect to the output information in the same manner as the action feature quantity. For example, the word “Is that?” Was issued with a large fluctuation range of the inflection (large fluctuation range of the volume) and with a small fluctuation range of the intonation (small fluctuation range of the volume) In some cases, the user's interest in the information output by the apparatus is different. The degree of interest of the user with respect to the information output from the apparatus can be accurately estimated from the feature amount vector having the extracted feature amount of the motion and the feature amount of the voice as elements.

音声の特徴量は、また、利用者の音声の音量の経時的な変化率の最大値を含むものであることが好ましい。利用者が発した音声の音量の経時的な変化率の最大値についても、利用者が関心を持っている場合の方が、関心がない場合に比べて大きくなる。従って、利用者が発した音声の音量の経時的な変化率の最大値を要素とする特徴量ベクトルによっても、利用者の関心の度合いを正確に推定することができる。
なお、状態推定手段は、音声の複数の特徴量を要素とする特徴量ベクトルが属する領域を特定してもよい。例えば、音量の変動幅と、周波数の変動幅の両方の特徴量を要素とする特徴量ベクトルが属する領域を特定してもよい。
It is preferable that the audio feature amount includes the maximum value of the rate of change of the sound volume of the user over time. The maximum rate of change over time of the volume of the sound produced by the user is also greater when the user is interested than when the user is not interested. Therefore, it is possible to accurately estimate the degree of interest of the user also by using the feature amount vector whose element is the maximum rate of change over time in the volume of the voice uttered by the user.
Note that the state estimation means may specify a region to which a feature quantity vector having a plurality of feature quantities of speech belongs. For example, a region to which a feature quantity vector having feature quantities of both the volume fluctuation range and the frequency fluctuation range as elements may be specified.

本願発明は、マイクロホンと、カメラと、複数の話題と夫々の話題に関連付けられた情報を記憶している記憶装置を有するコンピュータを、利用者と対話する対話装置として機能させるプログラムに具現化することができる。この対話用プログラムは、コンピュータを、記憶装置に記憶された複数の話題から一の話題を選択し、選択した話題に関連付けられた情報を利用者へ音声出力する制御手段と、マイクロホンが取得した音声から、利用者の音声の特徴量を抽出する音声特徴量抽出手段と、カメラが撮影した利用者の画像から、利用者の動作の特徴量を抽出する動作特徴量抽出手段と、音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域であって相互に順位付けされた複数の領域のデータを記憶しており、抽出した音声の特徴量と動作の特徴量を要素とする特徴量ベクトルが、状態空間に設定された複数の領域のいずれの領域に属するかを特定する状態推定手段、として機能させる。さらに、制御手段は、状態推定手段によって特定された領域の順位が閾値より低い場合に、選択する話題を切り替える。   The present invention embodies a computer that has a microphone, a camera, and a storage device that stores a plurality of topics and information associated with each topic as a dialogue device that interacts with a user. Can do. In this interactive program, a computer selects one topic from a plurality of topics stored in a storage device, and outputs audio associated with the selected topic to a user. From the above, voice feature quantity extracting means for extracting the feature quantity of the user's voice, action feature quantity extracting means for extracting the feature quantity of the user's motion from the user's image captured by the camera, and voice feature quantity And the data of multiple regions set in the state space with the motion feature variables as variables and ranked in relation to each other, and the extracted speech feature values and motion feature values are stored. It is made to function as state estimation means for specifying which of a plurality of regions set in the state space a feature quantity vector as an element belongs to. Further, the control means switches the topic to be selected when the rank of the area specified by the state estimation means is lower than the threshold value.

本発明の対話用プログラムを用いると、コンピュータが出力した情報に対する利用者の関心度を示す特徴量ベクトルが、状態空間に設定された複数の領域のいずれの領域に属するかを特定し、特定された領域の順位が閾値よりも高い場合(利用者の関心が高いと推定される場合)には、現在提供している話題に関する情報を継続して出力し、他方で、特定された領域の順位が閾値よりも低い場合(利用者の関心が低いと推定される場合)には、話題を切り替える。音声と動作の特徴量に基づいて関心度を算出することによって、装置が出力した情報に対する利用者の関心の度合いを良く推定することができる。   When the interactive program of the present invention is used, the feature vector indicating the degree of interest of the user with respect to the information output by the computer is specified and specified as to which of the plurality of regions set in the state space belongs. If the rank of the selected area is higher than the threshold (when the user's interest is estimated to be high), information on the topic currently provided is continuously output, while the rank of the identified area Is lower than the threshold (when it is estimated that the user's interest is low), the topic is switched. By calculating the degree of interest based on the voice and the feature amount of the action, the degree of interest of the user with respect to the information output by the apparatus can be well estimated.

夫々の話題に複数の情報が関連付けられている場合には、状態推定手段は、制御手段が一の情報の出力を終了してから次の一の情報の出力を終了するまでの間に取得した複数の特徴量ベクトルの前記状態空間の各領域に対する尤度を算出して記憶し、前記した「次の一の情報」の出力が終了した時点で状態空間の領域毎にその領域に対する複数の特徴量ベクトルの尤度平均を算出し、最も大きい尤度平均を有する領域を特定することが好適である。
一の情報(前記した「次の一の情報」)に対する利用者の反応(利用者が発する音声や動作)から複数の特徴量ベクトルを取得し、その複数の特徴量ベクトルから総合的に利用者の関心の度合いを推定することができる。
また、一の情報の出力が終了した時点、即ち、次の情報の出力を開始する時点で、現在の話題を継続するか、或いは切り替えるかが判断されるので、より自然な対話が実現される。
なお、利用者の音声の特徴量と動作の特徴量は、前述した通りである。
When a plurality of pieces of information are associated with each topic, the state estimating unit acquires the period from when the control unit finishes outputting one piece of information until it finishes outputting the next piece of information. The likelihood for each region in the state space of a plurality of feature quantity vectors is calculated and stored, and when the output of the “next one information” ends, a plurality of features for that region for each region in the state space It is preferable to calculate the likelihood average of the quantity vector and specify the region having the largest likelihood average.
A plurality of feature quantity vectors are obtained from a user's reaction (speech and action uttered by the user) to one information (the above-mentioned "next one information"), and the user is comprehensively based on the plurality of feature quantity vectors. The degree of interest can be estimated.
Further, when the output of one information is completed, that is, when the output of the next information is started, it is determined whether the current topic is to be continued or switched, so that a more natural dialogue is realized. .
Note that the feature amount of the user's voice and the feature amount of the action are as described above.

本願発明は、利用者の音声と動作の特徴量を要素とする特徴量ベクトルが、状態空間に設定された複数の領域であって相互に順位付けされた複数の領域のうちの、閾値より低い順位の領域に位置すると特定された場合には、新たな話題に関する情報を利用者に提供する。利用者の音声と動作の特徴量を要素とする特徴量ベクトルの位置する領域を特定するので、装置が出力した情報に対する利用者の関心の度合いを正確に推定することができる。特徴量ベクトルから推定される関心度に応じて話題を切り替えるので、自然な対話を行いながら、利用者を退屈させることがない。   In the present invention, the feature vector whose elements are the user's voice and the feature of the motion is lower than a threshold value among the plurality of regions set in the state space and mutually ranked. When it is determined that the position is in the ranking area, information on a new topic is provided to the user. Since the region in which the feature amount vector having the feature amount of the user's voice and the motion is located is specified, the degree of interest of the user with respect to the information output by the apparatus can be accurately estimated. Since the topic is switched according to the degree of interest estimated from the feature vector, the user is not bored while performing a natural conversation.

(第1実施例)
本発明の第1実施例について図面を参照しながら説明する。本実施例の対話装置は、展示会場で対話しながら来場者を案内する案内ロボット2である。具体的には、案内ロボット2は、車輪によって展示会場を移動することができ、来場者と対話しながら夫々の展示物を説明する。以下では、案内ロボット2が案内する来場者を「利用者」と称する。
図1は、案内ロボット2の概略構成を表すブロック図である。図1に示すように、案内ロボット2は、スピーカ4、マイクロホン6、カメラ8、制御装置12を備えている。制御装置12は、スピーカ4、マイクロホン6、カメラ8と接続されている。
また、案内ロボット2には、展示場内で自身の位置を特定するセンサや、利用者の存在を検知するセンサ等(不図示)を備えている。なお、案内ロボット2は、上記のほかに移動用の車輪(不図示)を備えているが、移動用の車輪やその制御については説明を省略する。また、
(First embodiment)
A first embodiment of the present invention will be described with reference to the drawings. The dialogue apparatus of the present embodiment is a guide robot 2 that guides visitors while having a dialogue at the exhibition hall. Specifically, the guidance robot 2 can move through the exhibition hall by wheels, and explains each exhibit while interacting with the visitors. Hereinafter, the visitors who are guided by the guidance robot 2 are referred to as “users”.
FIG. 1 is a block diagram illustrating a schematic configuration of the guide robot 2. As shown in FIG. 1, the guidance robot 2 includes a speaker 4, a microphone 6, a camera 8, and a control device 12. The control device 12 is connected to the speaker 4, the microphone 6, and the camera 8.
In addition, the guidance robot 2 includes a sensor for specifying its own position in the exhibition hall, a sensor for detecting the presence of a user, and the like (not shown). The guide robot 2 includes a moving wheel (not shown) in addition to the above, but the description of the moving wheel and its control is omitted. Also,

スピーカ4は、制御装置12からの指令に従って、対話用データベース30に記憶されている情報を音声として出力する。マイクロホン6は、利用者が発した音声を取得する。カメラ8は、利用者を撮影する。マイクロホン6とカメラ8は、利用者との対話処理が実行されている間のみ音声と画像を取得してもよいし、案内ロボット2の周囲の音と画像を常時取得していてもよい。   The speaker 4 outputs the information stored in the dialogue database 30 as a sound in accordance with a command from the control device 12. The microphone 6 acquires the voice uttered by the user. The camera 8 photographs the user. The microphone 6 and the camera 8 may acquire the sound and the image only while the interactive process with the user is being executed, or may always acquire the sound and the image around the guidance robot 2.

制御装置12は、CPU14と記憶装置20を備えている。記憶装置20は、具体的にはROMやRAM、或いはハードディスク装置であり、対話制御プログラム22と、音声特徴量抽出プログラム24と、動作特徴量抽出プログラム26と、関心度推定プログラム28(関心度指標算出手段)と、対話用データベース30を記憶している。なお、図示を省略しているが、上記の各プログラムの起動・停止や、移動用の車輪を制御するためのメインプログラムが記憶装置20に記憶されている。   The control device 12 includes a CPU 14 and a storage device 20. Specifically, the storage device 20 is a ROM, a RAM, or a hard disk device, and includes a dialogue control program 22, an audio feature amount extraction program 24, an operation feature amount extraction program 26, and an interest level estimation program 28 (interest level index). Calculation means) and a dialogue database 30 are stored. Although not shown, the storage device 20 stores a main program for starting and stopping each of the above-described programs and controlling wheels for movement.

対話用データベース30は、複数の話題に対して、夫々の話題に関する情報が関連付けられているデータベースである。ここでいう「話題」とは、具体的には夫々の展示物を意味する。また「話題に関する情報」とは、具体的には夫々の展示物の概要を記述した文章データや夫々の展示物の特徴を記述した文章データなどである。
対話用データベース30にはまた、案内ロボット2が出力した音声に対する利用者の関心の程度を尋ねる質問事項を記述した文章データ(例えば、「ご説明した展示物にご興味はありませんでしたか?」など)も含まれている。なお、これらの文章データは、装置が音声として出力することが可能であるから、「音声データ」と換言することもできる。
The dialogue database 30 is a database in which information on each topic is associated with a plurality of topics. The “topic” here specifically means each exhibition. The “topic information” is specifically text data describing the outline of each exhibit, text data describing the characteristics of each exhibit, and the like.
The dialogue database 30 also includes text data describing questions for asking the degree of interest of the user to the voice output from the guidance robot 2 (for example, “Did you not be interested in the exhibit you explained?” Etc.) are also included. Since these text data can be output as voice by the apparatus, it can also be referred to as “voice data”.

次に、制御装置12のCPU14が実行するプログラム(記憶装置20に記憶されている各種プログラム)について、図2及び3のフローチャート図を参照して説明する。
案内ロボット2のメインプログラム(不図示)は、自身の周囲に利用者(来場者)を検出すると、自身の付近にある展示物を特定するとともに、対話制御プログラム22を起動する。今、ロボット2の付近にある展示物を「展示物A」とする。
対話制御プログラム22は、対話用データベース30に記憶されている複数の話題(展示物の種類)の中から「展示物A」を特定の話題(一の話題)として選択する(ステップS2)。次に対話用プログラム22は、利用者に対して音声出力する出力用データを作成する(ステップS4)。「出力用データ」は、選択した話題(展示物A)に関連付けられている情報(対話用データベース30に記憶されている、選択した話題「展示物A」の説明を記述した文章データ)、或いは、前述した質問事項を記述した文章データである。後述するように、対話用プログラム22は、現在の話題(展示物A)に対して利用者の関心が低くない場合に現在の話題に関する情報を連続して音声出力する。対話用プログラム22は、現在の話題に関する情報をいくつか連続して出力した後に、「質問事項を記述した文章データ」を出力する。
次に対話制御プログラム22は、ステップS4で作成した出力データを音声合成してスピーカ4から出力する(ステップS6)。
Next, programs executed by the CPU 14 of the control device 12 (various programs stored in the storage device 20) will be described with reference to the flowcharts of FIGS.
When a main program (not shown) of the guidance robot 2 detects a user (visitor) around it, the main program (visitor) identifies an exhibit near the user and activates the dialogue control program 22. Now, let the exhibit near the robot 2 be “exhibit A”.
The dialogue control program 22 selects “exhibit A” as a specific topic (one topic) from among a plurality of topics (exhibit types) stored in the dialogue database 30 (step S2). Next, the dialogue program 22 creates output data to be output as a voice to the user (step S4). “Output data” is information associated with the selected topic (exhibit A) (text data describing the description of the selected topic “exhibit A” stored in the dialogue database 30), or This is sentence data describing the above-mentioned question items. As will be described later, the dialogue program 22 continuously outputs information related to the current topic when the user is not interested in the current topic (exhibit A). The dialogue program 22 outputs “sentence data describing a question” after outputting some information on the current topic continuously.
Next, the dialogue control program 22 synthesizes the output data created in step S4 and outputs it from the speaker 4 (step S6).

メインプログラム(不図示)は、対話制御プログラム22を起動するときに、同時に音声特徴量抽出プログラム24と動作特徴量抽出プログラム26と関心度推定プログラム28を起動する。音声特徴量抽出プログラム24は、マイクロホン6から、ステップS6で出力した音声に反応して利用者が発した音声を取得し(ステップS8)、取得した音声から、利用者が発した音声の特徴量を抽出する(ステップS12)。また動作特徴量抽出プログラム26は、カメラ8から、ステップS6で出力した音声に反応した利用者の画像を取得し(ステップS10)、取得した画像から、利用者の動作の特徴量を取得する(ステップS14)。別言すれば、音声特徴量抽出プログラム24は、ロボット2が現在の話題に関連付けられた情報を音声出力した後の所定時間内に利用者が発した音声の特徴量を抽出し、動作特徴量抽出プログラム26は、ロボット2が現在の話題に関連付けられた情報を音声出力した後の所定時間内の利用者の動作の特徴量を抽出する。以下、音声と動作の特徴量を抽出する上記の所定時間を「特徴量抽出時間」と称する。   When the main program (not shown) activates the dialogue control program 22, it simultaneously activates the voice feature quantity extraction program 24, the action feature quantity extraction program 26, and the interest level estimation program 28. The voice feature quantity extraction program 24 acquires the voice uttered by the user in response to the voice output in step S6 from the microphone 6 (step S8), and the feature quantity of the voice uttered by the user from the acquired voice. Is extracted (step S12). Further, the motion feature amount extraction program 26 acquires a user image in response to the sound output in step S6 from the camera 8 (step S10), and acquires a feature amount of the user's motion from the acquired image (step S10). Step S14). In other words, the voice feature quantity extraction program 24 extracts the feature quantity of the voice uttered by the user within a predetermined time after the robot 2 outputs the information associated with the current topic by voice, and the motion feature quantity The extraction program 26 extracts a feature amount of the user's motion within a predetermined time after the robot 2 outputs information associated with the current topic as a voice. Hereinafter, the above-described predetermined time for extracting feature amounts of voice and action is referred to as “feature amount extraction time”.

ここで、音声の特徴量は、特徴量抽出時間内に利用者が特定のキーワードを発したときの音量の変動幅である。特定のキーワードとは、「そうです」、「なるほど」、「はい」など、肯定を意味する単語が予め選定されている。音声特徴量抽出プログラム24は、特徴量抽出時間内にマイクロホン6から取得した音声から、特定のキーワードを抽出する。音声特徴量抽出プログラム24は、抽出したキーワードの音声に含まれている最大の音量値と、最小の音量値を特定する。音声特徴量抽出プログラム24は、最大の音量値と最小の音量値の差を(音量の変動幅)を音声の特徴量として抽出する。   Here, the voice feature amount is a fluctuation range of the sound volume when the user issues a specific keyword within the feature amount extraction time. As the specific keyword, words that mean affirmation such as “Yes”, “I see”, “Yes” are selected in advance. The voice feature extraction program 24 extracts a specific keyword from the voice acquired from the microphone 6 within the feature extraction time. The voice feature amount extraction program 24 specifies the maximum volume value and the minimum volume value included in the extracted keyword voice. The audio feature quantity extraction program 24 extracts the difference between the maximum volume value and the minimum volume value (volume fluctuation range) as the audio feature quantity.

動作の特徴量は、特徴量抽出時間内の利用者の頭部の上下方向の変動幅(頭部の上下方向の移動幅)である。動作特徴量抽出プログラム26は、特徴量抽出時間内にカメラ8から取得した画像から、フレーム画像(カメラ8が取得した経時的な動画像の各瞬間の画像をフレーム画像という)ごとに利用者の頭部を特定する。フレーム画像から頭部を特定する手法は、一般に知られている顔認識アルゴリズムの中から適切なアルゴリズムを用いる。夫々のフレーム画像における頭部の位置を比較し、最も高い頭部の位置と最も低い頭部位置の差(頭部の上下方向の変動幅)を算出して出力する。換言すれば、動作特徴量抽出プログラム26は、カメラ8が撮影した利用者の画像から、利用者の頭部の上下方向の変動幅を、動作の特徴量として抽出する。   The feature quantity of the motion is the fluctuation width in the vertical direction of the user's head within the feature quantity extraction time (the vertical movement width of the head). The motion feature amount extraction program 26 uses a user's image for each frame image (an image of each moving image obtained by the camera 8 over time is referred to as a frame image) from an image acquired from the camera 8 within the feature amount extraction time. Identify the head. As a method for identifying the head from the frame image, an appropriate algorithm is used from among generally known face recognition algorithms. The position of the head in each frame image is compared, and the difference between the highest head position and the lowest head position (the fluctuation range in the vertical direction of the head) is calculated and output. In other words, the motion feature amount extraction program 26 extracts the fluctuation range in the vertical direction of the user's head from the user's image captured by the camera 8 as the motion feature amount.

次に、関心度推定プログラム28が、抽出された音声の特徴量と動作の特徴量を要素とする特徴量ベクトルを生成する(ステップS16)。特徴量ベクトルは、音声の特徴量である音量の変動幅と、動作の特徴量である頭部の上下方向の変動幅を要素とする2次元ベクトルである。なお、後述するように、特徴量ベクトルは、音量の変動幅と頭部の上下方向の変動幅のほかに、他の音声の特徴量や動作の特徴量を含めた3次元以上のベクトルであってもよい。   Next, the degree-of-interest estimation program 28 generates a feature quantity vector having the extracted voice feature quantity and motion feature quantity as elements (step S16). The feature quantity vector is a two-dimensional vector whose elements are the fluctuation range of the volume that is the feature quantity of the sound and the fluctuation range of the head that is the feature quantity of the motion in the vertical direction. As will be described later, the feature vector is a three-dimensional vector or more including other audio feature values and motion feature values in addition to the volume fluctuation range and the vertical fluctuation range of the head. May be.

関心度推定プログラム28は、音声の特徴量である音量の変動幅と、動作の特徴量である頭部の上下方向の変動幅を状態変数とする2次元平面(状態空間)を、関心度が高レベルである領域と中レベルである領域と低レベルである領域に区分した関心度マップを記憶している。関心度マップについては後述する。関心度推定プログラム28は、ステップS16で生成された特徴量ベクトルが、関心度マップのどの領域に属するかを特定する(ステップS18)。   The degree-of-interest estimation program 28 uses a two-dimensional plane (state space) whose state variables are the fluctuation range of the volume, which is a feature amount of speech, and the fluctuation range of the head, which is a feature amount of motion, as the degree of interest. An interest level map divided into a high level area, a medium level area, and a low level area is stored. The interest map will be described later. The interest level estimation program 28 specifies to which region of the interest level map the feature quantity vector generated in step S16 belongs (step S18).

特定された関心度レベルが中レベル以上(中レベル又は高レベル)の場合(ステップS20:YES)、ステップS4に戻り、展示物Aに関連付けられている次の文章データを出力する。他方、特定された関心度レベルが低レベルの場合(ステップS20:NO)、対話制御プログラム22が、対話用データベース30に記憶されている複数の話題(展示物の種類)の中から、これまで選択されていた話題(展示物A)に代えて他の話題(展示物A以外の展示物)を選択する(ステップS22)。すなわち、対話制御プログラム22は、対話用データベース30から選択する話題を切り替える。その後、ステップS4の処理に戻る。ステップS22によって、対話用データベース30から選択する話題を切り替えた後は、ステップS4において作成される出力用データは、新たに選択された話題に関連付けられている情報(選択された新たな展示物に関する文章データ)となる。
以後、対話制御プログラム22が出力用データを音声合成して出力する(ステップS6)毎に、利用者の関心度レベルを推定し、関心度レベルが中レベル以上であれば、同じ話題に関する情報を出力し、関心度レベルが低レベルであれば、話題を切り替える。
If the specified interest level is not less than the middle level (medium level or high level) (step S20: YES), the process returns to step S4, and the next sentence data associated with the exhibit A is output. On the other hand, when the specified interest level is low (step S20: NO), the dialogue control program 22 has selected a plurality of topics (exhibit types) stored in the dialogue database 30 so far. Instead of the selected topic (exhibit A), another topic (exhibit other than exhibit A) is selected (step S22). That is, the dialogue control program 22 switches the topic selected from the dialogue database 30. Thereafter, the process returns to step S4. After the topic selected from the dialogue database 30 is switched in step S22, the output data created in step S4 is information associated with the newly selected topic (related to the selected new exhibit. Sentence data).
Thereafter, every time the dialogue control program 22 synthesizes and outputs the output data (step S6), the user's interest level is estimated. If the interest level is the medium level or higher, information on the same topic is obtained. If the level of interest is low, the topic is switched.

以上説明したように、案内ロボット2は、利用者に対して特定の話題に関連付けられた情報を音声出力し、出力した音声に対する利用者の関心度を推定する。推定した関心度が低レベルの場合に話題を切り替える。案内ロボット2は、現在提供している話題に対する利用者の関心度が低い場合に、提供する話題を切り替える。切り替えた話題に対する利用者の関心度が低い場合には、さらに話題を切り替える。案内ロボット2は、利用者が関心を寄せる話題を積極的に推定するものではないが、現在提供している話題に対する利用者の関心度が低い場合に次々に話題を切り替える。そうすることで、利用者を退屈させない。
また、案内ロボット2は、利用者の関心度を推定する際、特定の話題にのみ関連するキーワードを用いない。案内ロボット2は、音声を出力した後の所定時間内(特徴抽出時間内)に、利用者が発した音声の特徴量と動作の特徴量から、現在の話題に対する利用者の関心度を推定する。従って、例えば「関心のある話題を教えて下さい」などという質問を唐突に出力することなく、自然な対話を成立させながら、利用者を退屈させないように話題を切り替えることができる。
As described above, the guidance robot 2 outputs information associated with a specific topic to the user by voice, and estimates the degree of interest of the user for the output voice. Switch topics when the estimated interest level is low. The guidance robot 2 switches the provided topic when the user's interest in the currently provided topic is low. If the user's interest in the switched topic is low, the topic is further switched. The guidance robot 2 does not actively estimate the topic that the user is interested in, but switches the topic one after another when the degree of interest of the user with respect to the currently provided topic is low. By doing so, users are not bored.
Moreover, the guidance robot 2 does not use a keyword related only to a specific topic when estimating the user's degree of interest. The guidance robot 2 estimates the degree of interest of the user with respect to the current topic from the feature amount of the speech and the feature amount of the action uttered by the user within a predetermined time (within the feature extraction time) after outputting the sound. . Therefore, for example, the topic can be switched so as not to bore the user while establishing a natural conversation without suddenly outputting a question such as “Tell me about a topic you are interested in”.

次に、音声の特徴量と動作の特徴量と関心度指標、及び関心度マップについて詳しく説明する。
本実施例では、特徴量抽出時間内に利用者が特定のキーワード(肯定を意味する単語)を発したときのそのキーワードの音量の変動幅を音声の特徴量として抽出する。また、特徴量抽出時間内の利用者の頭部の上下方向の変動幅を動作の特徴量として抽出する。発明者らは、検討を重ねた結果、会話において、肯定を意味する単語が音量の大きな変動幅を伴って発せられる場合、発話者はその会話に高い関心を示している傾向が強いことを見出した。同様に、会話において、発話者が頭部を大きく上下動させる場合、発話者はその会話に高い関心を示している傾向が強いことを見出した。発明者らは、多くの被験者に対して、特定の話題について会話する実験を行い、会話中に被験者が発するキーワード(肯定を意味する単語)の音量の変動幅と被験者頭部の上下方向の変動幅と、被験者の関心度のレベルの相関関係を調査した。なお、実験において、各被験者の関心度のレベルは実験後の聞き取り調査で把握した。実験の結果得られた相関関係を関心度マップと称する。関心度マップは、音量の変動幅と頭部の変動幅を状態変数とする状態空間を、関心度レベルごとに領域別けした空間として表現することができる。関心度マップは、「音声の特徴量と動作の特徴量を変数とする状態空間に設定され複数の領域であり、夫々の領域が、利用者の関心度の異なるレベルを特徴付けており、関心度のレベルの順に順位付けされた複数の領域のデータ」と換言することができる。
Next, the audio feature amount, the motion feature amount, the interest level index, and the interest level map will be described in detail.
In this embodiment, when the user issues a specific keyword (a word meaning affirmation) within the feature amount extraction time, the fluctuation range of the volume of the keyword is extracted as the feature amount of the voice. Further, the fluctuation range in the vertical direction of the user's head within the feature amount extraction time is extracted as the feature amount of the operation. As a result of repeated studies, the inventors have found that in a conversation, if a word meaning affirmation is uttered with a large fluctuation range of the volume, the speaker has a strong tendency to show high interest in the conversation. It was. Similarly, when a speaker moves his / her head greatly up and down in a conversation, the speaker has a strong tendency to show high interest in the conversation. The inventors conducted an experiment in which many subjects talked about a specific topic, and the fluctuation range of the volume of a keyword (a word meaning affirmation) issued by the subject during the conversation and the fluctuation in the vertical direction of the subject's head The correlation between breadth and subject's level of interest was investigated. In the experiment, the level of interest of each subject was ascertained through interviews after the experiment. The correlation obtained as a result of the experiment is called an interest level map. The interest level map can represent a state space in which the variable range of the sound volume and the variable range of the head are the state variables as a space divided by region for each interest level. The interest level map is “a plurality of areas set in the state space with the voice feature quantity and the motion feature quantity as variables, and each area characterizes different levels of interest of the user. In other words, the data of a plurality of areas ranked in the order of the degree level.

関心度マップを図4に示す。図の縦軸は音量の変動幅の大きさを示しており、横軸は頭部の上下方向の変動幅を示している。図4の領域(a)が、関心度が低レベルの領域であり、領域(b)が、関心度が中レベルの領域であり、領域(c)が、関心度が高レベルの領域を示している。なお、図4において、曲線(d)は、領域(a)と領域(b)の境界を示しており、曲線(e)は、領域(b)と領域(c)の境界を示している。
境界(d)と境界(e)は、前述したように、多くの被験者を対象とした実験の結果に基づいて予め設定される。利用者の特徴量ベクトルは、図4に示す関心度マップ内の点で表される。
An interest level map is shown in FIG. The vertical axis of the figure shows the magnitude of the fluctuation range of the volume, and the horizontal axis shows the fluctuation range of the head in the vertical direction. The area (a) in FIG. 4 is an area with a low level of interest, the area (b) is an area with an intermediate level of interest, and the area (c) indicates an area with a high level of interest. ing. In FIG. 4, a curve (d) indicates the boundary between the region (a) and the region (b), and a curve (e) indicates the boundary between the region (b) and the region (c).
As described above, the boundary (d) and the boundary (e) are set in advance based on the results of experiments on many subjects. The feature vector of the user is represented by a point in the interest level map shown in FIG.

図4に、利用者の特徴量ベクトルP1−P4を例示する。図4の特徴量ベクトルP1、P2から明らかなとおり、音量の変動幅が同じであっても、頭部の上下方向の変動幅が異なると、利用者の関心度のレベルが異なる場合がある。同様に、図4の特徴量ベクトルP3、P4から明らかなとおり、頭部の上下方向の変動幅が同じであっても、音量の変動幅が異なれば、利用者の関心部レベルが異なる場合がある。
このように、利用者の音声の特徴量と利用者の動作の特徴量を状態変数とする状態空間を導入し、利用者の特徴量ベクトルがその状態空間のどの領域に属するかを特定することによって、利用者の関心のレベルをよく推定することができる。
FIG. 4 illustrates user feature vectors P1 to P4. As is clear from the feature quantity vectors P1 and P2 in FIG. 4, even if the fluctuation range of the volume is the same, the level of interest of the user may be different if the fluctuation range in the vertical direction of the head is different. Similarly, as is apparent from the feature amount vectors P3 and P4 in FIG. 4, even if the fluctuation range in the vertical direction of the head is the same, the level of interest of the user may be different if the fluctuation range of the volume is different. is there.
In this way, a state space is introduced in which the feature quantity of the user's voice and the feature quantity of the user's motion are used as state variables, and the region in which the user's feature quantity vector belongs is specified The user's level of interest can be well estimated.

関心度推定プログラム28は、図4に示した関心度マップを記憶している。そして、関心度推定プログラム28は、音声特徴量抽出プログラム24によって抽出された音量の変動幅(音声の特徴量)と、動作特徴量抽出プログラム26によって抽出された利用者の頭部の上下方向の変動幅(動作の特徴量)を要素とする2次元ベクトル(特徴量ベクトル)を、利用者の関心度を示す指標とする。対話制御プログラム22は、得られた特徴量ベクトルが図4の関心度マップのどの領域に属するかを特定する。得られた特徴量ベクトルが図4の領域(a)の属する場合に(換言すれば、得られた特徴量ベクトルの位置が境界線(d)で表される閾値よりも低い場合に)、対話用データベース24から他の展示物(他の話題)を選択する(図3のステップS22)。   The interest level estimation program 28 stores the interest level map shown in FIG. The interest level estimation program 28 then calculates the fluctuation range of the volume (speech feature) extracted by the speech feature extraction program 24 and the vertical direction of the user's head extracted by the motion feature extraction program 26. A two-dimensional vector (feature quantity vector) having the fluctuation range (feature quantity of motion) as an element is used as an index indicating the degree of interest of the user. The dialogue control program 22 specifies to which region of the interest level map of FIG. 4 the obtained feature quantity vector belongs. When the obtained feature vector belongs to the region (a) in FIG. 4 (in other words, when the position of the obtained feature vector is lower than the threshold value represented by the boundary (d)), the dialogue Other exhibits (other topics) are selected from the database 24 (step S22 in FIG. 3).

別言すれば、利用者の特徴量ベクトルと関心度マップから、利用者の関心の程度を推定する関心度推定プログラム28の上記の処理は、次のように表現することができる。
関心度推定プログラム28は、音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域であり、夫々の領域が、利用者の関心度の異なるレベルを特徴付けており、関心度のレベルの順に順位付けされた複数の領域のデータを記憶している。なお、複数の領域は、前述した関心度レベルが低い領域(図4の領域(a))と、関心度レベルが中の領域(図4の領域(b))と、関心度レベルが高い領域(図4の領域(c))である。これらの領域は、被験者を対象とした実験によって予め設定されている。
関心度推定プログラム28は、抽出した音声の特徴量と動作の特徴量を要素とする特徴量ベクトルが、状態空間の複数の領域のいずれの領域に属するかを特定する。
そして、対話制御プログラム22は、特徴量ベクトルが属する領域の順位が閾値より低い場合に、選択する話題を切り替える。
この場合、関心度推定プログラム28は、請求項に記載した「状態推定手段」に対応する。
In other words, the above processing of the interest level estimation program 28 for estimating the degree of interest of the user from the user's feature quantity vector and the interest level map can be expressed as follows.
The degree-of-interest estimation program 28 is a plurality of areas set in a state space in which the feature quantity of speech and the feature quantity of motion are variables, and each area characterizes a different level of interest of the user. The data of a plurality of areas ranked in order of the level of interest is stored. Note that the plurality of regions include the above-described region with a low interest level (region (a) in FIG. 4), a region with a medium interest level (region (b) in FIG. 4), and a region with a high interest level. (Region (c) in FIG. 4). These areas are set in advance by experiments with subjects.
The degree-of-interest estimation program 28 specifies to which of a plurality of regions in the state space the feature vector, whose elements are the extracted speech feature and motion feature.
Then, the dialogue control program 22 switches the topic to be selected when the rank of the region to which the feature quantity vector belongs is lower than the threshold value.
In this case, the interest level estimation program 28 corresponds to “state estimation means” recited in the claims.

(第2実施例)
次に、本発明の第2実施例を説明する。第2実施例の対話装置は、第1実施例の対話装置と同様に展示会場を案内する案内ロボットである。第2実施例の対話装置(案内ロボット)は、特徴量ベクトルから関心度レベルを特定する処理が、第1実施例の対話装置(案内ロボット2)の場合と異なる。より具体的には、図3のフローチャートの処理に代えて図5のフローチャートの処理を実行する。換言すれば、第2実施例の対話装置は、図1に示す構成を備えており、図2と図5のフローチャートに示した処理を実行する。以下では、第1実施例と異なる処理(図5のフローチャートに示す処理)について説明する。なお、図5の(A)、(B)は、夫々図2の(A)、(B)と処理が繋がっていることを示す。
(Second embodiment)
Next, a second embodiment of the present invention will be described. The dialogue apparatus of the second embodiment is a guidance robot that guides the exhibition hall in the same manner as the dialogue apparatus of the first embodiment. The interactive apparatus (guide robot) of the second embodiment differs from the interactive apparatus (guide robot 2) of the first embodiment in the process of specifying the interest level from the feature vector. More specifically, the process of the flowchart of FIG. 5 is executed instead of the process of the flowchart of FIG. In other words, the interactive apparatus of the second embodiment has the configuration shown in FIG. 1, and executes the processes shown in the flowcharts of FIGS. Hereinafter, processing different from the first embodiment (processing shown in the flowchart of FIG. 5) will be described. 5A and 5B show that the processing is connected to FIGS. 2A and 2B, respectively.

図6は、第2実施例の案内ロボットの関心度推定プログラム28が有する関心度マップの模式図である。
第2実施例の案内ロボットの関心度マップを説明する。第1実施例で説明したように、発明者らは、多くの被験者に対して、特定の話題について会話する実験を行い、会話中に被験者が発するキーワード(肯定を意味する単語)の音量の変動幅と被験者頭部の上下方向の変動幅を記録した。また、各被験者の関心度レベルを実験後の聞き取り調査で把握した。図6に示す白抜き点が、被験者ごとの特徴量ベクトル(音声の特徴量である音量の変動幅と、動作の特徴量である頭部の上下方向の変動幅を要素とする2次元ベクトル)を表す。試験者の特徴量ベクトルをサンプル特徴量ベクトルと称する。
この実施例では、予め、サンプル特徴量ベクトルを、聞き取った各サンプル特徴量ベクトルの関心度レベルでクラスタリングする。即ち、多数のサンプル特徴量ベクトルを、関心度レベルごとにグループ化する。図6では、グループω1が関心度レベル高のグループを示し、グループω2が関心度レベル中のグループを示し、グループω3が関心度レベル低のグループを示している。本実施例の案内ロボットは、サンプル特徴量ベクトルを3つのグループに区分して予め記憶している。
FIG. 6 is a schematic diagram of an interest level map included in the interest level estimation program 28 of the guidance robot of the second embodiment.
The interest map of the guidance robot of the second embodiment will be described. As described in the first embodiment, the inventors conducted an experiment in which many subjects talked about a specific topic, and the volume of a keyword (a word meaning affirmation) issued by the subject during the conversation varied. The width and the fluctuation range of the subject's head in the vertical direction were recorded. The level of interest of each subject was ascertained through interviews after the experiment. The white dots shown in FIG. 6 are feature amount vectors for each subject (two-dimensional vectors whose elements are the fluctuation range of the volume that is the feature amount of the sound and the fluctuation range of the head that is the feature amount of the motion). Represents. The tester's feature vector is referred to as a sample feature vector.
In this embodiment, the sample feature vectors are clustered in advance at the interest level of each sample feature vector heard. That is, a large number of sample feature amount vectors are grouped for each interest level. In FIG. 6, the group ω1 indicates a group with a high interest level, the group ω2 indicates a group with the interest level, and the group ω3 indicates a group with the low interest level. The guidance robot of this embodiment stores the sample feature vector in advance divided into three groups.

本実施例の案内ロボットは、利用者の特徴量ベクトルを生成したのち(図2のステップS16)、生成された特徴量ベクトルがいずれのグループに最も近いかを特定する。その際、算出された関心度指標と各グループのサンプル関心度指標との尤度に基づいて、最も近いグループを特定する。特定したグループの関心度レベルを、利用者の特徴量ベクトルが属する関心度レベルとする。なお、「尤度」は、確からしさを数学的に表す統計学上の尺度である。   The guidance robot according to the present embodiment generates a feature vector for the user (step S16 in FIG. 2), and then specifies which group the generated feature vector is closest to. At that time, the closest group is specified based on the likelihood between the calculated interest degree index and the sample interest degree index of each group. The interest level of the identified group is set as the interest level to which the feature vector of the user belongs. The “likelihood” is a statistical measure that mathematically represents the likelihood.

第2実施例の案内ロボットが、生成した特徴量ベクトルから利用者の関心度のレベルを特定する処理を、図5と図6を参照して説明する。本実施例の案内ロボットは、図2のステップS16の次に、図5のステップS30を実行する。図2のステップS16で、利用者の特徴量ベクトルが生成されている。図6の点P5が、ステップS16で生成された利用者の特徴量ベクトルP5を示す。
ステップS30では、ステップS16で算出された特徴量ベクトルP5と各サンプル特徴量ベクトルの間の尤度を算出する。次に、グループ毎に(関心度レベル毎に)、尤度の平均値を算出する(ステップS32)。例えば、図6では、利用者の特徴量ベクトルP5とグループω1に属するサンプル特徴量ベクトルとの尤度の平均がPω1であり、特徴量ベクトルP5とグループω2に属するサンプル特徴量ベクトルとの尤度の平均がPω2であり、特徴量ベクトルP5とグループω3に属するサンプル特徴量ベクトルとの尤度の平均がPω3であることを示している。次に、最も大きい尤度平均が算出されたグループ(関心度レベル)を特定する(ステップS34)。なお、「最も大きい尤度平均」は、図6では、直線で表された尤度平均Pω1、Pω2、Pω3のうち、最も距離の短い直線で表された尤度平均に相当する。こうして特定された関心度レベルが、利用者の特徴量ベクトルが属する関心度レベルとなる。
A process in which the guidance robot of the second embodiment specifies the level of interest of the user from the generated feature vector will be described with reference to FIGS. The guidance robot of this embodiment executes step S30 in FIG. 5 after step S16 in FIG. In step S16 of FIG. 2, a user feature vector is generated. A point P5 in FIG. 6 represents the feature vector P5 of the user generated in step S16.
In step S30, the likelihood between the feature vector P5 calculated in step S16 and each sample feature vector is calculated. Next, an average value of likelihood is calculated for each group (for each interest level) (step S32). For example, in FIG. 6, the average likelihood of the user's feature vector P5 and the sample feature vector belonging to the group ω1 is Pω1, and the likelihood between the feature vector P5 and the sample feature vector belonging to the group ω2. Is the average of Pω2, and the average likelihood of the feature vector P5 and the sample feature vector belonging to the group ω3 is Pω3. Next, the group (interest level) from which the largest likelihood average is calculated is specified (step S34). The “maximum likelihood average” in FIG. 6 corresponds to the likelihood average represented by a straight line with the shortest distance among the likelihood averages Pω1, Pω2, and Pω3 represented by straight lines. The interest level specified in this way is the interest level to which the feature vector of the user belongs.

特定された関心度レベルが中レベル以上(中レベル又は高レベル)の場合(ステップS36:YES)、図2のステップS4に戻り、展示物Aに関連付けられている次の文章データを出力する。他方、特定された関心度レベルが低レベルの場合(ステップS36:NO)、対話用データベース30に記憶されている複数の話題(展示物の種類)の中から、これまで選択されていた話題(展示物A)に代えて他の話題(展示物A以外の展示物)を選択する(ステップS38)。すなわち、対話制御プログラム22が、対話用データベース30から選択する話題を切り替える。その後、図2のステップS4の処理に戻る。ステップS38によって、対話用データベース30から選択する話題を切り替えた後は、ステップS4において作成される出力用データは、新たに選択された話題に関連付けられている情報(選択された新たな展示物に関する文章データ)となる。
以後、対話制御プログラム22が出力用データを音声合成して出力する(ステップS6)毎に、利用者の関心度レベルを推定し、関心度レベルが中レベル以上であれば、同じ話題に関する情報を出力し、関心度レベルが低レベルであれば、話題を切り替える。
When the specified interest level is equal to or higher than the medium level (medium level or high level) (step S36: YES), the process returns to step S4 in FIG. 2 to output the next sentence data associated with the exhibit A. On the other hand, when the specified interest level is low (step S36: NO), the topic (the type of the exhibit) selected so far from the plurality of topics (types of exhibits) stored in the dialogue database 30 ( Instead of the exhibit A), another topic (exhibit other than the exhibit A) is selected (step S38). That is, the conversation control program 22 switches the topic to be selected from the conversation database 30. Thereafter, the process returns to step S4 in FIG. After the topic selected from the dialogue database 30 is switched in step S38, the output data created in step S4 is information associated with the newly selected topic (related to the selected new exhibit. Sentence data).
Thereafter, every time the dialogue control program 22 synthesizes and outputs the output data (step S6), the user's interest level is estimated. If the interest level is the medium level or higher, information on the same topic is obtained. If the level of interest is low, the topic is switched.

第2実施例の案内ロボットは、特徴量ベクトルと関心度レベルの関係が既知であるサンプル特徴量ベクトルと利用者の特徴量ベクトルの尤度に基づいて利用者の特徴量ベクトルの関心度レベルを算出する。尤度を用いることで、利用者の関心度レベルをより正確に推定することができる。
なお、関心度レベルごとにグループ分けされたサンプル特徴量ベクトルは、音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域を表すことと等価である。従って、第2実施例の案内ロボットの処理も第1実施例の場合と同様に次の通り表現できる。
関心度推定プログラム28は、音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域であり、夫々の領域が、利用者の関心度の異なるレベルを特徴付けており、関心度のレベルの順に順位付けされた複数の領域のデータ(本実施例では、サンプル関心度指標のデータ)を記憶している。なお、複数の領域は、関心度レベルが低いサンプル特徴量ベクトルによって特定される領域(低関心度レベルの順位を付した領域)と、関心度レベルが中のサンプル特徴量ベクトルによって特定される領域(中関心度レベルの順位を付した領域)と、関心度レベルが高いサンプル特徴量ベクトルによって特定される領域(高関心度レベルの順位を付した領域)である。これらの領域は、被験者を対象とした実験によって予め設定されている。
The guidance robot of the second embodiment determines the interest level of the user's feature vector based on the likelihood of the sample feature vector and the user's feature vector whose relationship between the feature vector and the interest level is known. calculate. By using the likelihood, the user's level of interest can be estimated more accurately.
Note that the sample feature quantity vector grouped for each interest level is equivalent to representing a plurality of regions set in the state space with the speech feature quantity and the motion feature quantity as variables. Accordingly, the processing of the guidance robot of the second embodiment can be expressed as follows in the same manner as in the first embodiment.
The degree-of-interest estimation program 28 is a plurality of areas set in a state space in which the feature quantity of speech and the feature quantity of motion are variables, and each area characterizes a different level of interest of the user. The data of a plurality of regions ranked in order of the level of interest level (sample interest level index data in this embodiment) are stored. The plurality of areas are an area specified by a sample feature vector with a low level of interest (area with a low interest level) and an area specified by a sample feature vector with a medium level of interest. (Region with a medium interest level ranking) and a region (region with a high interest level ranking) specified by a sample feature vector having a high interest level. These areas are set in advance by experiments with subjects.

(第3実施例)
次に、第3実施例について説明する。第3実施例の対話装置は、第2実施例の対話装置と同様に展示会場を案内する案内ロボットである。第3実施例の対話装置(案内ロボット)は、特徴量ベクトルから関心度レベルを特定する処理が、第2実施例の対話装置(案内ロボット)の場合と異なる。より具体的には、図5のフローチャートの処理に代えて図7のフローチャートの処理を実行する。換言すれば、第3実施例の対話装置は、図1に示す構成を備えており、図2と図7のフローチャートに示した処理を実行する。以下では、第2実施例と異なる処理(図7のフローチャートに示す処理)について説明する。なお、図7の(A)、(B)は、夫々図2の(A)、(B)と処理が繋がっていることを示す。
(Third embodiment)
Next, a third embodiment will be described. The dialogue apparatus of the third embodiment is a guidance robot that guides the exhibition hall in the same manner as the dialogue apparatus of the second embodiment. The interaction device (guide robot) of the third embodiment is different from the case of the interaction device (guide robot) of the second embodiment in the process of specifying the interest level from the feature vector. More specifically, the process of the flowchart of FIG. 7 is executed instead of the process of the flowchart of FIG. In other words, the interactive apparatus according to the third embodiment has the configuration shown in FIG. 1 and executes the processes shown in the flowcharts of FIGS. Hereinafter, processing different from that of the second embodiment (processing shown in the flowchart of FIG. 7) will be described. 7A and 7B show that the processing is connected to FIGS. 2A and 2B, respectively.

また、本実施例の案内ロボットは、対話用データベース30(図1参照)に、複数の話題の夫々に関連付けられた複数の情報(音声データ群)が記憶されている。ひとつの情報は、展示物(話題)に関する少なくとも1つのセンテンスの文章データ(コンテンツ、或いは音声データと換言できる)を含む一連の文章データ群で構成されている。具体的には、特定の展示物に関連付けられた情報は3つの情報から構成され、第1の情報は、展示物の概要を説明する文章データ群であり、第2の情報は、展示物の技術的特徴を説明する文章データ群であり、第3の情報は、展示物の応用先を説明する文章データ群である。   In the guidance robot of this embodiment, a plurality of information (voice data group) associated with each of a plurality of topics is stored in the dialogue database 30 (see FIG. 1). One piece of information is composed of a series of sentence data groups including sentence data of at least one sentence related to an exhibit (topic) (in other words, content or voice data). Specifically, the information associated with a specific exhibit consists of three pieces of information, the first information is a text data group that explains the outline of the exhibit, and the second information is the information on the exhibit. It is a text data group explaining technical features, and the third information is a text data group explaining the application destination of the exhibit.

第3実施例の案内ロボットは、図6で説明した第2実施例の案内ロボットが有する関心度マップと同じ関心度マップを有している。なお、説明を簡略化するため、個々のサンプル特徴量ベクトルについて説明を省略する。本実施例では、図6と同様に、図8のω1を関心度レベルが最も高い領域を示す高関心度レベル領域ω1、ω2を関心度レベルが中位の領域を示す中関心度レベル領域ω2、ω3を関心度レベルが最も低い領域を示す低関心度レベル領域ω3と表現する。   The guidance robot of the third embodiment has the same interest level map as the interest level map of the guidance robot of the second embodiment described with reference to FIG. In order to simplify the description, description of each sample feature quantity vector is omitted. In this embodiment, as in FIG. 6, ω1 in FIG. 8 is a high interest level region ω1 indicating a region with the highest interest level, and ω2 is a medium interest level region ω2 indicating a region with a medium interest level. , Ω3 is expressed as a low interest level region ω3 indicating the region with the lowest interest level.

本実施例の案内ロボットは、図1のステップS4で、ひとつの情報の出力データを作成する。本実施例の案内ロボットは、後述するように、一の情報(例えば、上記した第1の情報)の出力が終了してから、次の一の情報(例えば、上記した第2の情報)の出力を開始してから終了するまでの間、利用者の関心度を示す指標(特徴量ベクトル)を取得し続ける。   The guide robot of this embodiment creates output data of one piece of information in step S4 of FIG. As will be described later, the guidance robot according to the present embodiment outputs the next one information (for example, the second information described above) after the output of the one information (for example, the first information described above) ends. The index (feature quantity vector) indicating the degree of interest of the user is continuously acquired from the start to the end of the output.

本実施例の案内ロボットは、図2のステップS16の次に、図7のステップS50を実行する。図2のステップS16で、利用者の特徴量ベクトルが生成されている。本実施例でも、図8の点P5を、ステップS16で算出された利用者の特徴量ベクトルP5とする。
ステップS50では、ステップS16で算出された特徴量ベクトルP5の各関心度レベル(ω1、ω2、ω3)に対する尤度を算出する。第2実施例で説明したように、特徴量ベクトルP5の高関心度レベル領域ω1(第2実施例におけるグループω1に対応する)に対する尤度はPω51である(図6参照)。同様に、特徴量ベクトルP5の中関心度レベル領域ω2に対する尤度はPω52であり、低レベル領域ω3に対する尤度はPω53である。案内ロボットは、算出された尤度Pω51、Pω52、Pω53を記憶する(ステップS52)。
The guidance robot of this embodiment executes step S50 in FIG. 7 after step S16 in FIG. In step S16 of FIG. 2, a user feature vector is generated. Also in this embodiment, the point P5 in FIG. 8 is used as the user feature vector P5 calculated in step S16.
In step S50, the likelihood for each interest level (ω1, ω2, ω3) of the feature amount vector P5 calculated in step S16 is calculated. As described in the second embodiment, the likelihood of the feature vector P5 for the high interest level region ω1 (corresponding to the group ω1 in the second embodiment) is Pω51 (see FIG. 6). Similarly, the likelihood for the medium interest level region ω2 of the feature quantity vector P5 is Pω52, and the likelihood for the low level region ω3 is Pω53. The guidance robot stores the calculated likelihoods Pω51, Pω52, and Pω53 (step S52).

本実施例の案内ロボットは、特徴量ベクトルを取得して夫々の領域に対する尤度を算出する処理を、一の情報の出力が終了してから次の一の情報の出力が終了するまで継続する(ステップS54:NO)。即ち、一の情報の出力が終了してから次の一の情報の出力が終了するまでの間に取得した複数の関心度指標(特徴量ベクトル)の各領域に対する尤度を算出して記憶する。例えば、ひとつの情報の出力が終了するまでの間に、特徴量ベクトルP5を生成し、特徴量ベクトルP5の各関心度レベル(ω1、ω2、ω3)に対する尤度Pω51、Pω52、Pω53を算出して記憶し、次いで取得した利用者の音声と動作の特徴量から特徴量ベクトルP6を生成し、各関心度レベルに対する尤度Pω61、Pω62、Pω63を算出して記憶する処理を実行する。
ひとつの情報の出力が終了すると(ステップS54:YES)、次に、関心度レベル(レベル領域)毎に、各レベル(領域)に対する複数の特徴量ベクトルP5,P6の尤度平均を算出する(ステップS56)。次いで、最も大きい尤度平均を有する関心度レベル(レベル領域)を特定する(ステップS58)。次いで、特定された関心度レベル(レベル領域)の順位(高レベル、中レベル、低レベルのいずれか)が、中レベルよりも低いか否かを判断する(ステップS60)。ステップS60の判断がYESの場合には、対話用データベースから他の展示物(他の話題)を選択する(ステップS62)。ステップS60の判断がNOの場合には、ステップS62をスキップする。最後に、ステップS52で記憶した尤度を消去して(ステップS64)、ステップS4へ戻る(図2参照)。
The guidance robot according to the present embodiment continues the process of acquiring the feature vector and calculating the likelihood for each region from the end of the output of one piece of information until the end of the output of the next piece of information. (Step S54: NO). That is, the likelihood for each region of a plurality of interest index (feature vector) acquired from the end of the output of one information until the end of the output of the next one information is calculated and stored. . For example, before the output of one piece of information is completed, a feature vector P5 is generated, and likelihoods Pω51, Pω52, and Pω53 for each interest level (ω1, ω2, ω3) of the feature vector P5 are calculated. Next, a feature quantity vector P6 is generated from the acquired user's voice and action feature quantity, and the likelihoods Pω61, Pω62, and Pω63 for each interest level are calculated and stored.
When the output of one piece of information is completed (step S54: YES), the likelihood average of a plurality of feature amount vectors P5 and P6 for each level (region) is calculated for each interest level (level region) (step S54: YES). Step S56). Next, an interest level (level region) having the largest likelihood average is specified (step S58). Next, it is determined whether or not the rank of the specified interest level (level region) (high level, medium level, or low level) is lower than the medium level (step S60). If the determination in step S60 is yes, another exhibit (other topic) is selected from the dialogue database (step S62). If the determination in step S60 is no, step S62 is skipped. Finally, the likelihood stored in step S52 is deleted (step S64), and the process returns to step S4 (see FIG. 2).

本実施例では、ひとつの情報に対して複数の特徴量ベクトルが取得され、その複数の特徴量ベクトルに基づいて、利用者の関心度が推定される。従って、利用者の関心度の推定の精度を向上することができる。
また、一の情報の出力が終了した時点(ステップS54の判断がYESとなる時点)、即ち、次の情報の出力を開始する時点で、現在の話題を継続するか、或いは切り替えるかが判断されるので、より自然な対話が実現される。
In this embodiment, a plurality of feature quantity vectors are acquired for one piece of information, and the interest level of the user is estimated based on the plurality of feature quantity vectors. Accordingly, it is possible to improve the accuracy of estimation of the user's interest level.
Also, when the output of one information is completed (when the determination in step S54 is YES), that is, when the output of the next information is started, it is determined whether to continue or switch the current topic. Therefore, a more natural dialogue is realized.

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
実施例の対話装置(案内ロボット)は、特徴量ベクトルを、音量の変動幅(音声の特徴量)と頭部の上下方向の変動幅(動作の特徴量)を要素とする2次元ベクトルで表した。特徴量ベクトルは、音声の他の特徴量や動作の他の特徴量を要素とする多次元ベクトルであらわしても良い。その場合、音声と動作の特徴量を変数とする状態空間は3次元以上の多次元空間となる。
音声の他の特徴量は、例えば、利用者が発した音声のピッチ、エネルギ、周波数の高低、MFCC(Mel−Frequency Cepstral Coefficient)などの音声情報でよい。MFCCとは、マイクロホン6で取得した音声データのスペクトルに対して、離散コサイン変換処理を実施して得られる係数である。
或いは、音声の特徴量は、特定のキーワードが特徴量抽出時間内に抽出された頻度であってもよい。この場合、例えば、「すばらしい」、「そうです」、「なるほど」など、肯定を意味する単語が多く出現する場合には現在の話題に対する利用者の関心度が高いことから、特徴量ベクトルは高い関心度を表わす領域に位置することが特定され、「もういい」など、否定を意味する単語が多く出現する場合には現在の話題に対する利用者の関心が低いことから、特徴量ベクトルは低い関心度を表わす領域に位置することが特定される。
動作の特徴量は、例えば、利用者の目の動きの変動幅、利用者の表情を特定する変数(例えば、口の大きさの変動幅など)であってもよい。
Specific examples of the present invention have been described in detail above, but these are merely examples and do not limit the scope of the claims. The technology described in the claims includes various modifications and changes of the specific examples illustrated above.
In the dialogue apparatus (guidance robot) of the embodiment, the feature quantity vector is represented by a two-dimensional vector having a volume fluctuation range (speech feature quantity) and a head fluctuation range (motion feature quantity) as elements. did. The feature quantity vector may be expressed as a multidimensional vector having other feature quantities of speech and other feature quantities of motion as elements. In this case, the state space using the voice and motion feature quantities as variables is a three-dimensional or more multidimensional space.
The other feature amount of the voice may be, for example, voice information such as pitch, energy, and frequency of the voice uttered by the user, MFCC (Mel-Frequency Cessential Coefficient), and the like. The MFCC is a coefficient obtained by performing discrete cosine transform processing on the spectrum of audio data acquired by the microphone 6.
Alternatively, the feature amount of speech may be the frequency at which a specific keyword is extracted within the feature amount extraction time. In this case, the feature vector is high because the user's interest in the current topic is high when there are many words that mean affirmation, such as “great”, “yes”, and “I see”. The feature vector is of low interest because the user is less interested in the current topic when it is specified that it is located in the area representing the degree of interest, and there are many words that mean negation, such as “Okay”. It is specified to be located in a region representing degrees.
The feature amount of the motion may be, for example, a fluctuation range of the user's eye movement or a variable (for example, a fluctuation range of the mouth size) specifying the user's facial expression.

また、図3のステップS20とS22の間、或いは図5のステップS36とS38の間に、話題を変えるか否かの問いかけ(例えば、「話題を変えましょうか?」など)を利用者に発し、利用者が話題の変更を希望する場合にステップS22、或いはステップS38を実行することも好適である。ステップS20の判断がNOの場合、或いはステップS36の判断がNOの場合は、利用者が現在の話題に退屈している可能性が高い。そのような場合に、話題を変えるか否か問いかけることは対話の自然さを損ねるものではない。   Also, during steps S20 and S22 in FIG. 3 or between steps S36 and S38 in FIG. 5, a question is given to the user as to whether or not to change the topic (for example, “Would you like to change the topic?”). When the user wishes to change the topic, it is also preferable to execute step S22 or step S38. If the determination in step S20 is NO, or if the determination in step S36 is NO, there is a high possibility that the user is bored with the current topic. In such a case, asking whether or not to change the topic does not impair the naturalness of the dialogue.

また、関心度マップは、多数の被験者の実験データ(サンプル関心度指標とその関心度レベルの関係)から、学習アルゴリズムによって構築してよい。学習アルゴリズムは、例えば、サポートベクターマシーン、k−最近傍法、決定木法、ベイジアンネットワーク、ニューラルネットワーク等のアルゴリズムを利用すればよい。
また、各関心度レベルに対応する関心度マップが個別に構築されていてもよい。この場合、利用者の特徴量ベクトルの各関心度レベルに対する尤度が関心度マップ毎に計算され、最も大きい尤度平均を有する関心度レベルが特定される。
Further, the interest level map may be constructed by a learning algorithm from experimental data of a large number of subjects (a relationship between sample interest level indexes and their interest level). As the learning algorithm, for example, an algorithm such as a support vector machine, a k-nearest neighbor method, a decision tree method, a Bayesian network, or a neural network may be used.
Moreover, the interest level map corresponding to each interest level may be constructed individually. In this case, the likelihood of each feature level vector of the user for each interest level is calculated for each interest level map, and the interest level having the largest likelihood average is specified.

また、上述の実施例では、対話装置は、展示会場を案内する案内ロボットであった。対話装置は展示会場を案内するロボットに限られず、例えば企業の受付で来訪者に応対する装置として具現化してもよい。   In the above-described embodiment, the dialogue apparatus is a guidance robot that guides the exhibition hall. The interactive device is not limited to the robot that guides the exhibition hall, and may be embodied as a device that responds to visitors at a company reception, for example.

本明細書または図面に説明した技術要素は、単独であるいは各種の組合せによって技術的有用性を発揮するものであり、出願時の請求項に記載の組合せに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。   The technical elements described in this specification or the drawings exhibit technical usefulness alone or in various combinations, and are not limited to the combinations described in the claims at the time of filing. In addition, the technology illustrated in the present specification or the drawings achieves a plurality of objects at the same time, and has technical utility by achieving one of the objects.

第1実施例の対話装置(案内ロボット)の構成を示すブロック図である。It is a block diagram which shows the structure of the dialogue apparatus (guide robot) of 1st Example. 対話装置が実行する処理のフローチャート図である(1)。It is a flowchart figure of the process which a dialogue apparatus performs (1). 対話装置が実行する処理のフローチャート図である(2)。It is a flowchart figure of the process which a dialogue apparatus performs (2). 音声の特徴と動作の特徴量を状態変数とする状態空間(関心度マップ)を説明する図である。It is a figure explaining the state space (interesting degree map) which uses the feature quantity of an audio | voice and the feature-value of an action as a state variable. 第2実施例の対話装置(案内ロボット)が実行する処理のフローチャート図である。It is a flowchart figure of the process which the dialogue apparatus (guidance robot) of 2nd Example performs. 第2実施例の対話装置による関心度レベルを特定する処理を説明する図である。It is a figure explaining the process which specifies the interest level by the interactive apparatus of 2nd Example. 第3実施例の対話装置(案内ロボット)が実行する処理のフローチャート図である。It is a flowchart figure of the process which the dialogue apparatus (guidance robot) of 3rd Example performs. 第3実施例の対話装置による関心度レベルを特定する処理を説明する図である。It is a figure explaining the process which specifies the interest level by the dialogue apparatus of 3rd Example.

符号の説明Explanation of symbols

2:案内ロボット(対話装置)
4:スピーカ
6:マイクロホン
8:カメラ
12:制御装置
14:CPU
20:記憶装置
22:対話制御プログラム
24:音声特徴量抽出プログラム
26:動作特徴量抽出プログラム
28:関心度推定プログラム
30:対話用データベース
2: Guide robot (dialogue device)
4: Speaker 6: Microphone 8: Camera 12: Control device 14: CPU
20: Storage device 22: Dialogue control program 24: Speech feature quantity extraction program 26: Motion feature quantity extraction program 28: Interest level estimation program 30: Dialogue database

Claims (8)

利用者と対話する装置であって、
複数の話題と、夫々の話題に関連付けられた情報を記憶している記憶装置と、
記憶装置に記憶された複数の話題から一の話題を選択し、選択した話題に関連付けられた情報を利用者へ音声出力する制御手段と、
利用者が発した音声を取得するマイクロホンと、
利用者を撮影するカメラと、
マイクロホンが取得した音声から、利用者の音声の特徴量を抽出する音声特徴量抽出手段と、
カメラが撮影した利用者の画像から、利用者の動作の特徴量を抽出する動作特徴量抽出手段と、
音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域であって相互に順位付けされた複数の領域のデータを記憶しており、抽出した音声の特徴量と動作の特徴量を要素とする特徴量ベクトルが、状態空間に設定された複数の領域のいずれの領域に属するかを特定する状態推定手段と、を備えており、
前記制御手段は、状態推定手段によって特定された領域の順位が閾値より低い場合に、選択する話題を切り替えることを特徴とする対話装置。
A device that interacts with a user,
A storage device storing a plurality of topics and information associated with each topic;
Control means for selecting one topic from a plurality of topics stored in the storage device, and outputting information associated with the selected topic to the user,
A microphone that captures the voice uttered by the user;
A camera that shoots the user,
A voice feature amount extraction means for extracting a feature amount of a user's voice from the voice acquired by the microphone;
Motion feature amount extraction means for extracting a feature amount of the user's motion from the user's image captured by the camera;
It stores the data of multiple regions that are set in the state space with the feature amount of speech and the feature amount of motion as variables, and that are ranked in relation to each other. State estimation means for specifying which of the plurality of regions set in the state space the feature amount vector having the feature amount of as an element, and
The said control means switches the topic selected when the order | rank of the area | region specified by the state estimation means is lower than a threshold value, The dialogue apparatus characterized by the above-mentioned.
前記記憶装置は、夫々の話題に関連付けられた複数の情報を記憶しており、
前記状態推定手段は、前記制御手段が一の情報の出力を終了してから次の一の情報の出力を開始して終了するまでの間に取得した複数の特徴量ベクトルの前記状態空間の各領域に対する尤度を算出して記憶し、前記次の一の情報の出力が終了した時点で前記状態空間の領域毎にその領域に対する複数の特徴量ベクトルの尤度平均を算出し、最も大きい尤度平均を有する領域を特定することを特徴とする請求項1に記載の対話装置。
The storage device stores a plurality of information associated with each topic,
The state estimation means includes a plurality of feature vectors acquired between the time when the control means ends output of one information and the time when output of the next one information starts and ends. The likelihood for the region is calculated and stored, and when the output of the next one piece of information is finished, the likelihood average of a plurality of feature quantity vectors for the region is calculated for each region of the state space, and the largest likelihood is calculated. The interactive apparatus according to claim 1, wherein a region having a degree average is specified.
動作の特徴量は、利用者の頭部の動きの変動幅と変動方向の少なくとも一方を含むことを特徴とする請求項1又は2に記載の対話装置。   The interactive apparatus according to claim 1, wherein the feature amount of the action includes at least one of a fluctuation range and a fluctuation direction of the movement of the user's head. 音声の特徴量は、利用者の音声の音量の変動幅と音質の変動幅の少なくとも一方を含むことを特徴とする請求項1から3のいずれか一項に記載の対話装置。   4. The interactive apparatus according to claim 1, wherein the voice feature amount includes at least one of a fluctuation range of a sound volume of a user and a fluctuation range of a sound quality. マイクロホンと、カメラと、複数の話題と夫々の話題に関連付けられた情報を記憶している記憶装置を有するコンピュータを、利用者と対話する対話装置として機能させるプログラムであり、前記コンピュータを、
記憶装置に記憶された複数の話題から一の話題を選択し、選択した話題に関連付けられた情報を利用者へ音声出力する制御手段、
マイクロホンが取得した音声から、利用者の音声の特徴量を抽出する音声特徴量抽出手段、
カメラが撮影した利用者の画像から、利用者の動作の特徴量を抽出する動作特徴量抽出手段、
音声の特徴量と動作の特徴量を変数とする状態空間に設定された複数の領域であって相互に順位付けされた複数の領域のデータを記憶しており、抽出した音声の特徴量と動作の特徴量を要素とする特徴量ベクトルが、状態空間に設定された複数の領域のいずれの領域に属するかを特定する状態推定手段、として機能させ、
前記制御手段が、状態推定手段によって特定された領域の順位が閾値より低い場合に、選択する話題を切り替えることを特徴とする対話用プログラム。
A program that causes a computer having a microphone, a camera, and a storage device that stores a plurality of topics and information associated with each topic to function as an interactive device that interacts with a user.
A control means for selecting one topic from a plurality of topics stored in the storage device and outputting the information associated with the selected topic to the user by voice;
Voice feature extraction means for extracting the feature of the user's voice from the voice acquired by the microphone;
Motion feature amount extraction means for extracting a feature amount of the user's motion from the user's image captured by the camera;
It stores the data of multiple regions that are set in the state space with the feature amount of speech and the feature amount of motion as variables, and that are ranked in relation to each other. The feature quantity vector having the feature quantity as an element functions as state estimation means for specifying which of a plurality of areas set in the state space belongs,
An interactive program characterized in that the control means switches the topic to be selected when the rank of the area specified by the state estimation means is lower than a threshold value.
前記記憶装置は、夫々の話題に関連付けられた複数の情報を記憶しており、
前記状態推定手段は、前記制御手段が一の情報の出力を終了してから次の一の情報の出力を終了するまでの間に取得した複数の特徴量ベクトルの前記状態空間の各領域に対する尤度を算出して記憶し、前記次の一の情報の出力が終了した時点で前記状態空間の領域毎にその領域に対する複数の特徴量ベクトルの尤度平均を算出し、最も大きい尤度平均を有する領域を特定することを特徴とする請求項5に記載の対話用プログラム。
The storage device stores a plurality of information associated with each topic,
The state estimation unit is configured to estimate a plurality of feature quantity vectors acquired between the end of the output of one piece of information and the end of the output of the next piece of information for each region of the state space. The degree of likelihood is calculated and stored, and when the output of the next one piece of information is finished, the likelihood average of a plurality of feature vectors for the area is calculated for each area of the state space, and the largest likelihood average is calculated. The interactive program according to claim 5, wherein the area is specified.
動作の特徴量は、利用者の頭部の動きの変動幅と変動方向の少なくとも一方を含むことを特徴とする請求項5又は6に記載の対話用プログラム。   The interactive program according to claim 5 or 6, wherein the feature amount of the action includes at least one of a fluctuation range and a fluctuation direction of the movement of the user's head. 音声の特徴量は、その音声の音量の変動幅と音質の変動幅の少なくとも一方を含むことを特徴とする請求項5から7のいずれか一項に記載の対話用プログラム。   The interactive program according to any one of claims 5 to 7, wherein the voice feature amount includes at least one of a fluctuation range of sound volume and a fluctuation range of sound quality.
JP2007201916A 2007-08-02 2007-08-02 Dialogue device and dialogue program Pending JP2009037050A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007201916A JP2009037050A (en) 2007-08-02 2007-08-02 Dialogue device and dialogue program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007201916A JP2009037050A (en) 2007-08-02 2007-08-02 Dialogue device and dialogue program

Publications (1)

Publication Number Publication Date
JP2009037050A true JP2009037050A (en) 2009-02-19

Family

ID=40439012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007201916A Pending JP2009037050A (en) 2007-08-02 2007-08-02 Dialogue device and dialogue program

Country Status (1)

Country Link
JP (1) JP2009037050A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030372A1 (en) * 2009-09-09 2011-03-17 株式会社 東芝 Speech interaction device and program
JP2011221101A (en) * 2010-04-05 2011-11-04 Ai:Kk Communication device
KR101499606B1 (en) * 2013-05-10 2015-03-09 서강대학교산학협력단 Interest score calculation system and method using feature data of voice signal, recording medium recording program of interest score calculation method
JP2015081971A (en) * 2013-10-22 2015-04-27 株式会社Nttドコモ Function execution instruction system and function execution instruction method
WO2017200074A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog device, and program
JP2018055232A (en) * 2016-09-27 2018-04-05 大日本印刷株式会社 Content providing apparatus, content providing method, and program
JP2018072650A (en) * 2016-10-31 2018-05-10 ファーハット ロボティクス エービー Voice interactive device and voice interactive method
JP2018147145A (en) * 2017-03-03 2018-09-20 株式会社国際電気通信基礎技術研究所 Communication robot, control method, and control program
US10593323B2 (en) 2016-09-29 2020-03-17 Toyota Jidosha Kabushiki Kaisha Keyword generation apparatus and keyword generation method
WO2021210332A1 (en) * 2020-04-14 2021-10-21 ソニーグループ株式会社 Information processing device, information processing system, information processing method, and program
JP2023106934A (en) * 2022-01-21 2023-08-02 株式会社Nttドコモ Information processing equipment
WO2023171747A1 (en) * 2022-03-11 2023-09-14 学校法人早稲田大学 Information processing program, information processing method, and information processing device
WO2023218244A1 (en) * 2022-05-11 2023-11-16 日産自動車株式会社 Information provision method and information provision system
US11983309B2 (en) 2018-03-22 2024-05-14 Japan Science And Technology Agency Device and method to acquire timing of blink motion performed by a dialogue device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004112518A (en) * 2002-09-19 2004-04-08 Takenaka Komuten Co Ltd Information providing apparatus
JP2005107384A (en) * 2003-10-01 2005-04-21 Sony Corp Voice recognition apparatus and method, program, and recording medium
JP2005301017A (en) * 2004-04-14 2005-10-27 Sony Corp Information processing apparatus, information processing method, and program
JP2006302194A (en) * 2005-04-25 2006-11-02 Brother Ind Ltd Content output system and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004112518A (en) * 2002-09-19 2004-04-08 Takenaka Komuten Co Ltd Information providing apparatus
JP2005107384A (en) * 2003-10-01 2005-04-21 Sony Corp Voice recognition apparatus and method, program, and recording medium
JP2005301017A (en) * 2004-04-14 2005-10-27 Sony Corp Information processing apparatus, information processing method, and program
JP2006302194A (en) * 2005-04-25 2006-11-02 Brother Ind Ltd Content output system and program

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030372A1 (en) * 2009-09-09 2011-03-17 株式会社 東芝 Speech interaction device and program
JP2011221101A (en) * 2010-04-05 2011-11-04 Ai:Kk Communication device
KR101499606B1 (en) * 2013-05-10 2015-03-09 서강대학교산학협력단 Interest score calculation system and method using feature data of voice signal, recording medium recording program of interest score calculation method
JP2015081971A (en) * 2013-10-22 2015-04-27 株式会社Nttドコモ Function execution instruction system and function execution instruction method
JPWO2017200074A1 (en) * 2016-05-20 2019-03-07 日本電信電話株式会社 Dialogue method, dialogue system, dialogue apparatus, and program
WO2017200074A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog device, and program
JP2018055232A (en) * 2016-09-27 2018-04-05 大日本印刷株式会社 Content providing apparatus, content providing method, and program
US10593323B2 (en) 2016-09-29 2020-03-17 Toyota Jidosha Kabushiki Kaisha Keyword generation apparatus and keyword generation method
JP2018072650A (en) * 2016-10-31 2018-05-10 ファーハット ロボティクス エービー Voice interactive device and voice interactive method
JP2018147145A (en) * 2017-03-03 2018-09-20 株式会社国際電気通信基礎技術研究所 Communication robot, control method, and control program
US11983309B2 (en) 2018-03-22 2024-05-14 Japan Science And Technology Agency Device and method to acquire timing of blink motion performed by a dialogue device
WO2021210332A1 (en) * 2020-04-14 2021-10-21 ソニーグループ株式会社 Information processing device, information processing system, information processing method, and program
JP2023106934A (en) * 2022-01-21 2023-08-02 株式会社Nttドコモ Information processing equipment
JP7757189B2 (en) 2022-01-21 2025-10-21 株式会社Nttドコモ Information processing device
JP2023132838A (en) * 2022-03-11 2023-09-22 学校法人早稲田大学 Information processing program, information processing method, and information processing device
WO2023171747A1 (en) * 2022-03-11 2023-09-14 学校法人早稲田大学 Information processing program, information processing method, and information processing device
JP7752417B2 (en) 2022-03-11 2025-10-10 学校法人早稲田大学 Information processing program, information processing method, and information processing device
WO2023218244A1 (en) * 2022-05-11 2023-11-16 日産自動車株式会社 Information provision method and information provision system
JPWO2023218244A1 (en) * 2022-05-11 2023-11-16

Similar Documents

Publication Publication Date Title
JP2009037050A (en) Dialogue device and dialogue program
US11887582B2 (en) Training and testing utterance-based frameworks
KR102371188B1 (en) Apparatus and method for speech recognition, and electronic device
CN114051639B (en) Method and system for detecting emotion in audio data
JP6731326B2 (en) Voice interaction device and voice interaction method
CN106373569B (en) Voice interaction device and method
EP2609587B1 (en) System and method for recognizing a user voice command in noisy environment
JP4369132B2 (en) Background learning of speaker voice
Schuller et al. Emotion recognition in the noise applying large acoustic feature sets
JP3984207B2 (en) Speech recognition evaluation apparatus, speech recognition evaluation method, and speech recognition evaluation program
CN101506874B (en) Feeling detection method, and feeling detection device
US20200411037A1 (en) Alternate response generation
KR102191306B1 (en) System and method for recognition of voice emotion
JP3836815B2 (en) Speech recognition apparatus, speech recognition method, computer-executable program and storage medium for causing computer to execute speech recognition method
JP2012047924A (en) Information processing device and information processing method, and program
JP7511374B2 (en) Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program
JP7347217B2 (en) Information processing device, information processing system, information processing method, and program
CN109903750A (en) A kind of audio recognition method and device
WO2017175351A1 (en) Information processing device
Nose et al. HMM-based style control for expressive speech synthesis with arbitrary speaker's voice using model adaptation
JPWO2010128560A1 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP2018155980A (en) Dialogue device and dialogue method
Wang et al. I-vector based speaker gender recognition
JP4634156B2 (en) Voice dialogue method and voice dialogue apparatus
KR101727306B1 (en) Languange model clustering based speech recognition apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111018