[go: up one dir, main page]

WO2019039352A1 - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
WO2019039352A1
WO2019039352A1 PCT/JP2018/030272 JP2018030272W WO2019039352A1 WO 2019039352 A1 WO2019039352 A1 WO 2019039352A1 JP 2018030272 W JP2018030272 W JP 2018030272W WO 2019039352 A1 WO2019039352 A1 WO 2019039352A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
utterance
directed
voice data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2018/030272
Other languages
English (en)
French (fr)
Inventor
伸明 川瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of WO2019039352A1 publication Critical patent/WO2019039352A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Definitions

  • the object 20 is an interactive robot.
  • the front direction of the face of the person 10-1 who is the speaker is directed to the object 20.
  • the direction of the line of sight of the person 10-1 is different.
  • the information processing apparatus 2000 determines, using the line of sight of the person 10-1, whether or not the utterance included in the voice data is directed from the person 10 to the robot. Therefore, in the example in the right column of FIG. 1, it is determined that the utterance included in the voice data is not directed to the robot from the person 10. Therefore, the robot has not responded to this utterance.
  • the computer 1000 may be realized using a plurality of computers.
  • the image analysis unit 2020 and the voice determination unit 2040 can be realized by different computers.
  • the program modules stored in the storage device of each computer may be only the program modules corresponding to the functional components realized by the computer.
  • the camera 30 is an arbitrary camera that captures an image of the person 10 and generates moving image data.
  • the captured image is a moving image frame that constitutes this moving image data.
  • the camera 30 may be installed on the object 20 or may be installed at a location other than the object 20.
  • the object 20 is a robot.
  • the camera 30 installed on the object 20 is, for example, a camera (treated as an eye of the robot) used to visually recognize the surrounding situation.
  • the microphone 40 may be installed on the object 20 or may be installed in a place other than the object 20.
  • the object 20 is a robot.
  • the microphone 40 installed on the object 20 is, for example, a microphone (handled as a robot's ear) used to aurally recognize the surrounding situation by the robot.
  • the image analysis unit 2020 acquires a captured image (S102).
  • the method by which the image analysis unit 2020 acquires a captured image is arbitrary.
  • the image analysis unit 2020 receives a captured image transmitted from the camera 30.
  • the image analysis unit 2020 accesses the camera 30 and acquires a captured image stored in the camera 30.
  • the image analysis unit 2020 may acquire all captured images generated by the camera 30, or may acquire only a part of the captured images. In the latter case, for example, the image analysis unit 2020 acquires a captured image generated by the camera 30 at a ratio of one to a predetermined number.
  • the image analysis unit 2020 estimates the line of sight for each of the plurality of people.
  • the timing at which the speech discrimination unit 2040 acquires speech data is arbitrary. For example, every time the target 20 newly generates speech data, the newly generated speech data is transmitted to the information processing apparatus 2000. In this case, the speech discrimination unit 2040 acquires the speech data at the timing when the speech data is newly generated. In addition, for example, the information processing apparatus 2000 may periodically access the object 20 or a storage unit communicably connected to the object 20 to acquire unacquired audio data.
  • the information processing apparatus 2000 can specify the speaker of the speech represented by the speech data.
  • This particular method is varied.
  • the speaker can be identified based on the movement of the person's mouth included in the captured image during the period in which the utterance is performed.
  • the information processing apparatus 2000 performs image analysis on each captured image generated in a period in which the utterance represented by the utterance data is performed, thereby specifying a person moving the mouth in the period and uttering the person Identify as a person.
  • the information processing apparatus 2000 identifies a person who has the longest moving time of the mouth during that period as a speaker.
  • other existing techniques can also be used for the technique of specifying the speaker of the utterance contained in audio
  • the characteristic of each candidate may be determined in advance for a plurality of candidates of the speaker, and this information may be used to specify the speaker.
  • the identification information for example, identification of a word having high probability of being included in each person's utterance
  • the information correlated with the number is determined in advance (stored in the storage unit).
  • the information processing apparatus 2000 determines whether a word included in the utterance is associated with identification information of each person. For example, in the above-mentioned household example, it is assumed that fathers A and B move their mouths as a result of image analysis of a captured image generated during a period in which speech is performed. In this case, the information processing device 2000 determines whether the word included in the utterance is associated with the identification information of the father A or the mother B. For example, if the utterance includes the word “stock price”, the utterance includes the word associated with the identification information of the father A. Therefore, the information processing apparatus 2000 specifies that the speaker is the father A. As described above, by using the words previously associated with the person for specifying the speaker, the speaker can be specified with higher accuracy.
  • the voice determination unit 2040 determines whether the utterance data represents an utterance directed from the person 10 to the target 20 (S108). The determination as to whether or not a certain utterance is directed from the person 10 to the target 20 is made based on the line of sight of the person 10 in the period in which the utterance is performed. In addition, when two or more persons 10 are contained in a captured image, the said determination is performed based on the eyes of the speaker of the speech represented by speech data.
  • FIG. 5 is a diagram illustrating the relationship between the length of the period during which the utterance represented by the utterance data is performed and the length of the period during which the line of sight of the person 10 is directed to the object 20.
  • the period during which the utterance represented by the utterance data is performed is from time t1 to time t6, and the length of the period is p1.
  • the line of sight of the person 10 is directed to the object 20 during the period from time t2 to time t3 and the period from time t4 to time t5, and the length of these periods is P2 and p3 respectively.
  • the voice discrimination unit 2040 uses the line of sight direction of the person 10 estimated by the image analysis unit 2020 and the start point (for example, the center of the black eye) of the line of sight of the person 10 in the captured image. It is determined whether or not it intersects with 20. Then, when the line of sight of the person 10 intersects with the object 20, the voice determination unit 2040 determines that the line of sight of the person 10 is directed to the object 20. On the other hand, when the line of sight of the person 10 does not cross the object 20, the voice determination unit 2040 determines that the line of sight of the person 10 is not directed to the object 20.
  • the image analysis unit 2020 may specify one line of sight of the person 10 based on the lines of sight of the person 10. For example, the image analysis unit 2020 sets a midpoint between the center of the black eye of the left eye of the person 10 and the center of the black eye of the right eye of the person 10 as the start point of the line of sight of the person 10. Further, the image analysis unit 2020 sets a vector obtained by adding the vector representing the line-of-sight direction of the left eye of the person 10 and the vector representing the line-of-sight direction of the right eye of the person 10 as the line-of-sight direction of the person 10. Then, the voice determination unit 2040 determines whether or not the line of sight of the person 10 is directed to the object 20 by determining whether or not the one line of sight specified in this manner intersects the object 20.
  • the voice determination unit 2040 does not “whether or not the line of sight of the person 10 intersects the object 20”, “whether or not the line of sight of the person 10 intersects a predetermined size range including the object 20” May be determined. This is because when a person looks at an object and talks, the line of sight does not necessarily intersect the object, and sometimes it looks around the object.
  • the predetermined range is, for example, a range in which the size of the object 20 is enlarged at a predetermined rate (for example, 10%).
  • the speech discrimination unit 2040 stores the speech data in the storage unit 50 (S110).
  • the storage unit 50 stores not only speech data representing a speech directed from the person 10 to the object 20, but also speech data representing speech not directed from the person 10 to the object 20. It may be done. In this case, the storage unit 50 stores the utterance data in association with the information indicating whether or not the data is directed from the person 10 to the target 20.
  • the speaker 206 indicates identification information for identifying the person 10 who has made the utterance represented by the utterance data 202.
  • the identification information is a feature amount of the face of the speaker obtained from the captured image.
  • the method of identifying the speaker is as described above.
  • the identification information may be an identifier (such as a unique number) assigned to the person 10.
  • the information processing apparatus 2000 repeatedly detects the face of a person on the captured image, and when a new person is detected from the captured image, associates a new identifier with the feature amount of the face of the person. It is stored in the storage unit. Then, the voice determination unit 2040 sets an identifier associated with the feature amount of the face of the person 10 who has made the utterance represented by the utterance data 202 in the utterer 206.
  • FIG. 7 is a block diagram illustrating the functional configuration of the information processing apparatus 2000 of the second embodiment.
  • the information processing apparatus 2000 of the second embodiment has the same function as the information processing apparatus 2000 of the first embodiment except for the points described below.
  • the feature data generation unit 2060 extracts keywords representing the various information described above from the speech data determined by the speech discrimination unit 2040 to represent the speech directed to the object 20 from the person 10 By doing this, feature data of the person 10 is generated.
  • the existing technology can be used for the technology itself which extracts a keyword from the utterance.
  • the feature data is a set of all the keywords extracted from the speech data.
  • the feature data is a set of keywords having high importance among keywords extracted from speech data.
  • the importance of a keyword is represented by the frequency with which the keyword is included in the speech data. That is, the higher the frequency of the keyword included in the utterance, the higher the degree of importance.
  • the extracted keyword be further associated with the attribute of the keyword.
  • an attribute "schedule" is associated with the keyword.
  • an attribute “interest” is associated with the keyword.
  • a plurality of attributes may be associated with one keyword.
  • the existing technology can be used as a technology for specifying an attribute related to a keyword from the utterance.
  • FIG. 8 is a diagram illustrating feature data in the form of a table.
  • the table of FIG. 8 is called a table 300.
  • the table 300 has three columns: keyword 302, attribute 304, and importance 306.
  • a table 300 representing feature data of a person is associated with identification information of the person.
  • FIG. 8 shows feature data of a person specified by “ID 0001”.
  • the feature data generation unit 2060 extracts a keyword extracted from speech data representing a speech directed from the person 10 to the object 20 from speech data not representing a speech directed from the person 10 to the object 20 Prior to using keywords.
  • the keyword A extracted from the utterance data representing the utterance directed to the object 20 from the person 10 contradicts the keyword B extracted from the utterance data not representing the utterance directed to the object 20 from the person 10
  • the feature data generation unit 2060 includes the keyword A in the feature data and does not include the keyword B in the feature data.
  • the feature data generation unit 2060 is an utterance that does not represent the utterance directed from the person 10 to the object 20 in the keyword extracted from the utterance data representing the utterance directed from the person 10 to the object 20
  • the above-mentioned importance is calculated by giving a larger weight than the keyword extracted from the data. For example, there is a method of calculating the importance of a keyword as an integrated value of frequency and weight.
  • the characteristic data of the person 10 can be generated in more detail by specifying the speaking partner. Specifically, when a certain keyword is included in the feature data of the person 10, the other party who speaks the utterance related to the keyword is also included in the feature data as a related person related to the keyword.
  • the feature data generation unit 2060 estimates from the speech of the person A that the person A is going to travel.
  • the feature data generation unit 2060 includes information “keyword: travel, attribute: schedule” in the feature data of the person A.
  • the feature data generation unit 2060 determines whether person A travels alone or with other people (is there any other person related to travel)? The estimation is made and the estimation result is also included in the feature data of person A.
  • Example of hardware configuration The hardware configuration of a computer that implements the information processing apparatus 2000 of the second embodiment is represented, for example, by FIG. 3 as in the first embodiment. However, in the storage device 1080 of the computer 1000 for realizing the information processing apparatus 2000 of the present embodiment, a program module for realizing the function of the information processing apparatus 2000 of the present embodiment is further stored.
  • FIG. 10 is a block diagram illustrating the functional configuration of the information processing apparatus 2000 of the third embodiment.
  • the information processing apparatus 2000 of the third embodiment has the same function as the information processing apparatus 2000 of the first or second embodiment except for the points described below.
  • the object 20 does not operate in response to the voice command included in all the speech data, and is directed from the person 10 to the object 20. It operates only in response to the voice command included in the voiced speech. By doing this, it is possible to operate the object 20 only when the person 10 issues a voice command to the object 20. Thus, for example, in the case where the same words as an accidental voice command are accidentally included in the words spoken by the person 10 for another person, it is possible to prevent the object 20 from operating erroneously. .
  • the utterance representing any request is not limited to a predetermined voice command.
  • the object 20 has a function of interpreting the content of human speech and performing an operation according to the content. Specifically, in response to a request “take a cup on the table”, an operation of taking a cup on the table and giving it to a speaker may be considered.
  • the object 20 may have a function of responding according to the content of the utterance of the person 10.
  • the information processing apparatus 2000 determines whether to make the subject 20 respond in response to the utterance of the person 10. Specifically, when it is determined that the utterance data is an utterance directed from the person 10 to the object 20, the process determining unit 2080 causes the object 20 to reply using the content of the utterance data. Decide that. On the other hand, when it is determined that the utterance data is not an utterance directed from the person 10 to the object 20, the process determining unit 2080 determines not to make the object 20 reply. By doing this, it is possible to prevent the target 20 from erroneously replying to an utterance that the person 10 has directed to another person instead of the target 20.
  • the information processing apparatus 2000 specifies a travel schedule, a destination, and the like by referring to feature data and schedule data of the person A, and searches for available hotels based on the specified schedule and destination. Furthermore, the information processing apparatus 2000 refers to the one that the person A is interested in, which is shown in the feature data of the person A, and preferentially presents the hotel having a high degree of association with the one that is interested as a search result. Do. For example, when “hot spring” is included in the thing that person A is interested in, the information processing apparatus 2000 preferentially presents a hotel having a hot spring facility or a hotel having a hot spring facility nearby.
  • the feature data indicates a related person (e.g., a person who travels together) associated with the keyword.
  • the motion of the object 20 is preferably determined in consideration of the relevant person as well.
  • the information processing apparatus 2000 grasps that the person A goes on a trip with the person B by referring to the feature data of the person A. Then, the information processing apparatus 2000 searches for a hotel in which a room in which two people can stay is vacant. Further, the information processing apparatus 2000 refers to the one in which the person B is interested, which is indicated in the feature data of the person B, and searches for a hotel in consideration of the person B's interest.
  • the information processing apparatus 2000 is a hotel having a high degree of association with "hot spring” and "seafood” (eg, hot spring facilities and seafood dishes). We present the search results for hotels that are close to both the store and the store).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理装置(2000)は、音声データに含まれる人(10)の発話が、人(10)から対象物(20)に向けられたものであるか否かを判定する。上記判定を行うために、情報処理装置(2000)は、人(10)の視線を推定する。人(10)の視線の推定は、人(10)が含まれる撮像画像を画像解析することで行われる。上記判定は、推定された人(10)の視線を用いて行われる。

Description

情報処理装置、制御方法、及びプログラム
 本発明は、人の発話を処理する技術に関する。
 コンピュータによって、人の発話を表す音声を処理する技術がある。例えば特許文献1は、ユーザの音声入力文に対して応答するロボットを開示している。
特開2014-240864号公報
 ロボットなどの対象物がその人の近くに設置されている場合であっても、その人がその対象物以外に向けて発話することがある。例えば、他の人と会話をしたり、独り言を言ったりする場合がある。このようにロボット等に向けられていない発話が、ロボット等に向けられた発話と同様に処理されてしまうと、ロボット等が期待されていない動作をすることとなり、その利便性が低下してしまう。
 この点、特許文献1は、カメラによってユーザの正面の顔が検出されたときに得られた音声を、ユーザによる音声指示を表す可能性が高いものとして扱う技術を開示している。しかしながら、ユーザの正面の顔がロボット等に向いているからといって、ユーザがロボット等に音声指示をしているとは限らない。
 本発明は、以上の課題に鑑みてなされたものである。本発明の目的の一つは、人の発話を精度良く処理する技術を提供することである。
 本発明の情報処理装置は、1)撮像画像に含まれる人の視線を推定する画像解析手段と、2)推定した視線を用いて、音声データが、人から対象物に向けられた発話を表すものであるか否かを判別する音声判別手段と、を有する。
 本発明の制御方法は、コンピュータによって実行される。当該制御方法は、1)撮像画像に含まれる人の視線を推定する画像解析ステップと、2)推定した視線を用いて、音声データが、人から対象物に向けられた発話を表すものであるか否かを判別する音声判別ステップと、を有する。
 本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。
 本発明によれば、人の発話を精度良く処理する技術が提供される。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
実施形態1の情報処理装置(図2で例示される情報処理装置)の動作の概要を説明するための図である。 実施形態1の情報処理装置の構成を例示する図である。 情報処理装置を実現するための計算機を例示する図である。 実施形態1の情報処理装置によって実行される処理の流れを例示するフローチャートである。 発話データによって表される発話が行われた期間の長さと、人の視線が対象物に向いている期間の長さとの関係を例示する図である。 記憶部に記憶される情報をテーブル形式で例示する図である。 実施形態2の情報処理装置の機能構成を例示するブロック図である。 特徴データをテーブル形式で例示する図である。 対象物以外の発話相手を特定した上で記憶される発話データを例示する図である。 実施形態3の情報処理装置の機能構成を例示するブロック図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
[実施形態1]
<概要>
 図1は、実施形態1の情報処理装置(図2で例示される情報処理装置2000)の動作の概要を説明するための図である。以下で説明する情報処理装置2000の動作は、情報処理装置2000の理解を容易にするための例示であり、情報処理装置2000の動作は以下の例に限定されるわけではない。情報処理装置2000の動作の詳細やバリエーションについては後述する。
 情報処理装置2000は、音声データに含まれる人10の発話が、人10から対象物20に向けられたものであるか否かを判定する。対象物20は、人10が発話の対象としうる任意の物である。例えば対象物20は、人10の発話を処理して動作するロボットなどの任意のコンピュータである。なお図1の例における対象物20は、人10の発話に対して返答をする対話型のロボットである。
 上記判定を行うために、情報処理装置2000は、人10の視線を推定する。人10の視線の推定は、人10が含まれる撮像画像を画像解析することで行われる。上記判定は、推定された人10の視線を用いて行われる。人10から対象物20に向けられた発話を表すと判定された音声データは、記憶部に記憶される。
 図1を用いて具体例を説明する。前述したように、図1において対象物20は対話型のロボットである。図1の左列の例と右列の例ではいずれも、発話者である人10-1の顔の正面方向は、対象物20に向かっている。しかしながら、これらの例では、人10-1の視線の方向が異なる。
 左列の例では、人10-1がロボットに視線を向けて「明日の天気は晴れかな?」と発話している。ロボットに視線が向けられていることから、この発話は、ロボットに対し、翌日の天気を調べることを要求していると言える。情報処理装置2000は、人10-1の視線を用いて、音声データに含まれる発話が人10からロボットに向けられたものであるか否かを判定する。その結果、音声データに含まれる発話は、人10からロボットに向けられたものであると判定される。そこでロボットは、例えば上記発話に応じ、インターネットなどを利用して翌日の天気を調べて返答を出力する。例えば、「明日は雨の予報です」といった返答が出力される。
 一方、右列の例では、人10-1は、ロボットに視線を向けずに、「明日の天気は晴れかな?」と発話している。ここで前述したように、この例においても、人10-1の顔は正面を向いている。そのため、人10-1の顔の向きに基づいて、人10-1の発話がロボットに向けられているか否かを判定してしまうと、この例においても人10-1の発話がロボットに向けられていると判定されてしまう。しかしながら、この例では、人10-1は人10-2を見ながら話をしており、明らかに人10-2に話しかけていると言える。そのため、人10-1の発話に対してロボットが応答すると、人10-1と人10-2の会話に割り込む形になってしまい、ロボットの利便性が低くなってしまうと言える。
 この点、情報処理装置2000は、前述したように、人10-1の視線を用いて、音声データに含まれる発話が人10からロボットに向けられたものであるか否かを判定する。そのため、図1の右列の例では、音声データに含まれる発話は、人10からロボットに向けられたものではないと判定される。よって、ロボットは、この発話に対する応答を行っていない。
 このように本実施形態の情報処理装置2000は、「人が対象物に向けて発話する場合に、その人の視線がその対象物に向けられることが多い」ということに着目して発明されたものである。具体的には、本実施形態の情報処理装置2000は、人10の視線を推定し、推定した視線を用いて、人10の発話が対象物20に向けられているか否かを判定する。こうすることで、発話が人10から対象物20へ向けられたものであるか否かを精度良く判別することができる。例えば前述した図1の右列の例において、人10-1から人10-2に対する発話に対して、対象物20が誤って応答してしまうことを防ぐことができる。
 以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。
<情報処理装置2000の機能構成の例>
 図2は、実施形態1の情報処理装置2000の構成を例示する図である。図2において、情報処理装置2000は、画像解析部2020及び音声判別部2040を有する。画像解析部2020は、撮像画像を取得し、取得した撮像画像に含まれる人10の視線を推定する。音声判別部2040は、人10の発話が含まれる音声データ(以下、発話データ)を取得する。また、音声判別部2040は、画像解析部2020によって推定された視線を用いて、発話データが人10から対象物20に向けられた発話を表すものであるか否かを判定する。発話データが人10から対象物20に向けられた発話を表すと判定した場合、音声判別部2040は、その発話データを記憶部50に記憶させる。記憶部50は、発話データを記憶することができる任意の記憶装置である。記憶部50は、情報処理装置2000の内部に設けられてもよいし、外部に設けられてもよい。
<情報処理装置2000のハードウエア構成>
 情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図3は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、System on Chip(SoC)などのチップ、Personal Computer(PC)、サーバマシン、タブレット端末、又はスマートフォンなどである。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
 計算機1000は、対象物20の内部に設置されてもよいし、対象物20の外部に設置されてもよい。例えば対象物20がロボットであるとする。この場合、対象物20の内部に設置される計算機1000は、例えばロボットに内蔵される制御チップである。一方、対象物20の外部に設置される計算機1000は、例えばネットワークなどを介して外部からロボットを制御するサーバ装置である。
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。プロセッサ1040は、CPU(Central Processing Unit)や GPU(Graphics Processing Unit)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、カメラ30やマイク40が接続される。カメラ30やマイク40についての説明は後述する。
 ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。例えば情報処理装置2000が対象物20の外部に設置される場合、情報処理装置2000は、対象物20に内蔵されている他の計算機とネットワークを介して通信する。
 ストレージデバイス1080は、情報処理装置2000の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。また、記憶部50が情報処理装置2000の内部に設けられる場合、例えば記憶部50は、ストレージデバイス1080を用いて実現される。
 なお、計算機1000は、複数の計算機を利用して実現されてもよい。例えば画像解析部2020及び音声判別部2040は、それぞれ異なる計算機で実現することができる。この場合、各計算機のストレージデバイスに記憶されるプログラムモジュールは、その計算機で実現される機能構成部に対応するプログラムモジュールだけでもよい。
<<カメラ30について>>
 カメラ30は、人10を撮像して動画データを生成する任意のカメラである。撮像画像は、この動画データを構成する動画フレームである。カメラ30は、対象物20に設置されてもよいし、対象物20以外の場所に設置されてもよい。例えば対象物20がロボットであるとする。この場合、対象物20に設置されるカメラ30は、例えばロボットが周囲の状況を視覚的に認識するために利用される(ロボットの眼として扱われる)カメラである。
<<マイク40について>>
 マイク40は、対象物20の周囲の音声を電気信号に変換する任意のマイクである。例えばマイク40は、対象物20に設置される。発話データは、マイク40によって生成された電気信号から生成される音声データから、人の発話を表すと推測される部分を切り出したものである。なお、マイク40によって生成された電気信号を音声データに変換する技術や、音声データから人の発話を表す部分を切り出す技術には、既存の技術を利用することができる。例えば音声データは、所定時間以上連続して音圧が所定値以下となる期間(無音の期間)のデータを取り除くことにより、発話単位に区切ることができる。
 マイク40は、対象物20に設置されてもよいし、対象物20以外の場所に設置されてもよい。例えば対象物20がロボットであるとする。この場合、対象物20に設置されるマイク40は、例えばロボットが周囲の状況を聴覚的に認識するために利用される(ロボットの耳として扱われる)マイクである。
<処理の流れ>
 図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。画像解析部2020は、撮像画像を取得する(S102)。画像解析部2020は、撮像画像を画像解析して、人10の視線を推定する(S104)。音声判別部2040は、発話データを取得する(S106)。音声判別部2040は、推定された人10の視線を用いて、発話データが人10から対象物20に向けられた発話を表すか否かを判定する(S108)。発話データが人10から対象物20に向けられた発話を表す場合(S108:YES)、音声判別部2040は、発話データを記憶部50に記憶させる。
 発話データが人10から対象物20に向けられた発話を表さない場合(S108:NO)、図4の処理は終了する。ただし、音声判別部2040は、人10から対象物20に向けられた発話を表さない発話データも記憶部50に記憶させるようにしてもよい。この場合、人10から対象物20へ向けられた発話を表す発話データと、人10から対象物20へ向けられた発話を表さない発話データは、互いに識別可能な状態で記憶部50に記憶される。その具体的な方法については後述する。
<撮像画像の取得:S102>
 画像解析部2020は、撮像画像を取得する(S102)。画像解析部2020が撮像画像を取得する方法は任意である。例えば画像解析部2020は、カメラ30から送信される撮像画像を受信する。また例えば、画像解析部2020は、カメラ30にアクセスし、カメラ30に記憶されている撮像画像を取得する。
 なお、カメラ30は、カメラ30の外部に設けられている記憶装置に撮像画像を記憶してもよい。この場合、画像解析部2020は、この記憶装置にアクセスして撮像画像を取得する。
 画像解析部2020が撮像画像を取得するタイミングは任意である。例えば画像解析部2020は、カメラ30によって撮像画像が生成される度に、その新たに生成された撮像画像を取得する。その他にも例えば、画像解析部2020は、定期的に未取得の撮像画像を取得してもよい。例えば画像解析部2020が1秒間に1回撮像画像を取得する場合、画像解析部2020は、カメラ30によって1秒間に生成される複数の撮像画像(例えばカメラ30によって生成される動画データのフレームレートが 30fps(frames/second) であれば、30枚の撮像画像)をまとめて取得する。
 画像解析部2020は、カメラ30によって生成される全ての撮像画像を取得してもよいし、一部の撮像画像のみを取得してもよい。後者の場合、例えば画像解析部2020は、カメラ30によって生成される撮像画像を、所定数に1つの割合で取得する。
<視線の推定:S104>
 画像解析部2020は、撮像画像に含まれる人10の視線を推定する(S104)。撮像画像に含まれる人の視線を推定する技術には、既存の様々な技術を利用することができる。例えば、画像解析部2020は、撮像画像に含まれる人10の顔の向きや眼球の位置等に基づいて、人10の視線を推定する。顔の向きは、目、鼻、口等の特徴的な部分の顔領域内の位置や、これらの相対的な位置関係等に基づき推定することができる。
 なお、撮像画像に複数の人が含まれる場合、画像解析部2020は、それら複数の人それぞれについて、視線の推定を行う。
<発話データの取得:S106>
 音声判別部2040は、発話データを取得する(S106)。発話データは、マイク40を用いて得られる音声データを発話単位で区切ることによって生成される。ここで、マイク40を用いて得られる音声データを発話単位に区切る処理は、音声判別部2040によって行われてもよいし、音声判別部2040以外の装置によって行われてもよい。
 例えば対象物20がロボットであり、情報処理装置2000がそのロボットをリモートで制御するサーバ装置であるとする。この場合、例えばマイク40は、そのロボットに取り付けられる。例えばロボットは、マイク40を用いて得られた音声データ全体を情報処理装置2000に対して送信する。この場合、音声判別部2040は、ロボットによって送信された音声データを受信し、その音声データを発話単位に区切ることで、1つ以上の発話データを取得する。その他にも例えば、ロボットは、マイク40を用いて得られた音声データを発話単位で区切ることで1つ以上の発話データを生成し、各発話データを情報処理装置2000に対して送信する。この場合、音声判別部2040は、ロボットから送信された1つ以上の発話データを受信することで、1つ以上の発話データを取得する。
 発話データを取得する方法は、対象物20から情報処理装置2000に対して音声データを送信する方法に限定されない。例えば音声判別部2040は、対象物20にアクセスすることで対象物20の内部に記憶されている音声データを取得したり、対象物20と通信可能に接続されている記憶部に記憶されている音声データを取得したりしてもよい。後者の場合、対象物20は、マイク40から得られた音声データ、又はその音声データから切り出した発話データを記憶部に記憶させておく。
 音声判別部2040が発話データを取得するタイミングは任意である。例えば対象物20が発話データを新たに生成する度に、情報処理装置2000に対してその新たに生成された発話データを送信するとする。この場合、音声判別部2040は、発話データが新たに生成されたタイミングでその発話データを取得する。その他にも例えば、情報処理装置2000は、定期的に対象物20や対象物20と通信可能に接続されている記憶部にアクセスし、未取得の音声データを取得してもよい。
 ここで、情報処理装置2000は、発話データが表す発話の発話者を特定できることが好適である。この特定の方法は様々である。例えば、発話者は、発話が行われた期間において撮像画像に含まれる人の口の動きに基づいて特定することができる。例えば情報処理装置2000は、発話データによって表される発話が行われた期間に生成された各撮像画像を画像解析することで、その期間に口を動かしている人を特定し、その人を発話者として特定する。なお、この期間に口を動かしている人が複数いる場合、例えば情報処理装置2000は、その期間に口を動かしている時間が最も長い人を発話者として特定する。なお、音声データに含まれる発話の発話者を特定する技術には、その他の既存の技術を利用することもできる。
 その他にも例えば、発話者の複数の候補について、各候補の特徴を予め定めておき、この情報を発話者の特定に利用してもよい。例えば対象物20が家庭で利用されるロボットの場合、その家に住んでいる人やその家によく来る人について、各人の発話に含まれる蓋然性が高い言葉をその人の識別情報(例えば識別番号)に対応づけた情報を、予め定めておく(記憶部に記憶させておく)。
 例えば或る家庭に、父親A、母親B、及び娘Cの三人が住んでいるとする。この場合、父親Aの識別情報に対しては父親Aが頻繁に発する言葉(例えば、「ゴルフ」や「株価」など)を、母親Bの識別情報に対しては母親Bが頻繁に発する言葉(例えば、「買い物」や「掃除」など)を、娘Cの識別情報に対しては娘Cが頻繁に発する言葉(例えば、「大学」や「バイト」など)を対応づけておく。
 情報処理装置2000は、発話が行われた期間に複数の人が口を動かしている場合、その発話に含まれる言葉が、各人の識別情報に対応づけられているかどうかを判定する。例えば前述の家庭の例において、発話が行われた期間に生成された撮像画像を画像解析した結果、父親Aと母親Bが口を動かしていたとする。この場合、情報処理装置2000は、発話に含まれる言葉が、父親A又は母親Bの識別情報に対応づけられていないかどうかを判定する。例えば発話に「株価」という言葉が含まれていたら、発話の中に、父親Aの識別情報に対応づけられている言葉が含まれている。そのため情報処理装置2000は、発話者が父親Aであると特定する。このように、人物と予め対応づけておいた言葉を発話者の特定に利用することで、発話者をより高い精度で特定することができる。
 なお、情報処理装置2000は、必ずしも発話者を一意に特定する必要はない。例えば情報処理装置2000は、発話者の候補となる人物それぞれについて(例えば家族のメンバーそれぞれについて)、その人物が発話者である尤度を算出する。例えば、父親について算出された尤度が最も大きければ、「発話者はおそらく父親であるが、他の人物である可能性もある」ということを表す。例えば情報処理装置2000は、上述した発話に含まれる言葉と、各人物の識別情報に対応づけられている言葉との一致度合いなどに基づいて、各人物が発話者である尤度を算出する。
<音声判別部2040による判定:S108>
 音声判別部2040は、発話データが人10から対象物20に向けられた発話を表すか否かを判定する(S108)。或る発話が人10から対象物20に向けられたものであるか否かの判定は、その発話が行われた期間における人10の視線に基づいて行われる。なお、撮像画像に人10が複数含まれる場合、上記判定は、発話データによって表される発話の発話者の視線に基づいて行われる。
 例えば音声判別部2040は、発話データによって表される発話が行われた期間の中に、人10の視線が対象物20に向いている時点が含まれる場合には、その発話データによって表される発話が人10から対象物20に向けられたものであると判定する(S108:YES)。一方、発話データによって表される発話が行われた期間の中に、人10の視線が対象物20に向いている時点が含まれない場合(その期間中、一度も人10の視線が対象物20に向いていない場合)には、その発話データによって表される発話が人10から対象物20に向けられたものでないと判定する(S108:NO)。
 その他にも例えば、音声判別部2040は、発話データによって表される発話が行われた期間に、人10の視線が対象物20に向いていた時間の長さを考慮して、その発話が人10から対象物20に向けられたものであるか否かを判定する。例えば音声判別部2040は、発話データによって表される発話が行われた期間の長さに対する、人10の視線が対象物20に向いている期間の長さの割合を算出する。そして、音声判別部2040は、その割合が所定の大きさ以上である場合に、発話データによって表される発話が人10から対象物20に向けられたものであると判定する(S108:YES)。一方、上記割合が所定の大きさ未満である場合、発話データによって表される発話が人10から対象物20に向けられたものではないと判定する(S108:NO)。
 図5は、発話データによって表される発話が行われた期間の長さと、人10の視線が対象物20に向いている期間の長さとの関係を例示する図である。図5において、発話データによって表される発話が行われた期間は、時点 t1 から時点 t6 までであり、その期間の長さは p1 である。また、この期間内において、人10の視線が対象物20へ向いているのは、時点 t2 から時点 t3 までの期間と、時点 t4 から時点 t5 までの期間であり、これらの期間の長さはそれぞれ p2 と p3 である。よって、発話データによって表される発話が行われた期間の長さに対する、人10の視線が対象物20に向いている期間の長さの割合 r は (p2+p3)/p1 である。音声判別部2040は、この割合 r が所定の大きさ以上であるか否かを判定する。
<<人10の視線が対象物20に向いているか否かを判定する方法>>
 人10の視線が対象物20に向いているか否かを判定する方法は様々である。例えば音声判別部2040は、画像解析部2020によって推定された人10の視線方向と、撮像画像における人10の視線方向の始点(例えば黒目の中心)とを用いて、人10の視線が対象物20と交わるか否かを判定する。そして、人10の視線が対象物20と交わる場合、音声判別部2040は、人10の視線が対象物20に向けられていると判定する。一方、人10の視線が対象物20と交わらない場合、音声判別部2040は、人10の視線が対象物20に向けられていないと判定する。
 ここで、音声判別部2040は、人10の両目のいずれか一方の視線についてのみ、人10の視線が対象物20と交わるか否かを判定してもよいし、人10の両目の視線それぞれについて、対象物20と交わるか否かを判定してもよい。後者の場合、音声判別部2040は、両目の視線いずれもが対象物20と交わる場合のみ、人10の視線が対象物20に向いていると判定してもよいし、両目の視線の少なくとも一方が対象物20と交われば、人10の視線が対象物20に向いていると判定してもよい。
 また、画像解析部2020が、人10の両目の視線に基づいて、人10の視線を1つ特定するようにしてもよい。例えば画像解析部2020は、人10の左目の黒目の中心と、人10の右目の黒目の中心との中点を、人10の視線の始点とする。さらに、画像解析部2020は、人10の左目の視線方向を表すベクトルと人10の右目の視線方向を表すベクトルとを足し合わせたベクトルを、人10の視線方向とする。そして音声判別部2040は、このようにして特定された1つの視線が対象物20と交わるか否かを判定することで、人10の視線が対象物20を向いているか否かを判定する。
 なお、音声判別部2040は、「人10の視線が対象物20に交わるか否か」の代わりに、「人10の視線が対象物20を含む所定の大きさの範囲と交わるか否か」を判定してもよい。これは、人が或る物の方を見て話をするときに、必ずしもその視線がその物に交わるとは限らず、その物の周囲を向いていることもあるためである。上記所定範囲は、例えば、対象物20の大きさを所定の割合(例えば 10%)で拡大した範囲である。
<発話データを記憶させる処理:S110>
 発話データが人10から対象物20に向けられた発話を表す場合(S108:YES)、音声判別部2040は、その発話データを記憶部50に記憶させる(S110)。ここで前述したように、記憶部50には、人10から対象物20に向けられた発話を表す発話データだけでなく、人10から対象物20に向けられていない発話を表す発話データも記憶されるようにしてもよい。この場合、記憶部50は、発話データを、人10から対象物20に向けられたものであるか否かを表す情報と対応づけて記憶する。
 図6は、記憶部50に記憶される情報をテーブル形式で例示する図である。図6のテーブルをテーブル200と表記する。テーブル200は、発話データ202、識別フラグ204、及び発話者206という3つの列を有する。発話データ202は、発話データを示す。識別フラグ204は、対応づけられている発話データ202が、人10から対象物20に向けられたものであるか否かを示す。テーブル200において、識別フラグ204が「Y」を示しているレコードは、発話データ202が人10から対象物20に向けられた発話を表していることを示す。一方、識別フラグ204が「N」を示しているレコードは、発話データ202が人10から対象物20に向けられていない発話を表していることを示す。
 発話者206は、発話データ202によって表される発話を行った人10を識別するための識別情報を示す。例えばこの識別情報は、撮像画像から得られる発話者の顔の特徴量である。なお、発話者を特定する方法は前述した通りである。その他にも例えば、この識別情報は、人10に割り当てられた識別子(固有の番号など)であってもよい。この場合、例えば情報処理装置2000は、撮像画像に対して人の顔の検出を繰り返し行い、撮像画像から新たな人が検出されたら、その人の顔の特徴量に新たな識別子を対応づけ、記憶部に記憶させる。そして音声判別部2040は、発話データ202によって表される発話を行った人10の顔の特徴量に対応づけられている識別子を、発話者206に設定する。
[実施形態2]
 図7は、実施形態2の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態2の情報処理装置2000は、実施形態1の情報処理装置2000と同様の機能を有する。
 実施形態2の情報処理装置2000は、特徴データ生成部2060を有する。特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データを用いて、人10の特徴を表す特徴データを生成する。生成された特徴データは、記憶部に記憶される。この記憶部は、記憶部50であってもよいし、記憶部50以外の記憶部であってもよい。
 例えば人の発話の中には、その人が所属している会社や学校などに関連する情報、その人の交友関係に関する情報、その人が興味を持っているものに関連する情報、その人の予定に関連する情報、その人の性格に関連する情報など、様々な情報が含まれうる。そこで例えば、特徴データ生成部2060は、音声判別部2040によって人10から対象物20に向けられた発話を表していると判定された発話データの中から、上述した種々の情報を表すキーワードを抽出することで、人10の特徴データを生成する。なお、発話の中からキーワードを抽出する技術自体には、既存の技術を利用することができる。
 例えば特徴データは、発話データから抽出されたキーワード全ての集合である。その他にも例えば、特徴データは、発話データから抽出されたキーワードのうち、特に重要度が高いキーワードの集合である。例えばキーワードの重要度は、そのキーワードが発話データの中に含まれる頻度によって表される。すなわち、発話の中に含まれる頻度が高いキーワードほど、重要度が高くなる。
 また、抽出されたキーワードには、そのキーワードの属性をさらに対応づけておくことが好適である。例えばスケジュールに関するキーワードである場合、そのキーワードに「スケジュール」という属性を対応づけておく。その他にも例えば、興味に関するキーワード(例えば、興味のある商品の名称)である場合、そのキーワードに「興味」という属性を対応づけておく。なお、1つのキーワードに複数の属性が対応づけられてもよい。ここで、発話の中からキーワードに関する属性を特定する技術にも、既存の技術を利用することができる。
 図8は、特徴データをテーブル形式で例示する図である。図8のテーブルを、テーブル300と呼ぶ。テーブル300は、キーワード302、属性304、及び重要度306という3つの列を有する。ここで、或る人の特徴データを表すテーブル300は、その人の識別情報と対応づけられている。例えば図8には、「ID0001」で特定される人物の特徴データが示されている。
 ここで、特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データだけでなく、人10から対象物20に向けられた発話を表さない発話データをさらに利用して、人10の特徴データを生成してもよい。この場合、特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データから抽出されるキーワードと、人10から対象物20に向けられた発話を表さない発話データから抽出されるキーワードとを区別して、特徴データを生成する。
 例えば特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データから抽出されるキーワードを、人10から対象物20に向けられた発話を表さない発話データから抽出されるキーワードよりも優先して利用する。例えば、人10から対象物20に向けられた発話を表す発話データから抽出されたキーワードAと、人10から対象物20に向けられた発話を表さない発話データから抽出されたキーワードBが矛盾する関係にある場合、特徴データ生成部2060は、キーワードAを特徴データに含め、キーワードBを特徴データに含めないようにする。
 その他にも例えば、特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データから抽出されるキーワードに、人10から対象物20に向けられた発話を表さない発話データから抽出されるキーワードよりも大きい重みを付けて、前述した重要度を算出する。例えば、キーワードの重要度を頻度と重みの積算値として算出する方法などがある。
 ここで、音声判別部2040は、人10から対象物20に向けられた発話以外の発話についても、人10の視線を用いて、その発話が向けられた相手(以下、発話相手)を特定してもよい。例えば情報処理装置2000は、任意のタイミング(例えば定期的に)で、カメラ30の撮像範囲を変更しながら、カメラ30に対象物20の周囲を撮像させることで、対象物20の周囲に存在する人の位置関係を把握しておく。そして音声判別部2040は、対象物20の周囲に存在する人の位置関係、及び人10の視線に基づいて、人10が発話を行った際に人10の視線が向けられている人を特定し、その人を発話相手として特定する。音声判別部2040は、その発話を表す発話データを、発話相手の識別情報に対応づけて、記憶部50に記憶させる。
 図9は、対象物20以外の発話相手を特定した上で記憶される発話データを例示する図である。図9のテーブル200は、識別フラグ204の代わりに識別情報208を有する点で、図6のテーブル200と相違する。識別情報208は、発話相手の識別情報を示す。ここで、図9の例では、「target」という識別情報に対応づけられている発話データは、対象物20に向けられた発話を表す。その他の識別情報に対応づけられている発話データは、その識別情報で特定される人に受けられた発話を表す。例えば図9のテーブル200の2番目のレコードは、002.wav という音声データファイルで表されている発話が、ID002 で特定される人物から、ID001 で特定される人物に対して向けられたものであることを示している。
 発話相手が人である場合にもその発話相手を特定することで、人10の特徴データをより詳細に生成することができる。具体的には、人10の特徴データに或るキーワードを含める際、そのキーワードに関する発話の発話相手も、そのキーワードに関連する関連人物として、特徴データに含めるようにする。
 例えば特徴データ生成部2060が、人物Aの発話から、人物Aが旅行に出かける予定であることを推定したとする。この場合、特徴データ生成部2060は、人物Aの特徴データに、「キーワード:旅行、属性:スケジュール」という情報を含める。さらに特徴データ生成部2060は、人物Aの発話から、人物Aの旅行が一人で行くものなのか、それとも他の人と一緒に行くものなのか(旅行に関連する他の人物がいるのか)を推定し、その推定結果も人物Aの特徴データに含めるようにする。
 例えば、人物Aが旅行に関する発話(例えば、「今度の旅行どこに行こうか?」といった発話)を高い頻度で人物Bに向けて行っていることが検出されると、特徴データ生成部2060は、人物Aが人物Bと一緒に旅行に行く蓋然性が高いと判定する。そこで特徴データ生成部2060は、人物Aの旅行に関する特徴データに、関連人物として人物Bを含めるようにする。
 同様に、例えば特徴データ生成部2060が、人物Aの発話から、人物Aが商品Xに興味を持っていることを推定したとする。この場合、特徴データ生成部2060は、人物Aの特徴データに、「キーワード:商品X、属性:興味」という情報を含める。さらに特徴データ生成部2060は、人物Aの発話から、人物Aが商品Xを一人で使うのか、それとも他の人と共同で使うのか(商品Xに関連する他の人物がいるのか)を推定し、その推定結果も人物Aの特徴データに含めるようにする。例えば人物Aが商品Xを人物Cと一緒に使う蓋然性が高いと推定された場合、特徴データ生成部2060は、人物Aの商品Xに関する特徴データに、関連人物として人物Cを含めるようにする。
<ハードウエア構成の例>
 実施形態2の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
<作用・効果>
 本実施形態の情報処理装置2000によれば、人10の発話及びその発話が行われた際の人10の視線から、人10の特徴データが生成される。こうすることで、人10の予定や人10の興味があるものといった人10の特徴を、詳細に把握することができる。特に、人10の特徴データに、その特徴に関連する人物も含める方法によれば、人10の特徴をより詳細に把握することができる。このように人10の特徴を詳細に把握することには、例えば後述するようにロボットが人10の発話に基づいて動作する際に、人10の特徴に応じてロボットによって提供されるサービス等を詳細にパーソナライズすることができるという利点がある。すなわち、各人の特徴に合わせたサービスを提供できるようになる。
[実施形態3]
 図10は、実施形態3の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態3の情報処理装置2000は、実施形態1又は2の情報処理装置2000と同様の機能を有する。
 実施形態3の情報処理装置2000は処理決定部2080を有する。処理決定部2080は、人10から対象物20に向けられた発話データの内容に基づいて、実行すべき処理を決定する。例えば対象物20が、人10から対象物20に対する発話に応じて動作する機器(ロボットなど)であるとする。この場合、情報処理装置2000は、人10から対象物20に向けられた発話データの内容に基づいて、対象物20の動作を決定して、対象物20の動作を制御する。
 人10の発話の内容が、何らかの要求を表すものであるとする。例えば、人10の発話の内容が、対象物20を動作させるための所定の音声コマンドであるとする。この場合、情報処理装置2000は、人10から対象物20に向けられた発話を表す発話データに含まれる音声コマンドに応じて、対象物20を動作させる。
 ここで、情報処理装置2000によって対象物20の動作を制御することにより、対象物20は、全ての発話データに含まれる音声コマンドに応じて動作するのではなく、人10から対象物20に向けられた発話に含まれる音声コマンドにのみ応じて動作する。こうすることで、人10が対象物20に向けて音声コマンドを発したときのみ対象物20を動作させることができる。よって、例えば、人10が他の人に対して発した言葉の中に、偶然音声コマンドと同じ言葉が含まれていたような場合に、対象物20が誤って動作することを防ぐことができる。
 ここで、何らかの要求を表す発話は、所定の音声コマンドに限定されない。例えば対象物20が、人の発話の内容を解釈して、その内容に応じた動作をする機能を有するとする。具体的には、「テーブルの上のコップを取って」という要求に応じ、テーブルの上にあるコップを取って発話者に渡す動作などが考えられる。
 ここで、人10から発せられる要求は、対象物20に対するものであることもあれば、周囲にいる他の人に対するものであることもある。このような場合、人10から発せられた要求全てに応じて対象物20を動作させると、対象物20は、対象物20に対して発されたものではない要求に対して誤って応じてしまうことになる。この点、情報処理装置2000を用いて対象物20の動作を制御することにより、対象物20に対して発された要求に対しては対象物20が応じ、対象物20以外に(例えば他の人に)発された要求に対しては対象物20が応じないようにすることができる。よって、対象物20以外に対する要求に誤って対象物20が応じてしまうことを防ぐことができる。
 なお、対象物20を動作させるためのコマンド等は、発話の内容だけでなく、人の動作と組み合わせて定められてもよい。すなわち、人10が対象物20に向けて特定の発話をし、なおかつ特定の動作(例えばウインク)をしたことを検出し、これらの組み合わせに応じた動作を対象物20が行うようにしてもよい。こうすることで、簡易な動作で対象物20を利用しつつ、なおかつ対象物20の誤動作を防ぐことができる。なお、人の動作は、カメラ30によって生成される撮像画像を画像解析することで検出することができる。
 対象物20は、人10の発話の内容に応じて返答する機能を有していてもよい。この場合、情報処理装置2000は、人10の発話に対して対象物20に返答させるか否かを決定する。具体的には、処理決定部2080は、発話データが人10から対象物20に向けられた発話であると判定された場合には、その発話データの内容を用いて対象物20に返答をさせることを決定する。一方、処理決定部2080は、発話データが人10から対象物20に向けられた発話ではないと判定された場合には、対象物20に返答をさせないことを決定する。このようにすることで、人10が対象物20ではなく他の人に向けて行った発話に対し、対象物20が誤って返答してしまうことを防ぐことができる。
 ここで、人10の発話に応じた対象物20の動作は、その発話の内容に加え、実施形態2で説明した特徴データを利用して決定されることが好適である。例えば、人10の発話に応じて情報を検索し、その検索結果を人10に提示する場合、情報処理装置2000は、検索結果をその人10の特徴データを用いて絞り込んだ上で提示することが好適である。なお、情報処理装置2000は、人10の特徴データだけでなく、人10のスケジュールデータなどをさらに利用してもよい。ここで、人10の発話に応じた動作の内容(返答の内容など)を、その人の特徴を表すデータやスケジュールデータなどを利用して決定する技術には、既存の様々な技術を利用することができる。なお、特徴データを利用する場合、実施形態3の情報処理装置2000は、実施形態2で説明した特徴データ生成部2060を有する。
 例えば人物Aの発話が、対象物20に対し、旅行の際に泊まるホテルの候補を検索するように求める発話(「来月の旅行で泊まれるホテルを探して」など)であったとする。この場合、例えば情報処理装置2000は、人物Aの特徴データやスケジュールデータを参照することで旅行の日程や行き先などを特定し、特定した日程や行き先に基づいて、利用可能なホテルを検索する。さらに情報処理装置2000は、人物Aの特徴データに示されている、人物Aが興味のあるものを参照して、その興味のあるものとの関連度合いが高いホテルを優先的に検索結果として提示する。例えば人物Aが興味のあるものに「温泉」が含まれる場合、情報処理装置2000は、温泉施設を持つホテルや、温泉施設が近くにあるホテルを、優先的に提示する。
 ここで前述したように、特徴データがキーワードに関連する関連人物(例えば、一緒に旅行に行く人物など)を示しているとする。この場合、対象物20の動作は、この関連人物も考慮して決定されることが好ましい。例えば上述したホテルを検索する例において、情報処理装置2000は、人物Aの特徴データを参照することで、人物Aが人物Bと共に旅行に行くことを把握する。そして情報処理装置2000は、二人で泊まれる部屋が空いているホテルを検索する。さらに情報処理装置2000は、人物Bの特徴データに示されている、人物Bが興味のあるものを参照し、人物Bの興味も考慮してホテルを検索する。例えば人物Bが興味のあるものに「海鮮料理」が含まれる場合、情報処理装置2000は、「温泉」及び「海鮮料理」との関連度合いが高いホテル(例えば、温泉施設と、海鮮料理のお店との双方が近くにあるホテル)を優先的に検索結果として提示する。
 同様に、例えば人物Aの発話が、対象物20に対し、商品の購入を依頼する発話であったとする。この場合において、人物Aの特徴データに、人物Aがその商品を人物Cと共同で利用することが示されていたとする。この場合、情報処理装置2000は、人物Aと人物Cの特徴データを参照することで、人物Aと人物Cの双方に適した商品を候補として提示することが好適である。
<ハードウエア構成の例>
 実施形態3の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態を組み合わせた構成や、上記以外の様々な構成を採用することもできる。
 この出願は、2017年8月25日に出願された日本出願特願2017-162058号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (31)

  1.  撮像画像に含まれる人の視線を推定する画像解析手段と、
     前記推定した視線を用いて、音声データが、前記人から対象物に向けられた発話を表すものであるか否かを判別する音声判別手段と、を有する情報処理装置。
  2.  前記音声判別手段は、前記人から対象物に向けられた発話であると判別された前記音声データを記憶手段に記憶させる、請求項1に記載の情報処理装置。
  3.  前記画像解析手段は、前記撮像画像に複数の人が含まれる場合、それぞれの人について視線の推定を行い、
     前記音声判別手段は、複数の人それぞれが行った発話を表す各前記音声データについて前記判別を行う、請求項1又は2に記載の情報処理装置。
  4.  前記音声判別手段は、前記人から対象物に向けられた発話であると判別された前記音声データを、その人の識別情報と対応づけて記憶手段に記憶させる、請求項3に記載の情報処理装置。
  5.  前記音声判別手段は、前記人が発話している時間のうち、前記推定した視線が前記対象物に向けられている時間が所定割合以上である場合に、その発話が前記人から前記対象物に向けられたものであると判定する、請求項1乃至4いずれか一項に記載の情報処理装置。
  6.  前記音声判別手段は、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させる、請求項1乃至5いずれか一項に記載の情報処理装置。
  7.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、その人の特徴を表す特徴データを生成する特徴データ生成手段を有する、請求項1乃至6いずれか一項に記載の情報処理装置。
  8.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成手段を有する、請求項1乃至6いずれか一項に記載の情報処理装置。
  9.  前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、当該情報処理装置又は前記対象物が実行すべき処理を決定する処理決定手段を有する、請求項1乃至8に記載の情報処理装置。
  10.  前記対象物は、前記発話に応じて動作する機器であり、
     前記処理決定手段は、前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、前記対象物の動作を決定する、請求項9に記載の情報処理装置。
  11.  前記処理決定手段は、前記人から前記対象物に向けられた発話を表す音声データの内容に基づいて、前記人から前記対象物に向けられた発話に対する返答を生成し、前記生成した返答を前記対象物に出力させる、請求項9又は10に記載の情報処理装置。
  12.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、前記人の特徴を表す特徴データを生成する特徴データ生成手段を有し、
     前記処理決定手段は、前記人から前記対象物に向けられた発話を表す音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項10又は11に記載の情報処理装置。
  13.  前記音声判別手段は、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させ、
     前記特徴データ生成手段は、前記人から前記対象物に向けられた発話を表す前記音声データの内容と、前記人から前記対象物に向けられた発話を表さない前記音声データの内容とを用いて、その人の前記特徴データを生成する、請求項7又は12に記載の情報処理装置。
  14.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成手段を有し、
     前記処理決定手段は、前記人の発話を表す前記音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項10又は11に記載の情報処理装置。
  15.  前記対象物は対話型のロボットである、請求項1乃至14いずれか一項に記載の情報処理装置。
  16.  コンピュータによって実行される制御方法であって、
     撮像画像に含まれる人の視線を推定する画像解析ステップと、
     前記推定した視線を用いて、音声データが、前記人から対象物に向けられた発話を表すものであるか否かを判別する音声判別ステップと、を有する制御方法。
  17.  前記音声判別ステップにおいて、前記人から対象物に向けられた発話であると判別された前記音声データを記憶手段に記憶させる、請求項16に記載の制御方法。
  18.  前記画像解析ステップにおいて、前記撮像画像に複数の人が含まれる場合、それぞれの人について視線の推定を行い、
     前記音声判別ステップにおいて、複数の人それぞれが行った発話を表す各前記音声データについて前記判別を行う、請求項16又は17に記載の制御方法。
  19.  前記音声判別ステップにおいて、前記人から対象物に向けられた発話であると判別された前記音声データを、その人の識別情報と対応づけて記憶手段に記憶させる、請求項18に記載の制御方法。
  20.  前記音声判別ステップにおいて、前記人が発話している時間のうち、前記推定した視線が前記対象物に向けられている時間が所定割合以上である場合に、その発話が前記人から前記対象物に向けられたものであると判定する、請求項16乃至19いずれか一項に記載の制御方法。
  21.  前記音声判別ステップにおいて、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させる、請求項16乃至20いずれか一項に記載の制御方法。
  22.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、その人の特徴を表す特徴データを生成する特徴データ生成ステップを有する、請求項16乃至21いずれか一項に記載の制御方法。
  23.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成ステップを有する、請求項16乃至21いずれか一項に記載の制御方法。
  24.  前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、前記コンピュータ又は前記対象物が実行すべき処理を決定する処理決定ステップを有する、請求項16乃至23に記載の制御方法。
  25.  前記対象物は、前記発話に応じて動作する機器であり、
     前記処理決定ステップにおいて、前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、前記対象物の動作を決定する、請求項24に記載の制御方法。
  26.  前記処理決定ステップにおいて、前記人から前記対象物に向けられた発話を表す音声データの内容に基づいて、前記人から前記対象物に向けられた発話に対する返答を生成し、前記生成した返答を前記対象物に出力させる、請求項24又は25に記載の制御方法。
  27.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、前記人の特徴を表す特徴データを生成する特徴データ生成ステップを有し、
     前記処理決定ステップにおいて、前記人から前記対象物に向けられた発話を表す音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項25又は26に記載の制御方法。
  28.  前記音声判別ステップにおいて、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させ、
     前記特徴データ生成ステップにおいて、前記人から前記対象物に向けられた発話を表す前記音声データの内容と、前記人から前記対象物に向けられた発話を表さない前記音声データの内容とを用いて、その人の前記特徴データを生成する、請求項22又は27に記載の制御方法。
  29.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成ステップを有し、
     前記処理決定ステップにおいて、前記人の発話を表す前記音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項25又は26に記載の制御方法。
  30.  前記対象物は対話型のロボットである、請求項16乃至29いずれか一項に記載の制御方法。
  31.  請求項16乃至30いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
PCT/JP2018/030272 2017-08-25 2018-08-14 情報処理装置、制御方法、及びプログラム Ceased WO2019039352A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017162058 2017-08-25
JP2017-162058 2017-08-25

Publications (1)

Publication Number Publication Date
WO2019039352A1 true WO2019039352A1 (ja) 2019-02-28

Family

ID=65439447

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/030272 Ceased WO2019039352A1 (ja) 2017-08-25 2018-08-14 情報処理装置、制御方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2019039352A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2009206924A (ja) * 2008-02-28 2009-09-10 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及び情報処理プログラム
JP2011203455A (ja) * 2010-03-25 2011-10-13 Aisin Aw Co Ltd 車両用情報端末及びプログラム
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2009206924A (ja) * 2008-02-28 2009-09-10 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及び情報処理プログラム
JP2011203455A (ja) * 2010-03-25 2011-10-13 Aisin Aw Co Ltd 車両用情報端末及びプログラム
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAYASHI, YUKI ET AL.: "Development of Group Discussion Interaction Corpus and Analysis of the Relationship with Personality Traits", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 56, no. 4, 15 April 2015 (2015-04-15), pages 1217 - 1227 *

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
US10083006B1 (en) Intercom-style communication using multiple computing devices
CN112088402B (zh) 用于说话者识别的联合神经网络
US11238871B2 (en) Electronic device and control method thereof
CN112088315B (zh) 多模式语音定位
CN109147770B (zh) 声音识别特征的优化、动态注册方法、客户端和服务器
CN112074900B (zh) 用于自然语言处理的音频分析
KR102356623B1 (ko) 가상 비서 전자 장치 및 그 제어 방법
US9858924B2 (en) Voice processing apparatus and voice processing method
US11850728B2 (en) Reception apparatus, reception system, reception method, and storage medium
WO2019217101A1 (en) Multi-modal speech attribution among n speakers
WO2019202804A1 (ja) 音声処理装置および音声処理方法
US20210216589A1 (en) Information processing apparatus, information processing method, program, and dialog system
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN109712606A (zh) 一种信息获取方法、装置、设备及存储介质
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7483532B2 (ja) キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
CN120151651A (zh) 对焦控制系统和方法、可穿戴设备、介质和程序产品
WO2019039352A1 (ja) 情報処理装置、制御方法、及びプログラム
JP6866731B2 (ja) 音声認識装置、音声認識方法、及びプログラム
WO2024209802A1 (ja) プログラム、情報処理装置および情報処理方法
CN116126417A (zh) 虚拟对象启动交互方法、装置、电子设备及存储介质
CN116013262A (zh) 语音信号处理方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18848066

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18848066

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP