WO2026009913A1 - Mrシステムにおける感情分析方法、および、mrシステム - Google Patents
Mrシステムにおける感情分析方法、および、mrシステムInfo
- Publication number
- WO2026009913A1 WO2026009913A1 PCT/JP2025/023789 JP2025023789W WO2026009913A1 WO 2026009913 A1 WO2026009913 A1 WO 2026009913A1 JP 2025023789 W JP2025023789 W JP 2025023789W WO 2026009913 A1 WO2026009913 A1 WO 2026009913A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- person
- analysis
- headset
- user
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Definitions
- the present invention relates to an emotion analysis method in an MR system, and to an MR system.
- MR Mixed reality
- a method for emotion analysis in a mixed reality (MR) system comprising: A first step of capturing an image of a user of an MR headset and a spatial environment with a camera to obtain an image; a second step of extracting people from the video; a third step of detecting data of the extracted person; a fourth step of analyzing emotions and body postures of the user based on the detected person data; and a fifth step of displaying the results of the analysis on a display of the MR headset.
- MR mixed reality
- the video comprises a plurality of frames;
- a pattern of a person is detected based on whether or not the person matches a predetermined pattern;
- the fourth step is analyzing data of the person from the MR headset; performing an analysis of the emotion and the body posture by an analysis server; and transmitting a result of the analysis from the analysis server and displaying it on the MR headset.
- an external camera that captures an image of a user of the MR headset and generates an image
- an analysis server that extracts a person from the video, detects data of the extracted person, and analyzes the emotion and body posture of the user based on the captured video
- an MR headset display on which a representation based on the results of the analysis server is displayed.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a diagram illustrating an outline of the present invention.
- FIG. 1 is a block diagram showing a schematic configuration of a mixed reality system according to an embodiment.
- FIG. 10 is a sequence diagram showing an example of a processing operation of the mixed reality system.
- emotion analysis in MR systems is achieved as follows.
- FIG. 2 is a block diagram showing the general configuration of a mixed reality system according to one embodiment.
- This MR system includes an MR headset, an external camera, and an analysis server.
- the external camera captures images of the user of the MR headset and the spatial environment, and outputs the images. This image contains multiple frames.
- the display of the MR headset may be a glasses-type see-through display.
- the display shows MR visuals and the results of the emotion analysis described below.
- the displayed MR visuals include a combination of real space and virtual space.
- the MR headset displays the results processed and analyzed by the analysis server.
- the analysis server analyzes the user's movements (body posture) and the environment based on data from the external camera. The results of the analysis are then sent to the MR headset.
- FIG. 3 is a sequence diagram showing an example of the processing operation of a mixed reality system.
- an external camera captures an image of the user and the environment and acquires the video (step S1).
- This video may be a moving image composed of multiple consecutive frames.
- the analysis server extracts people from the video data. A specific example of person extraction is described below.
- the analysis server detects objects from the video (step S2a) and determines whether each detected object is a dynamic object or a static object (step S2b). More specifically, the analysis server makes the determination based on the frame. As an example, the analysis server compares the position of each object over five frames. An object whose position in one frame is more than a predetermined distance away from its position in another frame is determined to be a dynamic object. On the other hand, an object whose position does not move over the five frames is determined to be a static object.
- An external camera may capture static objects in the captured footage. However, since it is not necessary to calculate frames containing static objects, the overall calculations can be reduced, resulting in improved performance.
- the analysis server determines whether each dynamic object is a person (step S2c). Known methods can be applied to determine who the person is.
- the external camera may capture dynamic objects other than the user (e.g., dogs or cats).
- emotion analysis is not necessary for non-human objects. This allows for reduced computational effort to improve performance.
- the analysis server records the person's data. What is recorded may be video (or frame) data containing the person, or the person's pattern, as described below.
- the analysis server analyzes and records the person's pattern (step S3).
- the pattern may be a facial pattern or a body pattern.
- the analysis server determines whether the person matches a predetermined pattern. Predetermined patterns include crossed arms, slumped shoulders, clenched fists, etc.
- the pattern may be a facial pattern (dimples, slanted eyes, etc.).
- the results of the emotion analysis are sent from the analysis server (step S4). For example, if the pattern is "crossing arms,” the emotion analysis device analyzes that the user's emotion is defensive. If the pattern is “slumping shoulders,” the emotion analysis device 20 analyzes that the user's emotion is depressed. If the pattern is "clenching fists,” the emotion analysis device analyzes that the user's emotion is tension, anxiety, or frustration.
- the results of the emotion analysis are sent from the analysis server to the MR headset, which then displays the results.
- analyzing user emotions can enhance interaction in MR systems. Furthermore, because emotion analysis is performed on person data (patterns) rather than on the entire video captured by an external camera, processing volume, power consumption, and processing time can be reduced.
- This embodiment can be applied to virtual idols, virtual tour guides, virtual companions (friends, tutors, coaches, etc.), etc. For example, by analyzing the user's emotions, it is possible to make the virtual idol react more like a real person, and to enable more human-like communication with the virtual companion.
- something described in this specification as a single device (or component, the same applies hereinafter) (including something depicted as a single device in the drawings) may be realized by multiple devices.
- something described in this specification as multiple devices may be realized by a single device.
- some or all of the means or functions included in one device may be included in another device.
- a "system" may be composed of a single device, or two or more devices.
- the problem that the present invention aims to solve should be determined taking into consideration the entire specification. For example, if this specification states that a specific effect is achieved by a specific configuration, it can also be said that the problem that is the reverse of that specific effect is solved. However, this does not necessarily mean that such a specific configuration is an essential requirement.
Landscapes
- Processing Or Creating Images (AREA)
Abstract
複合現実(MR)システムにおける感情分析方法であって、MRヘッドセットのユーザを外部カメラで撮影して映像を取得する第1工程と、前記映像から人物を抽出する第2工程と、前記抽出された人物のデータを検出する第3工程と、前記検出された人物のデータに基づいて、前記ユーザの感情分析を行う第4工程と、前記感情分析の結果に基づく表現を前記MRヘッドセットのディスプレイに表示させる第5工程と、を備える方法が提供される。
Description
本発明は、MRシステムにおける感情分析方法、および、MRシステムに関する。
仮想現実(Mixed Reality:MR)アプリケーションが普及し、バーチャルアイドル、バーチャルツアーガイド等が利用可能になりつつある。
新たなMRシステムを提供する。
例示として以下の構成が提供される。
[1]
複合現実(MR)システムにおける感情分析方法であって、
MRヘッドセットのユーザおよび空間環境をカメラで撮影して映像を取得する第1工程と、
前記映像から人物を抽出する第2工程と、
前記抽出された人物のデータを検出する第3工程と、
前記検出された人物のデータに基づいて、前記ユーザの感情および体の姿勢の分析を行う第4工程と、
前記分析の結果を前記MRヘッドセットのディスプレイに表示させる第5工程と、を備える方法。
複合現実(MR)システムにおける感情分析方法であって、
MRヘッドセットのユーザおよび空間環境をカメラで撮影して映像を取得する第1工程と、
前記映像から人物を抽出する第2工程と、
前記抽出された人物のデータを検出する第3工程と、
前記検出された人物のデータに基づいて、前記ユーザの感情および体の姿勢の分析を行う第4工程と、
前記分析の結果を前記MRヘッドセットのディスプレイに表示させる第5工程と、を備える方法。
[2]
前記第2工程では、
前記映像からオブジェクトを検出し、
前記検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかを判定し、
前記動的オブジェクトのそれぞれが人物か否かを判定する
ことにより、人物が抽出される、[1]に記載の方法。
前記第2工程では、
前記映像からオブジェクトを検出し、
前記検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかを判定し、
前記動的オブジェクトのそれぞれが人物か否かを判定する
ことにより、人物が抽出される、[1]に記載の方法。
[3]
前記映像は複数のフレームを含み、
前記第第2工程では、前記複数のフレームを比較することにより、前記検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかが判定される、[2]に記載の方法。
前記映像は複数のフレームを含み、
前記第第2工程では、前記複数のフレームを比較することにより、前記検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかが判定される、[2]に記載の方法。
[4]
前記第3工程では、人物が所定のパターンと一致するか否かに基づいて、人物のパターンが検出され、
前記第4工程では、前記人物のパターンに基づいて、前記ユーザの感情分析が行われる、[1]乃至[3]のいずれかに記載の方法。
前記第3工程では、人物が所定のパターンと一致するか否かに基づいて、人物のパターンが検出され、
前記第4工程では、前記人物のパターンに基づいて、前記ユーザの感情分析が行われる、[1]乃至[3]のいずれかに記載の方法。
[5]
前記第4工程は、
前記MRヘッドセットからの前記人物のデータを分析する工程と、
分析サーバにより、前記感情および前記体の姿勢の分析を行う工程と、
前記分析サーバから前記分析の結果を送信し、前記MRヘッドセットに表示させる工程と、を含む、[1]乃至[4]のいずれかに記載の方法。
前記第4工程は、
前記MRヘッドセットからの前記人物のデータを分析する工程と、
分析サーバにより、前記感情および前記体の姿勢の分析を行う工程と、
前記分析サーバから前記分析の結果を送信し、前記MRヘッドセットに表示させる工程と、を含む、[1]乃至[4]のいずれかに記載の方法。
[6]
MRヘッドセットのユーザを撮影して映像を生成する外部カメラと、
前記映像から人物を抽出し、抽出された人物のデータを検出し、前記撮影された映像に基づいて、前記ユーザの感情および体の姿勢を分析する分析サーバと、
前記分析サーバの結果に基づく表現が表示されるMRヘッドセットディスプレイと、を備える複合現実(MR)システム。
MRヘッドセットのユーザを撮影して映像を生成する外部カメラと、
前記映像から人物を抽出し、抽出された人物のデータを検出し、前記撮影された映像に基づいて、前記ユーザの感情および体の姿勢を分析する分析サーバと、
前記分析サーバの結果に基づく表現が表示されるMRヘッドセットディスプレイと、を備える複合現実(MR)システム。
本発明の概要を図1A~図1Fに示す。以下、詳細に述べる。
MR(複合現実)システムにAI(人工知能)が適用されるとしても、近年のAIが可能なのは、ユーザが話すスピードやトーンといった「テキスト」を分析することである。しかし、「テキスト」のみの分析からユーザの感情を理解することは困難である。
MR(複合現実)システムにAI(人工知能)が適用されるとしても、近年のAIが可能なのは、ユーザが話すスピードやトーンといった「テキスト」を分析することである。しかし、「テキスト」のみの分析からユーザの感情を理解することは困難である。
カメラでユーザを撮影し、AIでユーザの感情を分析することも考えられる。しかし、カメラで撮影されるデータ量が多いため、計算負荷が高くなる。
AIがユーザの感情を分析できれば、MRシステムにおける会話やインタラクションがより人間的なものとなる。そこで、本実施形態では、以下のようにしてMRシステムにおける感情分析を実現する。
図2は、一実施形態に係る複合現実システムの概略構成を示すブロック図である。このMRシステムは、MRヘッドセットと、外部カメラと、分析サーバとを備えている。
外部カメラはMRヘッドセットのユーザおよび空間環境を撮影し、映像を出力する。この映像は複数のフレームを含む。
MRヘッドセットのディスプレイはメガネ型の透過ディスプレイであってもよい。ディスプレイには、MRビジュアルや、後述する感情分析の結果が表示される。表示されるMRビジュアルは現実空間と仮想空間の組み合わせを含む。
MRヘッドセットは分析サーバによって処理および分析された結果を表示する。
分析サーバは、外部カメラからのデータに基づいて、ユーザの動き(体の姿勢)および環境を分析する。そして、分析の結果はMRヘッドセットに送信される。
図3は、複合現実システムの処理動作の一例を示すシーケンス図である。まず、外部カメラがユーザおよび環境を撮影し、映像を取得する(ステップS1)。この映像は複数の連続するフレームから構成される動画像であってよい。次に、分析サーバは映像データから人物を抽出する。以下、人物抽出の具体例を述べる。
分析サーバは映像からオブジェクトを検出し(ステップS2a)、検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかを判定する(ステップS2b)。より具体的には、分析サーバはフレームに基づいて判定を行う。一例として、分析サーバは5フレームにわたって各オブジェクトの位置を比較する。そして、あるフレームにおける位置と、別のフレームにおける位置とが所定距離以上離れているオブジェクトは、動的オブジェクトであると判定される。一方、5フレームにわたって位置が移動していないオブジェクトは、静的オブジェクトと判定される。
外部カメラが、撮影された映像において、静的オブジェクトを撮影する場合がある。しかし、静的オブジェクトを含むフレームを演算することは不要であるから、全体の演算を減らすことができ、性能を向上させる結果となる。
分析サーバは動的オブジェクトのそれぞれが人物であるか否かを判定する(ステップS2c)。人物判定には、公知の手法を適用可能である。
外部カメラがユーザ以外の動的オブジェクト(例えば、犬や猫)を撮影する場合がある。しかし、人物以外については、感情分析を行う必要はない。そのため、性能向上のために、演算を減らすことができる。
以上のようにして人物が抽出されると、分析サーバは人物のデータを記録する。記録されるのは、人物を含む映像(あるいはフレーム)のデータでもよいし、次に述べる人物のパターンであってもよい。
分析サーバは人物のパターンを分析し、記録する(ステップS3)。パターンは、顔のパターンでもよいし、体のパターンでもよい。一例として、分析サーバは人物が所定のパターンと一致するか否かを判定する。所定のパターンは、腕を組む、肩を落とす、拳を握る等である。あるいは、パターンは顔のパターン(えくぼができている、目がつり上がっている等)でもよい。
感情分析の結果は分析サーバから送信される(ステップS4)。例えば、パターンが「腕を組む」である場合、感情分析装置は、ユーザの感情は防衛的である、と分析する。パターンが「肩を落とす」である場合、感情分析装置20は、ユーザの感情は気分が落ち込んでいる、と分析する。パターンが「拳を握る」である場合、感情分析装置は、ユーザの感情は緊張、不安あるいはフラストレーションを感じている、と分析する。
感情分析の結果は分析サーバからMRヘッドセットに送信される。そして、MRヘッドセットは結果を表示させる。
以上のとおり、ユーザの感情分析することで、MRシステムにおけるインタラクションを充実させることができる。また、外部カメラで撮影して得られた映像全体ではなく、人物のデータ(パターン)に対して感情分析を行うため、処理量、消費電力、処理時間を低減できる。
本実施形態は、バーチャルアイドル、バーチャルツアーガイド、バーチャルコンパニオン(友人、家庭教師、コーチ等)等に適用され得る。例えば、ユーザの感情を分析することで、バーチャルアイドルをより現実の人間のように反応させたり、バーチャルコンパニオンとより人間らしいコミュニケーションが可能となる。
本明細書で述べた各機能部の任意の一部または全部をプログラムによって実現するようにしてもよい。本明細書で言及したプログラムは、コンピュータ読み取り可能な記録媒体に非一時的に記録され得る。
上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形例を想到できるかもしれないが、本発明の態様は、上述した個々の実施形態には限定されるものではない。例えば、各実施形態の一部のみを取り出した発明や、複数の実施形態を組み合わせた発明も当然に想定される。特許請求の範囲に規定された内容およびその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。
例えば、本明細書において1つの装置(あるいは部材、以下同じ)として説明されるもの(図面において1つの装置として描かれているものを含む)を複数の装置によって実現してもよい。逆に、本明細書において複数の装置として説明されるもの(図面において複数の装置として描かれているものを含む)を1つの装置によって実現してもよい。あるいは、ある装置に含まれるとした手段や機能の一部または全部が、他の装置に含まれるようにしてもよい。また、「システム」とは、1つの装置から構成されてもよいし、2以上の装置から構成されてもよい。
また、本明細書に記載された事項の全てが必須の要件というわけではない。特に、本明細書に記載され、特許請求の範囲に記載されていない事項は任意の付加的事項ということができる。
本発明が解決しようとする課題は本明細書全体を考慮して認定されるべきものである。例えば、本明細書において、特定の構成によって所定の効果を奏する旨の記載がある場合、当該所定の効果の裏返しとなる課題が解決されるということもできる。ただし、必ずしもそのような特定の構成を必須の要件とする趣旨ではない。
Claims (6)
- 複合現実(MR)システムにおける感情分析方法であって、
MRヘッドセットのユーザおよび空間環境をカメラで撮影して映像を取得する第1工程と、
前記映像から人物を抽出する第2工程と、
前記抽出された人物のデータを検出する第3工程と、
前記検出された人物のデータに基づいて、前記ユーザの感情および体の姿勢の分析を行う第4工程と、
前記分析の結果を前記MRヘッドセットのディスプレイに表示させる第5工程と、を備える方法。 - 前記第2工程では、
前記映像からオブジェクトを検出し、
前記検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかを判定し、
前記動的オブジェクトのそれぞれが人物か否かを判定する
ことにより、人物が抽出される、請求項1に記載の方法。 - 前記映像は複数のフレームを含み、
前記第第2工程では、前記複数のフレームを比較することにより、前記検出されたオブジェクトのそれぞれが動的オブジェクトであるか静的オブジェクトであるかが判定される、請求項2に記載の方法。 - 前記第3工程では、人物が所定のパターンと一致するか否かに基づいて、人物のパターンが検出され、
前記第4工程では、前記人物のパターンに基づいて、前記ユーザの感情分析が行われる、請求項1に記載の方法。 - 前記第4工程は、
前記MRヘッドセットからの前記人物のデータを分析する工程と、
分析サーバにより、前記感情および前記体の姿勢の分析を行う工程と、
前記分析サーバから前記分析の結果を送信し、前記MRヘッドセットに表示させる工程と、を含む、請求項1に記載の方法。 - MRヘッドセットのユーザを撮影して映像を生成する外部カメラと、
前記映像から人物を抽出し、抽出された人物のデータを検出し、前記撮影された映像に基づいて、前記ユーザの感情および体の姿勢を分析する分析サーバと、
前記分析サーバの結果に基づく表現が表示されるMRヘッドセットディスプレイと、を備える複合現実(MR)システム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024106896 | 2024-07-02 | ||
| JP2024-106896 | 2024-07-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2026009913A1 true WO2026009913A1 (ja) | 2026-01-08 |
Family
ID=98318402
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2025/023789 Pending WO2026009913A1 (ja) | 2024-07-02 | 2025-07-02 | Mrシステムにおける感情分析方法、および、mrシステム |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2026009913A1 (ja) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018168247A1 (ja) * | 2017-03-15 | 2018-09-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
2025
- 2025-07-02 WO PCT/JP2025/023789 patent/WO2026009913A1/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018168247A1 (ja) * | 2017-03-15 | 2018-09-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112906604B (zh) | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 | |
| US10089793B2 (en) | Systems and methods for providing real-time composite video from multiple source devices featuring augmented reality elements | |
| US8044989B2 (en) | Mute function for video applications | |
| US9329677B2 (en) | Social system and method used for bringing virtual social network into real life | |
| Li et al. | CNN-based facial expression recognition from annotated rgb-d images for human–robot interaction | |
| Pentland | Machine understanding of human action | |
| US20200250498A1 (en) | Information processing apparatus, information processing method, and program | |
| US20080231686A1 (en) | Generation of constructed model for client runtime player using motion points sent over a network | |
| Wang et al. | EGGNOG: A continuous, multi-modal data set of naturally occurring gestures with ground truth labels | |
| WO2013039062A1 (ja) | 顔分析装置、顔分析方法、及び記録媒体 | |
| US11368664B2 (en) | Information processing apparatus, information processing method, and program | |
| CN117152843B (zh) | 数字人的动作控制方法及其系统 | |
| Alabbasi et al. | Real time facial emotion recognition using kinect V2 sensor | |
| CN114967937A (zh) | 一种虚拟人运动生成方法与系统 | |
| Kowalski et al. | Holoface: Augmenting human-to-human interactions on hololens | |
| Li et al. | Buccal: Low-cost cheek sensing for inferring continuous jaw motion in mobile virtual reality | |
| CN117372585A (zh) | 人脸视频生成方法、装置及电子设备 | |
| JP2001067482A (ja) | 人物の反応認識装置およびそのためのプログラムを記録したコンピュータ読取可能な記録媒体 | |
| WO2026009913A1 (ja) | Mrシステムにおける感情分析方法、および、mrシステム | |
| CN114639033A (zh) | 一种人员识别方法、装置、设备和计算机可读存储介质 | |
| US20080122867A1 (en) | Method for displaying expressional image | |
| CN117370934B (zh) | 一种敏感信息发现模型的多模态数据增强方法 | |
| Hariharan et al. | Computer vision based student behavioral tracking and analysis using deep learning | |
| JP2018049173A (ja) | 情報処理装置、評価システムおよびプログラム | |
| Garapati et al. | A real-time system to assist blind people through face recognition and emotion detection |