[go: up one dir, main page]

JP7688715B2 - Detecting interlocutors in multi-human computer interaction scenes - Google Patents

Detecting interlocutors in multi-human computer interaction scenes Download PDF

Info

Publication number
JP7688715B2
JP7688715B2 JP2023548657A JP2023548657A JP7688715B2 JP 7688715 B2 JP7688715 B2 JP 7688715B2 JP 2023548657 A JP2023548657 A JP 2023548657A JP 2023548657 A JP2023548657 A JP 2023548657A JP 7688715 B2 JP7688715 B2 JP 7688715B2
Authority
JP
Japan
Prior art keywords
features
audio
time
person
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023548657A
Other languages
Japanese (ja)
Other versions
JP2024532640A (en
Inventor
哲遠 林
敏紅 宛
世強 朱
文 王
春竜 張
特 李
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2024532640A publication Critical patent/JP2024532640A/en
Application granted granted Critical
Publication of JP7688715B2 publication Critical patent/JP7688715B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、コンピュータ技術の分野に属し、特にマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出に関する。 The present invention belongs to the field of computer technology, and in particular to the detection of interlocutors in multi-human computer interaction scenes.

言語インタラクションのプロセスでは、話し手と、話し手が応答を期待している相手である話し相手の両方がいなければならない。特に、ヒューマンコンピュータインタラクションのプロセスでは、ロボットは音声情報を受信した後に応答を行う。 In the process of linguistic interaction, there must be both a speaker and an interlocutor from whom the speaker expects a response. In particular, in the process of human-computer interaction, the robot responds after receiving voice information.

例えば、1人でロボットとインタラクションを行う場合、人間が話すとき、ロボットは必然的に対応する話し相手である。そのため、ロボットは受信した音声情報を直接処理して応答を行うことができる。このような機能は、いくつかのスマート端末で既に利用されており、且つ高い効果が得られている。 For example, when one person interacts with a robot, the robot is inevitably the interlocutor when the human speaks. Therefore, the robot can directly process the received voice information and respond. Such functionality is already being used in some smart devices and has been highly effective.

しかしながら、ヒューマングループとロボットとのインタラクションは、1人とロボットとのインタラクションより複雑である。ヒューマンとヒューマン、ヒューマンとロボットとのインタラクションが同時に存在するため、ロボットは、話をしている人物が自分に話しているか否かを判断することができず、その結果、受信された全ての話しに対して機械的に応答することしかできず、ユーザ間の対話及び体験に重大な影響を与える。このような場合、人間は、ウェイクワードを繰り返し使用してロボットと複数回の対話を行うしかなく、対話の効率が低下する。 However, the interaction between a group of humans and a robot is more complicated than the interaction between a single person and a robot. Because human-to-human and human-to-robot interactions exist simultaneously, the robot cannot judge whether the person speaking is speaking to it or not, and as a result, it can only mechanically respond to all the speech it receives, which seriously affects the interaction and experience between users. In such a case, the human has no choice but to repeatedly use the wake word to have multiple interactions with the robot, which reduces the efficiency of the interaction.

上記技術的問題を解決するために、本発明の実施例は、マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置及び方法を提供する。 To solve the above technical problems, an embodiment of the present invention provides an apparatus and method for interlocutor detection in a multi-human computer interaction scene.

本発明の一実施例によれば、マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置であって、前記マルチヒューマンコンピュータインタラクションは、マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関する。ここで、前記装置は、タイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するためのオーディオ・ビデオ収集モジュールであって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとはタイムスタンプに従って同期されるオーディオ・ビデオ収集モジュールと、前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成するテキスト生成モジュールと、マシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得する顔処理モジュールと、機械学習又は深層学習方法で、前記タイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するためのテキスト特徴抽出モジュールと、機械学習又は深層学習方法で、前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するためのオーディオ特徴抽出モジュールと、機械学習又は深層学習方法で、人物の顔の時系列特徴及び空間特徴を含む人物の顔特徴を前記顔シーケンスデータから抽出するための顔特徴抽出モジュールと、機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得する話し手検出モジュールと、機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出する話し相手認識モジュールと、を含む。ここで、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む。また、前記シーン特徴は、話し相手認識モジュールによって呼び出されるために、シーンデータベースに記憶されてもよい。 According to one embodiment of the present invention, there is provided an apparatus for interlocutor detection in a multi-human computer interaction scene, the multi-human computer interaction relating to a human group including multiple humans and at least one robot, wherein the apparatus comprises an audio-video collection module for collecting time-stamped video frame data and time-stamped audio frame data in real time, where a plurality of video frames included in the video frame data and a plurality of audio frames included in the audio frame data are synchronized according to timestamps, a text generation module for generating time-stamped text information based on the audio frame data, a face processing module for detecting faces in each video frame included in the video frame data by a machine vision method and tracking the same person in the plurality of video frames to obtain face sequence data, a text feature extraction module for extracting text semantic features from the time-stamped text information by a machine learning or deep learning method, and a text feature extraction module for extracting text semantic features from the time-stamped text information by a machine learning or deep learning method. The learning method includes an audio feature extraction module for extracting voice audio features from the audio frame data, a face feature extraction module for extracting person facial features including time series features and spatial features of the person's face from the face sequence data, a speaker detection module for recognizing a speaker at a current time in the human group based on the person's facial features and the voice audio features in the face sequence data, and obtaining information of the speaker at the current time, and a conversation partner recognition module for recognizing a conversation partner of the speaker at the current time in the human group based on scene features, the text semantic features, the voice audio features, and the person's facial features in the face sequence data, and detecting whether the conversation partner of the speaker at the current time is a robot, in which the scene features include speaker information and conversation partner information at a previous time. The scene features may also be stored in a scene database to be called by the conversation partner recognition module.

さらに、前記オーディオ・ビデオ収集モジュールは、カメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集するためのビデオ収集モジュールと、マイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集するためのオーディオ収集モジュールと、を含む。オプションで、前記ビデオフレームデータは、ビデオフレームデータベースに時系列に記憶され、前記オーディオフレームデータはオーディオフレームデータベースに時系列に記憶される。 Further, the audio/video collection module includes a video collection module for collecting time-stamped video frame data in real time using a camera, and an audio collection module for collecting time-stamped audio frame data using a micro. Optionally, the video frame data is stored in a video frame database in chronological order, and the audio frame data is stored in an audio frame database in chronological order.

さらに、前記顔処理モジュールは、深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表す顔検出モジュールと、前記顔検出モジュールによって出力された検出結果に基づいて、複数のビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得するための顔追跡モジュールと、を含む。同一顔に一意の固定識別子を付与することにより、人物がシーン視野内で消えた後に再び出現しても、当該人物を元のidで表すことができる。オプションで、タイムスタンプ付きの顔シーケンスデータは顔データベースに記憶される。 The face processing module further includes a face detection module for detecting faces in video frames included in the video frame data using a deep learning method and assigning a unique fixed identifier to a same face detected from two or more video frames to represent the person, and a face tracking module for tracking the same person in multiple video frames based on the detection result output by the face detection module and obtaining time-stamped face sequence data. By assigning a unique fixed identifier to the same face, the person can be represented by its original id even if the person disappears and then reappears in the scene field of view. Optionally, the time-stamped face sequence data is stored in a face database.

さらに、前記話し手検出モジュールは、前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和するための第1のマルチモーダル融合モジュールと、前記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定するための話し状態検出モジュールと、を含む。オプションで、現在時刻での話し手の情報は話し手データベース内に記憶される。例えば、前記話し手データベースはタイムスタンプに従って前記話し手の情報を記憶してもよい。 Further, the speaker detection module includes a first multimodal fusion module for fusing the facial features and the voice audio features of the person according to a timestamp based on the face sequence data into a first multimodal feature, and a speaking state detection module for inputting the first multimodal feature into a deep learning network and determining a speaker and corresponding speaker information at the current time by predicting the speaking state of each person in the human group one by one at the current time. Optionally, the speaker information at the current time is stored in a speaker database. For example, the speaker database may store the speaker information according to a timestamp.

さらに、前記話し相手認識モジュールは、前記顔シーケンスデータに基づいてタイムスタンプに従って上記人物の顔特徴と、前記ヴォイスオーディオ特徴と、前記テキストセマンティック特徴と、前記シーン特徴とを第2のマルチモーダル特徴に融和するための第2のマルチモーダル融合モジュールと、上記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定するための話し相手検出モジュールと、を含む。オプションで、前記現在時刻での話し相手の情報は、他のモジュールによって呼び出されるか又は結果として出力されるために、話し相手データベース内に記憶される。例えば、前記話し相手データベースはタイムスタンプに従って前記話し相手の情報を記憶してもよい。 Furthermore, the interlocutor recognition module includes a second multimodal fusion module for fusing the face features of the person, the voice audio features, the text semantic features, and the scene features into a second multimodal feature according to a timestamp based on the face sequence data, and an interlocutor detection module for inputting the second multimodal feature into a deep learning network, predicting one by one whether each person in the human group and each of the robots is an interlocutor of the speaker at the current time, and determining the interlocutor information at the current time accordingly. Optionally, the interlocutor information at the current time is stored in a interlocutor database for being called by other modules or output as a result. For example, the interlocutor database may store the interlocutor information according to a timestamp.

さらに、前記テキスト生成モジュールは、前記オーディオフレームデータに基づいて複数の階層にそれぞれ対応するタイムスタンプ付きのテキスト情報を生成するための音声認識モジュールを含む。ここで、前記複数の階層は単語レベル、センテンスレベル、対話トピックレベルなどを含む。オプションで、テキストデータベースを用いて前記テキスト情報を時系列に階層的に記憶する。 Further, the text generation module includes a speech recognition module for generating time-stamped text information corresponding to a plurality of hierarchies based on the audio frame data, where the plurality of hierarchies include a word level, a sentence level, a dialogue topic level, etc. Optionally, the text information is stored hierarchically in chronological order using a text database.

本発明の他の実施例によれば、マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法であって、前記マルチヒューマンコンピュータインタラクションは、マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関する。ここで、前記方法は、オーディオ・ビデオ収集モジュールによって例えばカメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集し、例えばマイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集し、前記ビデオフレームデータに含まれる複数のビデオフレーム及び前記オーディオフレームデータに含まれる複数のオーディオフレームはタイムスタンプに従って同期されるステップS1と、テキスト生成モジュールによってリアルタイムにオーディオフレームデータに対して音声認識を行うことにより、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層のタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュールによってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するステップS2と、顔処理モジュールによってマシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを得、顔特徴抽出モジュールによって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュールによって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するステップS3と、話し手検出モジュールによって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するステップS4と、話し相手認識モジュールによって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するステップS5と、を含む。ここで、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む。 According to another embodiment of the present invention, there is provided a method for detecting interlocutors in a multi-human computer interaction scene, the multi-human computer interaction relating to a human group including multiple humans and at least one robot. Here, the method includes a step S1 of collecting time-stamped video frame data in real time by an audio/video collection module, for example using a camera, collecting time-stamped audio frame data, for example using a microcomputer, and synchronizing a plurality of video frames included in the video frame data and a plurality of audio frames included in the audio frame data according to time stamps; a step S2 of generating time-stamped text information at different hierarchical levels, such as a word level, a sentence level, and a dialogue topic level, by performing speech recognition on the audio frame data in real time by a text generation module, and extracting text semantic features from the time-stamped text information by a text feature extraction module; and a step S3 of detecting the appearance of each video frame included in the video frame data by a machine vision method by a face processing module. The method includes a step S3 of detecting a face in the human group, tracking the same person in multiple video frames to obtain face sequence data, extracting facial features of the person from the face sequence data by a facial feature extraction module, and extracting voice audio features from the audio frame data by an audio feature extraction module; a step S4 of recognizing a speaker at a current time in the human group based on the facial features and the voice audio features of the person by a machine learning or deep learning method by a speaker detection module, and obtaining information of the speaker at the current time; and a step S5 of recognizing a conversation partner of the speaker at the current time in the human group by a machine learning or deep learning method by a conversation partner recognition module, based on scene features, the text semantic features, the voice audio features, and the facial features of the person, and detecting whether the conversation partner of the speaker at the current time is a robot. Here, the scene features include information of the speaker and conversation partner at a previous time.

さらに、前記ステップS1において、前記ビデオフレームデータはロボットオペレーティングシステム(Robot Operating System、ROS)トピックの形態で発表されてもよく、画像トピックをサブスクライブすることによってビデオフレームデータをリアルタイムに取得し、前記オーディオフレームデータはROSトピックの形態で発表されてもよく、オーディオトピックをサブスクライブすることによってオーディオフレームデータをリアルタイムに取得する。前記ステップS2において、YOLO(You Only Look Once、一度見るだけでよい)を用いて顔検出を行ってもよく、且つ深層簡単オンラインリアルタイム追跡(Deep Simple Online Realtime Tracking、Deep SORT)のモデルを利用して複数ターゲット追跡を行い、追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される。 Furthermore, in step S1, the video frame data may be published in the form of a Robot Operating System (ROS) topic, and the video frame data may be obtained in real time by subscribing to an image topic, and the audio frame data may be published in the form of a ROS topic, and the audio frame data may be obtained in real time by subscribing to an audio topic. In step S2, face detection may be performed using YOLO (You Only Look Once), and multiple targets are tracked using a Deep Simple Online Realtime Tracking (Deep SORT) model, and an ID is assigned to each person as a result of tracking, and the ID of each person is unique and fixed throughout the entire process.

さらに、前記ステップS4は、具体的には、前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、第1のマルチモーダル特徴を得るステップと、深層学習方法で、前記第1のマルチモーダル特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を予測するステップと、を含んでもよい。 Furthermore, step S4 may specifically include a step of fusion coding the facial features and the voice audio features of the person according to a timestamp based on the face sequence data to obtain a first multimodal feature, and a step of predicting a speaker at a current time in the human group based on the first multimodal feature using a deep learning method.

さらに、前記ステップS5は、具体的には、前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、すなわちマルチモーダル特徴融和を行い、第2のマルチモーダル特徴を得るステップと、深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、を含んでもよい。オプションで、Transformer方法で前記コード及びデコードを行う。 Furthermore, the step S5 may specifically include a step of fusion-coding the scene features, the text semantic features, the voice audio features and the facial features of the person according to the timestamp based on the face sequence data, i.e., performing multimodal feature fusion to obtain second multimodal features, and a step of predicting, one by one, the probability that each person in the human group is a conversation partner of the speaker at the current time based on the second multimodal features using a deep learning method. Optionally, the coding and decoding are performed using a Transformer method.

本発明の実施例のマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置及び方法によれば、時々刻々と人数が変化するマルチヒューマンコンピュータインタラクションシーンにおいて話し相手の予測を行うことができる。具体的には、マルチモーダル融合モジュールによって異なる次元の特徴情報を関連付けることにより、話し相手の判断に有用な情報を抽出することができる。また、複雑な人工的な特徴抽出処理を必要とせず、深層学習方法で予測することで、利用プロセスにおける予測効率を効果的に向上させることができる。 According to the device and method for detecting interlocutors in a multi-human computer interaction scene of the embodiment of the present invention, it is possible to predict interlocutors in a multi-human computer interaction scene where the number of people changes from moment to moment. Specifically, by associating feature information of different dimensions using a multimodal fusion module, it is possible to extract information that is useful for determining interlocutors. In addition, by making predictions using a deep learning method without requiring complex artificial feature extraction processing, it is possible to effectively improve prediction efficiency in the usage process.

本発明の実施例によるマルチヒューマンとロボットとのインタラクションシーンの概略図である。FIG. 2 is a schematic diagram of a multi-human and robot interaction scene according to an embodiment of the present invention. 本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出装置のモジュール概略図である。1 is a module schematic diagram of an apparatus for detecting interlocutors in a multi-human computer interaction scene according to an embodiment of the present invention; 本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出方法のフローチャートである。1 is a flowchart of a method for detecting interlocutors in a multi-human computer interaction scene according to an embodiment of the present invention; 本発明の実施例による話し相手認識モジュールの選択可能なモデルアーキテクチャの概略図である。FIG. 2 is a schematic diagram of a selectable model architecture of a partner recognition module according to an embodiment of the present invention.

本発明の目的、構造及び機能をよりよく理解するために、以下は図面を参照し、本発明の実施例に係るマルチヒューマンコンピュータインタラクションシーンで話し相手の検出用の装置及び方法についてさらに詳細に説明する。 In order to better understand the purpose, structure and function of the present invention, the following provides a more detailed description of the apparatus and method for interlocutor detection in a multi-human computer interaction scene according to an embodiment of the present invention with reference to the drawings.

図1に示すのはマルチヒューマンとロボットとのインタラクションシーンの一例の概略図である。図1において、正方形はシーン内の物品を表し、二等辺三角形は、シーン内の人物を表し、頂角は、人物の向きを認識するために用いられてもよく、Rが付された円はロボットを表す。図1に示すように、当該シーンにおけるヒューマンコンピュータインタラクションは、4人及び1つのロボットに関する。当業者であれば理解できるように、図1は、マルチヒューマンコンピュータインタラクションシーンの単なる例であり、実際にヒューマンコンピュータインタラクションに参加する人数及びロボットの数は、これに限定されるべきではなく、時々刻々と変化してもよい。 Figure 1 shows a schematic diagram of an example of a multi-human-robot interaction scene. In Figure 1, squares represent objects in the scene, isosceles triangles represent people in the scene, the vertex angles may be used to recognize the orientation of people, and circles with R represent robots. As shown in Figure 1, the human-computer interaction in the scene involves four people and one robot. As can be understood by those skilled in the art, Figure 1 is merely an example of a multi-human-computer interaction scene, and the number of people and robots actually participating in the human-computer interaction should not be limited thereto and may change from time to time.

図2に示すのは本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置の機能モジュール図である。図2に示すように、当該装置は、オーディオ・ビデオ収集モジュール110、テキスト生成モジュール120、顔処理モジュール130、テキスト特徴抽出モジュール140、オーディオ特徴抽出モジュール150、顔特徴抽出モジュール160、話し手検出モジュール170及び話し相手認識モジュール180を含む。 2 shows a functional module diagram of an apparatus for detecting interlocutors in a multi-human computer interaction scene according to an embodiment of the present invention. As shown in FIG. 2, the apparatus includes an audio-video collection module 110, a text generation module 120, a face processing module 130, a text feature extraction module 140, an audio feature extraction module 150, a face feature extraction module 160, a speaker detection module 170 and an interlocutor recognition module 180.

ここで、オーディオ・ビデオ収集モジュール110は、例えばカメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集することができ(ここで、ビデオフレームデータには、例えばカラー画像のビデオフレームが含まれる)、マイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集することができる。いくつかの実施例では、図2に示すように、ビデオフレームデータ及びオーディオフレームデータをビデオフレームデータベース101又はオーディオフレームデータベース102内に時系列にそれぞれ記憶してもよい。また、前記ビデオフレームデータに含まれる複数のビデオフレーム及び前記オーディオフレームデータに含まれる複数のオーディオフレームは前記タイムスタンプに従って同期される。言い換えれば、同一時刻に収集されたビデオとオーディオはタイムスタンプに従って同期されるべきである。 Here, the audio/video collection module 110 can, for example, use a camera to collect time-stamped video frame data in real time (wherein the video frame data includes, for example, video frames of color images), and can use a micro to collect time-stamped audio frame data. In some embodiments, as shown in FIG. 2, the video frame data and the audio frame data may be stored in chronological order in the video frame database 101 or the audio frame database 102, respectively. Also, the multiple video frames included in the video frame data and the multiple audio frames included in the audio frame data are synchronized according to the timestamps. In other words, video and audio collected at the same time should be synchronized according to the timestamps.

テキスト生成モジュール120は、例えば音声認識によってオーディオフレームデータに基づいて、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層に対応するタイムスタンプ付きのテキスト情報を生成することができる。いくつかの実施例では、図2に示すように、上記テキスト情報をテキストデータベース104に記憶してもよい。 The text generation module 120 can generate time-stamped text information corresponding to different hierarchies such as word level, sentence level, dialogue topic level, etc. based on the audio frame data, for example by speech recognition. In some embodiments, the text information may be stored in a text database 104, as shown in FIG. 2.

顔処理モジュール130はマシンビジョン方法で例えばカラー画像のビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得することができる。いくつかの実施例では、図2に示すように、顔シーケンスデータを顔データベース103に記憶してもよい。ここで、前記複数のビデオフレームは、連続した複数のビデオフレームであってもよく、例えば、特定の時間長内にカメラが連続撮影した複数のビデオフレームであってもよい。しかし、前記複数のビデオフレームは、不連続な複数のビデオフレームであってもよく、これにより、人物がシーンから退出して再び戻ってきても、人物追跡を効果的に実現することができる。 The face processing module 130 can use machine vision methods to detect faces in video frames, e.g., color images, and track the same person in multiple video frames to obtain face sequence data. In some embodiments, the face sequence data can be stored in a face database 103, as shown in FIG. 2. Here, the multiple video frames can be consecutive video frames, e.g., multiple video frames captured by a camera within a certain time period. However, the multiple video frames can also be non-consecutive video frames, which can effectively realize person tracking even when the person leaves the scene and returns.

テキスト特徴抽出モジュール140は、異なる階層に対応するタイムスタンプ付きのテキスト情報を自然言語の深層学習ネットワーク内に入力し、タイムスタンプ付きのテキストセマンティック特徴を抽出することができる。いくつかの実施例では、テキスト情報を取得した後、テキストを単語シーケンスと見なし、例えばGloVeの単語エンコーダを使用してコードして特定の長さ(例えば128次元)のテキストセマンティック特徴ベクトルを得てもよい。 The text feature extraction module 140 can input the time-stamped text information corresponding to different hierarchies into a natural language deep learning network to extract time-stamped text semantic features. In some implementations, after obtaining the text information, the text may be regarded as a word sequence and coded, for example, using a GloVe word encoder, to obtain a text semantic feature vector of a certain length (e.g., 128 dimensions).

オーディオ特徴抽出モジュール150はタイムスタンプ付きのオーディオフレームデータを深層学習ネットワーク内に入力することにより、タイムスタンプ付きのヴォイスオーディオ特徴を抽出することができる。例えば、まず、オーディオフレームデータを重複のあるオーディオセグメントに分割し、さらにオーディオセグメントに対して特徴抽出を行ってメル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients、MFCC)を取得して更なるオーディオ特徴抽出の入力としてもよい。例えば、MFCCを深層学習ネットワーク内に入力し、入力されたMFCCに基づいて特定の長さ(例えば128次元)のヴォイスオーディオ特徴ベクトルを生成してもよい。 The audio feature extraction module 150 may input the time-stamped audio frame data into a deep learning network to extract time-stamped voice audio features. For example, the audio frame data may be first divided into overlapping audio segments, and feature extraction may be performed on the audio segments to obtain Mel-Frequency Cepstral Coefficients (MFCCs) as input for further audio feature extraction. For example, the MFCCs may be input into a deep learning network to generate a voice audio feature vector of a particular length (e.g., 128 dimensions) based on the input MFCCs.

顔特徴抽出モジュール160は、顔シーケンスデータを深層学習ネットワーク内に入力することにより、タイムスタンプ付きの人物の顔特徴を抽出することができる。ここで、人物の顔特徴は、人物の顔の時系列、空間特徴を含んでもよい。例えば、各人物の顔シーケンスデータを1つの画像ブロックシーケンスと見なし、深層学習ネットワークによって当該画像ブロックシーケンスを視覚特徴コードに変換し、続いて当該視覚特徴コードと位置コードとを加算すると対応する人物の顔特徴を得ることができる。また、人物の顔特徴は特定の長さ(例えば128次元)の特徴ベクトルとして表現されてもよい。 The facial feature extraction module 160 can extract time-stamped facial features of a person by inputting the facial sequence data into a deep learning network. Here, the facial features of a person may include time series and spatial features of the person's face. For example, the facial sequence data of each person can be regarded as one image block sequence, and the image block sequence can be converted into a visual feature code by a deep learning network, and then the visual feature code and the position code can be added to obtain the corresponding facial feature of the person. In addition, the facial feature of a person can be represented as a feature vector of a certain length (e.g., 128 dimensions).

話し手検出モジュール170は、機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいてヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得することができる。いくつかの実施例では、図2に示すように、現在時刻での話し手の情報を話し手データベース105内に記憶してもよい。例えば、話し手データベース105はタイムスタンプに従って話し手の情報を記憶してもよい。 The speaker detection module 170 may use a machine learning or deep learning method to recognize a speaker in a human group at a current time based on the facial features and the voice audio features of the person in the face sequence data, and obtain information about the speaker at the current time. In some embodiments, the information about the speaker at the current time may be stored in a speaker database 105, as shown in FIG. 2. For example, the speaker database 105 may store the speaker information according to a timestamp.

話し相手認識モジュール180は、機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、現在時刻での話し手の話し相手がロボットであるか否かを検出することができる。いくつかの実施例では、図2に示すように、話し相手の情報を話し相手データベース106内に記憶してもよい。 The interlocutor recognition module 180 can recognize an interlocutor of the speaker in the human group at the current time based on scene features, the text semantic features, the voice audio features, and the facial features of the person in the face sequence data through machine learning or deep learning methods, and detect whether the interlocutor of the speaker at the current time is a robot. In some embodiments, the interlocutor information may be stored in an interlocutor database 106, as shown in FIG. 2.

具体的には、図2に示すように、オーディオ・ビデオ収集モジュール110はビデオ収集モジュール111と、オーディオ収集モジュール112とを含んでもよい。ここで、ビデオ収集モジュール111は、例えばカメラを用いてタイムスタンプ付きの例えばカラー画像のビデオフレームをリアルタイムに収集することができる。オーディオ収集モジュール112は、例えばマイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集することができる。また、例えば顔処理モジュール130の他のモジュールによって呼び出されるために、ビデオフレームデータベース101を用いてタイムスタンプ付きのビデオフレームデータを時系列に記憶してもよく、例えばテキスト生成モジュール120、オーディオ特徴抽出モジュール150などの他のモジュールによって呼び出されるために、オーディオフレームデータベース102を用いてタイムスタンプ付きのオーディオフレームデータを時系列に記憶してもよい。 Specifically, as shown in FIG. 2, the audio/video collection module 110 may include a video collection module 111 and an audio collection module 112. Here, the video collection module 111 may collect video frames, for example color images, with time stamps in real time using, for example, a camera. The audio collection module 112 may collect audio frame data with time stamps using, for example, a micro. In addition, the video frame database 101 may be used to store the video frame data with time stamps in a time series in order to be called by other modules, for example, the face processing module 130, and the audio frame database 102 may be used to store the audio frame data with time stamps in a time series in order to be called by other modules, for example, the text generation module 120, the audio feature extraction module 150, etc.

具体的には、図2に示すように、顔処理モジュール130は顔検出モジュール131と、顔追跡モジュール132とを含んでもよい。ここで、顔検出モジュール131は、深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表すことができ、顔追跡モジュール132は前記顔検出モジュール131によって出力された検出結果に基づいて、複数のビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得することができる。同一顔に一意の固定識別子を付与することにより、人物がシーン視野内で消えた後に再び出現しても、当該人物を元のidで表すことができる。いくつかの実施例では、図2に示すように、例えば顔特徴抽出モジュール160の他のモジュールによって呼び出されるために、顔データベース103を用いてタイムスタンプ付きの顔シーケンスデータを記憶してもよい。 Specifically, as shown in FIG. 2, the face processing module 130 may include a face detection module 131 and a face tracking module 132. Here, the face detection module 131 may detect faces in video frames included in the video frame data using a deep learning method, and assign a unique fixed identifier to the same face detected from two or more video frames to represent the person, and the face tracking module 132 may track the same person in multiple video frames based on the detection result output by the face detection module 131, and obtain time-stamped face sequence data. By assigning a unique fixed identifier to the same face, even if the person disappears in the scene field and then reappears, the person can be represented by the original id. In some embodiments, the face database 103 may be used to store the time-stamped face sequence data, for example to be called by other modules of the face feature extraction module 160, as shown in FIG. 2.

具体的には、図2に示すように、話し手検出モジュール170は第1のマルチモーダル融合モジュール171と、話し状態検出モジュール172とを含んでもよい。第1のマルチモーダル融合モジュール171は、前記顔シーケンスデータに基づいてタイムスタンプに従って上記人物の顔特徴と、ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和することができ、話し状態検出モジュール172は、上記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定することができる。いくつかの実施例では、図2に示すように、例えば話し相手認識モジュール180の他のモジュールによって呼び出されるために、話し手データベース105を用いて現在時刻での話し手の情報を記憶してもよい。 Specifically, as shown in FIG. 2, the speaker detection module 170 may include a first multimodal fusion module 171 and a speaking state detection module 172. The first multimodal fusion module 171 may fuse the face features and voice audio features of the person according to a time stamp based on the face sequence data into a first multimodal feature, and the speaking state detection module 172 may input the first multimodal feature into a deep learning network and predict the speaking state of each person in a human group at a current time one by one to determine the speaker and corresponding speaker information at the current time. In some embodiments, the speaker database 105 may be used to store the speaker information at the current time, for example, to be called by other modules of the speaking partner recognition module 180, as shown in FIG. 2.

また、いくつかの実施例では、結合の方法で人物の顔特徴と、ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和してもよい。例えば、人物の顔特徴及びヴォイスオーディオ特徴がいずれも128次元のベクトルである場合、特徴結合によって得られた第1のマルチモーダル特徴は256次元のベクトルとなる。 In some embodiments, the combination method may also incorporate a person's facial features and voice audio features into the first multimodal feature. For example, if the person's facial features and voice audio features are both 128-dimensional vectors, the first multimodal feature obtained by feature combination is a 256-dimensional vector.

具体的には、図2に示すように、話し相手認識モジュール180は第2のマルチモーダル融合モジュール181と、話し相手検出モジュール182とを含んでもよい。第2のマルチモーダル融合モジュール181は、前記顔シーケンスデータに基づいてタイムスタンプに従って上記人物の顔特徴と、ヴォイスオーディオ特徴と、テキストセマンティック特徴と、シーンデータベース107からのシーン特徴とを第2のマルチモーダル特徴に融和することができ、話し相手検出モジュール182は、上記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定することができる。いくつかの実施例では、図2に示すように、例えばシーンデータベース107の他のモジュールによって呼び出されるために、話し相手データベース106を用いて現在時刻での話し相手の情報を記憶してもよい。あるいは、現在時刻での話し相手の情報を結果として直接出力してもよい。 Specifically, as shown in FIG. 2, the interlocutor recognition module 180 may include a second multimodal fusion module 181 and an interlocutor detection module 182. The second multimodal fusion module 181 may fuse the face features of the person, the voice audio features, the text semantic features, and the scene features from the scene database 107 into a second multimodal feature according to a time stamp based on the face sequence data, and the interlocutor detection module 182 may input the second multimodal features into a deep learning network, predict one by one whether each person in the human group and each robot is an interlocutor of the speaker at the current time, and determine the interlocutor information at the current time accordingly. In some embodiments, as shown in FIG. 2, the interlocutor database 106 may be used to store the interlocutor information at the current time, for example, to be called by other modules of the scene database 107. Alternatively, the interlocutor information at the current time may be directly output as a result.

また、図2に示すように、シーンデータベース107は、話し相手認識モジュール180によって用いられるために、前の時刻の話し手の情報、話し相手の情報を記憶してもよい。 Also, as shown in FIG. 2, the scene database 107 may store speaker and interlocutor information from previous times for use by the interlocutor recognition module 180.

具体的には、図2に示すように、テキスト生成モジュール120は音声認識モジュール121を含んでもよい。音声認識モジュール121は、オーディオフレームデータに基づいて音声認識を行い、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層に対応するタイムスタンプ付きのテキスト情報を生成することができる。いくつかの実施例では、図2に示すように、例えばテキスト特徴抽出モジュール140の他のモジュールによって呼び出されるために、テキストデータベース104を用いて上記タイムスタンプ付きのテキスト情報を時系列に階層的に記憶してもよい。 Specifically, as shown in FIG. 2, the text generation module 120 may include a speech recognition module 121. The speech recognition module 121 may perform speech recognition based on the audio frame data and generate time-stamped text information corresponding to different hierarchies such as a word level, a sentence level, and a dialogue topic level. In some embodiments, as shown in FIG. 2, the text database 104 may be used to hierarchically store the time-stamped text information in a chronological order, for example, to be called by other modules of the text feature extraction module 140.

図3に示すのは本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法のフローチャートである。図3に示すように、当該方法は、ステップS1~S5を含んでもよい。 Figure 3 shows a flowchart of a method for interlocutor detection in a multi-human computer interaction scene according to an embodiment of the present invention. As shown in Figure 3, the method may include steps S1 to S5.

ステップS1において、オーディオ・ビデオ収集モジュール110によって例えばカメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集し、マイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集する。ここで、前記ビデオフレームデータに含まれる複数のビデオフレーム及び前記オーディオフレームデータに含まれる複数のオーディオフレームはビデオフレームデータベース又はオーディオフレームデータベースに時系列に記憶されてもよい。このように、同一時刻に収集されたビデオとオーディオはタイムスタンプに従って同期されることが可能である。 In step S1, the audio/video collection module 110 collects time-stamped video frame data in real time using, for example, a camera, and collects time-stamped audio frame data using a microcomputer. Here, a plurality of video frames included in the video frame data and a plurality of audio frames included in the audio frame data may be stored in chronological order in a video frame database or an audio frame database. In this way, video and audio collected at the same time can be synchronized according to the timestamps.

具体的には、現在時刻でのビデオフレームは実際の動作においてリアルタイムに取得されたカラー画像であってもよい。例えば、ロボットオペレーティングシステム(RobotOperating System、ROS)を用いるロボットシステムでは、単眼カメラで収集したカラー画像はROSトピックの方式で発表され、それにより画像トピックをサブスクライブすることによってカラー画像をリアルタイムに取得することができる。アレイマイクロが収集したオーディオ情報もROSトピックの方式で発表されてもよく、それによりオーディオトピックをサブスクライブすることによってオーディオ情報をリアルタイムに取得することができる。 Specifically, the video frame at the current time may be a color image acquired in real time during actual operation. For example, in a robot system using a Robot Operating System (ROS), color images collected by a monocular camera may be published in the form of a ROS topic, so that color images can be acquired in real time by subscribing to the image topic. Audio information collected by the array micro may also be published in the form of a ROS topic, so that audio information can be acquired in real time by subscribing to the audio topic.

ステップS2において、テキスト生成モジュール120によってリアルタイムにオーディオフレームデータに対して音声認識を行うことにより、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層のタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュール140によってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出する。いくつかの実施例では、上記テキスト情報をテキストデータベース104内に記憶してもよい。 In step S2, the text generation module 120 performs real-time speech recognition on the audio frame data to generate time-stamped text information at different levels, such as the word level, sentence level, and dialogue topic level, and the text feature extraction module 140 extracts text semantic features from the time-stamped text information. In some embodiments, the text information may be stored in the text database 104.

ステップS3において、顔処理モジュール130によってマシンビジョン方法でビデオフレームデータにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得し、顔特徴抽出モジュール160によって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュール150によって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出する。 In step S3, the face processing module 130 detects a face in the video frame data using a machine vision method, tracks the same person in multiple video frames to obtain face sequence data, the face feature extraction module 160 extracts the person's face features from the face sequence data, and the audio feature extraction module 150 extracts voice audio features from the audio frame data.

1つの例示的な実施例では、YOLOを用いて顔検出を行い、Deep SORTのモデルを用いて複数ターゲット追跡を行ってもよい。追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される。 In one exemplary embodiment, YOLO may be used for face detection, and Deep SORT may be used for multi-target tracking. As a result of tracking, an ID is assigned to each person, and each person's ID is unique and fixed throughout the entire process.

ステップS4において、話し手検出モジュール170によって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいてヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得する。 In step S4, the speaker detection module 170 uses a machine learning or deep learning method to recognize the speaker in the human group at the current time based on the person's facial features and the voice audio features, and obtains information about the speaker at the current time.

具体的には、ステップS4は、前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、すなわちマルチモーダル特徴融和を行い、第1のマルチモーダル特徴を得るステップと、深層学習方法で、前記第1のマルチモーダル特徴に基づいてヒューマングループにおける現在時刻での話し手を予測するステップと、をさらに含んでもよい。 Specifically, step S4 may further include a step of fusion-coding the facial features and the voice audio features of the person according to the time stamp based on the face sequence data, i.e., performing multimodal feature fusion to obtain a first multimodal feature, and a step of predicting a speaker at a current time in a human group based on the first multimodal feature using a deep learning method.

ステップS5において、話し相手認識モジュール180によって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、現在時刻での話し手の話し相手がロボットであるか否かを検出する。 In step S5, the conversation partner recognition module 180 uses a machine learning or deep learning method to recognize the conversation partner of the speaker in the human group at the current time based on the scene features, the text semantic features, the voice audio features, and the facial features of the person, and detects whether the conversation partner of the speaker at the current time is a robot.

具体的には、ステップS5は、前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、すなわちマルチモーダル特徴融和を行い、第2のマルチモーダル特徴を得るステップと、深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、をさらに含んでもよい。 Specifically, step S5 may further include a step of fusion-coding the scene features, the text semantic features, the voice audio features and the facial features of the person according to the timestamp based on the face sequence data, i.e., performing multimodal feature fusion to obtain second multimodal features, and a step of predicting, one by one, the probability that each person in the human group is a conversation partner of the speaker at the current time based on the second multimodal features using a deep learning method.

1つの例示的な実施例では、当業者によく知られているTransformerモデルを用いて、第1/第2のマルチモーダル特徴に基づいて予測する深層学習方法を実行してもよい。一般的に、Transformerモデルは入力、エンコーダ、デコーダ及び出力を含む。 In one exemplary embodiment, a deep learning method for predicting based on the first/second multimodal features may be implemented using a Transformer model, which is well known to those skilled in the art. In general, a Transformer model includes an input, an encoder, a decoder, and an output.

ここで、Transformerモデルの入力はコードされたシーケンスである。例えば、ビデオフレームデータにとっては、フレーム画像をブロック化して1つの画像シーケンスに並べ、各フレーム画像の収集時刻を当該画像シーケンスの1つの要素とするのが一般的である。テキスト情報については、文字はまず1つの単語シーケンスに単語化され、続いて単語シーケンスにおける各単語に対して単語コードを行うことにより、テキストコードシーケンスを生成する。オーディオフレームデータの場合も、Transformerモデルの入力として使用する前に、オーディオシーケンスにコードする必要がある。 Here, the input of the Transformer model is a coded sequence. For example, for video frame data, it is common to block frame images into an image sequence, with the collection time of each frame image being an element of the image sequence. For text information, characters are first coded into a word sequence, and then each word in the word sequence is word coded to generate a text code sequence. Audio frame data also needs to be coded into an audio sequence before it can be used as input for the Transformer model.

そして、Transformerモデルにおけるエンコーダは主に6層のコードモジュールで構成される。各コードモジュールは主に1つのマルチヘッドセルフアテンションメカニズム層(multi-head self-attention mechanism)及び1つの全結合前方伝播層(fully connected feed-forward)を含み、且ついずれも残差接続(residual connection)及び正規化(normalization)が加えられている。ここで、マルチヘッドセルフアテンションメカニズム層は前の層のシーケンスコードを入力とし、全結合層によって検索キー値トライアド(query、key、value)におけるq、k、v値を生成する。前記q、k、v値はいずれも長さが64の特徴ベクトルであってもよい。シーケンス間は各qを用いて各kに対してattentionを求め、計算式は
となり、ここで、dは特徴ベクトルの長さを表し、64に等しい。
The encoder in the Transformer model is mainly composed of six-layer code modules. Each code module mainly includes one multi-head self-attention mechanism layer and one fully connected feed-forward layer, and residual connection and normalization are added to both. Here, the multi-head self-attention mechanism layer takes the sequence code of the previous layer as input, and generates q, k, and v values in the search key value triad (query, key, value) through the fully connected layer. The q, k, and v values may all be feature vectors with a length of 64. Between sequences, attention is calculated for each k using each q, and the calculation formula is:
where d k represents the length of the feature vector and is equal to 64.

同様に、Transformerモデルにおけるデコーダは主に6層のデコードモジュールで構成される。各デコードモジュールは2つのマルチヘッドセルフアテンションメカニズム層及び1つの全結合前方伝播層を含む。デコーダの入力はエンコーダの出力及びデコーダの前回の出力を含む。特に、デコーダの出力はTransformerモデルの出力である。 Similarly, the decoder in the Transformer model is mainly composed of six-layered decoding modules. Each decoding module includes two multi-head self-attention mechanism layers and one fully-connected forward propagation layer. The input of the decoder includes the output of the encoder and the previous output of the decoder. In particular, the output of the decoder is the output of the Transformer model.

以下、第2のマルチモーダル特徴に基づいて話し相手を予測することを例として、Transformerモデルの本発明の実施例における応用を概略的に説明する。 Below, we briefly explain the application of the Transformer model in an embodiment of the present invention, taking as an example predicting interlocutor based on a second multimodal feature.

図4に示すように、話し手の話し相手を効果的に認識するために、入力データは話し手の顔画像シーケンスと、他の人物の顔画像シーケンスと、対応する時間帯のオーディオフレームデータと、対応する時間帯のテキスト情報とを含む。まず、画像情報、オーディオ情報、テキスト情報に対してそれぞれ特徴抽出を行うことにより、対応する人物の顔特徴ベクトル、ヴォイスオーディオ特徴ベクトル及びテキストセマンティック特徴ベクトルを得、次に、マルチモーダル融合モジュールにおいて、全ての特徴ベクトルを結合し、マルチモーダルの融和を実現し、それにより、話し手及び各他の人物に対応する第2のマルチモーダル特徴を得、そして、融和により得られた第2のマルチモーダル特徴をTransformerエンコーダによってコードして話し手及び各他の人物の第2のマルチモーダルコード特徴ベクトルを得、最後に、当該第2のマルチモーダルコード特徴ベクトルをTransformerデコーダ内に伝送することにより、各他の人物が話し手の話し相手である確率を予測する。ここで、Transformerデコーダによる予測は、順序予測であってもよい。例えば、まずロボットが話し相手である確率を予測し、その後、各他の人物が話し相手である確率の予測を行ってもよい。いくつかの実施例では、図4に示すように、前の人物の話し相手予測の結果をTransformerデコーダに再入力し、Transformerデコーダが次の人物に対して話し相手予測を行う時の入力としてもよい。言い換えれば、話し相手の認識を行う際に、Transformerデコーダにより、ヒューマングループのうち話し手以外の人物を1つずつ予測する。Transformerデコーダの最初の出力結果はロボットが話し相手である確率であり、その後の出力結果は順次他の各人物が話し相手である確率である。Transformerデコーダの出力結果が示す確率が予め設定された閾値より大きい場合、対応するロボット又は人物が話し相手であると考えられる。例えば、最初の出力結果が示す確率が前記予め設定された閾値より大きい場合、ロボットが現在時刻での話し手の話し相手であることを示す。 As shown in FIG. 4, in order to effectively recognize the speaker's interlocutors, the input data includes the speaker's face image sequence, the other person's face image sequence, the audio frame data of the corresponding time period, and the text information of the corresponding time period. First, feature extraction is performed on the image information, audio information, and text information, respectively, to obtain the corresponding person's face feature vector, voice audio feature vector, and text semantic feature vector; then, in the multimodal fusion module, all feature vectors are combined to realize multimodal fusion, thereby obtaining second multimodal features corresponding to the speaker and each other person; then, the second multimodal features obtained by fusion are coded by the Transformer encoder to obtain second multimodal code feature vectors of the speaker and each other person; finally, the second multimodal code feature vector is transmitted into the Transformer decoder to predict the probability that each other person is the speaker's interlocutor. Here, the prediction by the Transformer decoder may be an order prediction. For example, the probability that the robot is a conversation partner may be predicted first, and then the probability that each other person is a conversation partner may be predicted. In some embodiments, as shown in FIG. 4, the result of the conversation partner prediction for the previous person may be re-input to the Transformer decoder, and used as the input when the Transformer decoder performs conversation partner prediction for the next person. In other words, when performing conversation partner recognition, the Transformer decoder predicts each person in the human group other than the speaker one by one. The first output result of the Transformer decoder is the probability that the robot is a conversation partner, and the subsequent output results are the probabilities of each other person in turn. If the probability indicated by the output result of the Transformer decoder is greater than a preset threshold, the corresponding robot or person is considered to be a conversation partner. For example, if the first output result is greater than the preset threshold, it indicates that the robot is a conversation partner of the speaker at the current time.

理解されるように、本発明はいくつかの実施例を介して説明され、当業者であれば分かるように、本発明の精神及び範囲から逸脱することなく、これらの特徴及び実施例に対して様々な変更又は等価置換を行うことができる。また、本発明の教示の下で、これらの特徴及び実施例を、本発明の精神及び範囲から逸脱することなく、特定の状況及び材料に適合するように修正することができる。したがって、本発明はここで開示された具体的な実施例に限定されるものではなく、本発明の特許請求の範囲に落ちる全ての実施例は本発明の保護範囲に属する。 As will be understood, the present invention has been described through several embodiments, and those skilled in the art will recognize that various modifications or equivalent substitutions can be made to these features and embodiments without departing from the spirit and scope of the present invention. Furthermore, under the teachings of the present invention, these features and embodiments can be modified to suit particular situations and materials without departing from the spirit and scope of the present invention. Therefore, the present invention is not limited to the specific embodiments disclosed herein, and all embodiments falling within the scope of the claims of the present invention are within the scope of protection of the present invention.

Claims (9)

マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関するマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置であって、
タイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するためのオーディオ・ビデオ収集モジュール(110)であって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとは前記タイムスタンプに従って同期されるオーディオ・ビデオ収集モジュール(110)と、
前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成するためのテキスト生成モジュール(120)と、
マシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得するための顔処理モジュール(130)と、
機械学習又は深層学習方法で、前記タイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するためのテキスト特徴抽出モジュール(140)と、
機械学習又は深層学習方法で、前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するためのオーディオ特徴抽出モジュール(150)と、
機械学習又は深層学習方法で、人物の顔の時系列特徴及び空間特徴を含む人物の顔特徴を前記顔シーケンスデータから抽出するための顔特徴抽出モジュール(160)と、
機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するための話し手検出モジュール(170)と、
機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するための話し相手認識モジュール(180)であって、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む話し相手認識モジュール(180)と、を含み、
前記話し相手認識モジュール(180)は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴と、前記テキストセマンティック特徴と、前記シーン特徴とを第2のマルチモーダル特徴に融和するための第2のマルチモーダル融合モジュール(181)と、
前記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定するための話し相手検出モジュール(182)と、を含む、ことを特徴とするマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置。
1. An apparatus for interlocutor detection in a multi-human computer interaction scene involving a human group including multiple humans and at least one robot, comprising:
an audio/video collection module (110) for collecting time-stamped video frame data and time-stamped audio frame data in real time, wherein a plurality of video frames included in the video frame data and a plurality of audio frames included in the audio frame data are synchronized according to the timestamps;
a text generation module (120) for generating time-stamped text information based on the audio frame data;
a face processing module (130) for detecting a face in each video frame included in the video frame data using a machine vision method and tracking the same person in multiple video frames to obtain face sequence data;
a text feature extraction module (140) for extracting text semantic features from the time-stamped text information by machine learning or deep learning methods;
an audio feature extraction module (150) for extracting voice audio features from the audio frame data using machine learning or deep learning methods;
a facial feature extraction module (160) for extracting, by machine learning or deep learning methods, facial features of a person from the face sequence data, including temporal and spatial features of the person's face;
a speaker detection module (170) for recognizing a speaker at a current time in the human group based on the facial features and the voice audio features of the person in the face sequence data by a machine learning or deep learning method, and obtaining information of the speaker at the current time;
a partner recognition module (180) for recognizing a partner of a speaker in the human group at the current time based on scene features, the text semantic features, the voice audio features and the facial features of the person in the face sequence data by a machine learning or deep learning method, and detecting whether the partner of the speaker at the current time is a robot or not, wherein the scene features include speaker information and partner information of a previous time ;
The interlocutor recognition module (180)
a second multimodal fusion module (181) for fusing the person's facial features, the voice audio features, the text semantic features, and the scene features into second multimodal features according to time stamps based on the face sequence data;
and a partner detection module (182) for inputting the second multimodal features into a deep learning network, predicting one by one whether each person in the human group and each robot is a partner of a speaker at the current time, and determining partner information at the current time accordingly .
前記オーディオ・ビデオ収集モジュール(110)は、
カメラを用いて前記タイムスタンプ付きのビデオフレームデータをリアルタイムに収集するためのビデオ収集モジュール(111)と、
マイクロを用いて前記タイムスタンプ付きのオーディオフレームデータを収集するためのオーディオ収集モジュール(112)と、を含むこと、
及び/又は
前記ビデオフレームデータを時系列に記憶するためのビデオフレームデータベース(101)と、
前記オーディオフレームデータを時系列に記憶するためのオーディオフレームデータベース(102)と、をさらに含む、ことを特徴とする請求項1に記載の装置。
The audio-video acquisition module (110)
a video acquisition module (111) for acquiring said time-stamped video frame data in real time using a camera;
an audio capture module (112) for capturing said time-stamped audio frame data using a microphone;
and/or a video frame database (101) for storing said video frame data in chronological order;
2. The apparatus of claim 1, further comprising: an audio frame database (102) for storing said audio frame data in chronological order.
前記顔処理モジュール(130)は、
深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表す顔検出モジュール(131)と、
前記顔検出モジュール(131)によって出力された検出結果に基づいて、複数の前記ビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得するための顔追跡モジュール(132)と、を含み、
前記タイムスタンプ付きの顔シーケンスデータを記憶するための顔データベース(103)をさらに含む、ことを特徴とする請求項1に記載の装置。
The face processing module (130)
a face detection module (131) for detecting faces in video frames included in the video frame data using a deep learning method and assigning a unique fixed identifier to a face detected in two or more video frames to represent the person;
a face tracking module (132) for tracking the same person in the plurality of video frames based on the detection result output by the face detection module (131) to obtain time-stamped face sequence data;
2. The apparatus of claim 1, further comprising a face database (103) for storing said time-stamped face sequence data.
前記話し手検出モジュール(170)は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和するための第1のマルチモーダル融合モジュール(171)と、
前記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定するための話し状態検出モジュール(172)と、を含み、
タイムスタンプに従って前記話し手の情報を記憶するための話し手データベース(105)をさらに含む、ことを特徴とする請求項1に記載の装置。
The speaker detection module (170)
a first multimodal fusion module (171) for fusing the facial features of the person and the voice audio features into a first multimodal feature according to a time stamp based on the face sequence data;
a speaking state detection module (172) for inputting the first multi-modal features into a deep learning network and predicting the speaking state of each person in the human group at a current time, one by one, to determine a speaker and corresponding speaker information at the current time;
2. The apparatus of claim 1, further comprising a speaker database (105) for storing information of said speakers according to time stamps.
タイムスタンプに従って前記話し相手の情報を記憶するための話し相手データベース(106)と、
前記シーン特徴を記憶するためのシーンデータベース(107)と、をさらに含む、ことを特徴とする請求項に記載の装置。
a conversation partner database (106) for storing information of said conversation partners according to time stamps;
The apparatus of claim 1 further comprising: a scene database (107) for storing said scene features.
前記テキスト生成モジュール(120)は、前記オーディオフレームデータに基づいて複数の階層にそれぞれ対応するタイムスタンプ付きのテキスト情報を生成するための音声認識モジュール(121)であって、前記複数の階層は単語レベル、センテンスレベル、対話トピックレベルを含む音声認識モジュール(121)を含み、
前記テキスト情報を時系列に階層的に記憶するためのテキストデータベース(104)をさらに含む、ことを特徴とする請求項1に記載の装置
The text generation module (120) includes a speech recognition module (121) for generating text information with time stamps corresponding to a plurality of hierarchical levels based on the audio frame data, the plurality of hierarchical levels including a word level, a sentence level, and a dialogue topic level;
2. The apparatus of claim 1, further comprising a text database (104) for storing said text information in a hierarchical time sequence.
マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関するマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法であって、
オーディオ・ビデオ収集モジュール(110)によってタイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するステップS1であって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとは前記タイムスタンプに従って同期されるステップS1と、
テキスト生成モジュール(120)によってリアルタイムに前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュール(140)によってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するステップS2と、
顔処理モジュール(130)によってマシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得し、顔特徴抽出モジュール(160)によって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュール(150)によって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するステップS3と、
話し手検出モジュール(170)によって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するステップS4と、
話し相手認識モジュール(180)によって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するステップS5であって、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含むステップS5と、を含み、
前記ステップS5は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、第2のマルチモーダル特徴を得るステップと、
深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、を含む、ことを特徴とするマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法。
A method for interlocutor detection in a multi-human computer interaction scene involving a human group including multiple humans and at least one robot, comprising:
A step S1 of collecting time-stamped video frame data and time-stamped audio frame data in real time by an audio/video collection module (110), wherein a plurality of video frames included in the video frame data and a plurality of audio frames included in the audio frame data are synchronized according to the timestamps;
A step S2 of generating time-stamped text information based on the audio frame data in real time by a text generation module (120) and extracting text semantic features from the time-stamped text information by a text feature extraction module (140);
Step S3: detecting a face in each video frame included in the video frame data by a face processing module (130) using a machine vision method, tracking the same person in multiple video frames to obtain face sequence data, extracting face features of the person from the face sequence data by a face feature extraction module (160), and extracting voice audio features from the audio frame data by an audio feature extraction module (150);
Step S4: Recognizing a speaker in the human group at a current time based on the person's facial features and the voice audio features by a speaker detection module (170) using a machine learning or deep learning method to obtain information of the speaker at the current time;
Step S5 of recognizing a speaker's conversation partner in the human group at the current time based on scene features, the text semantic features, the voice audio features and the person's facial features by a conversation partner recognition module (180) using a machine learning or deep learning method, and detecting whether the speaker's conversation partner at the current time is a robot or not, wherein the scene features include speaker information and conversation partner information at a previous time ;
The step S5 is
co-coding the scene features, the text semantic features, the voice audio features and the person's facial features according to a time stamp based on the face sequence data to obtain a second multi-modal feature;
and predicting, one by one, the probability that each person in the human group is a conversation partner of the speaker at the current time based on the second multimodal feature using a deep learning method .
前記ステップS1において、
前記ビデオフレームデータはROSトピックの形態で発表され、画像トピックをサブスクライブすることによって前記ビデオフレームデータをリアルタイムに取得し、
前記オーディオフレームデータはROSトピックの形態で発表され、オーディオトピックをサブスクライブすることによって前記オーディオフレームデータをリアルタイムに取得し、
前記ステップS2において、YOLOを用いて顔検出を行い、Deep SORTのモデルを利用して複数ターゲット追跡を行い、前記追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される、ことを特徴とする請求項に記載の方法。
In step S1,
The video frame data is published in the form of a ROS topic, and the video frame data is obtained in real time by subscribing to an image topic;
The audio frame data is published in the form of a ROS topic, and the audio frame data is obtained in real time by subscribing to the audio topic;
8. The method according to claim 7, wherein in step S2, face detection is performed using YOLO, and multiple target tracking is performed using a Deep SORT model, and an ID is assigned to each person as a result of the tracking, and the ID of each person is unique and fixed throughout the entire process.
前記ステップS4は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、第1のマルチモーダル特徴を得るステップと、
深層学習方法で、前記第1のマルチモーダル特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を予測するステップと、を含、ことを特徴とする請求項に記載の方法。
The step S4 is
co-coding the facial features and the voice audio features of the person according to a time stamp based on the face sequence data to obtain a first multi-modal feature;
and predicting, with a deep learning method, a speaker at a current time in the human group based on the first multi - modal features.
JP2023548657A 2022-08-12 2023-06-21 Detecting interlocutors in multi-human computer interaction scenes Active JP7688715B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202210966740.5A CN115376187A (en) 2022-08-12 2022-08-12 Device and method for detecting speaking object in multi-user-computer interaction scene
CN202210966740.5 2022-08-12
PCT/CN2023/101635 WO2024032159A1 (en) 2022-08-12 2023-06-21 Speaking object detection in multi-human-machine interaction scenario

Publications (2)

Publication Number Publication Date
JP2024532640A JP2024532640A (en) 2024-09-10
JP7688715B2 true JP7688715B2 (en) 2025-06-04

Family

ID=84064895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023548657A Active JP7688715B2 (en) 2022-08-12 2023-06-21 Detecting interlocutors in multi-human computer interaction scenes

Country Status (3)

Country Link
JP (1) JP7688715B2 (en)
CN (1) CN115376187A (en)
WO (1) WO2024032159A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376187A (en) * 2022-08-12 2022-11-22 之江实验室 Device and method for detecting speaking object in multi-user-computer interaction scene
CN115810209A (en) * 2022-11-25 2023-03-17 之江实验室 A speaker recognition method and device based on multimodal feature fusion network
CN117854535B (en) * 2024-03-08 2024-05-07 中国海洋大学 Audiovisual speech enhancement method based on cross attention and model building method
CN119091503B (en) * 2024-08-22 2025-10-21 浙江大学 Human interaction detection method and system based on cross-modal fusion of large language model
CN119810884B (en) * 2024-12-12 2025-10-31 马栏山音视频实验室 Methods, devices, electronic equipment and storage media for detecting speech objects
CN119993154B (en) * 2025-04-17 2025-07-08 深圳市活力天汇科技股份有限公司 A method for speaker speech recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004270A (en) 2014-05-30 2016-01-12 アップル インコーポレイテッド Reducing need for manual start/end-pointing and trigger phrases
JP2020095121A (en) 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 Speech recognition system, generation method for learned model, control method for speech recognition system, program, and moving body
CN114819110A (en) 2022-06-23 2022-07-29 之江实验室 Method and device for identifying speaker in video in real time

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107230476A (en) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 A kind of natural man machine language's exchange method and system
CN111078010B (en) * 2019-12-06 2023-03-14 智语科技(江门)有限公司 Man-machine interaction method and device, terminal equipment and readable storage medium
CN113408385B (en) * 2021-06-10 2022-06-14 华南理工大学 Audio and video multi-mode emotion classification method and system
CN113920560B (en) * 2021-09-17 2024-10-25 科大讯飞股份有限公司 Method, device and equipment for identifying multi-mode speaker identity
CN114519880B (en) * 2022-02-09 2024-04-05 复旦大学 Active speaker recognition method based on cross-modal self-supervision learning
CN115376187A (en) * 2022-08-12 2022-11-22 之江实验室 Device and method for detecting speaking object in multi-user-computer interaction scene

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004270A (en) 2014-05-30 2016-01-12 アップル インコーポレイテッド Reducing need for manual start/end-pointing and trigger phrases
JP2020095121A (en) 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 Speech recognition system, generation method for learned model, control method for speech recognition system, program, and moving body
CN114819110A (en) 2022-06-23 2022-07-29 之江实验室 Method and device for identifying speaker in video in real time

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杉山貴昭ほか,多人数対話ロボットのためのユーザの挙動を利用した応答義務の推定,第75回 言語・音声理解と対話処理研究会資料,日本,一般社団法人人工知能学会,2015年10月26日,第7-14頁

Also Published As

Publication number Publication date
WO2024032159A1 (en) 2024-02-15
JP2024532640A (en) 2024-09-10
CN115376187A (en) 2022-11-22

Similar Documents

Publication Publication Date Title
JP7688715B2 (en) Detecting interlocutors in multi-human computer interaction scenes
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
CN110751208B (en) An emotion recognition method for prisoners based on multimodal feature fusion based on self-weight differential encoder
Oliver et al. Layered representations for human activity recognition
CN112088402B (en) Federated neural network for speaker recognition
CN112001347B (en) An action recognition method based on human skeleton shape and detection target
Katsaggelos et al. Audiovisual fusion: Challenges and new approaches
Ogale et al. View-invariant modeling and recognition of human actions using grammars
Shen et al. Emotion recognition based on multi-view body gestures
CN114241606A (en) Character interaction detection method based on adaptive set learning prediction
Vayadande et al. Lipreadnet: A deep learning approach to lip reading
Hori et al. Multimodal attention for fusion of audio and spatiotemporal features for video description
CN119516054B (en) A method for generating speaking digital humans based on large-model learnable text latent codes
CN117995187A (en) A customer service robot and dialogue processing system and method based on deep learning
Hua et al. Falls prediction based on body keypoints and seq2seq architecture
Salman et al. Comparison of deepfakes detection techniques
CN114694254A (en) Method and device for detecting and early warning robbery of articles in vertical ladder and computer equipment
Neeraja et al. Deep learning based lip movement technique for mute
CN113378691A (en) Intelligent home management system and method based on real-time user behavior analysis
Tesema et al. Addressee detection using facial and audio features in mixed human–human and human–robot settings: A deep learning framework
CN120395905A (en) Humanoid robot somatosensory control system and method based on deep learning
Robi et al. Active speaker detection using audio, visual and depth modalities: A survey
CN116597353B (en) Video sentiment analysis method based on multi-scale feature extraction and multi-task learning
CN114155454B (en) Video processing method, device and storage medium
Khekare et al. A Deep Dive into Existing Lip Reading Technologies

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240216

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250523

R150 Certificate of patent or registration of utility model

Ref document number: 7688715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150