CN118098203A

CN118098203A - 说话对象识别的方法、装置以及计算机可读存储介质

Info

Publication number: CN118098203A
Application number: CN202211489360.3A
Authority: CN
Inventors: 汤志远; 黄申; 商世东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2024-05-28

Abstract

本申请实施例公开了一种说话对象识别的方法、装置以及计算机可读存储介质，适用于人工智能，方法包括：获取说话对象识别的正样本训练数据和负样本训练数据。将正样本训练数据和负样本训练数据输入说话对象识别模型，以生成针对正样本训练数据和负样本训练数据的多个特征。通过说话对象识别模型对各个特征进行对比学习。当获取到待识别多媒体数据时，将待识别多媒体数据输入说话对象识别模型，通过说话对象识别模型生成说话对象识别特征，并基于说话对象识别特征输出待识别多媒体数据关联的待识别对象是否为目标对象的识别结果。采用本申请，可以提高说话对象识别效率，扩展结果客观性强，使用场景丰富，适用性强。

Description

说话对象识别的方法、装置以及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种说话对象识别的方法、装置以及计算机可读存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的发展，说话对象识别技术也迅速发展，各类说话对象识别技术或产品(如腾讯会议)极大地方便了人们的日常生活。说话人日志(speaker diarization)可以从一条包含多个说话人的语音中根据不同的说话人将语音切分，切分为每个片段仅包含一个说话人。说话人识别是从一个连续的多人说话的语音中识别出每个片段的说话人是否为某一个说话人的过程。

本申请的发明人在研究和实践过程中发现，现有技术中，说话人识别需要人物的人脸信息和语音信息同时存在才可实现说话对象的识别，且针对人脸信息和语音信息均需要部署相应的识别系统，说话人识别的系统部署较为冗余，说话人识别的计算工作量大、适用性差。

发明内容

本申请实施例提供一种说话对象识别的方法、装置以及计算机可读存储介质，可以提高说话对象识别的效率，提高说话对象识别的灵活性，操作简单，适用性强。

第一方面，本申请实施例提供了一种说话对象识别的方法，该方法包括：

获取说话对象识别的正样本训练数据和负样本训练数据，上述正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，上述负样本训练数据中包括上述目标区域图像信息对应的多个其他对象的音频信息和上述目标音频信息对应的多个其他对象的区域图像信息；

将上述正样本训练数据和上述负样本训练数据输入说话对象识别模型，通过上述说话对象识别模型生成上述目标区域图像信息对应的正样本区域图像特征和上述目标音频信息对应的正样本音频特征、多个与上述正样本区域图像特征时序对齐的负样本音频特征和多个与上述正样本音频特征时序对齐的负样本区域图像特征，上述正样本区域图像特征和上述正样本音频特征时序对齐；

通过上述说话对象识别模型对上述正样本区域图像特征、上述正样本音频特征、多个上述负样本音频特征和多个上述负样本区域图像特征进行对比学习，以获得基于任意输入数据识别上述输入数据关联的说话对象的能力；

当获取到待识别多媒体数据时，将上述待识别多媒体数据输入上述说话对象识别模型，通过上述说话对象识别模型生成说话对象识别特征，并基于上述说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果，上述说话对象识别特征包括上述待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

在一种可能的实现方式中，上述获取说话对象识别的正样本训练数据和负样本训练数据包括：

从样本训练数据集中包括的样本训练数据中获取目标对象的多个唇形运动图像作为上述目标对象的目标区域图像信息，并从上述样本训练数据中获取与各个唇形运动信息时间对应的上述目标对象的音频信息作为上述目标区域图像信息对应的目标音频信息，以得到说话对象识别的正样本训练数据；

从上述样本训练数据集中包括的其他样本训练数据中获取与上述各个唇形运动信息时间对应的多个其他对象的音频信息作为上述目标区域图像信息对应的多个其他对象的音频信息，并从上述样本训练数据集中包括的其他样本训练数据中与上述目标对象的音频信息时间对应的多个其他对象的唇形运动信息作为上述目标音频信息对应的多个其他对象的区域图像信息，以得到说话对象识别的负样本训练数据。

在一种可能的实现方式中，上述待识别多媒体数据中包括待识别对象的待识别图像信息和待识别音频信息；上述通过上述说话对象识别模型生成说话对象识别特征包括：

通过上述说话对象识别模型中的唇动检测层从上述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，通过上述说话对象识别模型中的语音信息提取层从上述待识别多媒体数据中获取与上述待识别图像信息时间对应的待识别音频信息；

通过上述说话对象识别模型中的视觉信息编码层生成上述待识别图像信息对应的目标区域图像特征，以得到上述待识别对象的目标区域图像特征，并通过上述说话对象识别模型中的听觉信息编码层生成上述待识别音频信息对应的音频特征，以得到上述待识别对象的音频特征；

通过上述说话对象识别模型中的多模态特征融合层生成上述待识别图像信息对应的上述目标区域图像特征和上述待识别音频信息对应的上述音频特征的融合特征作为说话对象识别特征。

在一种可能的实现方式中，上述通过上述说话对象识别模型中的多模态特征融合层生成上述待识别图像信息对应的上述目标区域图像特征和上述待识别音频信息对应的上述音频特征的融合特征包括：

通过上述说话对象识别模型中的多模态特征融合层基于图像特征的融合权重和音频特征的融合权重，对上述待识别图像信息对应的上述目标区域图像特征和上述待识别音频信息对应的上述音频特征进行加权求和，以生成上述目标区域图像特征和上述音频特征的融合特征；

其中，上述图像特征的融合权重和音频特征的融合权重由上述待识别图像信息和上述待识别音频信息的信息质量得到。

在一种可能的实现方式中，上述通过上述说话对象识别模型中的听觉信息编码层生成上述待识别音频信息对应的音频特征包括：

通过上述说话对象识别模型中的听觉信息编码层基于上述目标区域图像特征的帧数，调整对上述待识别音频信息进行特征提取的窗长或者窗移，并通过调整后的窗长或者窗移对上述待识别音频信息进行特征提取，以获得与上述目标区域图像特征帧数相同的音频特征作为上述待识别图像信息对应的音频特征；或者

通过上述说话对象识别模型中的听觉信息编码层对上述待识别音频信息进行特征提取以获得音频特征，并基于上述目标区域图像特征的帧数对获得的上述音频特征进行音频帧复制，以获得与上述目标区域图像特征帧数相同的音频特征作为上述待识别图像信息对应的音频特征。

在一种可能的实现方式中，上述待识别多媒体数据中包括待识别对象的待识别图像信息；上述通过上述说话对象识别模型生成说话对象识别特征包括：

通过上述说话对象识别模型中的唇动检测层从上述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，并通过上述说话对象识别模型中的视觉信息编码层生成上述待识别图像信息对应的目标区域图像特征，以得到上述待识别对象的目标区域图像特征；

通过上述说话对象识别模型中的语音信息提取层从上述待识别多媒体数据中获取与上述待识别图像信息时间对应的待识别音频信息，上述待识别音频信息为空；

通过上述说话对象识别模型中的多模态特征融合层输出上述待识别图像信息对应的上述目标区域图像特征作为说话对象识别特征。

在一种可能的实现方式中，上述待识别多媒体数据中包括待识别对象的待识别音频信息；上述通过上述说话对象识别模型生成说话对象识别特征包括：

通过上述说话对象识别模型中的唇动检测层从上述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，上述待识别图像信息为空；

通过上述说话对象识别模型中的语音信息提取层从上述待识别多媒体数据中获取待识别音频信息，并通过上述说话对象识别模型中的听觉信息编码层生成上述待识别音频信息对应的音频特征，以得到上述待识别对象的音频特征；

通过上述说话对象识别模型中的多模态特征融合层输出上述待识别音频信息对应的上述音频特征的融合特征作为说话对象识别特征。

第二方面，本申请实施例提供了一种说话对象识别的装置，该装置包括：

获取模块，用于获取说话对象识别的正样本训练数据和负样本训练数据，上述正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，上述负样本训练数据中包括上述目标区域图像信息对应的多个其他对象的音频信息和上述目标音频信息对应的多个其他对象的区域图像信息；

特征生成模块，用于将上述正样本训练数据和上述负样本训练数据输入说话对象识别模型，通过上述说话对象识别模型生成上述目标区域图像信息对应的正样本区域图像特征和上述目标音频信息对应的正样本音频特征、多个与上述正样本区域图像特征时序对齐的负样本音频特征和多个与上述正样本音频特征时序对齐的负样本区域图像特征，上述正样本区域图像特征和上述正样本音频特征时序对齐；

训练模块，用于通过上述说话对象识别模型对上述正样本区域图像特征、上述正样本音频特征、多个上述负样本音频特征和多个上述负样本区域图像特征进行对比学习，以获得基于任意输入数据识别上述输入数据关联的说话对象的能力；

说话对象生成模块，用于当获取到待识别多媒体数据时，将上述待识别多媒体数据输入上述说话对象识别模型，通过上述说话对象识别模型生成说话对象识别特征，并基于上述说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果，上述说话对象识别特征包括上述待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

第三方面，本申请实施例提供了一种计算机设备，上述计算机设备包括：处理器、存储器以及网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储程序代码，上述处理器用于调用上述程序代码，以执行如本申请实施例第一方面中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，当上述处理器执行上述程序指令时执行如本申请实施例第一方面中的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构示意图；

图2是本申请实施例提供的说话对象识别的方法的流程示意图；

图3是本申请实施例提供的说话对象识别的方法的一场景示意图；

图4是本申请实施例提供的说话对象识别的方法的一场景示意图；

图5是本申请实施例提供的说话对象识别的方法的一场景示意图；

图6是本申请实施例提供的说话对象识别的装置的结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音处理技术用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。语音处理技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text-To-Speech，TTS)以及声纹识别技术。语音信号处理在通信等部门中有着广阔的应用领域。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能领域中的语音处理技术、机器学习等技术，具体通过如下实施例进行说明：

本申请实施例提供的说话对象识别的方法(为方便描述可简称为说话对象识别方法或者方法)适用于说话对象识别技术或产品(为方便描述，下面将以说话对象识别产品为例进行示例说明，比如腾讯会议)的开发过程中，说话对象识别产品中部署的说话对象识别模型可基于训练样本中各个说话对象的样本训练数据训练说话对象识别模型中的视觉信息编码层和听觉信息编码层，以通过说话对象识别模型中的视觉信息编码层和听觉信息编码层得到各个说话对象的说话对象识别特征。基于本申请实施例提供的方法可扩展得到包含更多、更准确的说话对象的识别特征，基于训练样本库中的大量说话对象的识别特征可以训练得到识别准确率更高的说话对象识别模型，从而使说话对象识别产品获得更好的识别效果，并提高说话对象识别的效率。本申请实施例提供的说话对象识别的方法也适用于对各类说话对象识别产品的使用过程中，基于说话对象识别产品中部署的说话对象识别模型对待识别的多媒体数据中的待识别对象进行识别，以生成待识别的多媒体数据中包括的待识别对象的说话对象识别特征，并基于说话对象识别特征输出待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果。基于本申请实施例提供的方法可应用于多种应用场景，具体可根据实际应用场景确定，此处不做限制。为方便描述，本申请将以线下多人会议场景为例，详细介绍本申请实施例提供的方法。本申请实施例提供的方法基于训练样本库中的大量样本训练数据可以训练得到识别准确率更高的说话对象识别模型，从而使说话对象识别产品获得更好的说话对象识别效果。为方便描述，本申请实施例提供的说话对象识别的方法将以线下多人会议场景为例进行详细描述。

可以理解的是，说话对象识别特征是说话对象识别模型识别说话对象的过程中一类非常重要的特征。然而，当前说话对象识别技术通常是将时间戳上相对应的唇动信息与声纹信息直接融合得到一种新的特征，再用于后续的说话对象识别。这类技术通常需要说话对象的人脸信息和语音信息同时存在，这对说话对象识别技术的应用场景的要求更加严格。实际上，说话对象的人脸信息和语音信息并不是一定同时存在的，如某些线下会议场景中，人脸并未拍摄到，或者人脸正面有时未出现在视频中，都会出现上述人脸信息和语音信息没有同时存在的情况。另一类技术，针对多个模态，即只有人脸信息没有语音信息、只有语音信息没有人脸信息以及人脸信息和语音信息同时存在的情况下均准备一套系统，这样可以解决单模态情形，但该类方案不能综合利用多模态信息的互补作用，且系统部署较为冗余，计算量也大大增加。本申请实施提供了一种全面、统一的多模态语义空间的说话对象识别方法，通过对比学习，将基于目标区域图像信息获得的目标区域图像特征与基于音频信息得到的音频特征统一到一个语义空间，使得多模态信息能够更好地互补、融合，极大提升系统鲁棒性，同时向下兼容单模态场景，如唇语场景、纯音频会议，使得多模态和单模态场景可以共用一套系统，增强系统部署的便利性，节约计算成本，提高说话对象识别的准确率，增强适用性。其中，上述目标区域图像可以是人脸信息，也可以是唇形运动图像，具体可根据实际场景应用确定，本申请在此不作限制。

下面将结合图1至图7对本申请实施例提供的方法所适用于系统结构、本申请实施例提供的方法以及装置进行示例说明。

请参见图1，图1是本申请实施例提供的系统架构示意图。如图1所示，该系统架构可以包括业务服务器100以及终端集群，终端集群可以包括：终端设备200a、终端设备200b、终端设备200c、……、终端设备200n等终端设备。其中，上述业务服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备(包括终端设备200a、终端设备200b、终端设备200c、……、终端设备200n)可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等智能终端。其中，业务服务器100与终端集群中的各终端设备可以建立通信连接，终端集群中的各终端设备之间也可建立通信连接。换句话说，业务服务器100可与终端设备200a、终端设备200b、终端设备200c、……、终端设备200n中的各终端设备建立通信连接，例如终端设备200a与业务服务器100之间可建立通信连接。终端设备200a与终端设备200b之间可建立通信连接，终端设备200a与终端设备200c之间也可建立通信连接。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接等，具体可根据实际应用场景确定，本申请在此不做限制。

应该理解，如图1所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的业务服务器100之间进行数据交互，使得业务服务器100可以接收来自于每个终端设备的业务数据，上述业务数据可以是来自客户端的说话对象识别模型的样本训练数据，也可以是目标对象的待识别多媒体数据。该应用客户端可以为用于说话对象识别的应用客户端(简称说话对象识别客户端)，即用户可以通过该应用客户端向业务服务器100发送目标对象的样本训练数据以及待识别的多媒体数据，业务服务器100作为说话对象识别客户端的服务器，可以为包括该客户端对应的后台服务器、数据处理服务器等多个服务器的集合。业务服务器100可以接收到目标对象的样本训练数据和待识别多媒体数据，其中，上述目标对象的样本训练数据用于训练部署在上述说话对象识别客户端中的说话对象识别模型，上述说话对象识别模型可基于上述待识别多媒体数据生成上述待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果。上述应用客户端可以为独立的客户端，也可以为集成在某客户端(例如即时通信客户端、社交客户端等)中的嵌入式子客户端，具体可根据实际应用场景确定，在此不做限定。本申请实施例提供的方法可以由如图1所示的业务服务器100执行，也可以任一由终端设备(如图1所示的终端设备200a、终端设备200b、……、终端设备200n中的任意一个)执行，还可以由终端设备和业务服务器共同执行，具体可根据实际应用场景确定，此处不做限制。为方便描述，以装载在上述终端设备200b上的说话对象识别客户端为例，各操作对象在通过终端设备使用说话对象识别客户端的过程中，可以通过终端设备查看、录制、上传目标应用中的待识别多媒体数据。可以理解，上述待识别多媒体数据可以为任意一种多媒体数据，具体可以包括但不限于音频、图片或者视频等，具体可根据实际应用场景确定，在此不做限制。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可以理解的是，本申请实施例提供的说话对象识别的方法适用于基于应用程序(比如上述腾讯会议)中的说话对象识别。可以理解的是，上述说话对象识别方法所适用的终端设备包括但不限于智能手机、计算机、平板电脑、个人数码助理(personal digitalassistant，PDA)、移动互联网设备(mobile Internet device，MID)以及可穿戴设备等。可选的，终端设备也可为上述智能手机、计算机、平板电脑、PDA、MID以及可穿戴设备对应的服务器等，具体可根据实际应用场景确定，在此不做限制。对应的，本申请实施例提供的说话对象识别的装置包括但不限于智能手机、计算机、平板电脑、PDA、MID以及可穿戴设备等。为方便描述，本申请实施例提供的说话对象识别装置和/或终端设备将以智能手机(或简称手机)为例进行说明。

可以理解的是，本申请实施例提供的说话对象识别的方法可以由如图1所示的业务服务器100执行，也可以由终端设备(如图1所示的终端设备200a、终端设备200b、……、终端设备200n中的任意一个)执行，还可以由终端设备和业务服务器共同执行，具体可根据实际应用场景确定，此处不做限制。为便于后续理解和说明，本申请实施例可以在图1所示的终端设备集群中选择一个终端设备作为目标终端设备，例如以终端设备200b作为目标终端设备。

进一步地，请参见图2，图2是本申请实施例提供的说话对象识别的方法的流程示意图。为了便于理解，本申请实施例以终端设备为例进行说明，即以图2中的终端设备200b为例进行叙述，业务服务器可以为上述图1所对应实施例的业务服务器100。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。在图2所示的说话对象识别的方法中，说话对象识别的各个步骤可由上述图1中的终端设备200b来执行，如图2所示，该说话对象识别的方法至少可以包括以下步骤S101-步骤S104。

步骤S101，获取说话对象识别的正样本训练数据和负样本训练数据，正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，负样本训练数据中包括目标区域图像信息对应的多个其他对象的音频信息和目标音频信息对应的多个其他对象的区域图像信息。

在一些可行的实施方式中，终端设备(比如终端设备200b)可以获取说话对象识别的样本训练数据，上述说话对象识别的样本训练数据可以是装载在上述终端设备200b上的应用客户端(即上述说话对象识别客户端)获取目标对象的样本训练数据。其中，上述目标对象的样本训练数据可以是目标对象过往的录制数据，也可以是目标对象的自制数据，上述目标对象的样本训练数据的来源具体可根据实际应用场景确定，本申请在此不做限制。在目标对象授权登录上述说话对象识别客户端后，上述说话对象识别客户端可以采集上述目标对象的样本训练数据，以作为训练上述说话对象识别模型的训练样本。其中，上述说话对象识别客户端可以为独立的客户端，也可以为集成在某客户端(例如即时通信客户端、社交客户端等)中的嵌入式子客户端，或者也可以是通过浏览器访问的web应用，具体可根据实际应用场景确定，在此不做限制。本申请实施例将以说话对象识别客户端为独立的客户端为例进行说明，下文不再赘述。

在一些可行的实施方式中，上述说话对象识别客户端在获取说话对象的授权之后，将获取说话对象识别的正样本训练数据和负样本训练数据。其中，上述正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，上述负样本训练数据中包括上述目标区域图像信息对应的多个其他对象的音频信息和上述目标音频信息对应的多个其他对象的区域图像信息。具体地，上述说话对象识别客户端从样本训练数据集中包括的训练数据获取上述目标对象的正样本训练数据和负样本训练数据。可以理解，上述样本训练数据集为多个说话对象在授权登录上述说话对象识别客户端后，上述说话对象识别客户端获取各个说话对象的样本训练数据，以训练部署在上述说话对象识别客户端中的说话对象识别模型。其中，上述样本训练数据集为上述各个对象的过往的录制数据，上述样本训练数据集的来源可根据实际应用场景确定，本申请在此不作限制。可以理解，上述目标对象的正样本训练数据和负样本训练数据为上述目标对象的过往的录制数据，或是上述目标对象的自制数据，上述样本训练数据集的来源可根据实际应用场景确定，本申请在此不作限制。

请一并参见图3，图3是本申请实施例提供的说话对象识别的方法的一场景示意图。如图3所示，上述说话对象识别模型包括唇动检测层、视觉信息编码层、语音信息提取层、听觉信息编码层、多模态特征融合层以及说话人识别模块。其中，上述唇动检测层用于提取说话对象(包括目标对象)的目标区域图像信息，上述语音信息提取层用于提取上述说话对象(包括目标对象)的目标音频信息。其中，上述目标区域图像可以是人脸信息，也可以是唇形运动图像，为方便描述，本申请将以唇形运动图像作为目标区域图像信息进行示例说明。上述多模态特征融合层用于输出目标对象的说话对象特征，包括说话对象的图像特征、音频特征，或者图像特征和音频特征的融合特征等。具体地，上述说话对象识别客户端从样本训练数据集中包括的样本训练数据中获取目标对象的多个唇形运动图像作为上述目标对象的目标区域图像信息，并从上述样本训练数据中获取与各个唇形运动信息时间对应上述目标对象的音频信息作为上述目标区域图像信息对应的目标音频信息。上述说话对象识别模型将上述目标对象的目标区域图像信息以及上述与上述目标区域图像信息对应的目标音频信息作为说话对象识别的正样本训练数据。上述说话对象识别客户端从上述样本训练数据集中包括的其他样本训练数据中获取与上述各个唇形运动信息时间对应的多个其他对象的音频信息作为上述目标区域图像信息对应的多个其他对象的音频信息，并从上述样本训练数据集中包括的其他样本训练数据中与上述目标对象的音频信息时间对应的多个其他对象的唇形运动信息作为上述目标音频信息对应的多个其他对象的区域图像信息。其中，上述样本训练数据集中包括的其他样本训练数据为上述目标对象之外的剩余各个对象在授权登录上述说话对象识别客户端后，上述说话对象识别客户端获取除上述目标对象之外的各个说话对象的样本训练数据，以训练上述说话对象识别模型。上述说话对象识别客户端将上述与上述目标区域图像信息对应的多个其他对象的音频信息以及上述目标音频信息对应的多个其他对象的区域图像信息作为上述目标对象负样本训练数据。

步骤S102，将正样本训练数据和负样本训练数据输入说话对象识别模型，通过说话对象识别模型生成目标区域图像信息对应的正样本区域图像特征和目标音频信息对应的正样本音频特征、多个与正样本区域图像特征时序对齐的负样本音频特征和多个与正样本音频特征时序对齐的负样本区域图像特征，正样本区域图像特征和正样本音频特征时序对齐。

在一些可行的实施方式中，上述说话对象识别客户端在获取上述目标对象的正样本训练数据和上述负样本训练数据后，将上述正样本训练数据和上述负样本训练数据作为一组训练样本输入上述说话对象识别模型。具体地，上述说话对象识别客户端获取上述正样本训练数据中包括的目标对象的目标区域图像信息以及上述目标区域图像信息对应的目标音频信息，并将上述目标对象的目标区域图像信息输入上述说话对象识别模型中的视觉信息编码层，以生成上述目标区域图像信息对应的正样本区域图像特征。上述说话对象识别模型通过上述说话对象识别模型中的听觉信息编码层基于上述目标区域图像特征的帧数，调整对上述目标音频信息进行特征提取的窗长或者窗移，并通过调整后的窗长或者窗移对上述目标音频信息进行特征提取，以获得与上述目标区域图像特征帧数相同的音频特征作为上述目标图像信息对应的音频特征。或者，通过上述说话对象识别模型中的听觉信息编码层对上述目标音频信息进行特征提取以获得音频特征，并基于上述目标区域图像特征的帧数对获得的上述音频特征进行音频帧复制，以获得与上述目标区域图像特征帧数相同的音频特征作为上述目标图像信息对应的音频特征。可以理解，上述使上述目标对象的目标区域图像信息以及上述目标区域图像信息对应的目标音频信息的帧数相同的技术手段具体可根据实际应用场景确定，本申请在此不作限制。同样的，上述说话对象识别客户端在获取上述目标区域图像信息对应的多个其他对象的音频信息后，将上述目标区域图像信息对应的多个其他对象的音频信息与上述目标对象的目标区域图像信息进行时序对齐，以使上述目标区域图像信息对应的多个其他对象的音频信息与上述目标对象的目标区域图像信息的帧数相同。同样的，上述说话对象识别客户端在获取与上述目标音频信息对应的多个其他对象的区域图像信息后，将上述目标音频信息对应的多个其他对象的区域图像信息与上述目标区域图像信息对应的目标音频信息进行时序对齐，以使上述目标音频信息对应的多个其他对象的区域图像信息与上述目标区域图像信息对应的目标音频信息帧数相同。

进一步地，如图3所示，上述说话对象识别客户端将上述正样本训练数据和上述负样本训练数据输入上述说话对象识别模型。具体地，上述唇动检测层用于提取包含唇形运动图像的目标区域(比如唇部)图像信息，上述语音信息提取层用于提取与上述包含唇形运动图像的图像信息时间对应的音频信息。上述说话对象识别客户端将上述目标对象的目标区域图像信息输入上述说话对象识别模型中的视觉信息编码层，通过上述视觉信息编码层生成目标区域图像信息对应的正样本区域图像特征。其中，上述目标区域图像信息即上述目标对象的各个唇形运动信息。同理，上述说话对象识别客户端将上述目标区域图像信息对应的目标音频信息输入上述说话对象识别模型中的听觉信息编码层，通过上述听觉信息编码层生成与上述目标音频信息对应的正样本音频特征。可以理解，上述正样本区域图像特征和上述正样本音频特征时序对齐，使得图像特征和音频特征可以更好地互补、融合，提高说话对象识别模型的系统鲁棒性。本申请实施例提供的说话对象方法基于时序对齐对目标区域图像特征和音频特征建立统一的语义隐空间，得到针对目标对象的隐空间表征，以生成目标对象的说话对象识别特征。同理，上述说话对象识别客户端将目标区域图像信息对应的多个其他对象的音频信息输入上述说话对象识别模型中的听觉信息编码层，通过上述听觉信息编码层生成多个与上述正样本区域图像特征时序对齐的负样本音频特征。同理，上述说话对象识别客户端将目标音频信息对应的多个其他对象的区域图像信息输入上述说话对象识别模型中的视觉信息编码层，通过上述视觉信息编码层生成多个与上述正样本音频特征时序对齐的负样本区域图像特征。

步骤S103，通过说话对象识别模型对正样本区域图像特征、正样本音频特征、多个负样本音频特征和多个负样本区域图像特征进行对比学习，以获得基于任意输入数据识别输入数据关联的说话对象的能力。

在一些可行的实施方式中，上述说话对象识别客户端通过上述说话对象识别模型的视觉信息编码层和听觉信息编码层生成正样本区域图像特征、正样本音频特征、多个与上述正样本区域图像特征时序对齐的负样本音频特征和多个与上述正样本音频特征时序对齐的负样本区域图像特征后，将通过上述说话对象识别模型对上述正样本区域图像特征、上述正样本音频特征、上述多个与上述正样本区域图像特征时序对齐的负样本音频特征和上述多个与上述正样本音频特征时序对齐的负样本区域图像特征进行对比学习，以获得基于任意输入数据识别上述输入数据关联的说话对象的能力。在通过说话对象识别模型进行说话对象识别过程中，为了进一步训练上述说话对象识别模型基于任一多媒体数据识别出上述多媒体数据关联的说话对象的能力，并提高上述说话对象识别模型对说话对象识别的准确性，可以基于上述说话对象识别模型中的视觉信息编码层和听觉信息编码层的损失函数对上述编码层进行优化。具体地，上述说话对象识别模型获取正样本训练数据后，从样本训练数据中获取目标对象的唇形运动图像作为目标对象的目标区域图像信息，将上诉目标区域图像记为x，并从上述样本训练数据中获取与上述目标区域图像信息时间对应的目标对象的音频信息作为上述目标区域图像信息对应的目标音频信息，将上述目标音频信息记为y。上述说话对象识别模型获取负样本训练数据后，将从上述样本训练数据集中包括的其他样本训练数据中获取与上述唇形运动信息时间对应的m个其他对象的音频信息作为上述目标区域图像信息对应的m个其他对象的音频信息，并将上述m个其他对象的音频信息输入上述说话对象识别模型中的听觉信息编码层，以得到m个负样本音频特征，记为上述说话对象识别模型从上述样本训练数据集中包括的其他样本训练数据中与上述目标对象的音频信息时间对应的n个其他对象的唇形运动信息作为上述目标音频信息对应的n个其他对象的区域图像信息，并将上述n个其他对象的区域图像信息输入上述说话对象识别模型中的视觉信息编码层，以得到n个负样本区域图像特征，并记为上述说话对象识别模型将上述正样本区域图像特征、上述正样本音频特征、上述m个负样本音频特征和上述n个负样本区域图像特征作为一组训练样本，记为上述说话对象将基于上述训练样本构建损失函数，并通过梯度下降法更新视觉信息编码层和听觉信息编码层中的编码器的参数，以上述正样本训练数据和上述负样本训练数为例的损失函数表示为：

这里，t用于调节正负样本对比的平滑度，默认为1。e_x为上述目标对象的目标区域图像信息通过上说话对象识别模型生成上述目标区域图像信息对应的正样本区域图像特征。e_y为上述目标区域图像信息对应的目标音频信息通过上说话对象识别模型生成上述目标区域图像信息对应的正样本区域图像特征。为上述目标区域图像信息对应的多个其他对象的音频信息通过上说话对象识别模型生成多个与上述正样本区域图像特征时序对齐的负样本音频特征。为上述目标音频信息对应的多个其他对象的区域图像信息通过上说话对象识别模型生成多个与上述正样本音频特征时序对齐的负样本区域图像特征。e_x·_y表示，二者各个向量分别求点积并相加得到的标量值。通过上述损失函数公式可以分别得到视觉信息编码层和听觉信息编码层中的编码器各自的损失函数，可以基于上述损失函数不断优化编码器的参数以说话对象识别的准确性。

步骤S104，当获取到待识别多媒体数据时，将待识别多媒体数据输入说话对象识别模型，通过说话对象识别模型生成说话对象识别特征，并基于说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为目标对象的识别结果，说话对象识别特征包括待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

在一些可行的实施方式中，上述说话对象识别客户端基于上述正样本区域图像特征、上述正样本音频特征、多个上述负样本音频特征和多个上述负样本区域图像特征进行对比学习，并更新视觉信息编码层和听觉信息编码层中的编码器的参数。当上述说话对象识别客户端获取到待识别多媒体数据后，通过上述说话对象识别模型生成说话对象识别特征，并基于上述说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果。请参见图4，图4是本申请实施例提供的说话对象识别的方法的一场景示意图。当需要识别一份多媒体数据关联的待识别对象是否为上述目标对象时，可通过装载在上述终端设备200b上的说话对象识别客户端识别待识别多媒体数据。可以理解，目标对象可点击终端设备200b的终端对象操作界面上的不同应用图标而切换不同应用的操作界面。如当终端设备200b检测到目标对象的指令的点击位置为应用A的图标时，上述终端设备200b将启动上述应用A，并跳转至应用A的操作界面。当目标对象点击终端设备200b的终端对象操作界面上的应用D(即上述说话对象识别客户端)的图标时，可触发终端设备200b启动说话对象识别客户端的操作界面。此时，终端设备200b可检测到其终端对象操作界面上的目标对象操作指令，并且可根据目标对象操作指令的点击位置确定目标对象选择触发启动的应用为上述说话对象识别客户端。此时，终端设备200b可启动说话对象识别客户端的操作界面。终端设备200b在启动上述说话对象识别客户端后，终端设备200b将跳转至上述说话对象识别客户端的操作页面201a,上述目标对象可在上述操作页面201a上输入上述目标对象的账号和密码，已授权登录上述说话对象识别客户端。具体地，当上述目标对象输入账号以及密码时，终端设备200b可以提示使用对象阅读与用户相关的信息，如图4所示例的提示使用对象阅读并了解《用户协议》以及《隐私政策》，在目标对象触发已阅读控件201b时，使用对象才可以触发“登录”控件。终端设备200b成功上述说话对象识别客户端后，可以展示该目标对象的过往历史数据，如目标对象以往上传的多媒体数据，具体可根据实际应用场景确定，本申请在此不作限制。

请再参见图4，在上述目标对象成功登陆上述说话对象识别客户端后，上述说话对象识别客户端会向目标对象显示说话对象识别模型的展示界面，即界面1,其中，上述界面1中可以包括上述目标对象的昵称和头像，还包括上述目标对象所持有的历史多媒体数据集合。当目标对象需要识别说话对象时，可以选择控件201c，当终端设备200b检测到上述控件201c的选中指令时，上述终端设备200b会在上述界面1弹出选择窗口，并在上述窗口中展示“拍摄”、“从相册中选择”以及“取消”控件。上述目标对象可以选择“拍摄”控件即时拍照或录像，也可以选择“从相册中选择”控件，从而选择目标对象已录制好的多媒体数据。为便于后续理解和说明，本申请实施例选择“从相册中选择”控件，在选择“从相册中选择”控件之后，弹出的展示界面2会显示目标对象所持有的多媒体数据集合，从该多媒体数据集合中可以选择目标对象需要识别的多媒体数据。目标对象可以在终端设备200b所提供的针对多媒体数据的展示界面2上，执行触发操作。比如，目标对象在确定好自己需要识别的多媒体数据后，此时，为方便描述，终端设备200b将多媒体数据1确定为待识别多媒体数据，可以触发选择多媒体数据1对应的控件201d，然后触发针对多媒体数据的展示界面2上的“确定”控件，即目标对象实现选择待识别多媒体数据的过程。目标对象选择好需要识别的多媒体数据后，向应用服务器100发送待识别多媒体数据。

进一步地，当上述说话对象识别客户端获取到上述待识别多媒体数据(即上述多媒体数据1)时，将上述待识别多媒体数据输入上述说话对象识别模型，通过上述说话对象识别模型生成说话对象识别特征。请参见图5，图5是本申请实施例提供的说话对象识别的方法的一场景示意图。上述目标对象选择好待识别的多媒体数据，上述说话对象识别客户端检测到上述待识别多媒体数据(即多媒体数据1)对应的控件201d的选中指令时，上述说话对象识别客户端将上述待识别多媒体数据输入上述说话对象识别模型，并将上传进度显示在界面3中。当上述说话对象识别客户端成功将上述待识别多媒体数据输入上述说话对象识别模型后，将对上述待识别多媒体数据进行解析，并将解析进度展示在界面4中。具体地，当上述说话对象识别客户端获取到上述待识别多媒体数据后，将上述待识别多媒体数据输入上述说话对象识别模型。当上述待识别多媒体数据中包括待识别对象的待识别图像信息和待识别音频信息时，基于上述说话对象识别模型中的唇动检测层对上述待识别多媒体数据进行唇动检测，以得到上述待识别多媒体数据关联的待识别对象的目标区域图像信息。其中，上述目标区域图像信息可以是待识别对象的人脸信息，也可以是待识别对象的唇型运动信息，本申请将以待识别对象的唇型运动信息为例进行叙述。上述说话对象识别模型从上述待识别多媒体数据中提取出仅包含上述待识别对象的唇形运动图像作为待识别图像信息，并通过上述说话对象识别模型中的视觉信息编码层生成上述待识别图像信息对应的目标区域图像特征。可以理解，上述说话对象识别模型从上述待识别多媒体数据中提取出的仅包含唇形运动图像的待识别图像信息可以使用人脸识别工具，具体识别手段可根据实际应用场景确定，本申请在此不作限制。上述说话对象识别模型通过上述说话对象识别模型中的语音信息提取层，从上述待识别多媒体数据中获取与上述待识别图像信息时间对应的待识别音频信息。

进一步地，在上述说话对象识别模型获取到与上述待识别图像信息时间对应的待识别音频信息后，基于上述语音信息提取层对上述待识别音频信息进行语音特征提取，生成针对上述待识别音频信息的对应的音频特征，以得到上述待识别对象的音频特征。可以理解，上述针对上述待识别音频信息的对应的音频特征可以是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，简称MFCC)、滤波器组(filter bank，简称fbank)等，具体可根据实际应用场景确定，本申请在此不作限制。在上述说话对象识别模型生成针对上述待识别音频信息的对应的音频特征时，将通过上述说话对象识别模型中的听觉信息编码层基于上述待识别图像信息对应的目标区域图像特征的帧数，对上述待识别对象的目标音频信息进行特征提取的窗长或者窗移，并通过调整后的窗长或者窗移对上述待识别对象的音频信息进行特征提取，以获得与上述目标区域图像特征帧数相同的音频特征作为上述待识别图像信息对应的音频特征。或者，通过上述说话对象识别模型中的听觉信息编码层对上述待识别对象的音频信息进行特征提取以获得音频特征，并基于上述待识别对象的目标区域图像特征的帧数对获得的上述音频特征进行音频帧复制，以获得与上述目标区域图像特征帧数相同的音频特征作为上述待识别图像信息对应的音频特征。可以理解，上述使上述待识别音频信息的对应的音频特征与上述待识别图像信息的帧数相同的具体是技术手段可根据实际应用场景确定，本申请在此不作限制。

进一步地，在上述说话对象识别模型从上述待识别多媒体数据中获取到待识别图像信息后，将上述待识别图像信息输入上述说话对象识别模型中的视觉信息编码层，生成上述待识别图像信息对应的目标区域图像特征，以得到上述待识别对象的目标区域图像特征。上述说话对象识别模型在生成上述待识别对象的目标区域图像特征和上述待识别对象的音频特征后，将上述待识别对象的目标区域图像特征和上述待识别对象的音频特征输入上述说话对象识别模型中的多模态特征融合层，生成上述待识别图像信息对应的上述目标区域图像特征和上述待识别音频信息对应的上述音频特征的融合特征，以得到上述说话对象识别特征。具体地，上述说话对象识别模型将上述待识别对象的目标区域图像特征和上述待识别对象的音频特征输入上述说话对象识别模型中的多模态特征融合层后，上述多模态特征融合层可基于图像特征的融合权重和音频特征的融合权重，对上述待识别图像信息对应的上述目标区域图像特征和上述待识别音频信息对应的上述音频特征进行加权求和，以生成上述目标区域图像特征和上述音频特征的融合特征。其中，上述图像特征的融合权重和音频特征的融合权重由上述待识别图像信息和上述待识别音频信息的信息质量得到。可以理解，上述多模态特征融合层将基于上述目标区域图像特征和上述待识别音频信息对应的上述音频特征，对上述目标区域图像特征和上述待识别音频信息对应的上述音频特征逐帧进行加权求和，此处，默认上述目标区域图像特征和上述待识别音频信息对应的上述音频特征的权重均为0.5。实际上，上述目标区域图像特征和上述待识别音频信息对应的上述音频特征的权重可根据实际应用场景确定，比如音频质量较高，则听觉权重调大或者视频质量较高，则视觉权重调大，本申请在此不作限制。

进一步地，在上述说话对象识别模型生成上述目标区域图像特征和上述音频特征的融合特征后，上述说话对象识别模型将上述融合特征输入说话人识别模块，以输出上述待识别多媒体数据关联的待识别对象的说话对象识别特征。上述说话对象识别模型中的说话人识别模块基于上述待识别对象的说话对象识别特征进行说话人的匹配和识别，并基于上述说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果。请再参见图5，当上述待识别多媒体数据关联的待识别对象为上述目标对象时，上述说话对象识别客户端将识别结果展示在界面5上，上述目标对象可以在上述界面5上选择“是”对应的控件，以获取上述待识别多媒体数据关联的待识别对象(即上述目标对象)的所有音视频。若上述目标对象在上述界面5上选择“否”对应的控件，则返回至上述说话对象识别客户端首页(即界面1)。若上述待识别多媒体数据关联的待识别对象不是上述目标对象时，上述说话对象识别客户端将在上述界面5展示识别失败结果。

在一些可行的实施方式中，上述待识别多媒体数据可以包含待识别对象的待识别图像信息和待识别音频信息，也可以仅包含待识别对象的待识别图像信息或者仅包含待识别对象的待识别音频信息。可以理解，在一些应用场景中，待识别多媒体数据的人脸信息和语音信息并不是同时存在的，例如，在某些场景中，待识别对象的人脸并未拍摄到，或者人脸正面有时未出现在待识别多媒体数据中。这时，上述待识别多媒体数据中仅包含待识别对象的待识别音频信息。当上述待识别多媒体数据中包括待识别对象的待识别图像信息时，即上述待识别音频信息为空时，通过上述说话对象识别模型中的唇动检测层从上述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，并通过上述说话对象识别模型中的视觉信息编码层生成上述待识别图像信息对应的目标区域图像特征，以得到上述待识别对象的目标区域图像特征。此时，通过上述说话对象识别模型中的语音信息提取层从上述待识别多媒体数据中获取与上述待识别图像信息时间对应的待识别音频信息，上述待识别音频信息为空。上述说话对象识别模型将上述待识别对象的目标区域图像特征输入上述多模态特征融合层，以生成上述待识别图像信息对应的上述目标区域图像特征作为上述说话对象识别特征。此处，上述说话对象识别模型基于上述多模态特征融合层输出上述说话对象识别特征的步骤与上文相似，在此不多赘述。

在一些可行的实施方式中，当上述待识别多媒体数据中仅包括待识别对象的待识别音频信息时，通过上述说话对象识别模型中的唇动检测层从上述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，此时，上述待识别图像信息为空。上述说话对象识别模型通过上述说话对象识别模型中的语音信息提取层从上述待识别多媒体数据中获取与上述待识别图像信息时间对应的待识别音频信息，并通过上述说话对象识别模型中的语音信息特征提取层针对上述待识别音频信息进行语音特征提取，以得到上述待识别对象的音频特征。可以理解，此处针对上述待识别音频信息进行语音特征提取的步骤与上文相似，在此不多赘述。上述说话对象识别模型在得到上述待识别对象的音频特征后，上述说话对象识别模型将上述待识别对象的音频特征输入上述多模态特征融合层，以生成上述待识别音频信息对应的上述音频特征的融合特征作为上述说话对象识别特征。此处，上述说话对象识别模型基于上述多模态特征融合层输出上述说话对象识别特征的步骤与上文相似，在此不多赘述。

在本申请实施例中，终端设备可以对多媒体数据进行说话对象识别，并基于说话对象识别特征输出待识别多媒体数据关联的待识别对象是否为目标对象的识别结果。其中，上述说话对象识别模型针对视频(即唇形运动图像)和音频两种模态，建立统一的语义隐空间，可以更好地利用多模态信息的互补性，适用性更强。同，本申请实施例提供的说话对象识别的方法也同时适用于单模态的应用场景，这使得计算量大大减少，从而极大提升系统性能，说话对象的识别效率高，扩展结果客观性强。

基于上述说话对象识别的方法实施例的描述，本申请实施例还公开了一种说话对象识别的装置。该说话对象识别的装置可以被应用于图1至图5所示实施例的说话对象识别的方法中，以用于执行说话对象识别的方法中的步骤。这里，说话对象识别的装置可以是上述图1至图5所示实施例中的业务服务器或者终端设备，即该说话对象识别的装置可以为上述图1至图5所示实施例中说话对象识别的方法的执行主体。请参见图6，图6是本申请实施例提供的说话对象识别的装置的结构示意图。在本申请实施例中，该装置可运行如下模块：

获取模块11，用于获取说话对象识别的正样本训练数据和负样本训练数据，上述正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，上述负样本训练数据中包括上述目标区域图像信息对应的多个其他对象的音频信息和上述目标音频信息对应的多个其他对象的区域图像信息。

特征生成模块12，用于将上述正样本训练数据和上述负样本训练数据输入说话对象识别模型，通过上述说话对象识别模型生成上述目标区域图像信息对应的正样本区域图像特征和上述目标音频信息对应的正样本音频特征、多个与上述正样本区域图像特征时序对齐的负样本音频特征和多个与上述正样本音频特征时序对齐的负样本区域图像特征，上述正样本区域图像特征和上述正样本音频特征时序对齐。

训练模块13，用于通过上述说话对象识别模型对上述正样本区域图像特征、上述正样本音频特征、多个上述负样本音频特征和多个上述负样本区域图像特征进行对比学习，以获得基于任意输入数据识别上述输入数据关联的说话对象的能力

说话对象生成模块14，用于当获取到待识别多媒体数据时，将上述待识别多媒体数据输入上述说话对象识别模型，通过上述说话对象识别模型生成说话对象识别特征，并基于上述说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为上述目标对象的识别结果，上述说话对象识别特征包括上述待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

在一些可行的实施方式中，上述获取模块11获取说话对象识别的正样本训练数据和负样本训练数据还用于：

在一些可行的实施方式中，上述待识别多媒体数据中包括待识别对象的待识别图像信息和待识别音频信息；上述通过上述特征生成模块12生成说话对象识别特征用于：

通过上述说话对象识别模型中的多模态特征融合层生成上述待识别图像信息对应的上述目标区域图像特征和上述待识别音频信息对应的上述音频特征的融合特征作为上述说话对象识别特征。

在一些可行的实施方式中，上述特征生成模块12用于：

在一些可行的实施方式中，上述特征生成模块12还用于：

在一些可行的实施方式中，上述说话对象生成模块14还用于：

根据上述图2所对应的实施例，图2所示的说话对象识别的方法中步骤S101至S104所描述的实现方式可由图6所示的装置的各个模块执行。例如，上述图2所示的说话对象识别的方法中步骤S101所描述的实现方式可由图6所示的装置中获取模块11来执行，步骤S102所描述的实现方式可由特征生成模块12来执行，步骤S103所描述的实现方式可由训练模块13来执行，步骤S104所描述的实现方式可由说话对象生成模块14来执行。其中，上述获取模块11、特征生成模块12、训练模块13以及说话对象生成模块14所执行的实现方式可参见上述图2所对应的实施例中各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，说话对象识别模型能识别多媒体数据关联的待识别对象，并基于上述说话对象识别模型生成的说话对象识别特征输出多媒体数据关联的待识别对象是否为目标对象的识别结果。上述多媒体数据可以是目标对象通过终端设备录制或过往的多媒体数据。在说话对象识别模型获取到待识别的多媒体数据后，说话对象识别模型将通过上述说话对象识别模型中的唇动检测从上述待识别多媒体数据中获取待识别对象的多个唇形运动信息，并基于上述多个唇形运动信息获取与上述多个唇形运动信息时间对应的音频信息。上述说话对象识别模型将上述待识别对象的多个唇形运动信息输入上述视觉信息编码层，以得到上述待识别对象的目标区域图像特征。上述说话对象识别模型将上述音频信息通过听觉信息编码层，以得到上述待识别对象的音频特征。接着说话对象识别模型将待识别对象的目标区域图像特征和待识别对象的音频特征输入多模态特征融合层生成说话对象识别特征。上述说话对象识别模型针对视频(即唇形运动图像)和音频两种模态，建立统一的语义隐空间，可以更好地利用多模态信息的互补性，适用性更强，且计算量大大减少，说话对象的识别效率高，扩展结果客观性强。

在本申请实施例中，上述图所示的装置中的各个模块可以分别或全部合并为一个或若干个另外的模块来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个模块来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个模块来实现，或者多个模块的功能由一个模块实现。在本申请的其它可行的实现方式中，上述装置也可以包括其它模块，在实际应用中，这些功能也可以由其它模块协助实现，并且可以由多个模块协作实现，在此不做限制。

请参见图7，图7是本申请实施例提供的计算机设备的结构示意图。如图7所示，该计算机设备1000可以为上述图2-图5所对应实施例中的终端设备。该计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个收发器1003，网络接口1004，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图7所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而收发器1003和处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取说话对象识别的正样本训练数据和负样本训练数据，正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，负样本训练数据中包括目标区域图像信息对应的多个其他对象的音频信息和目标音频信息对应的多个其他对象的区域图像信息；

将正样本训练数据和负样本训练数据输入说话对象识别模型，通过说话对象识别模型生成目标区域图像信息对应的正样本区域图像特征和目标音频信息对应的正样本音频特征、多个与正样本区域图像特征时序对齐的负样本音频特征和多个与正样本音频特征时序对齐的负样本区域图像特征，正样本区域图像特征和正样本音频特征时序对齐；

通过说话对象识别模型对正样本区域图像特征、正样本音频特征、多个负样本音频特征和多个负样本区域图像特征进行对比学习，以获得基于任意输入数据识别输入数据关联的说话对象的能力；

当获取到待识别多媒体数据时，将待识别多媒体数据输入说话对象识别模型，通过说话对象识别模型生成说话对象识别特征，并基于说话对象识别特征输出上述待识别多媒体数据关联的待识别对象是否为目标对象的识别结果，说话对象识别特征包括待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2所对应实施例中对说话对象识别的方法的描述，也可执行前文图6所对应实施例中对说话对象识别的装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

在本申请实施例，基于计算机设备1000的功能实现，可以更好地利用多模态信息的互补性，适用性更强，且计算量大大减少，说话对象的识别效率高，扩展结果客观性强。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图2中各个步骤所提供的说话对象识别的方法，具体可参见上述图2中各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

上述计算机可读存储介质可以是前述任一实施例提供的基于区块链的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图2所对应实施例中对基于区块链的数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

基于本申请实施例提供的方法可提高对多媒体数据关联的待识别对象的识别效率，且本申请实施例提供的方法针对视频和音频两种模态，建立统一的语义隐空间，可以更好地利用多模态信息的互补性，从而极大提升系统性能，同时兼容单模态情形。例如，在仅存在语音，人脸为拍摄到或仅存在人脸信息，语音微弱或拾音失败等情况都可以采用本申请实施例提供的方法。此外，本申请实施例提供的方法不需要再针对各个模态均准备一套系统，不仅解决了单模态情形，而且利用多模态信息的互补作用，使得计算量大大减少。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种说话对象识别的方法，其特征在于，所述方法包括：

获取说话对象识别的正样本训练数据和负样本训练数据，所述正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，所述负样本训练数据中包括所述目标区域图像信息对应的多个其他对象的音频信息和所述目标音频信息对应的多个其他对象的区域图像信息；

将所述正样本训练数据和所述负样本训练数据输入说话对象识别模型，通过所述说话对象识别模型生成所述目标区域图像信息对应的正样本区域图像特征和所述目标音频信息对应的正样本音频特征、多个与所述正样本区域图像特征时序对齐的负样本音频特征和多个与所述正样本音频特征时序对齐的负样本区域图像特征，所述正样本区域图像特征和所述正样本音频特征时序对齐；

通过所述说话对象识别模型对所述正样本区域图像特征、所述正样本音频特征、多个所述负样本音频特征和多个所述负样本区域图像特征进行对比学习，以获得基于任意输入数据识别所述输入数据关联的说话对象的能力；

当获取到待识别多媒体数据时，将所述待识别多媒体数据输入所述说话对象识别模型，通过所述说话对象识别模型生成说话对象识别特征，并基于所述说话对象识别特征输出所述待识别多媒体数据关联的待识别对象是否为所述目标对象的识别结果，所述说话对象识别特征包括所述待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

2.根据权利要求1所述的方法，其特征在于，所述获取说话对象识别的正样本训练数据和负样本训练数据包括：

从样本训练数据集中包括的样本训练数据中获取目标对象的多个唇形运动图像作为所述目标对象的目标区域图像信息，并从所述样本训练数据中获取与各个唇形运动信息时间对应的所述目标对象的音频信息作为所述目标区域图像信息对应的目标音频信息，以得到说话对象识别的正样本训练数据；

从所述样本训练数据集中包括的其他样本训练数据中获取与所述各个唇形运动信息时间对应的多个其他对象的音频信息作为所述目标区域图像信息对应的多个其他对象的音频信息，并从所述样本训练数据集中包括的其他样本训练数据中与所述目标对象的音频信息时间对应的多个其他对象的唇形运动信息作为所述目标音频信息对应的多个其他对象的区域图像信息，以得到说话对象识别的负样本训练数据。

3.根据权利要求2所述的方法，其特征在于，所述待识别多媒体数据中包括待识别对象的待识别图像信息和待识别音频信息；所述通过所述说话对象识别模型生成说话对象识别特征包括：

通过所述说话对象识别模型中的唇动检测层从所述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，通过所述说话对象识别模型中的语音信息提取层从所述待识别多媒体数据中获取与所述待识别图像信息时间对应的待识别音频信息；

通过所述说话对象识别模型中的视觉信息编码层生成所述待识别图像信息对应的目标区域图像特征，以得到所述待识别对象的目标区域图像特征，并通过所述说话对象识别模型中的听觉信息编码层生成所述待识别音频信息对应的音频特征，以得到所述待识别对象的音频特征；

通过所述说话对象识别模型中的多模态特征融合层生成所述待识别图像信息对应的所述目标区域图像特征和所述待识别音频信息对应的所述音频特征的融合特征作为说话对象识别特征。

4.根据权利要求3所述的方法，其特征在于，所述通过所述说话对象识别模型中的多模态特征融合层生成所述待识别图像信息对应的所述目标区域图像特征和所述待识别音频信息对应的所述音频特征的融合特征包括：

通过所述说话对象识别模型中的多模态特征融合层基于图像特征的融合权重和音频特征的融合权重，对所述待识别图像信息对应的所述目标区域图像特征和所述待识别音频信息对应的所述音频特征进行加权求和，以生成所述目标区域图像特征和所述音频特征的融合特征；

其中，所述图像特征的融合权重和音频特征的融合权重由所述待识别图像信息和所述待识别音频信息的信息质量得到。

5.根据权利要求3所述的方法，其特征在于，所述通过所述说话对象识别模型中的听觉信息编码层生成所述待识别音频信息对应的音频特征包括：

通过所述说话对象识别模型中的听觉信息编码层基于所述目标区域图像特征的帧数，调整对所述待识别音频信息进行特征提取的窗长或者窗移，并通过调整后的窗长或者窗移对所述待识别音频信息进行特征提取，以获得与所述目标区域图像特征帧数相同的音频特征作为所述待识别图像信息对应的音频特征；或者；

通过所述说话对象识别模型中的听觉信息编码层对所述待识别音频信息进行特征提取以获得音频特征，并基于所述目标区域图像特征的帧数对获得的所述音频特征进行音频帧复制，以获得与所述目标区域图像特征帧数相同的音频特征作为所述待识别图像信息对应的音频特征。

6.根据权利要求2所述的方法，其特征在于，所述待识别多媒体数据中包括待识别对象的待识别图像信息；所述通过所述说话对象识别模型生成说话对象识别特征包括：

通过所述说话对象识别模型中的唇动检测层从所述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，并通过所述说话对象识别模型中的视觉信息编码层生成所述待识别图像信息对应的目标区域图像特征，以得到所述待识别对象的目标区域图像特征；

通过所述说话对象识别模型中的语音信息提取层从所述待识别多媒体数据中获取与所述待识别图像信息时间对应的待识别音频信息，所述待识别音频信息为空；

通过所述说话对象识别模型中的多模态特征融合层输出所述待识别图像信息对应的所述目标区域图像特征作为说话对象识别特征。

7.根据权利要求2所述的方法，其特征在于，所述待识别多媒体数据中包括待识别对象的待识别音频信息；所述通过所述说话对象识别模型生成说话对象识别特征包括：

通过所述说话对象识别模型中的唇动检测层从所述待识别多媒体数据中获取包含唇形运动图像的待识别图像信息，所述待识别图像信息为空；

通过所述说话对象识别模型中的语音信息提取层从所述待识别多媒体数据中获取待识别音频信息，并通过所述说话对象识别模型中的听觉信息编码层生成所述待识别音频信息对应的音频特征，以得到所述待识别对象的音频特征；

通过所述说话对象识别模型中的多模态特征融合层输出所述待识别音频信息对应的所述音频特征的融合特征作为说话对象识别特征。

8.一种说话对象识别的装置，其特征在于，包括：

获取模块，用于获取说话对象识别的正样本训练数据和负样本训练数据，所述正样本训练数据中包括目标对象的目标区域图像信息及其对应的目标音频信息，所述负样本训练数据中包括所述目标区域图像信息对应的多个其他对象的音频信息和所述目标音频信息对应的多个其他对象的区域图像信息；

特征生成模块，用于将所述正样本训练数据和所述负样本训练数据输入说话对象识别模型，通过所述说话对象识别模型生成所述目标区域图像信息对应的正样本区域图像特征和所述目标音频信息对应的正样本音频特征、多个与所述正样本区域图像特征时序对齐的负样本音频特征和多个与所述正样本音频特征时序对齐的负样本区域图像特征，所述正样本区域图像特征和所述正样本音频特征时序对齐；

训练模块，用于通过所述说话对象识别模型对所述正样本区域图像特征、所述正样本音频特征、多个所述负样本音频特征和多个所述负样本区域图像特征进行对比学习，以获得基于任意输入数据识别所述输入数据关联的说话对象的能力；

说话对象生成模块，用于当获取到待识别多媒体数据时，将所述待识别多媒体数据输入所述说话对象识别模型，通过所述说话对象识别模型生成说话对象识别特征，并基于所述说话对象识别特征输出所述待识别多媒体数据关联的待识别对象是否为所述目标对象的识别结果，所述说话对象识别特征包括所述待识别说话对象的目标区域图像特征或者音频特征中的至少一个。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-7任一项所述的方法。