CN119232969A

CN119232969A - 一种内容聚合方法、装置、电子设备及存储介质

Info

Publication number: CN119232969A
Application number: CN202310785750.3A
Authority: CN
Inventors: 张皓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2024-12-31

Abstract

本申请涉及数据处理技术领域，尤其涉及一种内容聚合方法、装置、电子设备及存储介质，该方法为：从待处理数据中获取包含各业务对象的子数据；基于所述子字幕集中各句字幕各自关联的时间范围，将所述子视频划分为各子视频片段，并针对每个子视频片段，提取各语音帧特征；基于业务对象特征的匹配结果，结合语音帧特征的聚类结果，得到所述各业务对象各自关联的语音帧集；基于各语音帧集，获得所述各业务对象的目标语音特征，并依据所述各业务对象的业务对象特征和目标语音特征，在待处理数据中，聚合所述各业务对象各自关联的数据内容。这样，能够在针对业务对象聚合得到的数据内容中，覆盖业务对象关联的全部视频内容，提高内容聚合的准确率。

Description

一种内容聚合方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种内容聚合方法、装置、电子设备及存储介质。

背景技术

相关技术下，为了满足相关对象观看视频时的个性化观看需要，通常针对视频中出镜的各业务对象，分别聚合包含该业务对象的各出镜视频片段，使得后续能够响应于相关对象对于视频中指定业务对象的观看需要，仅呈现画面中包含指定业务对象的视频内容。

以聚合视频中一个业务对象对应的各出镜视频片段为例，目前，通常在视频中针对业务对象进行对象识别，确定视频中业务对象对应的各出镜视频片段，进而聚合业务对象对应的各出镜视频片段。

然而，由于视频中通常包含多种类型的数据内容，采用已有的聚合方式针对业务对象聚合得到各出镜视频片段时，仅能片面地从图像内容的层面上，聚合画面中存在该业务对象的视频片段；因此，无法保障聚合得到的各出镜视频片段中，覆盖该业务对象关联的全部视频内容，降低了内容聚合准确率，以及降低了后续的视频呈现效果。

发明内容

本申请实施例提供一种内容聚合方法、装置、电子设备及存储介质，用以在针对业务对象聚合得到的数据内容中，覆盖业务对象关联的全部视频内容，提高内容聚合的准确率。

第一方面，提出一种内容聚合方法，包括：

从待处理数据中获取包含各业务对象的子数据；所述子数据中包括：由子图像内容和子语音内容构成的子视频，以及所述子视频关联的子字幕集；

基于所述子字幕集中各句字幕各自关联的时间范围，将所述子视频划分为各子视频片段，并针对每个子视频片段，执行以下操作：基于对应的各图像帧，提取各业务对象特征，以及基于对应的各语音帧，提取各语音帧特征；

根据所述各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况，结合所述各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到所述各业务对象各自关联的语音帧集；

基于所述各业务对象各自关联的语音帧集，获得所述各业务对象各自对应的目标语音特征，并依据所述各业务对象各自对应的业务对象特征和目标语音特征，在所述待处理数据中，聚合所述各业务对象各自关联的数据内容。

第二方面，提出一种内容聚合装置，包括：

获取单元，用于从待处理数据中获取包含各业务对象的子数据；所述子数据中包括：由子图像内容和子语音内容构成的子视频，以及所述子视频关联的子字幕集；

提取单元，用于基于所述子字幕集中各句字幕各自关联的时间范围，将所述子视频划分为各子视频片段，并针对每个子视频片段，执行以下操作：基于对应的各图像帧，提取各业务对象特征，以及基于对应的各语音帧，提取各语音帧特征；

聚类单元，用于根据所述各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况，结合所述各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到所述各业务对象各自关联的语音帧集；

聚合单元，用于基于所述各业务对象各自关联的语音帧集，获得所述各业务对象各自对应的目标语音特征，并依据所述各业务对象各自对应的业务对象特征和目标语音特征，在所述待处理数据中，聚合所述各业务对象各自关联的数据内容。

可选的，所述结合所述各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到所述各业务对象各自关联的语音帧集时，所述聚类单元用于：

在所述各子视频片段中，确定已知对应的业务对象的目标子视频片段和未知对应的业务对象的其他子视频片段；

基于所述目标子视频片段，构建关联有相应的业务对象的语音帧集，并聚类所述其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集。

可选的，所述基于所述目标子视频片段，构建关联有相应的业务对象的语音帧集，所述聚类单元还用于：

针对每个对应有目标子视频片段的业务对象，执行以下操作：

确定对应的目标子视频片段中包括的各语音帧，以及所述各语音帧各自对应的语音帧特征，并采用预设的异常检测算法，通过检测各语音帧特征，确定所述各语音帧中的异常语音帧；

基于删除所述异常语音帧的所述各语音帧，构建关联的语音帧集。

可选的，所述聚类所述其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集时，所述聚类单元用于：

针对所述其他子视频片段对应的各语音帧特征，采用预设的聚类算法，聚类相似性满足设定条件的语音帧特征，得到各语音帧特征集；

基于聚类得到的各语音帧特征集触发标注请求，得到对于所述各语音帧特征集分别标注的业务对象，并根据所述各语音帧特征集中的语音帧特征，与语音帧之间的对应关系，得到标注有关联的业务对象的各语音帧集。

可选的，所述确定已知对应的业务对象的目标子视频片段时，所述聚类单元用于：

针对每个子视频片段，执行以下操作：

当预存的各历史业务对象的业务对象特征中，存在与所述子视频片段关联的各业务对象特征分别匹配成功的目标业务对象特征时，确定各目标业务对象特征各自对应的目标历史业务对象；

在确定各目标历史业务对象对应相同历史业务对象时，将所述子视频片段确定为已知对应的业务对象的一个目标子视频片段。

可选的，确定各目标历史业务对象对应不同历史业务对象时，所述聚类单元用于执行以下操作中的任意一项：

将所述子视频片段判定为，未知对应的业务对象的其他子视频片段；

基于所述子视频片段触发对象标注请求，并基于获取的业务对象标注结果，确定所述子视频片段对应的指定业务对象，以及将所述子视频片段确定为对应所述指定业务对象的一个目标子视频片段。

可选的，确定未知对应的业务对象的其他子视频片段时，所述聚类单元用于：

针对每个子视频片段，执行以下操作：

当预存的各历史业务对象的业务对象特征中，不存在与所述子视频片段关联的各业务对象特征分别匹配成功的目标业务对象特征时，将所述子视频片段确定为未知对应的业务对象的一个其他子视频片段。

可选的，所述待处理数据包括：由图像内容和语音内容构成的视频，以及所述视频关联的字幕集；所述依据所述各业务对象各自对应的业务对象特征和目标语音特征，在所述待处理数据中，聚合所述各业务对象各自关联的数据内容时，所述聚合单元用于：

基于每个业务对象的业务对象特征，在所述图像内容中进行对象匹配，并针对每个业务对象，聚合得到对应的第一视频片段集；

将所述待处理数据的语音内容划分为各语音帧，并基于所述各语音帧各自对应的时间范围，将所述视频划分为各第二视频片段，并针对所述各语音帧，分别提取对应的语音帧特征，以及根据各语音帧特征各自与各目标语音特征的匹配情况，聚合得到各业务对象各自对应的第二视频片段集；

针对每个业务对象，基于对应的第一视频片段集和第二视频片段集，得到针对所述业务对象聚合得到的数据内容。

可选的，所述基于对应的各图像帧，提取各业务对象特征时，所述提取单元用于：

确定对应的子图像内容中包括的各图像帧，并采用预设的区域检测算法，在所述各图像帧中分别检测出包含业务对象的业务对象区域；

采用预设的特征提取算法，分别对所述各图像帧中的业务对象区域进行特征提取，得到对应的业务对象特征。

可选的，所述基于对应的各语音帧，提取各语音帧特征时，所述提取单元用于：

将所述子视频片段对应的子语音内容片段拆分为各语音帧，并针对拆分得到的各语音帧分别进行加窗处理，得到处理后的各语音帧；

针对所述处理后的各语音帧，分别采用预设的语音特征提取技术，提取得到对应的梅尔频率倒谱系数MFCC特征。

可选的，所述基于所述各业务对象各自关联的语音帧集，获得所述各业务对象各自对应的目标语音特征时，所述聚合单元用于包括：

基于所述各业务对象各自关联的语音帧集，构建各训练样本，其中，一条训练样本包括：由语音帧构建的样本语音，以及标注的样本对象；

基于所述各训练样本，对预设的对象语音识别模型进行多轮迭代训练，得到训练后的目标对象语音识别模型，以及得到所述目标对象语音识别模型内部，分别针对所述各业务对象构建的目标语音特征。

可选的，所述在所述待处理数据中，聚合所述各业务对象各自关联的数据内容之后，所述装置还包括响应单元，所述响应单元用于：

响应于目标对象在关联的播放设备上，针对所述待处理数据中指定业务对象触发的内容展示请求，获取所述指定业务对象关联的目标数据内容；

将所述目标数据内容发送至所述播放设备，以使所述播放设备播放所述目标数据内容对应的视频数据。

第三方面，提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

第五方面，提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本申请有益效果如下：

本申请实施例中，提出了一种内容聚合方法、装置、电子设备及存储介质，针对存在内容聚合需求的各业务对象，在待处理数据对应的内容范围内，确定各业务对象各自对应的聚合结果时，借助于针对各业务对象分别确定的业务对象特征和目标语音特征，在待处理数据中，聚合关联的数据内容，使得能够从图像内容和语音内容两方面入手，实现内容聚合，增加了在内容聚合过程中可考量的聚合依据，有助于提高内容聚合准确率，使得最终聚合得到的各业务对象各自关联的数据内容，能够覆盖待处理数据中与各业务对象各自相关的全部视频内容。

而且，在构建各样本对象各自对应的目标语音特征的过程中，根据从待处理数据中获取的子数据，拆分得到各句字幕各自对应的子视频片段，再对应各子视频片段各自对应的各语音帧，分别提取得到语音帧特征，通过对各子视频片段各自对应的各图像帧进行特征提取，得到各子视频片段各自对应的各业务对象特征；再根据提取的业务对象特征与预存的历史业务对象的业务对象特征间的匹配情况，结合各子视频片段各自对应的各语音帧特征的聚类结果，能够得到各业务对象各自关联的语音帧集；进而，借助于各业务对象各自关联的语音帧集，能够获得各业务对象各自对应的目标语音特征。可见，在对应各业务对象分别生成目标语音特征的过程中，无需额外获取各业务对象各自对应的语音数据，而是通过对各子视频片段中的语音帧进行聚类，即可得到各业务对象在待处理数据中的语音特征，这使得一方面降低了业务对象语音数据的获取难度，另一方面，能够保障得到的各目标语音特征，能够有效表征出相应的各业务对象在待处理数据中的语音特征。

另外，在具体的内容聚合过程中，同时考虑了业务对象特征和目标语音特征的共同作用，使得聚合的数据内容中同时存在图像层面上关联的内容和语音层面上关联的内容，为内容聚合效果提供了保障，提高了内容聚合的完整性和准确性。

附图说明

图1为本申请实施例中可能的应用场景示意图；

图2A为本申请实施例中内容聚合过程示意图；

图2B为本申请实施例中基于子视频划分得到子视频片段的过程示意图；

图2C为本申请实施例中进行业务特征匹配的过程示意图；

图2D为本申请实施例中建立各业务对象各自对应的语音帧集的过程示意图；

图2E为本申请实施例中对象语音识别模型的结构示意图；

图3为本申请实施例中针对影视剧进行内容聚合的过程示意图；

图4为本申请实施例中内容聚合效果示意图；

图5为本申请实施例中内容聚合装置的逻辑结构示意图；

图6为本申请实施例的一种电子设备的一个硬件组成结构示意图；

图7为本申请实施例中另一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

待处理数据：是指本申请实施例中，内容聚合所针对的数据，待处理数据中包括视频和视频对应的字幕集，视频中包括图像内容和语音内容。

子数据：是待处理数据的一部分，是在已知待处理数据中包括的各业务对象的情况下，为了降低数据处理压力，从待处理数据中抽取的包含各业务对象的数据；本申请实施例中，可以理解为先基于小数据量的子数据，针对各业务对象确定对应的业务对象特征和目标语音特征后，再将针对各业务对象提取的业务对象特征和目标语音特征，应用于对大数据量的待处理数据进行内容聚合，在待处理数据中分别确定各业务对象各自关联的数据内容。

字幕集：包含待处理数据中视频对应的各句字幕，本申请实施例中，字幕集中包括各句字幕，以及各句字幕各自对应的起始播放时间和终止播放时间，即，字幕集中包括各句字幕和各句字幕各自对应的时间范围。

语音帧特征：是指针对语音帧中的语音内容提取的特征，本申请实施例中，提出的语音帧特征可以是MFCC特征。

下面对本申请实施例的设计思想进行简要介绍：

以聚合视频中一个业务对象对应的各出镜视频片段为例，目前，通常在视频中针对业务对象进行对象识别，确定视频中业务对象对应的各出镜视频片段，进而聚合该业务对象对应的各出镜视频片段。

例如，通常先在视频中提取对应相同人脸的人脸片段，再对识别得到的人脸进行识别，确定各段时间下的视频片段中各自包括的人物，最后针对每个相关的人物，合并图像画面中包括该人物的各出镜视频片段。

然而，由于视频中通常包含多种类型的数据内容，采用已有的聚合方式针对业务对象聚合得到各出镜视频片段时，仅能片面地从图像内容的层面上，聚合对应的视频画面中存在该业务对象的视频片段；因此，无法保障聚合得到的各出镜视频片段中，覆盖该业务对象关联的全部视频内容，降低了内容聚合效率，以及降低了后续的视频呈现效果。

例如，假设一段视频中存在两个正在交谈的人物，且视频中存在镜头的视角切换，即对于某个人物而言，可能图像中该人物未出镜，但是对应的视频内容与该人物相关；采用已有的聚合方式进行处理时，将无法聚合该人物未出镜的视频片段，因而导致针对该人物聚合得到各出镜视频片段后，各出镜片段对应的视频内容无法覆盖完整的人物交互过程。

有鉴于此，本申请实施例中，提出了一种内容聚合方法、装置、电子设备及存储介质，针对存在内容聚合需求的各业务对象，在待处理数据对应的内容范围内，确定各业务对象各自对应的聚合结果时，借助于针对各业务对象分别确定的业务对象特征和目标语音特征，在待处理数据中，聚合关联的数据内容，使得能够从图像内容和语音内容两方面入手，实现内容聚合，增加了在内容聚合过程中可考量的聚合依据，有助于提高内容聚合准确率，使得最终聚合得到的各业务对象各自关联的数据内容，能够覆盖待处理数据中与各业务对象各自相关的全部视频内容。

参阅图1所示，为本申请实施例中可能的应用场景示意图。该应用场景示意图中，包括处理设备110，以及客户端设备120。

本申请实施例中，处理设备110可以预先对待处理数据进行处理，即，针对包含在待处理数据中的、指定的各业务对象，分别将在待处理数据中确定的关联的内容，并进行内容聚合；

进而，处理设备110后续能够响应于相关对象在客户端设备120上触发的，对于待处理数据中指定业务对象关联的内容的观看指示，获取预先针对该指定业务对象聚合得到的数据内容，并将与确定的数据内容匹配的视频内容呈现在客户端设备120上。

在可能的实现方式中，处理设备110可以响应于相关对象在客户端设备120的可操作页面上触发的内容观看指示，将需要呈现的视频内容反馈给客户端设备120，其中，该可操作页面可以归属于开发的应用、网页，或者，小程序，本申请对此不做具体限制。

本申请实施例中，处理设备110与客户端设备120之间，可以通过有线网络或无线网络进行通信。

处理设备110，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

客户端设备120，可以是诸如手机、电脑、电子书阅读器、智能家电、车载终端等。

下面结合几种可能的应用场景，对相关的内容聚合过程进行说明：

场景一、针对版权视频进行内容聚合。

在场景一所示意的内容聚合场景中，处理设备110可以在上架版权视频前，预先针对待上架的版权视频进行内容聚合处理，其中，待上架的视频是指将来能够在维护的播放平台或者应用上播放的视频，版权视频是指需要购买使用权限或者付出大量成本制作的视频，具体可以指电视剧、电影、动漫、纪录片等。

假设处理设备110针对待上架的版权视频X进行内容聚合，在版权视频X中确定存在内容聚合需要的各业务对象，其中，版权视频X为电视剧、电影或者纪录片时，业务对象以明星的真实姓名和明星扮演的角色姓名来描述；待上架视频X为动漫时，业务对象以动漫人物的姓名来描述。

进而，针对确定的各业务对象，基于从版权视频X中获取的子视频i，确定各业务对象各自对应的业务对象特征和目标语音特征；

再依据各业务对象各自对应的业务对象特征和目标语音特征，在版权视频X中，聚合各业务对象各自对应的数据内容。

场景二、针对相关对象发布在社交平台上的视频进行内容聚合。

在场景二所示意的内容聚合场景中，处理设备110可以响应于相关对象的处理需求，针对相关对象自制的、需要上传至社交平台上的数据进行内容聚合，其中，相关对象上传的数据中包括视频和视频对应的字幕集。

假设处理设备110针对待发布视频Y进行内容聚合，在待发布视频Y中确定存在内容聚合需要的各业务对象。

进而，针对确定的各业务对象，基于从待发布视频Y中获取的子视频j，确定各业务对象各自对应的业务对象特征和目标语音特征；

再依据各业务对象各自对应的业务对象特征和目标语音特征，在待发布视频Y中，聚合各业务对象各自对应的数据内容。

需要说明的是，本申请提出的内容聚合方法可以由电子设备执行，该电子设备可以是处理设备110或者客户端设备120，本申请以下的说明中，将仅以处理设备110执行内容聚合为例进行示意性说明。

下面结合附图，从处理设备110的角度，对内容聚合过程进行说明：

参阅图2A所示，其为本申请实施例中内容聚合过程示意图，下面结合附图2A，对内容聚合过程进行详细说明：

步骤201：处理设备从待处理数据中获取包含各业务对象的子数据。

本申请实施例中，处理设备确定内容聚合的数据范围后，即，确定待处理数据后，从待处理数据对应的各出镜对象中，确定需要针对性进行内容聚合的各业务对象，其中，待处理数据中包括由图像内容和语音内容构成的视频，以及该视频关联的字幕集；待处理数据对应的各出镜对象是指在对应的视频中，图像画面中包括的各个对象。

需要说明的是，本申请实施例中，根据实际的处理需要，可以将待处理数据对应的全部出镜对象，作为对应的各业务对象；或者，可以根据处理经验，挑选出在待处理数据内的重要内容情节中涉及到的各出镜对象，作为对应的各业务对象。

例如，在待处理数据是一部电视剧的情况下，各出镜对象是指该电视剧中的各演艺人员，也就是说，对于一个待处理数据而言，其对应的各出镜对象范围是已知的。

又例如，继续上述举例进行说明，根据实际的处理需要，可以将电视剧中的各主演、领携主演和客串演员，确定为对应的各业务对象。

之后，处理设备从待处理数据中获取包含各业务对象的子数据的过程中，可以获取从待处理数据中抽取出的子数据，其中，子数据中包括：由子图像内容和子语音内容构成的子视频，以及该子视频关联的子字幕集；各业务对象在该子视频中均有出镜讲话。

这样，对于从待处理数据中获取的子数据而言，相当于从待处理数据中获取了包含各业务对象的小范围数据，能够降低后续生成各业务对象各自对应的目标语音特征时的处理压力。

步骤202：处理设备基于子字幕集中各句字幕各自关联的时间范围，将子视频划分为各子视频片段，并针对每个子视频片段，执行以下操作：基于对应的各图像帧，提取各业务对象特征，以及基于对应的各语音帧，提取各语音帧特征。

处理设备获得子数据后，得到子数据中包括的子视频和子视频对应的子字幕集，进而为了更好的区分待处理数据中各业务对象的语音，基于子字幕集中各句字幕各自关联的时间范围，将子视频划分为各子视频片段。

需要说明是，本申请实施例中，字幕集可以存储在字幕文件中，字幕文件的文件格式可以是(SubRip Text，srt)、(S Station Alpha，ssa)、(Advanced SubStation Alpha，ass)等格式中的任意一种，本申请对此不做具体限制。以字幕文件的格式为srt为例，对应的字幕集中包括每句字幕的内容，以及每句字幕对应的时间范围，其中，一个字幕对应的时间范围由该字幕的起始播放时间和终止播放时间确定。

例如，参阅图2B所示，其为本申请实施例中基于子视频划分得到子视频片段的过程示意图，根据图2B描述的内容可知，获取包括子数据和子字幕集的子数据后，根据子字幕集中前两句字幕关联的时间范围，可以确定能够划分出两个子视频片段，且对应的时间范围分别为00:05:00,400至00:05:15,300，以及00:05:16,400至00:05:25,300，其中，时间范围两端的时间戳表征对应的起始播放时间和终止播放时间，时间戳的内容形式可以理解为时：分：秒，毫秒的形式。

进而，继续结合附图2B进行说明，针对时间范围00:05:00,400至00:05:15,300，在子视频中对时间范围匹配的图像内容和音频内容进行划分，得到对应的子视频片段1；同理，针对时间范围00:05:16,400至00:05:25,300，在子视频中对时间范围匹配的图像内容和音频内容进行划分，得到对应的子视频片段2。

在针对每个子视频片段，提取对应的各业务对象特征时，处理设备确定对应的子图像内容中包括的各图像帧，并采用预设的区域检测算法，在各图像帧中分别检测出包含业务对象的业务对象区域；再采用预设的特征提取算法，分别对各图像帧中的业务对象区域进行特征提取，得到对应的业务对象特征。

以针对各图像帧提取人脸特征向量为例，处理设备在识别各图像帧中的人脸区域时，可以采用多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks，MTCNN)算法，对图像帧的画面中出现的人脸区域进行检测；进而，可以采用使用基于加性角度边缘损失的人脸识别算法(Additive Angular Margin Loss，ArcFace)对每个人脸区域的人物进行特征提取。

需要说明的是，本申请实施例中在针对各图像帧进行人脸特征向量提取时，可以借助于相关技术下的人脸特征向量提取技术进行处理，上述提及的MTCNN算法和ArcFace算法相结合的处理方式，仅为本申请提出的一种示例性处理方式，本申请对此不做具体限定。

下面对MTCNN算法和ArcFace算法各自的功能进行说明：

MTCNN算法是一种用于人脸检测和人脸关键点检测的深度学习算法，MTCNN算法采用了级联的方式，将人脸检测和人脸关键点检测分为三个阶段：分别是候选生成网络(Proposal Network，P-Net)阶段、提炼网络(Refine Network，R-Net)阶段，以及输出网络(Output Network，O-Net)阶段。

其中，P-Net用于生成候选人脸框；R-Net用于筛选候选人脸框，去除不合格的框；O-Net用于细化人脸框的精度，并检测人脸关键点。在训练基于MTCNN算法构建的区域检测模型时，可以根据各网络的输出结果，结合具体对应的回归问题和分类问题来构建相应的损失函数，并借助于预测得到的人脸框的位置和置信度，实现参数调整。

对于进行人脸特征向量提取的ArcFace算法而言，ArcFace算法是一种用于人脸识别的深度学习算法。ArcFace算法的核心是一种新型的损失函数，该损失函数在传统的Softmax分类器的基础上，增加了一个余弦相似度的约束，使得同一类别的人脸在特征空间中更加紧密，不同类别的人脸之间的距离更加明显，这能够在后续的应用中提高人脸识别的准确率和鲁棒性。

而且，借助于已训练的ArcFace模型，可以提取每个人脸区域的人脸特征向量(即业务对象特征)。

这样，针对每个子视频片段进行业务特征提取时，处理设备先在对应的各图像帧中确定业务对象所在的业务对象区域，使得能够在图像帧中准确定位出需要进行业务对象特征提取的区域，进而通过对各图像帧中的业务对象区域进行特征提取，得到针对各图像帧提取得到的业务对象特征；因此，借助于先定位业务对象区域，再针对确定的业务对象区域进行特征提取的实现方式，能够提高对于业务对象特征的提取效果，避免对于图像帧中业务对象特征的漏提取。

与此同时，处理设备在针对每个子视频片段，基于对应的各语音帧，提取语音帧特征的过程中，将该子视频片段对应的子语音内容片段拆分为各语音帧，并针对拆分得到的各语音帧分别进行加窗处理，得到处理后的各语音帧；再针对处理后的各语音帧，分别采用预设的语音特征提取技术，提取得到对应的梅尔频率倒谱系数(MFCC)特征。

具体的，处理设备在针对子视频片段进行语音帧特征提取时，可以针对每个子视频片段得到对应的一组语音帧特征，其中，一组语音帧特征中包括：拆分得到的各语音帧各自对应的语音帧特征。

下面以提取的语音帧特征为MFCC特征为例，对针对每个子视频片段对应的子语音内容，处理得到对应的各MFCC特征的过程进行说明：

对于上述切分的每个子视频片段，针对子视频片段中的各语音帧分别提取MFCC特征，因而可以将该子视频片段对应的音频信号，转换为一组MFCC系数，这些系数可以用于分析音频信号的特征，相关计算过程如下：

处理设备先对子视频片段对应的子语音内容进行预处理，涉及到的处理方式包括将子语音内容(即子视频片段中的音频信号)进行分帧，得到对应的各语音帧，其中，每帧语音帧对应的时间长度可以为20-30ms；根据实际的处理需要，相邻语音帧之间可以存在一些重叠；再针对各语音帧进行加窗处理，其中，常用的窗函数包括汉宁窗、海明窗等；加窗的目的在于使得对应的语音帧中语音信号在两端渐变到0，减少帧边缘处的不连续性。

之后，处理设备对每个语音帧对应的语音信号进行快速傅里叶变换(FFT)处理，将时域信号转换为频域信号；再将得到的频域信号通过一组梅尔滤波器，得到每个频带的能量值，其中，梅尔滤波器组的中心频率根据梅尔刻度进行设置，滤波器一般设置20-40个；进而，将每个频带的能量值取对数，得到对数能量；然后，针对得到的对数能量序列进行离散余弦变换(DCT)处理，得到一组频率系数，即MFCC系数。

另外，考虑到MFCC系数中直流分量和高频部分对于信号特征的区分作用较小，故可以去除直流分量，并将MFCC系数中的高频部分截断，具体的，处理设备将MFCC系数中的第一项(即直流分量)去除，因为它表示了信号的平均能量，不具有区分特征的作用；而且，由于MFCC系数的高频部分的能量较小，对信号特征的区分作用较小，故针对MFCC系数进行高频截断。进而，对处理后的MFCC系数进行归一化处理，使其具有相同的尺度范围，并将最终处理得到的MFCC系数确定为得到的MFCC特征。

这样，能够对应每个子视频片段，提取得到各语音帧特征，也就是在获取一句字幕对应的子视频片段后，对一句字幕对应的各语音帧进行了特征提取，相当于实现了对语音信号的特征提取，得到对应的各语音帧特征；而且，借助于提取的MFCC特征，能够提取出语音帧中包括的语音信号信息，为差异性区分不同业务对象的语音提供了处理依据。

步骤203：处理设备根据各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况，结合各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到各业务对象各自关联的语音帧集。

本申请实施例中，处理设备确定各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况时，先获取预存的各历史业务对象的业务对象特征。

对于预存的各历史业务对象各自对应的业务对象特征而言，可以是预先基于收集的历史业务对象的图片，进行特征提取后得到的，其中，历史业务对象是相比于当前待处理数据中包含的业务对象而言的，可以是先前处理的其他待处理数据中包含的业务对象，或者，可以是先前收集的可能出现在待处理数据中的业务对象。

例如，在待处理数据为影视作品的情况下，可以事先收集一批明星人物和他们对应的图片(称为参考图)，并基于MTCNN算法和ArcFace算法提取参考图的人脸特征向量，以及存储人脸特征向量和明星的对应关系。

需要说明的是，本申请实施例中，在业务对象特征为人脸特征向量的情况下，预存的各历史业务对象的业务对象特征，可以理解为存储在一个人脸库中，其中，人脸库是指建立的包含多个人脸特征向量的数据库，在面对人脸识别任务时，依据人脸库能够进行比对和识别。在可能的实现方式中，人脸库中包含有多个已知身份信息的人脸图像，每个人脸图像都对应着一个人脸特征向量。

之后，处理设备具体确定各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况时，通过计算每个子视频片段对应的各业务对象特征，与各历史业务对象的业务对象特征间的相似情况，确定子视频片段中相似情况满足要求的业务对象特征所对应的业务对象身份。

例如，参阅图2C所示，其为本申请实施例中进行业务特征匹配的过程示意图，根据图2C所示意的内容可知，在针对影视作品中的子视频片段1进行业务对象特征匹配时，依据采用人脸识别方式，从子视频片段1包括的n个图像帧中，分别提取出人脸特征向量，其中，图像帧的画面中存在的人脸数，与针对该图像帧提取的人脸特征向量总数相同；

进而，继续结合附图2C进行说明，将基于每个图像帧提取的人脸特征向量，分别与人脸库中预存的、历史业务对象的人脸特征向量进行比对，使得针对每个人脸特征向量，在预存的人脸库中，确定与该人脸特征向量最相似的历史业务对象，并得到对应的特征相似度，以及根据得到的特征相似度，得到该人脸特征向量对应的匹配结果；具体的，在确定对应的特征相似度超过某个设定阈值时，确定匹配成功，故可以基于匹配的历史业务对象的身份信息，确定该人脸特征向量对应的业务对象。

需要说明的是，本申请实施例中，对于各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况而言，存在两种可能的匹配情况，一种是能够与历史业务对象的业务对象特征匹配成功，此时，表现为业务特征向量之间的相似度超过设定阈值，图像帧中待判定身份的业务对象，是先前针对性进行了特征提取和存储的历史业务对象；另一种是，无法与历史业务对象的业务对象特征匹配成功，此时，表现为业务对象特征之间的相似度未达到设定阈值，也即相应的图像帧中，不包括先前针对性进行了特征提取和存储的历史业务对象。

进而，参阅图2D所示，其为本申请实施例中建立各业务对象各自对应的语音帧集的过程示意图，下面结合附图2D，对基于子视频片段中业务对象特征与预存的历史业务对象的业务对象特征间的匹配情况，结合各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到各业务对象各自关联的语音帧集的过程进行说明：

步骤2031：处理设备在各子视频片段中，确定已知对应的业务对象的目标子视频片段和未知对应的业务对象的其他子视频片段。

本申请实施例中，处理设备按照各子视频片段各自对应的各业务对象特征，是否能够与预存的各历史业务对象的业务对象特征匹配成功，且子视频片段是否对应唯一的历史业务对象，将各子视频片段划分为已知对应的业务对象的目标子视频片段，以及未知对应的业务对象的其他子视频片段。

处理设备在确定已知对应的业务对象的目标子视频片段的过程中，针对每个子视频片段，执行以下操作：当预存的各历史业务对象的业务对象特征中，存在与该子视频片段关联的各业务对象特征分别匹配成功的目标业务对象特征时，确定各目标业务对象特征各自对应的目标历史业务对象；再在确定各目标历史业务对象对应相同历史业务对象时，将子视频片段确定为已知对应的业务对象的一个目标子视频片段。

具体的，处理设备将一个子视频片段判定目标子视频片段时，该子视频片段需要同时满足以下条件：在子视频片段对应的各图像帧中分别提取的各业务对象特征，均能够在预存的各历史业务对象的业务对象特征中，找到匹配成功的目标业务对象特征；该子视频片段对应唯一业务对象。

需要说明的是，本申请实施例中，考虑到一个子视频片段对应的是一句字幕，且一句字幕通常仅对应一个说话对象，那么，对于一个子视频片段而言，理应唯一对应一个业务对象；因此，在判定已知对应的业务对象的目标子视频片段时，需要判定子视频片段匹配的业务对象的唯一性，其中，已知对应的业务对象是在描述对于目标子视频片段的对象判定情况，换言之，目标子视频片段是指能够确定具体对应哪个业务对象的子视频片段。

这样，能够根据子视频片段中的业务对象特征，与已知的历史业务对象的业务对象特征间的匹配情况，以及对应子视频片段确定的业务对象的唯一性，将各子视频片段中能够确定具体对应的业务对象的子视频片段，确定为目标子视频片段，相当于能够根据预存的已知对象的业务对象特征，实现对子视频片段的快速判定。

特殊的，处理设备针对一个子视频片段，确定匹配各目标历史业务对象后，当确定各目标历史业务对象对应不同历史业务对象时，执行以下操作中的任意一项：将子视频片段判定为，未知对应的业务对象的其他子视频片段；基于子视频片段触发对象标注请求，并基于获取的业务对象标注结果，确定子视频片段对应的指定业务对象，以及将子视频片段确定为对应指定业务对象的一个目标子视频片段。

具体的，以处理设备针对子视频片段X进行处理为例，针对子视频片段X对应的各图像帧中分别提取的各业务对象特征后，在确定提取的各业务对象特征均能够在预存的各历史业务对象的业务对象特征中，找到匹配成功的目标业务对象特征，但各目标业务对象特征对应不同的历史业务对象时，此时无法确定子视频片段X唯一对应的业务对象；

在此情况下，根据实际的处理需要，可以将子视频片段X，直接判定为未知对应的业务对象的其他子视频片段，其中，未知对应的业务对象是在描述对于其他子视频片段的对象判定情况，换言之，其他子视频片段是指不能确定具体对应哪个业务对象的子视频片段；或者，根据实际的处理需要，可以请求指示子视频片段X对应的指定业务对象，使得能够唯一确定子视频片段X对应的业务对象，进而能够将子视频片段X判定为对应指定业务对象的一个目标子视频片段。

这样，能够根据实际的处理需要，针对目标子视频片段的判定过程中存在的不同过程结果，进行适应性的处理；从机器处理的角度而言，将对应不同历史业务对象的子视频片段，直接判定为未知对应的业务对象的其他子视频片段，能够保障处理过程的简单和高效，而借助于人工指示的方式确定子视频片段对应的指定业务对象，则能够更好的利用得到的匹配结果。

对应的，处理设备确定未知对应的业务对象的其他子视频片段的过程中，针对每个子视频片段，执行以下操作：当预存的各历史业务对象的业务对象特征中，不存在与子视频片段关联的各业务对象特征分别匹配成功的目标业务对象特征时，将子视频片段确定为未知对应的业务对象的一个其他子视频片段。

具体的，处理设备可以将满足以下条件的子视频片段，直接判定为未知对应的业务对象的其他子视频片段：预存的各历史业务对象的业务对象特征中，不存在与基于子视频片段提取的各业务对象特征匹配成功的特征。换言之，子视频片段中包括的业务对象不在已知业务对象的范围内。

这样，可以根据预存的各历史业务对象的业务对象特征，将各个子视频片段中，无法匹配确定对应的业务对象的子视频片段，直接确定出无法确定对应的业务对象的其他视频片段。

步骤2032：处理设备基于目标子视频片段，构建关联有相应的业务对象的语音帧集，并聚类其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集。

本申请实施例中，处理设备针对目标子视频片段和其他子视频片段，可以差异性的选择不同的聚类方式，构建业务对象对应的语音帧集。

对于已知对应的业务对象的目标子视频片段，构建关联有相应的业务对象的语音帧集时，在能够保障各子视频片段各自对应的图像内容和语音内容，对应相同业务对象时，即，对于子视频片段而言，图像内容中的业务对象和说出对应的一句字幕的业务对象是相同对象；处理设备可以直接聚类对应相同业务对象的目标子视频片段，并针对每个已知业务对象，基于对应的目标子视频片段中包括的各语音帧，构建对应的语音帧集，其中，已知业务对象是指对应的业务对象特征与预存的一个历史业务对象的业务对象特征匹配，并判定存在对应的目标子视频片段的业务对象；一个已知业务对象通常对应多个目标子视频片段。

然而，考虑到子视频片段中可能存在：图像内容对应的业务对象，与语音内容对应的业务对象，为不同的业务对象的情况；基于此可知，即使基于预存的各历史业务对象的业务对象特征，能够确定子视频片段对应的业务对象的身份，还可能存在识别的业务对象实际不是语音内容对应的说话对象的问题；因而，确定已知业务对象对应的目标子视频片段后，若直接基于对应的目标子视频片段中包括的各语音帧，构建已知业务对象关联的语音帧集，则可能存在该已知业务对象的语音帧集中混入其他业务对象的语音的问题。

基于此，处理设备基于目标子视频片段，构建关联有相应的业务对象的语音帧集的过程中，可以针对每个对应有目标子视频片段的业务对象，执行以下操作：确定对应的目标子视频片段中包括的各语音帧，以及各语音帧各自对应的语音帧特征，并采用预设的异常检测算法，通过检测各语音帧特征，确定各语音帧中的异常语音帧；再基于删除异常语音帧的各语音帧，构建关联的语音帧集。

具体的，处理设备针对对应有目标子视频片段的每个业务对象，确定对应的目标子视频中包括的各语音帧后，从对应的各语音帧中删除属于其他业务对象的异常语音帧，并基于删除异常语音帧的各语音帧，构建该业务对象关联的语音帧集。

在具体检测异常语音帧时，处理设备可以针对各语音帧，基于各语音帧各自对应的语音帧特征，采用预设的异常检测算法，识别出异常语音帧。

下面以采用异常检测(Anomaly Detection)技术进行异常检测，且语音帧特征具体为MFCC特征为例，对识别异常语音帧的过程进行说明：

需要说明的是，异常检测(Anomaly Detection)技术能够在数据集中发现不同于其他数据的那些观测值，也就是所谓的异常值或者离群点(Outliers)。本申请可以具体采用局部异常因子(Local Outlier Factor，LOF)算法进行异常检测。该算法的基本思想是，将每个样本点与其周围的样本点进行比较，通过计算其局部密度与邻域之间的距离关系，来判断该样本点是否为异常点。

基于LOF算法的处理思想，结合具体处理的内容可知，在判定各语音帧中的异常语音帧时，将各语音帧特征确定为各样本点，对于每个样本点，计算其与其k个最近邻点之间的距离，并将这些距离值按照从小到大的顺序排列，取第k个距离值作为该点的可达距离(reachability distance)。再针对每个样本点，计算其邻域(即距离该点不超过给定半径r的样本点集合)的局部密度(local density)，即邻域内样本点的点数。同时，针对每个邻域内的样本点，计算其到确定的样本点的可达距离的最大值，作为该样本点的局部可达密度(local reachability density)。之后，对于每个样本点，计算其LOF值(local outlierfactor)，即该样本点的局部可达密度与其邻域的局部可达密度之比的平均值，其中，LOF值越大，则对应的样本点越可能为异常点。

进而，通过计算各语音帧特征对应的LOF值，确定异常语音帧。

这样，考虑到子视频中对应各业务对象通常分别存在多个子视频片段，使得能够足够保障语音帧特征的提取，因而，对于每个已知业务对象而言，借助于异常检测算法，能够在各语音帧各自对应的语音帧特征中，检测出不同于大部分语音特征的异常语音特征，进而将异常语音特征对应的语音帧确定为异常语音帧，使得能够有效鉴别出归属于其他业务对象的语音帧；避免由于从子视频片段的图像中识别的业务对象，与从语音中识别的业务对象不同而造成的语音帧聚类异常，相当于通过检测各语音帧特征的异常情况，实现对相应的各语音帧的过滤。

本申请实施例中，处理设备聚类其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集的过程中，针对其他子视频片段对应的各语音帧特征，采用预设的聚类算法，聚类相似性满足设定条件的语音帧特征，得到各语音帧特征集；再基于聚类得到的各语音帧特征集触发标注请求，得到对于各语音帧特征集分别标注的业务对象，并根据各语音帧特征集中的语音帧特征，与语音帧之间的对应关系，得到标注有关联的业务对象的各语音帧集。

具体的，处理设备在其他子视频片段对应的各语音帧特征中，聚类相似性满足设定条件的语音帧特征，得到各语音帧特征集时，可以采用基于密度的聚类算法，针对其他子视频片段对应的各语音帧特征，分别构建对应的语音簇，并针对每个未聚类的语音簇，执行以下操作，直至针对全部语音簇完成聚类处理：根据各语音簇对应的各个语音帧特征的空间分布情况，查找与语音簇匹配的直接邻域簇，以及查找与直接邻域簇匹配的间接邻域簇；将查找到的直接邻域簇和间接邻域簇，聚类至语音簇，以及基于聚类后的语音簇覆盖的各语音帧特征，得到对应的语音帧特征集。

下面以采用的聚类算法为密度聚类(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)算法为例，对针对其他子视频片段，聚类得到标注有关联的业务对象的各语音帧集的过程进行说明：

对于存在对应的各业务对象特征，但是无法识别各业务对象特征对应的具体业务对象的子视频片段，可以称为其他子视频片段(即能识别出有业务对象但无法确定业务对象具体是谁的子视频片段)。考虑到其他子视频片段整体上可能对应多个业务对象的语音，故可以通过聚类的方式，对其他子视频片段整体上包括的各语音帧进行语音帧特征聚类，进而标注聚类得到的每个簇对应的具体业务对象。

需要说明的是，DBSCAN是一种基于密度的聚类算法，可用于发现任意形状的聚类簇，并能够识别出噪声点。DBSCAN算法不需要预先指定聚类簇的个数，而是根据数据的密度分布自动确定聚类簇的个数和形状；

DBSCAN算法对应的基本处理流程是：基于其他子视频中各语音帧对应的语音帧特征构建数据集，针对给定的数据集，首先将每个数据点视为一个簇，其中，一个数据点对应一个语音帧特征；然后从数据集中随机选择一个数据点作为种子点，找出其邻域内的所有数据点，并将其加入到该簇中。然后，对于该簇中的每个数据点，再找出其邻域内的所有数据点，并将其加入到该簇中。重复这个过程，直到该簇中的所有数据点都无法再找到新的邻域点为止。然后，从数据集中选择一个未被访问过的数据点作为新的种子点，重复上述过程，直到所有数据点都被访问过为止。

最后，采用DBSCAN算法聚类完成后，能够得到多个类簇，其中，每个类簇中包括聚类的各语音帧特征，且每个类簇对应一个待标注的业务对象；进而，可以借助于聚类得到的各类簇，触发标注请求，得到标注结果。

例如，在子视频片段对应影视剧片段的情况下，聚类得到的每个类簇可能对应一个潜在的明星人物，通过将每个类簇发送给运营或外包进行标注，能够得到标注的明星人物，进而如果是新明星，则可以选择将该新明星相关的信息存储至人脸库中，使得后续针对其他待处理数据进行内容聚合时，可以依据更新后的人脸库进行身份识别。

这样，对于对应的业务对象未知的其他子视频片段，通过对语音帧特征进行聚合和请求标注，能够在子视频片段对应的业务对象不是已知的历史业务对象的情况下，实现业务对象的标注。

综合而言，在步骤2031-2032的处理过程中，处理设备可以根据子视频片段对应的各业务对象特征，与预存的历史业务对象的业务对象特征间的特征匹配情况，确定子视频片段对应的聚类程度，对于已知对应的业务对象的目标子视频片段，可以直接聚类目标子视频片段对应的语音帧；而对于未知对应的业务对象的其他子视频片段，可以通过从整体上聚类对应的各语音帧特征，得到各语音帧特征集，使得最终能够针对不同的业务对象确定关联的语音帧集。

这样，能够针对对应不同匹配结果的业务对象，差异性地采用不同的处理方式，分别确定各业务对象各自关联的语音帧集；在能够确定业务对象身份，即，子视频片段对应的业务对象是历史业务对象的情况下，能够通过直接聚类对应的目标子视频片段中的语音帧和删除异常语音帧的方式，生成业务对象关联的语音帧集；而对于无法确定业务对象身份，即子视频片段对应的业务对象不是历史业务对象的情况下，通过语音特征聚类和人工参与标注的方式，同样能够确定业务对象的身份，并能够确定其关联的语音帧集。因而在面对新老业务对象时，均能够针对性的构建语音帧集，为生成各业务对象各自对应的目标语音特征提供了生成依据。

步骤204：处理设备基于各业务对象各自关联的语音帧集，获得各业务对象各自对应的目标语音特征，并依据各业务对象各自对应的业务对象特征和目标语音特征，在待处理数据中，聚合各业务对象各自关联的数据内容。

在执行步骤204时，在一些可能的实现方式中，可以直接基于各业务对象各自关联的语音帧集，通过计算相应的语音帧集中各语音帧特征的均值，确定对应的目标语音特征，进而基于各业务对象各自对应的目标语音特征和业务对象特征，实现内容聚合。

在另一些可能的实施例中，可以借助于深度学习的方式，基于各业务对象各自关联的语音帧集生成各训练样本，并基于得到的训练样本训练说话对象识别模型，得到模型内部针对各业务对象生成的目标语音特征，进而借助于内部生成有各目标语音特征的目标说话对象识别模型，以及各业务对象各自对应的业务对象特征，实现内容聚合。

下面对步骤204执行时可以采用的两种方式进行分别说明：

方式一、直接借助于各业务对象各自关联的语音帧集确定各业务对象各自对应的目标语音特征。

在方式一的实现过程中，处理设备获取各业务对象各自对应的语音帧集后，针对每个业务对象，执行以下操作：基于对应的语音帧集，确定对应的语音帧特征集，并计算语音帧特征集中各语音帧特征的特征均值，以及将计算得到的特征均值，确定为对应的目标语音特征，其中，特征均值是通过计算各语音帧特征中每个特征位置的元素均值后，基于各特征位置的元素均值组合得到的。

与此同时，处理设备获取在与历史业务对象进行特征匹配时，以及在构建业务对象关联的语音帧集时综合确定的，各业务对象各自对应的业务对象特征后，可以确定各业务对象各自对应的业务对象特征和目标语音特征。

基于此，在待处理数据包括：由图像内容和语音内容构成的视频，以及视频关联的字幕集的情况下，处理设备在对待处理数据进行内容聚合的过程中，可以基于每个业务对象的业务对象特征，在图像内容中进行对象匹配，并针对每个业务对象，聚合得到对应的第一视频片段集；与此同时，将待处理数据的语音内容划分为各语音帧，并基于各语音帧各自对应的时间范围，将视频划分为各第二视频片段，并针对各语音帧，分别提取对应的语音帧特征，以及根据各语音帧特征各自与各目标语音特征的匹配情况，聚合得到各业务对象各自对应的第二视频片段集；再针对每个业务对象，基于对应的第一视频片段集和第二视频片段集，得到针对业务对象聚合得到的数据内容。

具体的，处理设备在聚合得到第一视频片时，可以针对图像内容中的每个视频帧进行业务对象提取，得到业务对象特征，并确定对应的业务对象；进而针对每个业务对象，从图像内容中切分出画面中包括该业务对象的各个第一视频片段，得到第一视频片段集，其中，一个业务对象对应的第一视频片段集中，不同第一视频片段对应的时间长度可能不同。

处理设备聚合得到第二视频片段集时，先根据字幕集中各字幕各自对应的时间范围，将待处理数据对应的视频划分为各第二视频片段，再提取每个视频片段对应的各语音帧特征；之后，针对每个业务对象，在各第二视频片段中，基于第二视频片段对应的各语音帧特征，与该业务对象的目标语音特征的匹配情况，确定该业务对象对应的第二视频片段集。

之后，针对每个业务对象，确定对应的第一视频片段集和第二视频片段集的交集，得到该业务对象的聚合结果。

需要说明的是，以一个业务对象对应的聚合结果为例，根据实际的处理需要，可以针对第一视频片段集和第二视频片段集的交集所覆盖的时间段进行聚合，得到各业务对象各自对应的时间聚合结果，或者，可以基于第一视频片段集和第二视频片段集的交集，聚合得到包括具体内容的视频片段集。

这样，能够在不额外构建神经网络模型的情况下，基于从待处理数据中抽取的各业务对象各自对应的语音帧集，直接生成在待处理数据范围内对应的各目标语音特征，进而通过从图像内容和音频内容两方面入手，对待处理数据中的内容进行不同层面的聚合，为内容聚合效果提供了保障，提高了内容聚合的完整性和准确性。

方式二、借助于神经网络模型确定各业务对象各自对应的目标语音特征。

本申请实施例中，处理设备基于各业务对象各自关联的语音帧集，获得各业务对象各自对应的目标语音特征的过程中，可以基于各业务对象各自关联的语音帧集，构建各训练样本，其中，一条训练样本包括：由语音帧构建的样本语音，以及针对该样本语音标注的样本对象；基于各训练样本，对预设的对象语音识别模型进行多轮迭代训练，得到训练后的目标对象语音识别模型，以及得到目标对象语音识别模型内部，分别针对各业务对象构建的目标语音特征。

具体的，为了生成各业务对象各自对应的目标语音特征，处理设备可以构建各业务对象各自对应的语音帧集，并依据各样本对象各自对应的语音帧集，生成各训练样本。

需要说明的是，由于本申请实施例中构建初始的对象语音识别模型的模型结构是灵活的，因此，可以根据实际的模型结构，适应性的构建训练样本，在可能的训练过程中，根据实际的处理需要，可以按照设定比例生成正样本和负样本，其中设定比例的取值根据实际的处理需要设置，本申请对此不做具体限制；正样本是指根据语音帧和业务对象的对应关系构建的样本，通常以业务对象作为标注的样本对象，基于该业务对象对应的语音帧确定对应的样本语音；负样本是指由不存在对应关系的语音帧和业务对象构建的样本，可以从一个业务对象的语音帧集中获取语音帧作为样本语音帧，并将其他业务对象标注为该样本语音帧对应的样本对象。

另外，对于本申请构建的对象语音识别模型而言，可以理解为通过模型进行说话对象辨认(Speaker Recognition，也称为声纹辨认)，能够根据待识别语音的声纹特征辨认该段语音所对应的说话对象。由于每个业务对象的发声器官的形状、尺寸和位置不同，导致了声带张力大小和声音频率的差异。可以理解的是，说话对象辨认任务最重能够实现的是，在给定说话对象范围的情况下，基于一个音频能够辨认来自哪个说话对象。

本申请实施例中，构建初始的对象语音识别模型可以基于身份向量(IdentityVector，i-vector)算法结构、d-vector算法结构，以及x-vector算法结构中的任意一种构建，其中，i-vector算法的主要思想是将语音信号的MFCC特征序列输入到高斯混合模型(GMM)中，然后根据GMM模型参数计算i-vector，i-vector算法的优点是可以有效地降低维度，提高语音识别的准确率；d-vector是最早的基于深度神经网络(Deep-Learning NeuralNetwork，DNN)的说话人识别算法，核心思想是在训练阶段将样本语音的真实说话人身份作为该样本语音的标签，它将模型训练转换为分类问题。x-vector是d-vector算法的改进，将音频的帧级特征的均值和标准差连接起来作为段级特征，最后通过标准前馈网络将段级特征分类到具体的说话对象。

下面以采用x-vector构建初始的对象语音识别模型为例，对模型内容的处理过程进行说明：

在采用x-vector架构构建初始的对象语音识别模型的情况下，构建的训练样本为，由归属于同一子视频片段的各语音帧构成的样本语音，以及针对该样本语音标注的样本对象。

参阅图2E所示，其为本申请实施例中对象语音识别模型的结构示意图，下面结合附图2E，对计算得到目标语音特征的过程进行说明：

在采用x-vector算法结构进行处理时，对输入的样本语音中包括的各语音帧进行MFCC特征提取，得到对应的各语音帧特征(即各MCFF特征)，其中，MFCC是一种常用于语音信号处理的特征，可以提取音频信号的频率和能量信息；再借助于BiRNN对各MFCC特征进行处理，之后，经过统计池化层(statistics pooling)的处理，将样本语音中各语音帧的BiRNN输出取均值(mean)和方差(varience)，再将得到的均值和方差拼接起来，实现序列级特征提取，其中，BiRNN是一种能够处理序列数据的神经网络，它具有前向和后向两个方向的隐层状态，可以在处理序列时考虑到上下文信息；统计池化层通常是一个全局平均池化层，可以将输入序列中的所有帧的特征求平均，得到一个固定长度的向量。

之后，借助于BiRNN，基于拼接得到的均值和方差，预测对应的说话对象，最终图2E中x-vector层的各特征，可以视为各说话人各自对应的目标语音特征；另外，为了减少计算量和模型复杂度，通常会对得到的x-vector层的特征进行降维处理，具体的，可以使用一个全连接层来实现降维，将x-vector映射到一个较低维度的向量；进而，将经过降维处理后的x-vector层的特征作为最终的输出。

在训练过程中，通常使用softmax分类器来对不同说话人的目标语音特征进行分类，预测对应的说话对象，进而通过计算模型损失调整模型参数，其中，采用的损失函数可以交叉熵损失函数；进而，在模型训练结果后，可以得到模型针对各样本对象，也即各业务对象分别构建的x-vector(即目标语音特征)。

这样，通过采用各业务对象对应的各语音帧构建训练样本，并依据构建的训练样本训练说话对象识别模型，使得借助于能够实现说话对象识别的模型，能够更深入地挖掘各业务对象的语音特征，提高了生成的各目标语音特征的可靠性，能够保障依据目标语音特征实现的说话对象鉴别的准确性。

之后，处理设备在聚合得到第一视频片段集时，可以针对图像内容中的每个视频帧进行业务对象提取，得到业务对象特征，并确定对应的业务对象，并针对每个业务对象，从图像内容中切分出画面中包括该业务对象的各个第一视频片段，得到第一视频片段集，其中，一个业务对象对应的第一视频片段集中，不同第一视频片段对应的时间长度可能不同。

处理设备聚合得到的第二视频片段集时，可以直接借助于训练得到的目标语音识别模型，根据从各句字幕对应的语音内容中提取的语音特征，与内部针对各业务对象构建的目标语音特征的匹配情况，分类确定对应的具体业务对象。

另外，可以将第一视频片段集和第二视频片段集取交集后，基于取视频片段交集后确定的、时间连续的各视频片段，构建视频片段集，此时，一个视频片段可能对应多个第一视频片段和第二视频片段的交集。

这样，借助于训练得到的神经网络模型，能够依据模型构建的各业务对象的目标语音特征，与待识别的视频片段中语音特征的匹配情况，快速并有效的识别语音对应的业务对象。

进一步的，在具体的视频播放场景下，处理设备可以响应于目标对象对于待处理数据中指定业务对象触发的内容播放指示，确定指定业务对象关联的目标数据内容，使得后续目标对象的播放设备上能够播放与该指定业务对象相关的视频内容。

具体的，处理设备可以响应于目标对象在关联的播放设备上，针对待处理数据中指定业务对象触发的内容展示请求，获取指定业务对象关联的目标数据内容；再将目标数据内容发送至播放设备，以使播放设备播放目标数据内容对应的视频数据。

需要说明的是，对于目标对象触发的内容展示请求而言，可以是目标对象在播放待处理数据对应的视频内容时触发的，或者，可以是目标对象在未播放待处理数据对应的视频内容之前触发的，本申请对此不做具体限制。

另外，考虑到目标数据内容可能具体对应时间聚合结果，或者，视频片段集；那么，在目标数据内容是时间聚合结果的情况下，可以基于时间聚合结果，在时间轴上标注出相应的播放范围，使得目标对象关联的播放设备在播放视频数据时，在无目标对象主动干预的情况下，按照时间顺序，播放相应的时间范围内的视频数据；

在目标数据内容是视频片段集的情况下，可以直接将视频片段集发送至目标对象关联的播放设备，使得该播放设备在播放视频数据时，在无目标对象主动干预的情况下，按照时间顺序，播放关联有时间信息的各视频片段。例如，对于一个视频片段对应的时间信息是00:05:10,000-00:07:15,300，则在播放该视频片段时，可以标识对应的时间信息。

下面结合附图，以对影视剧中不同明星扮演的角色进行内容聚合为例，对相关的处理过程进行说明：

参阅附图3所示，其为本申请实施例中针对影视剧进行内容聚合的过程示意图，根据图3示意的内容可知，在进行内容聚合的过程中，在处理设备内部可以分模块进行处理。

在视频按句切分模块对应的处理过程中，考虑到影视作品通常时常很长，例如电影通常是1-2小时，电视剧通常有几十集、每集几十分钟。在构建明星的目标语音特征时，可以从长视频中筛选出子视频，进而依据子视频完成目标语音特征的生成后，在长视频中进行内容聚合，其中，子视频中包括需要针对性进行内容聚合的、各个明星扮演的角色的多个说话片段。

例如，长视频是一部电视剧中几十集的内容，抽取的子视频可以是从中选取的几集电视剧。

对于一个完整长视频片源介质，通常包含两部分信息，一部分信息是其中的视频画面及音频、另一部分是视频中的字幕信息，常用的字幕文件格式为srt，其中，字幕srt文件包含了视频中每句话的起止时刻和视频文字内容。

处理设备在视频按句切分模块对应的处理过程中，基于每句台词的起止时刻将子视频切分为多个片段，每个片段包含了视频中的一句台词。最终，每个切分片段包含三个信息：视频画面片段、台词、语音。

在视频人物识别模块对应的处理过程中，对于上述切分的每个视频片段，识别视频当前画面中出现的明星人物。

具体的，可以先后进行人脸区域检测和人脸特征向量提取，提取每个图像帧中的人脸特征向量，再依据预先建立的包含多个人脸特征向量的人脸库中，识别能够匹配成功的明星，其中，人脸库可以是预先收集一批明星人物和他们对应的图片(称为参考图)，并基于人脸检测(MTCNN)和人脸识别(ArcFace)提取参考图的人脸特征向量后，根据明星与人脸特征向量的对应关系创建的。

在语音特征提取模块对应的处理过程中，针对切分的每个视频片段，提取语音片段中各语音帧各自对应的MFCC特征。

在未入库明星人物识别模型对应的处理过程中，考虑到在视频人物识别模块的处理过程中，在计算提取的人脸特征向量和人脸库中所有的人脸特征向量的相似度后，可能存在某些个人脸特征向量和人脸库中所有的特征向量都不相似或相似度没有超过给定阈值的情况，这会导致对应的人脸没有识别结果。

视频人物识别模块无法得到人脸识别结果的原因，通常有以下两点：该明星人物在人脸库中覆盖，但受人脸姿态、表情、光照、妆造等因素影响导致该图像和人脸库中特征向量的相似度不高，导致未输出；该明星人物在人脸库中未覆盖，导致无法识别改明星人物。

本申请提出的技术方案中，整体通过对语音特征的分析可以对人脸识别结果进行补充，虽然受人脸姿态、表情、光照、妆造等因素影响，从图像的层面未检出，但只要有明星的语音对话，即可通过语音识别补召。

面对该明星人物在人脸库中未覆盖，导致无法识别改明星人物的问题，在未入库明星人物识别模型对应的处理过程中，对于视频人物识别模块中有人脸检测但无人脸识别的所有视频片段(即能识别出有人脸但无法确定人脸具体是谁)，通过语音特征提取模块可以获得每个视频片段对应语音的MFCC特征。由于这些语音可能对应多个明星人物，故使用音频特征聚类算法(DBSCAN)将MFCC特征聚为多个簇，每个簇对应一个明星人物。进而，将每个类簇发送给运营或外包进行标注，如果是新明星，则将明星与人脸特征向量的对应关系存储至人脸库，从而后续的过程中可以识别出该明星人物。

在数据自标注模块对应的处理过程中，根据上述人物识别模块和语音特征提取模块的结果，自动化地收集不同明星的语音数据集(即语音帧集)，用于在采用神经网络模型构建各明星的目标语音特征时，生成训练样本。

在说话人识别模型训练模块对应的处理过程中，根据收集到的每个明星若干的语音生成训练样本，并基于训练样本训练基于深度学习的说话人识别模型。

进而，在说话人识别预测和汇总阶段，采用训练得到的说话人识别模型，对长视频中各视频片段中的语音进行说话人识别，最终将针对每个明星识别的片段汇总，得到该明星基于说话人识别的“只看Ta”识别结果，其中，“只看Ta”是指为了满足观看需求：只观看指定明星相关的内容，构建的处理方式。

将该结果和从图像内容层面获得的“只看Ta”结果进行合并，即将两者识别的视频片段取并集，最终返回给用户。

这样，从用户观看的层面，由于影视剧作品围绕明星人物展开，用户在观看电视剧或者综艺时通过“只看Ta”功能，可以选择自己喜欢的明星，自动跳转播放每集含该明星的所有片段，提升了用户的观看体验。此外，“只看Ta”功能的出现能够帮助用户确定明星的表演片段，了解在影视作品中单集的出场时间，从而满足个性化的观看需要。

需要说明的是，本申请实施例中，考虑到影视剧中边说话边配背景音乐的情况不多，而且语音帧集可以理解为从影视剧的语音内容中抽取的，因此，可以忽略可能存在的背景音乐，对于明星语音识别的影响。

参阅图4所示，其为本申请实施例中内容聚合效果示意图。根据附图4描述的内容可知，时间00:05:10,000-00:05:15,300之间的视频中包括语音内容和图像内容，时间00:05:15,300-00:05:20,30之间的视频中仅包括图像内容，时间00:05:20,30-00:05:25:130之间的视频中包括无人脸的图像内容和语音内容。在两句台词都是由“明星1扮演的角色1”所说的情况下，采用本申请提出的技术方案，播放时间在00:05:10,000-00:05:25:130内的视频都会被聚合为明星1扮演的角色1所对应的数据内容。

基于上述处理过程综合可知，本申请提出的技术方案中，首先通过影视按句切分模块对子视频按台词切分为若干个视频片段；其次通过视频人物识别模块基于每个视频片段的画面信息进行明星人物识别，通过语音特征提取模块基于每个视频片段的语音信息提取MFCC特征；对于有人脸检测但无人脸识别结果的视频片段，通过未入库明星人物识别模块先通过MFCC特征聚类，再经过人工校验，挖掘出可能未入库的新明星人物；通过数据自标注模块将视频片段按出现的明星人物进行汇总，再通过异常检测算法去除噪声数据，得到每个明星的语音帧集作为训练数据；然后通过说话人识别模型训练模块基于上述训练数据训练说话人识别模型；最后通过说话人识别预测和汇总模块对每个视频片段的语音进行说话人识别，并从语音的层面上，汇总每个明星的结果。

这样，基于本申请提出的内容聚合方式，即使视频画面中没有包含某个明星，但基于说话人识别信息可以找到某明星的说话的所有片段，从而针对每个明星，在“只看TA”的业务需求下(即仅观看影视剧中指定明星扮演的角色相关的视频内容)，能够聚合得到更完整的视频内容，不会因为该角色在说话，但是视频画面中没有该角色而导致内容聚合缺失。

而且，相比于现有技术下的语音识别方式，本申请具有显著的进步，假设采用常规的语音识别方式进行识别，则需要事先进行语音注册，即事先上传每个明星的音频，提取语音特征，存到注册语音库中，进而对于影视剧内容，提取特征后和注册语音库中的特征进行相似度比对，找到最相似的特征，预测为该明星。然而，常规做法有几点局限：需要手工上传；对于小众或新热明星注册语音库会缺失，造成无法识别；有的剧存在他人配音，导致剧中语音和明星本人语音不符，这会导致无法识别。

相比之下，本申请不需要事先注册语音，而是从影视剧内容中基于人脸识别明星信息、提取传统MFCC语音特征，然后对每个明星的语音进行异常检测去除噪声，之后可以将明星信息和语音进行对应，建立明星对应的语音帧集。这种做法存在的优点是：不需要手工上传；对于小众或新热明星，只要有明星人脸识别结果即可添加到语音库，进而可以语音识别；有的剧存在他人配音，但由于本申请从影视剧内容本身进行提取，他人配音情况下也能识别。

此外，基于本申请提出的技术方案，可以在新剧上架阶段，结合图像和语音信息对未入库的明星信息进行收集，之后经过运营或标注人工校验后加入明星人脸库中，因此可以动态增大可识别的明星人脸库范围，提高“只看Ta”功能对明星的覆盖量。

基于同一发明构思，参阅图5所示，其为本申请实施例中内容聚合装置的逻辑结构示意图，内容聚合装置500中包括获取单元501、提取单元502、聚类单元503，以及聚合单元504，其中，

获取单元501，用于从待处理数据中获取包含各业务对象的子数据；子数据中包括：由子图像内容和子语音内容构成的子视频，以及子视频关联的子字幕集；

提取单元502，用于基于子字幕集中各句字幕各自关联的时间范围，将子视频划分为各子视频片段，并针对每个子视频片段，执行以下操作：基于对应的各图像帧，提取各业务对象特征，以及基于对应的各语音帧，提取各语音帧特征；

聚类单元503，用于根据各子视频片段各自对应的各业务对象特征，与预存的各历史业务对象的业务对象特征间的匹配情况，结合各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到各业务对象各自关联的语音帧集；

聚合单元504，用于基于各业务对象各自关联的语音帧集，获得各业务对象各自对应的目标语音特征，并依据各业务对象各自对应的业务对象特征和目标语音特征，在待处理数据中，聚合各业务对象各自关联的数据内容。

可选的，结合各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到各业务对象各自关联的语音帧集时，聚类单元503用于：

在各子视频片段中，确定已知对应的业务对象的目标子视频片段和未知对应的业务对象的其他子视频片段；

基于目标子视频片段，构建关联有相应的业务对象的语音帧集，并聚类其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集。

可选的，基于目标子视频片段，构建关联有相应的业务对象的语音帧集，聚类单元503还用于：

确定对应的目标子视频片段中包括的各语音帧，以及各语音帧各自对应的语音帧特征，并采用预设的异常检测算法，通过检测各语音帧特征，确定各语音帧中的异常语音帧；

基于删除异常语音帧的各语音帧，构建关联的语音帧集。

可选的，聚类其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集时，聚类单元503用于：

针对其他子视频片段对应的各语音帧特征，采用预设的聚类算法，聚类相似性满足设定条件的语音帧特征，得到各语音帧特征集；

基于聚类得到的各语音帧特征集触发标注请求，得到对于各语音帧特征集分别标注的业务对象，并根据各语音帧特征集中的语音帧特征，与语音帧之间的对应关系，得到标注有关联的业务对象的各语音帧集。

可选的，确定已知对应的业务对象的目标子视频片段时，聚类单元503用于：

针对每个子视频片段，执行以下操作：

当预存的各历史业务对象的业务对象特征中，存在与子视频片段关联的各业务对象特征分别匹配成功的目标业务对象特征时，确定各目标业务对象特征各自对应的目标历史业务对象；

在确定各目标历史业务对象对应相同历史业务对象时，将子视频片段确定为已知对应的业务对象的一个目标子视频片段。

可选的，确定各目标历史业务对象对应不同历史业务对象时，聚类单元503用于执行以下操作中的任意一项：

将子视频片段判定为，未知对应的业务对象的其他子视频片段；

基于子视频片段触发对象标注请求，并基于获取的业务对象标注结果，确定子视频片段对应的指定业务对象，以及将子视频片段确定为对应指定业务对象的一个目标子视频片段。

可选的，确定未知对应的业务对象的其他子视频片段时，聚类单元503用于：

针对每个子视频片段，执行以下操作：

当预存的各历史业务对象的业务对象特征中，不存在与子视频片段关联的各业务对象特征分别匹配成功的目标业务对象特征时，将子视频片段确定为未知对应的业务对象的一个其他子视频片段。

可选的，待处理数据包括：由图像内容和语音内容构成的视频，以及视频关联的字幕集；依据各业务对象各自对应的业务对象特征和目标语音特征，在待处理数据中，聚合各业务对象各自关联的数据内容时，聚合单元504用于：

基于每个业务对象的业务对象特征，在图像内容中进行对象匹配，并针对每个业务对象，聚合得到对应的第一视频片段集；

将待处理数据的语音内容划分为各语音帧，并基于各语音帧各自对应的时间范围，将视频划分为各第二视频片段，并针对各语音帧，分别提取对应的语音帧特征，以及根据各语音帧特征各自与各目标语音特征的匹配情况，聚合得到各业务对象各自对应的第二视频片段集；

针对每个业务对象，基于对应的第一视频片段集和第二视频片段集，得到针对业务对象聚合得到的数据内容。

可选的，基于对应的各图像帧，提取各业务对象特征时，提取单元502用于：

确定对应的子图像内容中包括的各图像帧，并采用预设的区域检测算法，在各图像帧中分别检测出包含业务对象的业务对象区域；

采用预设的特征提取算法，分别对各图像帧中的业务对象区域进行特征提取，得到对应的业务对象特征。

可选的，基于对应的各语音帧，提取各语音帧特征时，提取单元502用于：

将子视频片段对应的子语音内容片段拆分为各语音帧，并针对拆分得到的各语音帧分别进行加窗处理，得到处理后的各语音帧；

针对处理后的各语音帧，分别采用预设的语音特征提取技术，提取得到对应的梅尔频率倒谱系数MFCC特征。

可选的，基于各业务对象各自关联的语音帧集，获得各业务对象各自对应的目标语音特征时，聚合单元504用于包括：

基于各业务对象各自关联的语音帧集，构建各训练样本，其中，一条训练样本包括：由语音帧构建的样本语音，以及标注的样本对象；

基于各训练样本，对预设的对象语音识别模型进行多轮迭代训练，得到训练后的目标对象语音识别模型，以及得到目标对象语音识别模型内部，分别针对各业务对象构建的目标语音特征。

可选的，在待处理数据中，聚合各业务对象各自关联的数据内容之后，装置还包括响应单元505，响应单元505用于：

响应于目标对象在关联的播放设备上，针对待处理数据中指定业务对象触发的内容展示请求，获取指定业务对象关联的目标数据内容；

将目标数据内容发送至播放设备，以使播放设备播放目标数据内容对应的视频数据。

在介绍了本申请示例性实施方式的内容聚合方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备，其中，该电子设备具体对应图1所示的处理设备110，参阅图6所示，其为应用本申请实施例的一种电子设备的一个硬件组成结构示意图，电子设备600可以至少包括处理器601、以及存储器602。其中，存储器602存储有计算机程序，当计算机程序被处理器601执行时，使得处理器601执行上述任意一种内容聚合的步骤。

在一些可能的实施方式中，本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的内容聚合的步骤。例如，处理器可以执行如图2A中所示的步骤。

下面参照图7来描述根据本申请的这种实施方式的电子设备700。如图7所示，其为本申请实施例中另一种电子设备的一个硬件组成结构示意图，电子设备700具体对应图1所示的客户端设备120。电子设备700的组件可以包括但不限于：上述至少一个处理单元701、上述至少一个存储单元702、连接不同系统组件(包括存储单元702和处理单元701)的总线703。

总线703表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元702可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022，还可以进一步包括只读存储器(ROM)7023。

存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025，这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备700也可以与一个或多个外部设备704(例如键盘、指向设备等)通信，还可与一个或者多个使得对象能与电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且，电子设备700还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器706通过总线703与用于电子设备700的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的内容聚合的各个方面还可以实现为一种计算机程序产品的形式，其包括计算机程序，当计算机程序产品在图6或图7中所示意的电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的内容聚合方法中的步骤，例如，电子设备可以执行如图2A中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种内容聚合方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述结合所述各子视频片段各自对应的各语音帧中语音帧特征的聚类结果，得到所述各业务对象各自关联的语音帧集，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述目标子视频片段，构建关联有相应的业务对象的语音帧集，还包括：

4.如权利要求2所述的方法，其特征在于，所述聚类所述其他子视频片段对应的各语音帧特征，得到标注有关联的业务对象的语音帧集，包括：

5.如权利要求2所述的方法，其特征在于，所述确定已知对应的业务对象的目标子视频片段，包括：

针对每个子视频片段，执行以下操作：

6.如权利要求5所述的方法，其特征在于，确定各目标历史业务对象对应不同历史业务对象时，执行以下操作中的任意一项：

7.如权利要求2所述的方法，其特征在于，确定未知对应的业务对象的其他子视频片段，包括：

针对每个子视频片段，执行以下操作：

8.如权利要求1所述的方法，其特征在于，所述待处理数据包括：由图像内容和语音内容构成的视频，以及所述视频关联的字幕集；所述依据所述各业务对象各自对应的业务对象特征和目标语音特征，在所述待处理数据中，聚合所述各业务对象各自关联的数据内容，包括：

9.如权利要求1-8任一项所述的方法，其特征在于，所述基于对应的各图像帧，提取各业务对象特征，包括：

10.如权利要求1-8任一项所述的方法，其特征在于，所述基于对应的各语音帧，提取各语音帧特征，包括：

11.如权利要求1-8任一项所述的方法，其特征在于，所述基于所述各业务对象各自关联的语音帧集，获得所述各业务对象各自对应的目标语音特征，包括：

12.如权利要求1-8任一项所述的方法，其特征在于，所述在所述待处理数据中，聚合所述各业务对象各自关联的数据内容之后，还包括：

13.一种内容聚合装置，其特征在于，包括：

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。