CN116962836A

CN116962836A - 弹幕的对齐方法、装置、设备、存储介质及程序产品

Info

Publication number: CN116962836A
Application number: CN202310459116.0A
Authority: CN
Inventors: 徐琛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-10-27

Abstract

本申请公开了一种弹幕的对齐方法、装置、设备、存储介质及程序产品，属于多媒体播放技术领域。该方法包括：获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；基于音频时序匹配，确定所述第一音频特征和所述第二音频特征中特征匹配的音频匹配时间段；将所述第二视频中所述音频匹配时间段对应的弹幕，设置为所述第一视频中所述音频匹配时间段对应的弹幕。本申请基于音频特征对第一视频和第二视频中的弹幕进行音频时序匹配，将第二视频中匹配的时间段对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，从而减小了误差，实现了弹幕的精准对齐。

Description

弹幕的对齐方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及多媒体播放技术领域，特别涉及一种弹幕的对齐方法、装置、设备、存储介质及程序产品。

背景技术

随着视频技术的发展，视频播放软件往往设置有弹幕功能，弹幕是指观看视频时弹出的评论性字幕。

同一视频在不同的播放时期会产生新的弹幕，但由于广告插播或审核的原因，同一视频在不同的播放时期会进行不同的剪辑处理，即，同一视频在不同的播放时期的播放内容可能不完全相同。相关技术提供了一种弹幕的对齐方法，通过画面匹配的方法进行弹幕的对齐，即，从新视频和旧视频中提取画面帧，将相同画面帧对应的时间段的弹幕进行替换，从而实现弹幕对齐。

然而，在一段视频中会出现很多静止或连续变化幅度不大的画面，相关技术中通过画面匹配的方法进行弹幕的对齐的方法很难匹配到正确的弹幕时间段，导致误差较大，无法实现弹幕的精准对齐。

发明内容

本申请提供了一种弹幕的对齐方法、装置、设备、存储介质及程序产品，能够基于音频特征进行音频时序匹配，实现弹幕的精准对齐。所述技术方案如下：

根据本申请的一方面，提供了一种弹幕的对齐方法，所述方法包括：

获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；所述第一视频和所述第二视频隶属于同一个原始视频；

基于音频时序匹配，确定所述第一音频特征和所述第二音频特征中特征匹配的音频匹配时间段；所述音频时序匹配是指将所述第一音频特征中不同时间段的音频特征与所述第二音频特征中不同时间段的音频特征进行匹配；

将所述第二视频中所述音频匹配时间段对应的弹幕，设置为所述第一视频中所述音频匹配时间段对应的弹幕。

根据本申请的一方面，提供了一种弹幕的对齐装置，所述装置包括：

获取模块，用于获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；所述第一视频和所述第二视频隶属于同一个原始视频；

匹配模块，用于基于音频时序匹配，确定所述第一音频特征和所述第二音频特征中特征匹配的音频匹配时间段；所述音频时序匹配是指将所述第一音频特征中不同时间段的音频特征与所述第二音频特征中不同时间段的音频特征进行匹配；

设置模块，用于将所述第二视频中所述音频匹配时间段对应的弹幕，设置为所述第一视频中所述音频匹配时间段对应的弹幕。

根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的弹幕的对齐方法。

根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的弹幕的对齐方法。

根据本申请的另一方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如上方面所述的弹幕的对齐方法。

本申请提供的技术方案带来的有益效果至少包括：

通过获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段；将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕。本申请基于音频特征对第一视频和第二视频中的弹幕进行音频时序匹配，将第二视频中匹配的时间段对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，从而减小了误差，实现了弹幕的精准对齐。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种弹幕的对齐方法的示意图；

图2是本申请一个示例性实施例提供的计算机系统的架构示意图；

图3是本申请一个示例性实施例提供的弹幕的对齐方法的流程图；

图4是本申请一个示例性实施例提供的弹幕的对齐方法的流程图；

图5是本申请一个示例性实施例提供的训练特征提取网络的示意图；

图6是本申请一个示例性实施例提供的特征提取网络提取特征的示意图；

图7是本申请一个示例性实施例提供的视频中的时间段的示意图；

图8是本申请一个示例性实施例提供的视频播放界面上的弹幕的示意图；

图9是本申请一个示例性实施例提供的视频播放界面上的弹幕的示意图；

图10是本申请一个示例性实施例提供的视频播放界面上的弹幕的示意图；

图11是本申请一个示例性实施例提供的弹幕的对齐方法的流程图；

图12是本申请一个示例性实施例提供的弹幕的对齐方法的流程图；

图13是本申请一个示例性实施例提供的弹幕的对齐装置的框图；

图14是本申请一个示例性实施例提供的计算机设备的结构示意图；

图15是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种弹幕的对齐方法的示意图，如图1所示，该方法可以由计算机设备执行，计算机设备可以是终端或服务器。

示例性地，计算机设备获取属于第一视频10的第一音频信号对应的第一音频特征20，以及获取属于第二视频30的第二音频信号对应的第二音频特征40；计算机设备基于第一音频特征20和第二音频特征40进行音频时序匹配，确定第一音频特征20和第二音频特征40中特征匹配的匹配时间段；计算机设备将第二视频30中匹配时间段对应的弹幕，设置为第一视频10中音频匹配时间段对应的弹幕。

第一视频10和第二视频30隶属于同一个原始视频。

音频时序匹配是指将第二音频特征40中不同时间段的音频特征与第一音频特征20中不同时间段的音频特征进行匹配。

弹幕是指在视频播放界面上层叠加显示的用户针对视频发表的评论性字幕。

可选地，弹幕可被设置为携带有发布角色的弹幕，如，某弹幕为“老王：终于要买房子了！！！”，“小李：要升职了！！！”。

可选地，弹幕可被设置为具有颜色特征的弹幕，如彩色字体的“哈哈哈哈哈”。

可选地，弹幕可被设置为具有尺寸特征的弹幕，如五号字体的“前方高能”。

可选的，弹幕的表现形式包括但不限于文字、图片和语音中的至少一种，本申请对此不加限定。

例如，在视频播放场景中，在播放第一视频10时，第二视频30中已经存在弹幕，计算机设备基于音频时序匹配，确定第一音频特征20和第二音频特征40中特征匹配的匹配时间段，计算机设备将第二视频30中匹配时间段对应的弹幕显示于第一视频10中，即，在第一视频10中既能看到当前时刻的弹幕，又能看到在第二视频30中的对应时刻的历史弹幕，比如，以删减版的影视剧作为第二视频30、以未删减版的影视剧作为第一视频10，影视剧中有石猴出生的场景，在第二视频30中石猴出生时对应的时间进度条为5:30，此刻的弹幕为“终于出生了”，在第一视频10中石猴出生时对应的时间进度条为7:28，此刻在第一视频10播放界面中依然可以看到弹幕“终于出生了”，即，在第一视频10的时间进度条7:28处可以看到第二视频30中的时间进度条5:30对应的弹幕。

示例性地，计算机设备计算第一音频特征20中单个时间段的音频特征和第二音频特征40中单个时间段的音频特征之间的相似度值；基于相似度值，确定第一音频特征20和第二音频特征40中特征匹配的音频匹配时间段。

可选地，相似度值包括余弦距离值、欧式距离、标准欧式距离、汉明距离中的至少一种，但不限于此，本申请实施例对此不作具体限定。

可选地，以相似度值为余弦距离值为例，计算机设备计算第二音频特征40中单个时间段的音频特征与第一音频特征20中单个时间段的音频特征之间的余弦距离值；计算机设备基于余弦距离值，将余弦距离值小于音频匹配阈值的时间段确定为音频匹配时间段。

例如，如图1所示，第二视频30中第二音频特征40中的0.1s-0.2s的音频特征与第一音频特征20中的0.2s-0.3s的音频特征相匹配、第二音频特征40中的0.2s-0.3s的音频特征与第一音频特征20中的0.3s-0.4s的音频特征相匹配、第二音频特征40中的0.3s-0.4s的音频特征与第一音频特征20中的0.4s-0.5s的音频特征相匹配、第二音频特征40中的0.4s-0.5s的音频特征与第一音频特征20中的0.5s-0.6s的音频特征相匹配、第二音频特征40中的0.5s-0.6s的音频特征与第一音频特征20中的0.6s-0.7s的音频特征相匹配，计算机设备将第二视频30中匹配时间段对应的弹幕设置为第一视频10中音频匹配时间段对应的弹幕，即，将第二音频特征40中0.1s-0.6s对应的弹幕分别显示在第一视频10中的0.2s-0.7s中。

在一些实施例中，计算机设备基于音频匹配时间段的位置和数量，确定音频匹配时间组；计算机设备将第二视频中属于音频匹配时间组的音频匹配时间段对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕。

音频匹配时间组包括至少两个音频匹配时间段。

可选地，计算机设备将三个以上且连续的音频匹配时间段确定为音频匹配时间组，计算机设备仅将第二视频中属于音频匹配时间组中的音频匹配时间段对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，即，不设置第二视频中连续但少于三个的音频匹配时间段对应的弹幕，或，不设置第二视频中三个以上但不连续的音频匹配时间段对应的弹幕。

例如，如图1所示，第二视频30的二音频特征40中的0.1s-0.6s的音频特征与第一音频特征20中的0.2s-0.7s的音频特征相匹配，第二音频特征40中的音频匹配时间段在时间上连续且个数达到5个，因此，计算机设备将0.1s到0.6s的音频匹配时间段确定为音频匹配时间组，计算机设备将第二视频30中音频匹配时间组对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，即，计算机设备将第二音频特征40中0.1s-0.6s对应的弹幕分别显示在第一视频10中的0.2s-0.7s中。

可选地，音频匹配时间组是基于弹幕的出现时间来进行划分的。

例如，弹幕的出现时间段是1s-6s，则基于1s-6s进行划分，得到音频匹配时间组。

在一些实施例中，计算机设备将第一音频信号输入至预训练特征提取网络中进行特征提取，得到第一音频信号对应的第一音频特征；计算机设备将第二音频信号输入至预训练特征提取网络中进行特征提取，得到第二音频信号对应的第二音频特征。

预训练特征提取网络的训练方法包括：

计算机设备获取样本音频信号、正样本音频信号和负样本音频信号；计算机设备将样本音频信号、正样本音频信号和负样本音频信号输入至特征提取网络进行特征提取，得到样本音频信号对应的样本音频特征、正样本音频信号对应的正样本音频特征和负样本音频信号对应的负样本音频特征；计算机设备基于样本音频特征、正样本音频特征和负样本音频特征，计算特征提取网络的训练损失；计算机设备根据训练损失对特征提取网络进行训练，得到预训练特征提取网络。

正样本音频信号是对样本音频信号的音频内容和/或播放形式进行编辑得到的音频信号。

负样本音频信号是指样本音频信号之外的任意一个音频信号。

可选地，对样本音频信号的音频内容和/或播放形式进行编辑的方式包括：添加背景音乐编辑、倍数播放编辑、音调调整编辑、删减编辑中的至少一种，但不限于此，本申请实施例对此不作具体限定。

示例性地，计算机设备基于样本音频特征和正样本音频特征，计算样本音频特征和正样本音频特征之间的第一距离值；计算机设备基于样本音频特征和负样本音频特征，计算样本音频特征和正样本音频特征之间的第二距离值；计算机设备基于第一距离值和第二距离值，计算特征提取网络的训练损失。

综上所述，本实施例提供的方法，通过获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段；将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕。本申请基于音频特征对第一视频和第二视频中的弹幕进行音频时序匹配，将第二视频中匹配的时间段对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，从而减小了误差，实现了弹幕的精准对齐。

图2示出了本申请一个实施例提供的计算机系统的架构示意图。该计算机系统可以包括：终端100和服务器200。

终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(Personal Computer，PC)、智能家电、车载终端、飞行器、无人售货终端等电子设备。终端100中可以安装运行目标应用程序的客户端，该目标应用程序可以是参考弹幕交互的应用程序，也可以是提供有弹幕交互功能的其他应用程序，本申请对此不作限定。另外，本申请对该目标应用程序的形式不作限定，包括但不限于安装在终端100中的应用程序(Application，App)、小程序等，还可以是网页形式。

服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工掌部图像识别平台等基础云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器，用于为目标应用程序的客户端提供后台服务。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

终端100和服务器200之间可以通过网络进行通信，如有线或无线网络。

本申请实施例提供的弹幕的对齐方法，各步骤的执行主体可以是计算机设备，所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图2所示的方案实施环境为例，可以由终端100执行弹幕的对齐方法(如终端100中安装运行的目标应用程序的客户端执行弹幕的对齐方法)，也可以由服务器200执行该弹幕的对齐方法，或者由终端100和服务器200交互配合执行，本申请对此不作限定。

图3是本申请一个示例性实施例提供的弹幕的对齐方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤302：获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征。

第一视频和第二视频隶属于同一个原始视频。

可选地，第一视频和第二视频的种类组合包括以下的任意一种：

·第一视频和第二视频是基于同一个原始视频经过不同的编辑处理得到的，即，第一视频是将原始视频经过第一编辑处理得到的视频，第二视频是将原始视频经过第二编辑处理得到的视频；

·第一视频是原始视频，第二视频是将原始视频经过第二编辑处理得到的视频；

·第一视频是将原始视频经过第一编辑处理得到的视频，第二视频是原始视频。

可选地，编辑处理包括添加背景音乐编辑、倍数播放编辑、音调调整编辑、删减编辑、添加广告编辑、删除广告编辑、删除片头编辑、删除片尾编辑中的至少一种，但不限于此，本申请实施例对此不作具体限定。

获取原始视频的方式包括如下情况中的至少一种：

1、计算机设备接收原始视频，例如：终端为发起视频录制的终端，通过终端录制视频，并在录制结束后，得到原始视频。

2、计算机设备从已存储的数据库中获取原始视频，如：在视频数据库中，获取至少一个待播放的原始视频。

值得注意的是，上述获取原始视频的方式仅为示意性的举例，本申请实施例对此不加以限定。

步骤304：基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段。

音频时序匹配是指将第二音频特征中不同时间段的音频特征与第一音频特征中不同时间段的音频特征进行匹配。

不同时间段是指根据时间顺序将音频特征进行分段，例如，1秒的视频对应的音频特征分为10份，则，得到0.1秒的视频对应的音频特征。

可选地，音频时序的匹配方式包括将第二音频特征中的单个时间段的音频特征与第一音频特征中的单个时间段的音频特征进行依次匹配，或，将第二音频特征中的多个时间段的音频特征组合与第一音频特征中的多个时间段的音频特征组合进行依次匹配，或，将第二音频特征中的间歇分布的时间段的音频特征组合与第一音频特征中的间歇分布的时间段的音频特征组合进行依次匹配中的至少一种，但不限于此，本申请实施例对此不作具体限定。

步骤306：将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕。

可选地，弹幕可被设置为携带有发布角色的弹幕。

示例性的，计算机设备将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕。

可选地，计算机设备将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕，则在第一视频中可以仅显示第二视频中音频匹配时间段对应的弹幕，或，在第一视频中可以仅显示第一视频中音频匹配时间段对应的弹幕，或，在第一视频中同时显示第一视频和第二视频中音频匹配时间段对应的弹幕。

在一些实施例中，在计算机设备将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕之后，在再次播放该第二视频的情况下，在第二视频中显示第一视频中音频匹配时间段对应的弹幕。

图4是本申请一个示例性实施例提供的弹幕的对齐方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤402：获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征。

预训练特征提取网络是指已经训练完成的特征提取网络。

可选地，特征提取网络选用Wav2vec模型、Wav2vec2.0模型中的任意一个。

预训练特征提取网络的训练方法包括：

计算机设备使用度量学习Metric Learning技术，训练特征提取网络去学习音频信号之间的相似性。具体的，计算机设备获取样本音频信号(简称：锚点anchor)、正样本音频信号和负样本音频信号；计算机设备将样本音频信号、正样本音频信号和负样本音频信号输入至特征提取网络进行特征提取，得到样本音频信号对应的样本音频特征、正样本音频信号对应的正样本音频特征和负样本音频信号对应的负样本音频特征；计算机设备基于样本音频特征、正样本音频特征和负样本音频特征，计算特征提取网络的训练损失；计算机设备根据训练损失对特征提取网络进行训练，得到预训练特征提取网络。

正样本音频信号(简称：正样本positive)是对样本音频信号的音频内容和/或播放形式进行编辑得到的音频信号。

负样本音频信号(简称：负样本negative)是指样本音频信号之外的任意一个音频信号。

其中，样本音频信号、正样本音频信号和负样本音频信号构成三元组样本，三元组样本中，样本音频信号和正样本音频信号构成正样本对，样本音频信号和负样本音频信号构成负样本对。

如图5所示出的训练特征提取网络的示意图，计算机设备获取样本音频信号501和负样本音频信号503；计算机设备对样本音频信号501的音频内容和/或播放形式进行编辑得到正样本音频信号502。计算机设备将样本音频信号501、正样本音频信号502和负样本音频信号503输入至特征提取网络504进行特征提取，得到样本音频信号501对应的样本音频特征、正样本音频信号502对应的正样本音频特征和负样本音频信号503对应的负样本音频特征；计算机设备基于样本音频特征、正样本音频特征和负样本音频特征，计算特征提取网络的训练损失505；计算机设备根据训练损失505对特征提取网络504进行训练，得到预训练特征提取网络。

例如，在训练的过程中，样本音频特征和正样本音频特征之间的第一距离值越来越小，样本音频特征和正样本音频特征之间的第二距离值越来越大，计算机设备基于第一距离值和第二距离值，计算特征提取网络的训练损失，从而完成特征提取网络的训练。

可选地，计算机设备根据训练损失对特征提取网络的网络参数进行更新，得到预训练特征提取网络。

网络参数更新是指对特征提取网络里面的网络参数进行更新，但不限于此，本申请实施例对此不作限定。

可选地，计算机设备基于训练损失，将训练损失作为训练指标对特征提取网络的网络参数进行更新，直至损失函数值发生收敛，从而得到训练完成的特征提取网络，即预训练特征提取网络。

损失函数值发生收敛是指损失函数值不再发生改变，或，特征提取网络的训练时相邻两次迭代之间的误差差别小于预设值，或，特征提取网络的训练次数达到预设次数中的至少一种，但不限于此，本申请实施例对此不作限定。

可选的，训练满足的目标条件可以为初始模型的训练迭代次数达到目标次数，技术人员可以预先设定训练迭代次数。或者，训练满足的目标条件可以为损失值满足目标阈值条件，但不限于此，本申请实施例对此不作限定。

示例性地，如图6所示出的特征提取网络提取特征的示意图，计算机设备在进行音频特征提取时，计算机设备将待提取视频的音频信号601按照16KHZ采样率进行降采样，并按照时间顺序切割成每段0.1s长度的片段音频信号(也可称为脉冲编码调制片段数据(Pulse Code Modulation Segment Data，PSD))，计算机设备将PSD送进预训练特征提取网络602，得到音频特征603，其中，每0.1s的PSD就可以得到一个音频特征片段，计算机设备将这些音频特征片段按照时间顺序存储在一个文件中，得到该视频的音频特征603。

步骤404：基于第一音频特征中单个时间段的音频特征和第二音频特征中单个时间段的音频特征之间的相似度值，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段。

可选地，时间段的长度的确定方式包括以下中的至少一种：

·基于音频信号中的声音信号能量值进行音频信号的区域划分，将声音信号能量值低于预设能量阈值的区域对应的时间段的长度设置为第一步长，将声音信号能量值高于预设能量阈值的区域对应的时间段的长度设置为第二步长；

·基于音频信号中的声音信号的过零率进行音频信号的区域划分，将过零率低于预设过零阈值的区域对应的时间段的长度设置为第一步长，将高于预设过零阈值的区域对应的时间段的长度设置为第二步长；过零率是指声音信号能量值高于预设能量阈值的时长与音频信号的时长的比值；

·基于音频信号的音频结构进行区域划分，将不同区域设置不同的步长。

例如，计算机设备利用语音动态检测(Voice Activity Detection，VAD)技术，基于音频信号中的声音信号能量值进行音频信号的区域划分，将声音信号能量值低于预设能量阈值的区域设置为静区域，将声音信号能量值高于预设能量阈值的区域设置为闹区域，静区域对应的时间段的长度大于闹区域对应的时间段的长度。

例如，计算机设备利用VAD技术，基于音频信号中的声音信号的过零率进行音频信号的区域划分，将过零率低于10％的区域设置为静区域，将过零率高于10％的区域设置为闹区域，静区域对应的时间段的长度大于闹区域对应的时间段的长度。

音频信号的音频结构包括前端音频、中间端音频、尾端音频中的至少一种，但不限于此，本申请实施例对此不作具体限定。

例如，计算机设备基于音频信号的音频结构进行区域划分，将前端音频部分和尾端音频对应的区域设置的时间段的长度大于中间端音频对应的区域设置的时间段的长度。比如，前端音频部分对应的时间段的长度为1秒、中间端音频对应的时间段的长度为0.1秒。

示例性的，计算机设备计算第一音频特征中单个时间段的音频特征和第二音频特征中单个时间段的音频特征之间的相似度值；基于相似度值，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段。

可选地，以相似度值为余弦距离值为例，计算机设备计算第二音频特征中单个时间段的音频特征与第一音频特征中单个时间段的音频特征之间的余弦距离值；计算机设备基于余弦距离值，将余弦距离值小于音频匹配阈值的时间段确定为音频匹配时间段。

例如，第二视频中第二音频特征中的0.1s-0.2s的音频特征与第一音频特征中的0.2s-0.3s的音频特征相匹配、第二音频特征中的0.2s-0.3s的音频特征与第一音频特征中的0.3s-0.4s的音频特征相匹配、第二音频特征中的0.3s-0.4s的音频特征与第一音频特征中的0.4s-0.5s的音频特征相匹配、第二音频特征中的0.4s-0.5s的音频特征与第一音频特征中的0.5s-0.6s的音频特征相匹配、第二音频特征中的0.5s-0.6s的音频特征与第一音频特征中的0.6s-0.7s的音频特征相匹配，计算机设备将第二视频中匹配时间段对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，即，将第二音频特征中0.1s-0.6s对应的弹幕分别显示在第一视频中的0.2s-0.7s中。

音频匹配时间组包括至少两个音频匹配时间段。

例如，一个事件段为0.1s，第二视频的二音频特征中的0.1s-0.6s的音频特征与第一音频特征中的0.2s-0.7s的音频特征相匹配，第二音频特征中的音频匹配时间段在时间上连续且个数达到5个，因此，计算机设备将0.1s到0.6s的音频匹配时间段确定为音频匹配时间组，计算机设备将第二视频中音频匹配时间组对应的弹幕设置为第一视频中音频匹配时间段对应的弹幕，即，计算机设备将第二音频特征中0.1s-0.6s对应的弹幕显示在第一视频中的0.2s-0.7s中。

在一些实施例中，音频时序匹配的匹配方式包括如下中的至少一种：

·将第二音频特征中的第i个时间段的音频特征依次与第一音频特征中的单个时间段的音频特征进行相似度值计算，在第二音频特征中的第i个时间段的音频特征遍历完第一音频特征中的各个时间段的音频特征后，重复上述步骤，将第二音频特征中的第i+1个时间段的音频特征依次与第一音频特征中的单个时间段的音频特征进行相似度值计算，i为正整数；

·将第二音频特征中的多个连续时间段的音频特征组合与第一音频特征中的多个连续时间段的音频特征组合进行相似度值计算；

·获取第二视频中包括弹幕内容的时间段，将第二视频中包含弹幕内容的第j个时间段对应的音频特征依次与第一音频特征中的单个时间段的音频特征进行相似度值计算，在包含弹幕内容的第j个时间段的音频特征遍历完第一音频特征中的各个时间段的音频特征后，重复上述步骤，将包含弹幕内容的第j+1个时间段的音频特征依次与第一音频特征中的单个时间段的音频特征进行相似度值计算，j为正整数；

·获取第二视频中不包括弹幕内容的时间段，将第二视频中不包括弹幕内容的时间段之外的时间段确定为第二视频中包括弹幕内容的时间段；将第二视频中包含弹幕内容的第j个时间段对应的音频特征依次与第一音频特征中的单个时间段的音频特征进行相似度值计算，在包含弹幕内容的第j个时间段的音频特征遍历完第一音频特征中的各个时间段的音频特征后，重复上述步骤，将包含弹幕内容的第j+1个时间段的音频特征依次与第一音频特征中的单个时间段的音频特征进行相似度值计算；

·基于第二音频特征中单个时间段的音频特征和第一音频特征中单个时间段的音频特征之间的相似度值，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段；基于音频匹配时间段，确定音频匹配时间段在第二音频特征中的对应的第二时间段位置和音频匹配时间段在第一音频特征中的对应的第一时间段位置；基于第二时间段位置和第一时间段位置之间的时间偏差，将第二时间段位置后的时间段对应的音频特征与第一音频特征中第一时间段位置后的时间段对应的音频特征进行相似度值计算。

在一个实施例中，如图7所示出的视频中的时间段的示意图。图中包括属于第一视频701的第一音频信号对应的第一音频特征702，以及属于第二视频703的第二音频信号对应的第二音频特征704，音频特征中的编号为时间段对应的编号，即，第一音频特征702和第二音频特征704均被切分为8个时间段。计算机设备将第二音频特征704中的单个时间段的音频特征依次与第一音频特征702中的单个时间段的音频特征进行相似度值计算，比如，将第二音频特征704中的时间段1的音频特征分别与第一音频特征702中的时间段1至时间段8进行相似度值计算，从而确定第一音频特征702和第二音频特征704中特征匹配的音频匹配时间段。

在一个实施例中，如图7所示，计算机设备将第二音频特征中的多个连续时间段的音频特征组合与第一音频特征中的多个连续时间段的音频特征组合进行相似度值计算，比如，将第二音频特征704中的时间段(1，2)的音频特征组合分别与第一音频特征702中的时间段(1，2)、(2，3)、(3，4)、(4，5)、(5，6)、(6，7)、(7，8)的音频特征组合进行相似度值计算，从而确定第一音频特征702和第二音频特征704中特征匹配的音频匹配时间段。

在一个实施例中，如图7所示，图中阴影部分用以表示有弹幕内容的时间段，计算机设备获取第二视频703中包括弹幕内容的时间段，可知，第二视频703中包括弹幕内容的时间段分别为：时间段1、时间段3、时间段4、时间段6，在获取第二视频703中包括弹幕内容的时间段后，将第二视频703中包括弹幕内容的时间段对应的音频特征与第一音频特征702中的单个时间段的音频特征进行相似度值计算，从而确定第一音频特征702和第二音频特征704中特征匹配的音频匹配时间段。

在一个实施例中，如图7所示，在一个视频中，包括弹幕内容的时间段占据了大部分，如果遍历视频中的时间段确定包括弹幕内容的时间段会带来巨大的计算量，本申请实施例为例减少计算量，通过获取第二视频中不包括弹幕内容的时间段，将第二视频中不包括弹幕内容的时间段之外的时间段确定为第二视频中包括弹幕内容的时间段，计算机设备将第二视频703中包括弹幕内容的时间段对应的音频特征与第一音频特征702中的单个时间段的音频特征进行相似度值计算，从而确定第一音频特征702和第二音频特征704中特征匹配的音频匹配时间段。

在一个实施例中，如图7所示，计算机设备基于第二音频特征704中单个时间段的音频特征和第一音频特征702中单个时间段的音频特征之间的相似度值，确定第一音频特征702和第二音频特征704中特征匹配的音频匹配时间段；基于音频匹配时间段，确定音频匹配时间段在第二音频特征704中的对应的第二时间段位置和音频匹配时间段在第一音频特征702中的对应的第一时间段位置；比如，计算机设备确定第一音频特征702和第二音频特征704中特征匹配的第一个音频匹配时间段，第一个音频匹配时间段在第二音频特征704中的对应的第二时间段位置为：时间段1，和音频匹配时间段在第一音频特征702中的对应的第一时间段位置为：时间段3；则，计算机设备基于第二音频特征704中的时间段1和第一音频特征702中的时间段3之间的时间偏差，在计算第二音频特征704中的时间段2和第一音频特征702中的单个时间段之间的相似度值时，第二音频特征704中的时间段2从第一音频特征702中的时间段3之后的时间段开始计算，从而减小了计算量，提高了效率。

步骤406：将第二视频中音频匹配时间段对应的弹幕，设置为第一视频中音频匹配时间段对应的弹幕。

可选地，弹幕可被设置为携带有发布角色的弹幕，如，某弹幕为“老苏：你去哪”，“老李：回家”。

在一些实施例中，在视频播放界面中播放的第一视频包括第二视频中的弹幕时，在视频播放界面中增加显示视频弹幕控件；计算机设备响应于视频弹幕控件上的触发操作，在视频播放界面上以不同形式显示弹幕。

视频弹幕控件是用于控制视频中的弹幕的播放形式的控件；

可选地，视频弹幕控件可显示在视频播放界面中的任意区域，比如，将该视频弹幕控件显示在中央区域、上部区域、下部区域、左侧区域、右侧区域、左上角区域、左下角区域、右上角区域、右下角区域中的至少一种。

在一些实施例中，该视频弹幕控件的显示位置固定。在另一些实施例中，该视频弹幕控件在视频播放界面上滚动显示，该滚动显示的方向为从左到右、从右到左、从上往下、从下往上中的至少一种。

可选地，该视频弹幕控件的显示持续时长为一定时长内，该一定时长是预设值，或者，该一定时长等于视频弹幕控件在弹幕区滚动一圈的时长。

示例性地，计算机设备响应于视频弹幕控件上的第一触发操作，在视频播放界面上显示第一视频中的弹幕，隐藏第二视频中的弹幕。

例如，如图8所示出的视频播放界面上的弹幕的示意图，在视频播放界面中播放的第一视频包括第二视频中的弹幕时，在视频播放界面中增加显示视频弹幕控件801；计算机设备响应于视频弹幕控件801上的第一触发操作，在视频播放界面上显示第一视频中的第一弹幕803，隐藏第二视频中的第二弹幕802，比如，图中具有阴影网格的弹幕为第二视频中的第二弹幕802，图中不具有阴影网格的弹幕为第一视频中的第一弹幕803。

示例性地，计算机设备响应于视频弹幕控件上的第二触发操作，在视频播放界面上显示第二视频中的弹幕，隐藏第一视频中的弹幕。

例如，如图9所示出的视频播放界面上的弹幕的示意图，在视频播放界面中播放的第一视频包括第二视频中的弹幕时，在视频播放界面中增加显示视频弹幕控件901；计算机设备响应于视频弹幕控件901上的第二触发操作，在视频播放界面上显示第二视频中的第二弹幕902，隐藏第一视频中的第一弹幕903，比如，图中具有阴影网格的弹幕为第二视频中的第二弹幕902，图中不具有阴影网格的弹幕为第一视频中的第一弹幕903。

示例性地，计算机设备响应于视频弹幕控件上的第三触发操作，在视频播放界面上同时显示第一视频和第二视频中的弹幕，或，同时隐藏第一视频和第二视频中的弹幕。

触发操作是在视频弹幕控件上触发的人机交互操作。触发操作包括但不限于：单击操作、双击操作、悬浮触控操作、压力触控操作、滑动操作中的至少一种，但不限于此，本申请实施例对此不作具体限定。

在一些实施例中，在视频播放界面上同时显示第一视频和第二视频中的弹幕时，以第一形态显示第一视频中的弹幕，且以第二形态显示第二视频中的弹幕。

可选地，弹幕的形态包括添加风景元素、添加闪烁特效、添加烟花特效中的至少一种，但不限于此，本申请实施例对此不作具体限定。

例如，如图10所示出的视频播放界面上的弹幕的示意图，在视频播放界面上同时显示第一视频和第二视频中的弹幕时，以阴影网格显示第二视频中的第二弹幕1001，以空白背景显示第一视频中的第一弹幕1002。

在一些实施例中，计算机设备响应于视频弹幕控件上的触发操作，在视频播放界面中的第一播放区域播放第一视频中的弹幕，在视频播放界面的第二播放区域播放第二视频中的弹幕。

其中，第一播放区域、第二播放区域是并列的两个播放区域。

可选地，上述各个播放区域中的显示内容可以调换位置。计算机设备响应于播放区域上的位置切换操作，将第一视频中的弹幕和第二视频中的弹幕各自所在的播放区域进行切换。或者，响应于播放区域上的位置切换操作，将第一视频中的弹幕和第二视频中的弹幕各自所在的播放区域进行切换。

比如，位置切换操作是第一滑动操作，当第一滑动操作的起点位于第一播放区域且第一滑动操作的终点位于第二播放区域时，将第一视频中的弹幕和第二视频中的弹幕各自所在的播放区域进行切换。

本实施例提供的方法，通过计算第一音频特征中单个时间段的音频特征和第二音频特征中单个时间段的音频特征之间的相似度值，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段，且可以通过调节时间段的大小实现弹幕的对齐精度，使得弹幕对齐更加灵活。

本实施例提供的方法，基于音频匹配时间段的位置和数量，确定用于弹幕对齐的音频匹配时间组，基于音频匹配时间组中的音频匹配时间段进行弹幕对齐，从而使得两视频中的弹幕对齐变的更加灵活，可以选择需要的时间段对应的弹幕进行对齐。

本实施例提供的方法，通过样本音频信号、正样本音频信号和负样本音频信号对特征提取网络进行预训练，不需要采用带有标签的样本，仅将样本音频信号进行编辑便可得到正样本音频信号，基于上述三种音频信号对特征提取网络进行预训练，简化了训练难度，提升了效率。

本实施例提供的方法，通过获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段；同时，获取属于第一视频的第一说话人字幕信息对应的第一字幕语义特征，以及属于第二视频的第二说话人字幕信息对应的第二字幕语义特征，基于字幕时序匹配，确定第一字幕语义特征和第二字幕语义特征中特征匹配的字幕匹配时间段，基于音频匹配时间段和字幕匹配时间段，将第二视频中音频匹配时间段和字幕匹配时间段中的重合时间段对应的弹幕设置为第一视频中重合时间段对应的弹幕。本申请基于音频特征和字幕语义特征进行时序匹配，将第二视频中重合时间段对应的弹幕设置为第一视频中重合时间段对应的弹幕，从而减小了误差，实现了弹幕的精准对齐。

本实施例提供的方法，通过增加显示视频弹幕控件，通过控制视频弹幕控件实现不同弹幕的不同显示形式，提升了趣味性，带来更好的用户体验。

图11是本申请一个示例性实施例提供的弹幕的对齐方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤1102：获取属于第一视频的第一音频特征和第一字幕语义特征，以及属于第二视频的第二音频特征和第二字幕语义特征。

示例性地，计算机设备获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征。同时，计算机设备获取属于第一视频的第一说话人字幕信息对应的第一字幕语义特征，以及属于第二视频的第二说话人字幕信息对应的第二字幕语义特征。

其中，第一音频特征和第二音频特征的获取步骤可参见步骤302和步骤402中的内容，本处不再赘述。

可选地，计算机设备获取属于第一视频的第一视频图像，以及属于第二视频的第二视频图像；计算机设备对第一视频图像中的字幕区域进行定位，得到第一字幕区域；计算机设备对第二视频图像中的字幕区域进行定位，得到第二字幕区域；计算机设备对第一字幕区域进行光学字符识别(Optical Character Recognition，OCR)，得到第一说话人字幕信息；对第二字幕区域进行OCR，得到第二说话人字幕信息；计算机设备对第一说话人字幕信息进行特征提取，得到第一说话人字幕信息对应的第一字幕语义特征；计算机设备对第二说话人字幕信息进行特征提取，得到第二说话人字幕信息对应的第二字幕语义特征。

字幕区域是指在视频播放界面中显示视频中说话人或旁白的字幕的区域。

可选地，字幕区域可显示在视频播放界面中的任意区域，比如，将该字幕区域显示在中央区域、上部区域、下部区域、左侧区域、右侧区域、左上角区域、左下角区域、右上角区域、右下角区域中的至少一种。

在一些实施例中，该字幕区域中的字幕的显示位置固定。在另一些实施例中，该字幕区域中的字幕在视频播放界面上滚动显示，该滚动显示的方向为从左到右、从右到左、从上往下、从下往上中的至少一种。

步骤1104：基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段。

计算机设备基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段的步骤可参见步骤304和步骤404中的内容，本处不再赘述。

步骤1106：基于字幕时序匹配，确定第一字幕语义特征和第二字幕语义特征中特征匹配的字幕匹配时间段。

示例性的，基于字幕时序匹配，确定第一字幕语义特征和第二字幕语义特征中特征匹配的字幕匹配时间段；

可选地，字幕时序的匹配方式包括将第二字幕语义特征中的单个时间段的音字幕语义特征与第一字幕语义特征中的单个时间段的字幕语义特征进行依次匹配，或，将第二中的多个时间段的字幕语义特征组合与第一字幕语义特征中的多个时间段的字幕语义特征组合进行依次匹配，或，将第二字幕语义特征中的间歇分布的时间段的字幕语义特征组合与第一字幕语义特征中的间歇分布的时间段的字幕语义特征组合进行依次匹配中的至少一种，但不限于此，本申请实施例对此不作具体限定。

需要说明的是，在利用字幕和音频进行双模态时序匹配时，字幕时序匹配中的时间段与音频字幕时序匹配中的时间段是相同的时间段。

时间段的长度的确定方式可参考步骤404中的描述，本处不再赘述。

示例性的，计算机设备计算第一字幕语义特征中单个时间段的字幕语义特征和第二字幕语义特征中单个时间段的字幕语义特征之间的相似度值；基于字幕相似度值，确定第一字幕语义特征和第二字幕语义特征中特征匹配的字幕匹配时间段。

可选地，字幕相似度值包括余弦距离值、欧式距离、标准欧式距离、汉明距离中的至少一种，但不限于此，本申请实施例对此不作具体限定。

可选地，计算机设备计算第二字幕语义特征中单个时间段的字幕语义特征与第一字幕语义特征中单个时间段的字幕语义特征之间的余弦距离值，作为相似度值；计算机设备基于余弦距离值，将余弦距离值小于字幕匹配阈值的时间段确定为字幕匹配时间段。

在一些实施例中，计算机设备基于字幕匹配时间段的位置和数量，确定字幕匹配时间组。

字幕匹配时间组包括至少两个音频匹配时间段。

步骤1108：基于音频匹配时间段和字幕匹配时间段，将第二视频中音频匹配时间段和字幕匹配时间段中的重合时间段对应的弹幕设置为第一视频中重合时间段对应的弹幕。

示例性地，计算机设备获取第一视频与第二视频中的音频匹配时间段和字幕匹配时间段，计算机设备基于音频匹配时间段和字幕匹配时间段，得到重合时间段，重合时间段是指音频匹配时间段和字幕匹配时间段重合的时间段，计算机设备将重合时间段对应的弹幕设置为第一视频中重合时间段对应的弹幕。

综上所述，本实施例提供的方法，通过获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；基于音频时序匹配，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段；同时，获取属于第一视频的第一说话人字幕信息对应的第一字幕语义特征，以及属于第二视频的第二说话人字幕信息对应的第二字幕语义特征，基于字幕时序匹配，确定第一字幕语义特征和第二字幕语义特征中特征匹配的字幕匹配时间段，基于音频匹配时间段和字幕匹配时间段，将第二视频中音频匹配时间段和字幕匹配时间段中的重合时间段对应的弹幕设置为第一视频中重合时间段对应的弹幕。本申请基于音频特征和字幕语义特征进行双模态时序匹配，将第二视频中重合时间段对应的弹幕设置为第一视频中重合时间段对应的弹幕，从而减小了误差，实现了弹幕的精准对齐。

图12是本申请一个示例性实施例提供的弹幕的对齐方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

整个弹幕的对齐方法的流程可拆分为三个过程，包括：特征提取阶段、时序匹配阶段和弹幕设置阶段。

在特征提取阶段，计算机设备获取第一视频1201和第二视频1202，在第一视频1201中获取第一音频信号，在第二视频1202中获取第二音频信号。其中，第一视频和第二视频隶属于同一个原始视频。计算机设备将第一音频信号输入至预训练特征提取网络1203中进行特征提取，得到第一音频信号对应的第一音频特征；计算机设备将第二音频信号输入至预训练特征提取网络1203中进行特征提取，得到第二音频信号对应的第二音频特征。

在时序匹配阶段，计算机设备基于音频时序匹配1204，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段。

可选地，计算机设备计算第一音频特征中单个时间段的音频特征和第二音频特征中单个时间段的音频特征之间的相似度值；基于相似度值，确定第一音频特征和第二音频特征中特征匹配的音频匹配时间段。

在弹幕设置阶段，计算机设备将第二视频1202中音频匹配时间段对应的第二视频弹幕1205，设置为第一视频1201中音频匹配时间段对应的第一视频弹幕1206。

示例性地，本申请一个示例性实施例提供的弹幕的对齐方法。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

弹幕的对齐方法的整体的流程可拆解为音频特征的提取、音频特征的时序匹配、弹幕的替换这三步。在音频特征的提取后，会对这一对音频特征进行时序比对得到两个音频的匹配时间段，最后利用匹配时间段进行相应弹幕的替换从而实现对齐。

音频特征提取模块。

音频特征的提取使用metric learning技术，训练一个深度学习的网络，去学习音频片段之间的相似性。具体地，我们选择三重损失triplet loss来进行训练，需要样本音频信号、正样本音频信号和负样本音频信号组成的三元组样本进行损失函数学习，三元组样本中样本音频信号和正样本音频信号构成正样本对，样本音频信号和负样本音频信号构成负样本对。

首先在网络输入上收集一批视频，将每个视频的音频PCM数据按照16KHZ采样率进行降采样，即每秒音频有16000个整数类型数据，然后按时间顺序依次切割成0.1s的PCM数据片段，记做PSD，即每个PSD对应1600个整数类型数据；对PSD数据进行音频变换，变换方式包括背景音乐叠加、倍速缩放、音调调整等，得到变换后的PCM数据，记作调整脉冲编码调制片段数据(Augmented PCM Segment Data，APSD)。这样就可以某个PSD作为锚点，其对应的APSD作为正样本音频信号，其他的某个PSD作为负样本音频信号，构成一个三元组样本作为网络的输入。具体的网络结构选择wav2cev模型，损失层选择triplet Loss，经过训练之后，得到的深度学习网络可以衡量两个音频PSD的相似度。

训练完毕后，在音频特征提取时，将待提取视频的音频按照16KHZ采样率进行降采样，然后同样按照时间顺序切割成每段0.1s长度的PSD，将每段PSD送进训练好的特征提取网络，每0.1s的音频PSD数据就可以得到一个特征，这里记为Fdt，t代表某个0.1s长度的时间段，这些特征向量按照时间顺序存储在一个文件中，这个文件就是该视频的音频特征。

音频特征的时序匹配。

时序比对环节，利用faiss的索引系统，对音频特征中的特征向量进行余弦距离计算，余弦距离取值范围在[0，1]，该数值可以认为是两个PSD片段匹配的概率，余弦距离小于阈值0.7的一对向量，其对应时间段被视作是匹配的。

音频特征在时间上能连续匹配达到5个时间段的，构成一个音频匹配时间组。

弹幕的替换。

通过音频特征的比对，可以找到视频之间相同内容的时间段，然后老视频某个时间段上的弹幕，移动到新的视频对应的时间段。例如，老视频0.1s到0.6s跟新视频的0.2s到0.7s匹配，我们就将老视频0.1s到0.6s的弹幕移动到新视频的0.2s到0.7s。

对比起传统的方法，该方法可以支持0.1s级别的弹幕对齐效果，能彻底解决基于画面比对的弹幕对齐精度不准的问题，将弹幕对齐的精度进行提升。

本方案在弹幕对齐方面，有更大的提升效果。在视频生态中，弹幕是其中非常重要的一环，其互动性、乐趣性对用户感官非常重要，用户也会对视频的历史弹幕与内容是否一致要求会更高，精准的弹幕对齐可以带来更好的用户体验。

图13示出了本申请一个示例性实施例提供的弹幕的对齐装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

获取模块1301，用于获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征；所述第一视频和所述第二视频隶属于同一个原始视频；

匹配模块1302，用于基于音频时序匹配，确定所述第一音频特征和所述第二音频特征中特征匹配的音频匹配时间段；所述音频时序匹配是指将所述第一音频特征中不同时间段的音频特征与所述第二音频特征中不同时间段的音频特征进行匹配；

设置模块1303，用于将所述第二视频中所述音频匹配时间段对应的弹幕，设置为所述第一视频中所述音频匹配时间段对应的弹幕。

在一些实施例中，匹配模块1302，用于计算所述第一音频特征中单个时间段的音频特征和所述第二音频特征中单个时间段的音频特征之间的相似度值。

在一些实施例中，匹配模块1302，用于基于所述相似度值，确定所述第一音频特征和所述第二音频特征中特征匹配的音频匹配时间段。

在一些实施例中，匹配模块1302，用于计算所述第二音频特征中单个时间段的音频特征与所述第一音频特征中的单个时间段的音频特征之间的余弦距离值，作为所述相似度值。

在一些实施例中，匹配模块1302，用于基于所述余弦距离值，将所述余弦距离值小于音频匹配阈值的时间段确定为所述音频匹配时间段。

在一些实施例中，匹配模块1302，用于基于所述音频匹配时间段的位置和数量，确定音频匹配时间组；所述音频匹配时间组包括至少两个所述音频匹配时间段；

在一些实施例中，设置模块1303，用于将所述第二视频中属于所述音频匹配时间组的所述音频匹配时间段对应的所述弹幕设置为所述第一视频中所述音频匹配时间段对应的弹幕。

在一些实施例中，获取模块1301，用于将所述第一音频信号输入至预训练特征提取网络中进行特征提取，得到所述第一音频信号对应的所述第一音频特征。

在一些实施例中，该装置还可以包括特征提取模块1304，用于将所述第二音频信号输入至所述预训练特征提取网络中进行特征提取，得到所述第二音频信号对应的所述第二音频特征。

在一些实施例中，获取模块1301，用于获取样本音频信号、正样本音频信号和负样本音频信号；所述正样本音频信号是对所述样本音频信号的音频内容和/或播放形式进行编辑得到的音频信号；所述负样本音频信号是指所述样本音频信号之外的任意一个音频信号。

在一些实施例中，特征提取模块1304，用于将所述样本音频信号、所述正样本音频信号和所述负样本音频信号输入至特征提取网络进行特征提取，得到所述样本音频信号对应的样本音频特征、所述正样本音频信号对应的正样本音频特征和所述负样本音频信号对应的负样本音频特征。

在一些实施例中，该装置还可以包括计算模块1305，用于基于所述样本音频特征、所述正样本音频特征和所述负样本音频特征，计算所述特征提取网络的训练损失；根据所述训练损失对所述特征提取网络进行训练，得到所述预训练特征提取网络。

在一些实施例中，计算模块1305，用于基于所述样本音频特征和所述正样本音频特征，计算所述样本音频特征和所述正样本音频特征之间的第一距离值。

在一些实施例中，计算模块1305，用于基于所述样本音频特征和所述负样本音频特征，计算所述样本音频特征和所述正样本音频特征之间的第二距离值。

在一些实施例中，计算模块1305，用于基于所述第一距离值和所述第二距离值，计算所述特征提取网络的所述训练损失。

在一些实施例中，获取模块1301，用于获取属于所述第一视频的第一说话人字幕信息对应的第一字幕语义特征，以及属于所述第二视频的第二说话人字幕信息对应的第二字幕语义特征。

在一些实施例中，匹配模块1302，用于基于字幕时序匹配，确定所述第一字幕语义特征和所述第二字幕语义特征中特征匹配的字幕匹配时间段；所述字幕时序匹配是指将所述第一字幕语义特征中不同时间段的字幕语义特征与所述第二字幕语义特征中不同时间段的字幕语义特征进行匹配。

在一些实施例中，设置模块1303，用于基于所述音频匹配时间段和所述字幕匹配时间段，将所述第二视频中所述音频匹配时间段和所述字幕匹配时间段中的重合时间段对应的所述弹幕设置为所述第一视频中所述重合时间段对应的弹幕。

在一些实施例中，获取模块1301，用于获取属于所述第一视频的第一视频图像，以及属于第二视频的第二视频图像；对所述第一视频图像中的字幕区域进行定位，得到第一字幕区域；对所述第二视频图像中的字幕区域进行定位，得到第二字幕区域；对所述第一字幕区域进行光学字符识别OCR，得到所述第一说话人字幕信息；对所述第二字幕区域进行所述OCR，得到所述第二说话人字幕信息；对所述第一说话人字幕信息进行特征提取，得到所述第一说话人字幕信息对应的所述第一字幕语义特征；对所述第二说话人字幕信息进行特征提取，得到所述第二说话人字幕信息对应的所述第二字幕语义特征。

在一些实施例中，该装置还可以包括显示模块1306，用于在视频播放界面中播放的所述第一视频包括所述第二视频中的所述弹幕时，在所述视频播放界面中增加显示视频弹幕控件；所述视频弹幕控件是用于控制视频中的所述弹幕的播放形式的控件。

在一些实施例中，显示模块1306，用于响应于所述视频弹幕控件上的触发操作，在所述视频播放界面上以不同形式显示所述弹幕。

在一些实施例中，显示模块1306，用于响应于所述视频弹幕控件上的第一触发操作，在所述视频播放界面上显示所述第一视频中的所述弹幕，隐藏所述第二视频中的所述弹幕。

在一些实施例中，显示模块1306，用于响应于所述视频弹幕控件上的第二触发操作，在所述视频播放界面上显示所述第二视频中的所述弹幕，隐藏所述第一视频中的所述弹幕。

在一些实施例中，显示模块1306，用于响应于所述视频弹幕控件上的第三触发操作，在所述视频播放界面上同时显示所述第一视频和所述第二视频中的所述弹幕，或，同时隐藏所述第一视频和所述第二视频中的所述弹幕。

在一些实施例中，显示模块1306，用于在所述视频播放界面上同时显示所述第一视频和所述第二视频中的所述弹幕时，以第一形态显示所述第一视频中的所述弹幕，且以第二形态显示所述第二视频中的所述弹幕。

图14示出了本申请一个示例性实施例提供的计算机设备1400的结构框图。该计算机设备可以实现为本申请上述方案中的终端。

通常，计算机设备1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现本申请实施例中提供的弹幕的对齐方法。

在一些实施例中，计算机设备1400还可选包括有：外围设备接口1403和至少一个外围设备。具体地，外围设备包括：射频电路1404、触摸显示屏1405、摄像头1406、音频电路1407和电源1408中的至少一种。

外围设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1405还具有采集在触摸显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。触摸显示屏1405用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1405可以为一个，设置计算机设备1400的前面板；在另一些实施例中，触摸显示屏1405可以为至少两个，分别设置在计算机设备1400的不同表面或呈折叠设计；在一些实施例中，触摸显示屏1405可以是柔性显示屏，设置在计算机设备1400的弯曲表面上或折叠面上。甚至，触摸显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1405可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(OrganicLight-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1407用于提供用户和计算机设备1400之间的音频接口。音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。

电源1408用于为计算机设备1400中的各个组件进行供电。电源1408可以是交流电、直流电、一次性电池或可充电电池。当电源1408包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1400还包括有一个或多个传感器1409。该一个或多个传感器1409包括但不限于：加速度传感器1410、陀螺仪传感器1411、压力传感器1412、光学传感器1413以及接近传感器1414。

加速度传感器1410可以检测以计算机设备1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1410可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1410采集的重力加速度信号，控制触摸显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1410还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1411可以检测计算机设备1400的机体方向及转动角度，陀螺仪传感器1411可以与加速度传感器1410协同采集用户对计算机设备1400的3D动作。处理器1401根据陀螺仪传感器1411采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1412可以设置在计算机设备1400的侧边框和/或触摸显示屏1405的下层。当压力传感器1412设置在计算机设备1400的侧边框时，可以检测用户对计算机设备1400的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1412设置在触摸显示屏1405的下层时，可以根据用户对触摸显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1413用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1413采集的环境光强度，控制触摸显示屏1405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1405的显示亮度；当环境光强度较低时，调低触摸显示屏1405的显示亮度。在另一个实施例中，处理器1401还可以根据光学传感器1413采集的环境光强度，动态调整摄像头组件1406的拍摄参数。

接近传感器1414，也称距离传感器，通常设置在计算机设备1400的正面。接近传感器1414用于采集用户与计算机设备1400的正面之间的距离。在一个实施例中，当接近传感器1414检测到用户与计算机设备1400的正面之间的距离逐渐变小时，由处理器1401控制触摸显示屏1405从亮屏状态切换为息屏状态；当接近传感器1414检测到用户与计算机设备1400的正面之间的距离逐渐变大时，由处理器1401控制触摸显示屏1405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图14中示出的结构并不构成对计算机设备1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15示出了本申请一示例性实施例示出的计算机设备1500的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器(Random Access Memory，RAM)1502和只读存储器(Read-Only Memory，ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。所述计算机设备1500还包括用于存储操作系统1509、应用程序1510和其他程序模块1511的大容量存储设备1506。

所述大容量存储设备1506通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。所述大容量存储设备1506及其相关联的计算机可读介质为计算机设备1500提供非易失性存储。也就是说，所述大容量存储设备1506可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1506可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1500可以通过连接在所述系统总线1505上的网络接口单元1507连接到网络1508，或者说，也可以使用网络接口单元1507来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一段计算机程序，所述至少一段计算机程序存储于存储器中，中央处理器1501通过执行该至少一段程序来实现上述各个实施例所示的弹幕的对齐方法中的全部或部分步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述各方法实施例提供的弹幕的对齐方法。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述各方法实施例提供的弹幕的对齐方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行以实现上述各方法实施例提供的弹幕的对齐方法。

可以理解的是，在本申请的具体实施方式中，涉及到的数据，历史数据，以及画像等与用户身份或特性相关的用户数据处理等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同切换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种弹幕的对齐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于音频时序匹配，确定所述第一音频特征和所述第二音频特征中特征匹配的音频匹配时间段，包括：

计算所述第一音频特征中单个时间段的音频特征和所述第二音频特征中单个时间段的音频特征之间的相似度值；

基于所述相似度值，确定所述第一音频特征和所述第二音频特征中特征匹配的所述音频匹配时间段。

3.根据权利要求2所述的方法，其特征在于，所述计算所述第一音频特征中单个时间段的音频特征和所述第二音频特征中单个时间段的音频特征之间的相似度值，包括：

计算所述第二音频特征中单个时间段的音频特征与所述第一音频特征中的单个时间段的音频特征之间的余弦距离值，作为所述相似度值；

所述基于所述相似度值，确定所述第一音频特征和所述第二音频特征中特征匹配的所述音频匹配时间段，包括：

基于所述余弦距离值，将所述余弦距离值小于音频匹配阈值的时间段确定为所述音频匹配时间段。

4.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

基于所述音频匹配时间段的位置和数量，确定音频匹配时间组；所述音频匹配时间组包括至少两个所述音频匹配时间段；

所述将所述第二视频中所述音频匹配时间段对应的弹幕，设置为所述第一视频中所述音频匹配时间段对应的弹幕，包括：

将所述第二视频中属于所述音频匹配时间组的所述音频匹配时间段对应的所述弹幕设置为所述第一视频中所述音频匹配时间段对应的所述弹幕。

5.根据权利要求1至3任一所述的方法，其特征在于，所述获取属于第一视频的第一音频信号对应的第一音频特征，以及属于第二视频的第二音频信号对应的第二音频特征，包括：

将所述第一音频信号输入至预训练特征提取网络中进行特征提取，得到所述第一音频信号对应的所述第一音频特征；

将所述第二音频信号输入至所述预训练特征提取网络中进行特征提取，得到所述第二音频信号对应的所述第二音频特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取样本音频信号、正样本音频信号和负样本音频信号；所述正样本音频信号是对所述样本音频信号的音频内容和/或播放形式进行编辑得到的音频信号；所述负样本音频信号是指所述样本音频信号之外的任意一个音频信号；

将所述样本音频信号、所述正样本音频信号和所述负样本音频信号输入至特征提取网络进行特征提取，得到所述样本音频信号对应的样本音频特征、所述正样本音频信号对应的正样本音频特征和所述负样本音频信号对应的负样本音频特征；

基于所述样本音频特征、所述正样本音频特征和所述负样本音频特征，计算所述特征提取网络的训练损失；

根据所述训练损失对所述特征提取网络进行训练，得到所述预训练特征提取网络。

7.根据权利要求6所述的方法，其特征在于，所述基于所述样本音频特征、所述正样本音频特征和所述负样本音频特征，计算所述特征提取网络的训练损失，包括：

基于所述样本音频特征和所述正样本音频特征，计算所述样本音频特征和所述正样本音频特征之间的第一距离值；

基于所述样本音频特征和所述负样本音频特征，计算所述样本音频特征和所述正样本音频特征之间的第二距离值；

基于所述第一距离值和所述第二距离值，计算所述特征提取网络的所述训练损失。

8.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

获取属于所述第一视频的第一说话人字幕信息对应的第一字幕语义特征，以及属于所述第二视频的第二说话人字幕信息对应的第二字幕语义特征；

基于字幕时序匹配，确定所述第一字幕语义特征和所述第二字幕语义特征中特征匹配的字幕匹配时间段；所述字幕时序匹配是指将所述第一字幕语义特征中不同时间段的字幕语义特征与所述第二字幕语义特征中不同时间段的字幕语义特征进行匹配；

基于所述音频匹配时间段和所述字幕匹配时间段，将所述第二视频中所述音频匹配时间段和所述字幕匹配时间段中的重合时间段对应的所述弹幕设置为所述第一视频中所述重合时间段对应的弹幕。

9.根据权利要求8所述的方法，其特征在于，所述获取属于所述第一视频的第一说话人字幕信息对应的第一字幕语义特征，以及属于所述第二视频的第二说话人字幕信息对应的第二字幕语义特征，包括：

获取属于所述第一视频的第一视频图像，以及属于所述第二视频的第二视频图像；

对所述第一视频图像中的字幕区域进行定位，得到第一字幕区域；对所述第二视频图像中的字幕区域进行定位，得到第二字幕区域；

对所述第一字幕区域进行光学字符识别OCR，得到所述第一说话人字幕信息；对所述第二字幕区域进行所述OCR，得到所述第二说话人字幕信息；

对所述第一说话人字幕信息进行特征提取，得到所述第一说话人字幕信息对应的所述第一字幕语义特征；对所述第二说话人字幕信息进行特征提取，得到所述第二说话人字幕信息对应的所述第二字幕语义特征。

10.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

在视频播放界面中播放的所述第一视频包括所述第二视频中的所述弹幕时，在所述视频播放界面中增加显示视频弹幕控件；所述视频弹幕控件是用于控制视频中的所述弹幕的播放形式的控件；

响应于所述视频弹幕控件上的触发操作，在所述视频播放界面上以不同形式显示所述弹幕。

11.根据权利要求10所述的方法，其特征在于，所述响应于所述视频弹幕控件上的触发操作，在所述视频播放界面上以不同形式显示所述弹幕，包括：

响应于所述视频弹幕控件上的第一触发操作，在所述视频播放界面上显示所述第一视频中的所述弹幕，隐藏所述第二视频中的所述弹幕。

12.根据权利要求10所述的方法，其特征在于，所述响应于所述视频弹幕控件上的触发操作，在所述视频播放界面上以不同形式显示所述弹幕，包括：

响应于所述视频弹幕控件上的第二触发操作，在所述视频播放界面上显示所述第二视频中的所述弹幕，隐藏所述第一视频中的所述弹幕。

13.根据权利要求10所述的方法，其特征在于，所述响应于所述视频弹幕控件上的触发操作，在所述视频播放界面上以不同形式显示所述弹幕，包括：

响应于所述视频弹幕控件上的第三触发操作，在所述视频播放界面上同时显示所述第一视频和所述第二视频中的所述弹幕，或，同时隐藏所述第一视频和所述第二视频中的所述弹幕。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

在所述视频播放界面上同时显示所述第一视频和所述第二视频中的所述弹幕时，以第一形态显示所述第一视频中的所述弹幕，且以第二形态显示所述第二视频中的所述弹幕。

15.一种弹幕的对齐装置，其特征在于，所述装置包括：

16.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条计算机程序，至少一条所述计算机程序由所述处理器加载并执行以实现如权利要求1至14中任一项所述的弹幕的对齐方法。

17.一种计算机存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如权利要求1至14中任一项所述的弹幕的对齐方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如权利要求1至14中任一项所述的弹幕的对齐方法。