CN115359409A

CN115359409A - 视频拆分方法、装置、计算机设备和存储介质

Info

Publication number: CN115359409A
Application number: CN202211277774.XA
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-11-18
Anticipated expiration: 2042-10-19
Also published as: CN115359409B

Abstract

本申请涉及一种视频拆分方法、装置、计算机设备和存储介质。所述方法包括：获取待处理视频中各目标视频片段对应的音频片段和台词文本；将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧；提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度；提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度；基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，得到多个子视频。采用本方法能够对视频进行自动地情节划分。

Description

视频拆分方法、装置、计算机设备和存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频拆分方法、装置、计算机设备和存储介质。

背景技术

随着多媒体技术的发展，电影、电视剧以及短视频等视频作品的资源越来越丰富。人们通常可以通过故事简介、海报等方式对视频作品的内容进行简单了解，在观看视频作品时可以通过快进或者选择特定时间点的方式，跳转至相应的情节段落进行观看。

为了在不影响视频作品的观看体验的基础上方便快速了解剧情，通常可以采用标注故事线的方式，将视频作品的内容划分成各个不同的情节段落，人们可以根据标注的故事线直接跳转至感兴趣的情节段落进行观看。

目前常用的方式是通过人工观看完整的视频，以手动标注的方式定位每个情节段落。然而，人工标注的方式需要耗费大量的人力资源，为了保证没有遗漏剧情发展，甚至需要反复观看整个视频，耗时太长且效率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够快速定位视频内容中各个情节段落的视频拆分方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一方面，本申请提供了一种视频拆分方法。所述方法包括：

获取待处理视频中各目标视频片段对应的音频片段和台词文本，其中，每个音频片段包括多个音频帧；

将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧；

提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度；

提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度；

基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对所述待处理视频进行情节拆分，得到多个子视频。

另一方面，本申请还提供了一种视频拆分装置。所述装置包括：

获取模块，用于获取待处理视频中各目标视频片段对应的音频片段和台词文本，其中，每个音频片段包括多个音频帧；

确定模块，用于将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧；

提取模块，用于提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度；

所述提取模块，还用于提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度；

拆分模块，用于基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对所述待处理视频进行情节拆分，得到多个子视频。

另一方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频拆分方法的步骤。

另一方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频拆分方法的步骤。

另一方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述视频拆分方法的步骤。

上述视频拆分方法、装置、计算机设备、存储介质和计算机程序产品，通过根据各个目标视频片段的音频片段中属于人声的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度，从而在音频维度上衡量相邻目标视频片段间的相似性；根据各个目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度，从而在文本维度上衡量相邻视频片段间的相似性；由此，基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，结合人声语义相关度和内容语义相关度作为对情节判断的依据，两种维度之间相互补充，并共同作为音频语义的表征，能够避免从画面纬度上识别容易受到拍摄手法干扰的问题，能够准确确定出相邻情节之间的分界线，精确定位情节拆条的时间点。基于此对待处理视频进行情节拆分，拆分结果更加准确。基于上述方法，能够自动定位视频中的各个情节段落，大大提升了效率，尤其对于大批量处理任务或者长视频处理任务而言，效率提升更为显著。

附图说明

图1为一个实施例中视频拆分方法的应用环境图；

图2为一个实施例中视频拆分方法的流程示意图；

图3为一个实施例中目标音频帧之间的特征相似度的计算原理示意图；

图4为一个实施例中Transformer模型的网络架构示意图；

图5为一个实施例中通过滑动窗遍历视频片段的示意图；

图6为一个实施例中人声分类识别模型的网络架构的示意图；

图7为一个实施例中对台词文本进行处理得到特征表示的示意图；

图8为一个实施例中视频拆分方法的整体流程示意图；

图9为一个实施例中对音频数据进行处理的流程示意图；

图10为一个实施例中视频拆分装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

用户在观看视频的过程中，可以通过倍速或拖动进度条的方式快进非感兴趣的情节和镜头。但用户并不知道视频在哪一时刻播放感兴趣的情节，也不知道视频某一时刻播放的情节是否感兴趣，用户需要反复来回观看才能准确定位至感兴趣的部分，效率低下。

有鉴于此，本申请实施例提供一种视频拆分方法，通过结合人声语义和内容语义共同来进行对视频的情节段落进行划分，能够根据视频自带的音轨对每个情节之间的分界线进行识别和定位，节省大量的人工标注成本以及时间成本，显著提高了效率。同时，以音频维度和台词维度对视频中的情节进行划分，能够降低在情节拆条划分上的难度，解决了从视觉维度拆分时面临的因存在插叙、倒叙等拍摄手法所导致的情节划分不准确的问题。

其中，情节指的是构成视频内容的要素，情节要素之间的逻辑组合决定了视频所描述的故事的发展方向。人物性格与环境、他人、自我的冲突构成了情节的基本要素。通常，同一个情节中的内容具有一定的逻辑性关联。

本申请实施例提供的视频拆分方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104连接以进行通信。终端102和服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。

终端102或服务器104获取待处理视频，并按照分镜维度对待处理视频进行划分，得到多个视频片段。在划分得到的多个视频片段中，确定多个目标视频片段，以用于后续的相关度计算。终端102或服务器104获取各个目标视频片段对应的音频片段，并提取各个目标视频片段的台词文本。

一方面，基于各个目标视频片段对应的音频片段，终端102或服务器104提取其中属于人声的音频帧作为目标音频帧，并提取目标音频帧的特征表示，以此计算相邻的两个目标视频片段间的人声语义相关度。

另一方面，终端102或服务器104根据各个目标视频片段的台词文本，提取台词文本的特征表示，并根据相邻的两个目标视频片段各自的台词文本的特征表示，计算该相邻的两个目标视频片段间的内容语义相关度。

最终，终端102或服务器104综合人声语义相关度和内容语义相关度，判断相邻的两个目标视频片段是否属于同一个情节，以此作为对待处理视频进行情节拆分的依据，由此即可得到多个表征不同情节的子视频。

需要说明的是，本申请实施例中所称的“相邻”，可以是按照时间顺序具有前后关系并在时间上存在延续关系的“相邻”。例如，视频片段A的时间对应为10:00~14:59，视频片段B的时间对应为15:00~19:59，则可以视作视频片段A与视频片段B相邻。或者，视频片段A中的末帧为第10帧，视频片段B中的首帧为第11帧，则可以视作视频片段A与视频片段B相邻。

在一些情况下，“相邻”也可以指在时间顺序具有前后关系但在时间上不存在延续关系的“相临近”，相临近的两视频片段之间存在有无人声帧或无人声片段。例如，视频片段A的时间对应为10:00~14:59，视频片段B为无人声片段，时间对应为15:00~19:59，视频片段C的时间对应为20:00~24:59，则在剔除了无人声的视频片段B的情况下，可以视作视频片段A与视频片段C为相邻的两个视频片段。或者，视频片段A中的末帧为第10帧，第11帧至第19帧为无人声帧，视频片段B中的首帧为第20帧，则也可以视作视频片段A与视频片段B相邻。音频片段类似。

在一些实施例中，服务器104可以将进行情节拆分后的待处理视频发送至终端102进行播放，或者，服务器104可以单独发送子视频至终端102。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、或者便携式可穿戴设备等中的一种或多种，物联网设备可为智能音箱、智能电视、智能空调、或者智能车载设备等中的一种或多种。便携式可穿戴设备可为智能手表、智能手环、或者头戴设备等中的一种或多种。

其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、或者大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，终端上可装载有具备视频播放功能的APP（Application）应用程序，包括传统需要单独安装的应用程序、以及不需要下载安装即可使用的小程序应用，例如浏览器客户端、网页客户端、或者独立APP客户端等中的一种或多种。

示例性地，终端可以通过应用程序获取服务器传输的携带有情节分界线或情节提示信息的视频并进行播放，用户在观看视频之前或观看视频的过程中可以直观地了解视频中每个情节的信息，从而选择性地观看感兴趣的情节。情节提示信息例如为在视频时长进度条上悬浮展示的浮窗等。本领域技术人员可以理解的是，对于视频情节的提示信息可以通过任何方式展示，本申请对此不做限制。

在一些实施例中，如图2所示，提供了一种视频拆分方法，该方法可以由终端或服务器单独执行，也可以由终端和服务器协同执行。下面以该方法应用于计算机设备为例进行说明，该计算机设备可以是终端或服务器。该方法包括以下步骤：

步骤S202，获取待处理视频中各目标视频片段所对应的音频片段和台词文本，其中，每个音频片段包括多个音频帧。

具体地，计算机设备对于待处理视频，获取对该待处理视频划分得到的多个视频片段，并从所得到的各个视频片段中，确定用于后续相关度计算的目标视频片段。对于各个目标视频片段，计算机设备获取各个目标视频片段各自分别对应的音频片段和台词文本。

其中，音频片段是视频片段的音轨数据，每个音频片段中包含多个音频帧。其中，每一音频帧的长度视采样率而定。采样率为每秒从连续信号中提取并组成离散信号的采样个数，通常为44100Hz。台词文本包括角色台词或旁白。在一些实施例中，计算机设备可以通过解析字幕文件、或剧本文件等以获取台词文本，或者，计算机设备也可以通过OCR（Optical Character Recognition，文字识别）技术对视频片段中的视频帧进行识别，从而得到该视频片段的台词文本。

在一些实施例中，计算机设备可以根据预设长度对待处理视频划分，从而得到各个视频片段。例如，计算机设备对于待处理视频按照每1分钟划分一次，从而得到多个视频片段。

为了情节划分更加准确，考虑到同一个情节内的画面具有一定的延续性，在一些实施例中，计算机设备可以以分镜（Shot）为划分依据对待处理视频进行划分，从而得到各个视频片段。其中，分镜从拍摄角度而言指的是拍摄时的镜头切换，通常镜头的切换会导致场景的变化。在视觉算法处理中，分镜指的是视频画面（例如场景、构图等）发生了明显变化，使得相邻分镜间的画面缺乏一定的延续性。以分镜为单位对视频片段进行划分，所得到的各个视频片段的时长可能长短不一。

示例性地，计算机设备通过VGG（Visual Geometry Group，一种深度卷积神经网络）、ResNet（Deep residual network，深度残差网络）等图像编码网络对待处理视频进行识别和划分，根据相邻两帧视频帧之间的相似性判断后一帧是否与前一帧属于同一个分镜，当不属于同一个分镜时则进行切割，由此依次遍历整个待处理视频后，即可得到多个视频片段，每个视频片段对应一个分镜。

步骤S204，将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧。

由于音轨中可以包括人声片段、非人声片段（例如环境声音、背景音乐等）、或者无声片段中的任意一种或多种，非人声片段和无声片段会对情节划分的准确性造成干扰。例如，当相邻的两个视频片段中均存在大量的无声片段时，即使两个视频片段属于不同的情节，但由于所提取的音频片段均存在大段的无声片段，导致二者相关度较高，进而导致两个视频片段被误划分至同一个情节。因此，为了提高准确性，需要避免非人声的干扰。

具体地，计算机设备对于每个音频片段，在组成该音频片段的全部音频帧中确定哪些音频帧对应于人声，并将属于人声的音频帧作为该音频片段的目标音频帧。由于人声对应的声音特征（例如音色、音调、响度等）与背景音乐等存在一定的差异，在一些实施例中，计算机设备可以通过设定阈值来对人声和背景音乐进行区分。

在一些实施例中，计算机设备可以通过TensorFlow（深度学习框架）构建人声识别模型以对音频进行识别，通过提取音频特征来识别是否存在人声、识别说话者等。示例性地，计算机设备可以将人声频谱数据作为正样本，将动物声音、噪音、或者乐器音等频谱数据作为负样本，训练神经网络模型，并基于训练好的神经网络模型对音频片段中的每个音频帧进行识别，从而得到各音频帧是否属于人声的识别结果。

示例性地，计算机设备通过PANNs（Pretrained Audio Neural Networks，预训练音频神经网络）对音频帧进行识别，从而获得由PANNs输出的音频帧是否属于人声的识别结果。

步骤S206，提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度。

在得到每个目标视频片段对应的音频片段中的目标音频帧之后，计算机设备提取每帧目标音频帧的特征表示，以从音频维度来判断相邻的两个目标视频片段之间的相似性。其中，特征表示指的是对音频帧的形式化描述。示例性地，音频帧的特征表示可以由特征向量（Embedding）表示。

在一些实施例中，对于一音频片段，计算机设备将该音频片段中目标音频帧的特征表示按顺序排列，得到音频片段对应的特征表示序列，该特征表示序列表征了音频片段中包含的人声语义信息。

具体地，计算机设备对于相邻的两个目标视频片段，根据针对于该两个目标视频片段所提取得到的两个音频片段中目标音频帧的特征表示，计算该两个音频片段中的目标音频帧之间的相关度，再根据目标音频帧之间的相关度，进而确定两个音频片段的人声语义相关度，该人声语义相关度从音频维度上表征该相邻的两个目标视频片段间的人声的相似性。

示例性地，目标视频片段A 和目标视频片段B为相邻的两个目标视频片段，其中，如图3所示，目标视频片段A对应的音频片段中包括多个目标音频帧A1、A2、……、Am，每个目标音频帧的特征表示构成了图中上面部分所示的特征表示序列。类似地，目标视频片段B对应的音频片段中包括多个目标音频帧B1、B2、……、Bn。对于目标视频片段A和目标视频片段B之间的人声语义相关度的计算，即计算两个目标视频片段对应的音频片段中目标音频帧之间的特征相似度。

计算机设备计算特征相似度的方式包括但不限于余弦相似度等。示例性地，计算机设备可以通过如下公式来计算两个音频片段中音频帧之间的特征相似度：

其中，

为音频片段A中第i个目标音频帧的特征表示，

为音频片段B中第i个目标音频帧的特征表示，

为音频片段A中的目标音频帧与音频片段B中的目标音频帧之间的人声语义相关度。

在得到音频帧级别的相关度之后，计算机设备可以进而计算两个音频片段整体之间的相关度，进而得到相邻目标视频片段间的人声语义相关度。人声语义相关度的计算方式例如取每对音频帧间的相关度的均值、加权平均、或平方和等。示例性地，计算机设备将计算得到的两个音频片段整体之间的相关度，作为相应的两个目标视频片段间的人声语义相关度。

步骤S208，提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度。

视频中角色的台词通常也与情节的发展密切相关。因此，除了音频维度以外，计算机设备还可以通过文本维度上对视频进行情节划分。根据视频中台词文本的信息进行相关度计算，实际上对视频的情节内容进行语义理解，由此来判断相邻的两个视频片段之间的相关度。

具体地，对于每个目标视频片段，计算机设备对于所获取的该目标视频片段的台词文本，提取台词文本的特征表示，并根据相邻的两个目标视频片段各自的台词文本的特征表示进行计算，从而确定该相邻的两个目标视频片段间的内容语义相关度，该内容语义相关度从文本维度上表征该相邻的两个目标视频片段间的内容的相似性。

在一些实施例中，对于每个目标视频片段，计算机设备通过BERT（BidirectionalEnoceder Representations from Transformers，基于转换模型的双向编码表征）模型对整个视频片段进行台词内容上的理解，并输出台词文本的特征表示。台词文本的特征表示例如为台词文本的特征向量（Embedding），该特征向量表征整个视频片段的内容语义特征。由此，根据相邻的两个目标视频片段的特征向量进行计算，即可确定相邻目标视频片段间的内容语义相关度。

其中，BERT模型利用了Transformer模型（从序列到序列的转换模型）编码单元（Encoder），通过使用多层Transformer模型的编码单元堆叠而成。每一层的编码单元由一层多头注意力网络和一层前馈神经网络组成。示例性地，如图4所示，提供一种Transformer模型的网络架构示意图，其中，该Transformer模型包括编码单元和解码单元（Decoder），其中图示的左边部分即为BERT模型所使用的部分。示例性地，该编码单元中包括N个编码器，该解码单元中包括N个解码器。编码器包括多头注意力网络和前馈神经网络，解码器包括遮盖多头注意力网络、多头注意力网络和前馈神经网络，神经网络之间通过残差和归一化进行连接。最后由解码单元输出的特征进行线性变化，并进行分类，从而得到文本识别分类结果。

在一些实施例中，计算机设备可以直接将BERT模型输出的特征向量作为台词文本的特征表示。而为了增强整个视频片段的台词文本的语义特征，在另一些实施例中，计算机设备在通过BERT模型得到台词文本的特征向量后，进一步对特征向量进行融合，从而得到整个台词文本最终的特征向量。示例性地，计算机设备将整个视频片段的台词文本输入至BERT模型中，并将BERT模型输出的特征向量输入至Bi-GRU（Gated Recurrent Unit，双向门控循环单元）模型中，从而得到整个台词文本的语义特征向量，该语义特征向量作为台词文本的特征表示。

步骤S210，基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，得到多个子视频。

具体地，对于整个待处理视频，计算机设备通过滑动窗的方式，依次遍历各个目标视频片段，从而判断相邻目标视频片段是否属于同一个情节，从而能确定出相邻情节之间的分界线，精确地定位情节拆条的时间点，从而能够对待处理视频进行准确地情节拆分，得到多个子视频。

对于相邻的两个目标视频片段，计算机设备即可根据该相邻的两个目标视频片段分别对应的人声语义相关度和内容语义相关度，判断该相邻的两个目标视频片段是否属于同一情节。当判断该相邻的两个目标视频片段属于同一情节时，计算机设备继续对后续的相邻目标视频片段进行判断。当判断该相邻的两个目标视频片段不属于同一情节时，计算机设备则对待处理视频进行情节拆分，将前一个目标视频片段作为一个子视频，将后一个目标视频片段作为另一个子视频。依次遍历待处理视频的全部视频片段，即可获得多个子视频，每个子视频之间在情节上具有区别，单个子视频的视频内容在情节上具有逻辑关联和延续性。由此，实现对待处理视频的情节拆分。

示例性地，计算机设备按照视频从前往后或者从后往前的顺序，从第二个目标视频片段B开始，根据该第二个目标视频片段B与第一个目标视频片段A之间的人声语义相关度和内容语义相关度，判断目标视频片段A与目标视频片段B是否属于同一个情节。当目标视频片段A与目标视频片段B属于同一个情节时，计算机设备将目标视频片段A与目标视频片段B归类至同一个情节中，并继续判断第三个目标视频片段C与该第二个目标视频片段B是否属于同一个情节。假设目标视频片段C与目标视频片段B不属于同一个情节，则计算机设备对待处理视频进行切分，得到子视频1和子视频2，其中子视频1中包括目标视频片段A与目标视频片段B，子视频2包括目标视频片段C。

在一些实施例中，如图5所示，整个待处理视频划分成A、B、C、D、E……等多个视频片段。其中，由于视频片段C为无人声片段，则计算机设备可以不对其进行相关度的计算。换言之，视频片段A、B、D、E等为目标视频片段。由此，计算机设备在通过滑动窗的方式依次遍历各个视频片段的过程中，先判断目标视频片段A与目标视频片段B是否属于同一情节，然后判断目标视频片段B与下一个目标视频片段是否属于同一个情节。而由于视频片段C为无人声片段，则计算机设备跳过视频片段C，基于目标视频片段B与目标视频片段D之间的人声语义相关度和内容语义相关度，判断该两个目标视频片段是否属于同一个情节。此时，目标视频片段B与目标视频片段D相邻。在目标视频片段B与目标视频片段D属于同一个情节的情况下，计算机设备将视频片段C也归为该情节中，即，目标视频片段B、视频片段C、以及目标视频片段D均属于同一个情节。在目标视频片段B与目标视频片段D不属于同一个情节的情况下，计算机设备将视频片段C归为其中一个情节中，即，既可以将其归为目标视频片段B所属的情节中，也可以将其归为目标视频片段D所属的情节中。示例性地，将无人声的视频片段和与之相邻的前一个视频片段归为同一个情节。由此，计算机设备继续判断目标视频片段D与目标视频片段E是否属于同一情节……依此按顺序遍历全部视频片段。

在一些实施例中，对于相邻的两个目标视频片段，计算机设备根据该相邻的两个目标视频片段分别对应的人声语义相关度和内容语义相关度，计算相邻的两个目标视频片段之间的最终的相似度，并根据该最终的相似度判断该两个目标视频片段是否属于同一个情节。在一些实施例中，在计算得到的两个目标视频片段之间的最终的相似度大于阈值的情况下，判断该两个目标视频片段属于同一个情节。

示例性地，相邻的两个目标视频片段之间的最终的相似度可以是人声语义相关度和内容语义相关度的加权求和、平方差、或者标准差等。

上述视频拆分方法，通过根据各个目标视频片段的音频片段中属于人声的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度，从而在音频维度上衡量相邻目标视频片段间的相似性；根据各个目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度，从而在文本维度上衡量相邻目标视频片段间的相似性；由此，基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，结合人声语义相关度和内容语义相关度作为对情节判断的依据，两种维度之间相互补充，并共同作为音频语义的表征，能够避免从画面纬度上识别容易受到拍摄手法干扰的问题，能够准确确定出相邻情节之间的分界线，精确定位情节拆条的时间点。基于此对待处理视频进行情节拆分，拆分结果更加准确。基于上述方法，能够自动定位视频中的各个情节段落，大大提升了效率，尤其对于大批量处理任务或者长视频处理任务而言，效率提升更为显著。

在获取待处理视频后，计算机设备对其进行划分以得到各个视频片段。在一些实施例中，获取待处理视频中各目标视频片段对应的音频片段和台词文本之前，上述方法还包括：确定待处理视频中的待处理的当前视频帧，当前视频帧为待处理视频中的任一视频帧；计算当前视频帧与在前视频帧之间的图像相似度，在前视频帧为时间顺序在当前视频帧之前的视频帧；当基于图像相似度确定满足视频分割条件时，以当前视频帧为分割界限，对待处理视频进行分割；将待处理视频帧在当前视频帧之后的在后视频帧，作为下次的当前视频帧，并返回至计算当前视频帧与在前视频帧之间的图像相似度的步骤继续执行，直至遍历完成全部视频帧后，得到分割而成的多个视频片段；基于分割得到的多个视频片段确定多个目标视频片段。

具体地，计算机设备以视觉维度依次遍历处理全部视频帧，并根据相邻的视频帧之间的图像相似度，来判断相邻的两个视频帧是否划分至同一个视频片段中。在依次遍历处理的过程中，对于某一次处理，对于当前遍历至的视频帧，将其作为待处理的当前视频帧，并计算该当前视频帧与在前视频帧之间的图像相似度。其中，在前视频帧可以是在时间顺序上与当前视频帧相邻的前一帧、或者在当前视频帧之前的若干帧。

当在先视频帧为前一帧时，计算机设备计算该当前视频帧与该前一帧之间的图像相似度，并以该图像相似度来确定是否满足视频分割条件。

当在先视频帧为多帧时，计算机设备计算该当前视频帧分别与每个在前视频帧之间的图像相似度，并计算所得到的各个图像相似度的均值、平方和、方差等中的一种或多种，以最终结果来确定是否满足视频分割条件。

其中，图像相似度的计算方式包括但不限于计算图像帧之间的PSNR（Peak Signalto Noise Ratio，峰值信噪比）值、或SSIM（Structural Similarity，结构相似性）值等。

当基于图像相似度确定满足视频分割条件时，计算机设备以当前视频帧为分割界限，对待处理视频进行分割。即，计算机设备以当前视频帧为分割界限，将当前视频帧和该当前视频帧之前的视频帧作为一个视频片段，将该当前视频帧的后一帧，作为一个新的视频片段的首帧，由此对待处理视频进行一次分割。

计算机设备将待处理视频帧在当前视频帧之后的在后视频帧，作为下次的当前视频帧，并返回至计算当前视频帧与在前视频帧之间的图像相似度的步骤继续执行，直至遍历完成全部视频帧后，得到分割而成的多个视频片段。

根据分割得到的多个视频片段，计算机设备从中确定多个目标视频片段。在一些实施例中，计算机设备将分割得到的多个视频片段即作为目标视频片段。对于无人声的目标视频片段，计算机设备默认设置其与相邻的目标视频片段之间的相关度为0。

为了避免无人声的视频片段对情节划分的准确度的影响，在一些实施例中，基于分割得到的多个视频片段确定多个目标视频片段，包括：对分割得到的各视频片段分别进行人声识别，并将识别到人声的视频片段作为目标视频片段。具体地，对于划分得到的多个视频片段，计算机设备分别对每个视频片段进行人声识别，并将识别到人声的视频片段作为目标视频片段，以此在后续计算相关度的过程中剔除无人声的视频片段。

在一些实施例中，对每个视频片段进行人声识别，可以是通过对视频片段对应的音频数据进行识别，从而判断其中是否包含人声。示例性地，计算机设备通过神经网络例如而分类网络等，来对音频数据是否包含人声进行判断。

在一些实施例中，对每个视频片段进行人声识别，还可以是通过对视频片段对应的台词文本进行识别，当识别到存在台词文本时，判断该视频片段包含人声。示例性地，计算机设备可以通过提取字幕文件等，查找视频片段对应的开始时间和结束时间之间的时长内是否存在文本信息，以此进行人声识别。或者，计算机设备也可以对视频帧进行图像识别，以检测其中是否检测到字幕文本，以此判断视频片段是否包含人声。

由此，能够避免无人声视频片段对视频片段相关度的影响，情节划分更加准确。

上述实施例中，由于相同的情节至少在画面上具有一定的延续性，因此基于视频画面进行判断，通过计算相邻的两帧视频帧之间的图像相似度，并在图像相似度满足视频分割条件时作为分割界限对待处理视频进行分割，从而得到多个视频片段，由此能够对待处理视频进行初步地情节划分。

在一些实施例中，获取待处理视频中各视频片段对应的音频片段和台词文本，包括：对于每个目标视频片段，提取目标视频片段中的音频数据，得到对应于每个目标视频片段的音频片段；获取待处理视频对应的台词文本，并按照各个目标视频片段的时间信息，从待处理视频对应的台词文本中获取各目标视频片段所对应的台词文本。

具体地，计算机设备对于每个目标视频片段，提取目标视频片段中的音频数据，得到对应于每个目标视频片段的音频片段。在一些实施例中，计算机设备获取待处理视频，并对该待处理视频进行划分，得到各个目标视频片段后，再分别提取每个目标视频片段的音轨数据，从而得到各个音频片段。在另一些实施例中，计算机设备也可以提取整个待处理视频的音轨，并按照与各个目标视频片段相同的时间信息，对整个音轨进行划分，得到各个音频片段，每个音频片段与时间信息相同的目标视频片段相对应。

计算机设备通过字幕文件一次性提取待处理视频对应的台词文本，并按照各个目标视频片段的时间信息，从待处理视频对应的台词文本中截取各目标视频片段所对应的台词文本。其中，目标视频片段的时间信息包括目标视频片段的开始时间和结束时间。

上述实施例中，通过使用纯音频信息和内容信息来进行对两个目标视频片段之间的相关度计算，能够避免在特殊场景中视觉信息识别的不足，避免镜头切换导致的干扰，提高了视频情节拆分的准确性。

在一些实施例中，将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧，包括：获取各个音频片段的音频时域信号，对音频时域信号进行时域特征处理，得到时域特征，时域特征包括中间时域特征和目标时域特征；对各个音频片段的音频时域信号进行转换，得到各个音频片段的音频频域信号，并对音频频域信号进行频域特征处理，得到频域特征，频域特征包括中间频域特征和目标频域特征；基于中间时域特征和中间频域特征进行特征融合，得到目标融合特征；对于各音频片段，融合相对应的目标时域特征、目标频域特征、以及目标融合特征，得到各音频片段的音频特征；基于各个音频片段的音频特征识别得到各个音频片段中的目标音频帧，目标音频帧为音频片段中包含人声的音频帧。

具体地，计算机设备获取各个音频片段的音频时域信号，对音频时域信号进行时域特征处理，得到时域特征。在时域特征处理的过程中，通过一维卷积层对音频时域信号进行特征提取，能够直接学习到音频信号的时域特性，尤其是像音频响度和采样点幅度的信息。示例性地，计算机设备通过若干个一维卷积层和池化层对音频时域信号进行时域特征处理，得到时域特征。

同时，计算机设备对各个音频片段的音频时域信号进行转换，得到各个音频片段的音频频域信号。示例性地，计算机设备对音频时域信号，计算相应的Log-Mel（梅尔）频谱，由此得到音频频域信号。其中，梅尔频率是一种基于人耳对等距的音高化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度。

然后，计算机设备对音频频域信号进行频域特征处理，得到频域特征。示例性地，计算机设备通过若干个二维卷积层和池化层对音频频域信号进行频域特征处理，得到频域特征。

在时域处理和频域处理的过程中，对于特征提取得到的时域特征和频域特征，进行至少一次的信息交流，从而让时域和频域保持信息上的互补，同时使得高层网络能够感知到底层网络的信息。具体地，计算机设备在时域处理和频域处理的过程中，将得到的时域特征作为中间时域特征，将得到的频域特征作为中间频域特征，并基于中间时域特征和中间频域特征进行特征融合，得到目标融合特征。其中，目标融合特征是基于一次或多次特征融合得到的。

计算机设备将时域处理完成时得到的时域特征、频域处理完成时得到的频域特征，以及两个域之间交互得到的目标融合特征进行融合，即进行特征叠加，从而得到整个音频片段的音频特征。

由此，计算机设备基于各个音频片段的音频特征，进行人声识别，从而得到各个音频片段中的目标音频帧，目标音频帧为音频片段中包含人声的音频帧。在一些实施例中，对于得到的音频特征，计算机设备将其输入至卷积层（Conv层）中，并通过激活函数层（ReLU层）输出最终的音频语义特征向量。基于该音频语义特征向量，计算机设备通过分类层（Softmax层）输出每一帧是否属于人声的识别结果。

上述实施例中，通过使用分类网络进行基于人声的分类，然后根据属于人声的目标音频帧进行后续相关度的计算，能够避免环境音以及静音片段对音频语义信息提取的干扰，增加计算系统的鲁棒性。

在一些实施例中，为了加强两个域的信息交流，使得后续结果更加准确，设置多次交互，即进行多次的中间特征的融合。则中间时域特征的数量为多个，每个中间时域特征对应一个特征提取阶段；中间频域特征的数量为多个，每个中间频域特征对应一个特征提取阶段。

相应地，在一些实施例中，基于中间时域特征和中间频域特征进行特征融合，得到目标融合特征，包括：对于当前的特征提取阶段，获取与前次的特征提取阶段对应的中间融合特征，其中，当前的特征提取阶段为除首次外的任一次特征提取阶段；将中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，当前的特征提取阶段对应的中间融合特征用于参与到下一次的特征融合过程中；获取最后一个特征提取阶段所对应的中间融合特征，作为目标融合特征。

具体地，计算机设备将时域特征和频域特征的处理过程，划分成多个特征提取阶段，一个特征提取阶段至少包括一次卷积处理和一次池化处理。对于时域特征处理过程中的各个特征提取阶段，一个特征提取阶段至少包括一次一维卷积处理和一次池化处理。对于频域特征处理过程中的各个特征提取阶段，一个特征提取阶段至少包括一次二维卷积处理和一次池化处理。

对于首次的中间融合过程，计算机设备对于第一个特征提取阶段，获取来自时域的中间时域特征，以及来自频域的中间频域特征，并将中间时域特征和中间频域特征进行特征融合，得到首次的中间融合特征。

在非首次的中间融合过程中，即，当前的特征提取阶段为除首次外的任一次特征提取阶段，则计算机设备对于当前的特征提取阶段，获取与前次的特征提取阶段对应的中间融合特征，将中间融合特征、与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征。

比如，对于第二次中间融合过程，计算机设备获取首次得到的中间融合特征；同时，计算机设备基于当前的特征提取阶段得到的中间时域特征和中间频域特征，将该中间时域特征、中间频域特征、以及首次得到的中间融合特征，三者一起共同进行特征融合，从而得到第二次的中间融合特征。

在设置有多次中间融合过程的情况下，当前的特征提取阶段对应的中间融合特征，用于参与到下一次的特征融合过程中，并作为下一次特征融合过程的输入之一。由此，计算机设备通过多次迭代式地中间融合过程，并获取最后一个特征提取阶段所对应的中间融合特征，作为目标融合特征。

在一些实施例中，将中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，包括：调整当前的特征提取阶段所对应的中间时域特征的特征维度，以使当前的特征提取阶段所对应的中间时域特征与中间频域特征的特征维度一致；将前次特征提取阶段所获得的中间融合特征、以及维度一致的中间时域特征和中间频域特征进行叠加，得到当前的特征提取阶段的中间融合特征。

具体地，对于首次的中间融合过程，计算机设备对于第一个特征提取阶段，获取来自时域的中间时域特征，以及来自频域的中间频域特征。由于二者的特征维度不同，则计算机设备调整中间时域特征的特征维度，以将其调整至与中间频域特征的特征维度一致。然后，计算机设备将特征维度一致的中间时域特征和中间频域特征进行特征融合，得到首次的中间融合特征。

对于非首次的中间融合过程，也是类似处理。即，计算机设备获取来自时域的中间时域特征，以及来自频域的中间频域特征，并对中间时域特征进行特征维度的调整后，将维度一致的中间时域特征和中间频域特征、以及前次的中间融合特征，三者一起进行融合，得到当前的特征提取阶段的中间融合特征。

上述实施例中，通过时域处理支路和频域处理支路之间的信息交流，能够得到表征性更强的特征，能够提高后续分类识别结果的准确性。

示例性地，如图6所示，提供一种人声分类识别模型的网络架构示意图，该人声分类识别模型使用的是一个双流型的网络架构，具体来说：该人声分类识别模型分类两个支路，计算机设备获取待处理音频数据，即原始音频采样点序列，也就是音频时域信号。计算机设备计算原始音频采样点序列对应的频域频谱，可以是梅尔频谱，即音频频域信号。然后，计算机设备将原始音频采样点序列输入到左侧时域卷积神经网络支路中，同时将音频频域信号输入到右侧频域卷积神经网络支路中。其中，左侧时域卷积神经网络支路中使用了大量的一维卷积层，经过大量的一维卷积层，每个一维卷积层中通过一维卷积块进行一维卷积运算，并通过一维最大池化层进行步幅为4（S=4）的一维最大池化，得到最终输出的一维卷积特征，然后将最终输出的一维卷积特征转换成为一个二维图谱wavegram，即得到目标时域特征。其中，可以使用reshape函数进行转换。reshape函数是将指定的矩阵变换成特定维数矩阵一种函数。

右侧频域卷积神经网络支路中使用了大量的二维卷积层，经过大量的二维卷积层，每个二维卷积层中通过二维卷积块进行二维卷积运算，以及通过二维最大池化层进行二维最大池化，得到最终输出的目标频域特征，该目标频域特征是与目标时域特征同维度的特征图。

左侧时域卷积神经网络支路和右侧频域卷积神经网络支路的中部位置存在着多次两个分支的信息交流。即，计算机设备将左侧时域卷积神经网络支路中一维卷积层输出的中间卷积特征进行特征维度的调整（从一维调整至二维），得到中间时域特征，然后与右侧频域卷积神经网络支路中二维卷积层输出的中间频域特征进行融合，得到合并后的特征，然后计算机设备将合并后的特征输入到二维卷积块中进行二维卷积，得到输出的中间融合特征。当前的中间融合作为下一次融合时的输入，与下一次融合时的中间时域特征和中间频域特征进行合并，并不断进行信息交流，直达最后得到目标融合特征。最后，计算机设备将目标交互特征、目标频域特征是和目标时域特征进行叠加，共同组成一组二维频域特征图，即目标融合特征。

计算机设备再将该目标融合特征输入到二维卷积神经网络层中进行卷积运算，然后按照每个特征维度进行平均和最大值的计算，再计算平均值和最大值的和，得到具有最有表征性的信息和保持整个特征图层的信息的特征，然后将该特征经过一层激活函数层进行线性激活，得到最终提取得到的特征向量，然后使用该特征向量通过Softmax分类层进行人声与非人声类别的识别，得到概率曲线，该概率曲线表征每个音频帧对应的是否为人声的概率。

上述实施例中，通过对音频数据分别进行时域维度的处理和频域维度的处理，提取音频信号的时域特征（例如音频响度和采样点幅度等特征）和频域特征，并结合时域特征和频域特征进行特征融合，使得时域和频域进行信息互补，最后时域特征图、频域特征图、以及融合特征图，得到各音频片段的音频特征图，能够使得高层网络感知到底层网络的特征信息，使得后续分类更加准确。

在一些实施例中，根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度，包括：根据相邻音频片段中目标音频帧的特征表示，确定属于其中一个音频片段的任一目标音频帧分别与属于另一个音频片段的任一目标音频帧之间的帧相关度；基于多个帧相关度从音频帧对中筛选出多组代表音频帧对，音频帧对由一个音频片段的任一目标音频帧与另一个音频片段的任一目标音频帧组成；基于代表音频帧对的帧相关度，确定相邻目标视频片段间的人声语义相关度。

具体地，对于相邻的两个音频片段，计算机设备根据两个音频片段各自对应的目标音频帧的特征表示，确定属于其中一个音频片段的任一目标音频帧分别与属于另一个音频片段的任一目标音频帧之间的帧相关度。例如，假设音频片段G1包含多个目标音频帧g1、g2、……gm，与之相邻的音频片段F2包含多个目标音频帧f1、f2、……fn。则计算机设备分别计算音频片段G1中的任意目标音频帧gi（i≤m）与音频片段F2中的任意目标音频帧fj（j≤n）之间的帧相关度。例如，计算机设备可以计算两个目标音频帧的余弦距离，从而得到二者的帧相关度。计算机设备遍历相邻的两个音频片段之间各个目标音频帧两两之间的帧相关度，其中，每两个目标音频帧可以称为一组音频帧对。音频帧对由一个音频片段的任一目标音频帧与另一个音频片段的任一目标音频帧组成。例如，音频片段G1中的目标音频帧gm与音频片段F2中的目标音频帧fn构成一组音频帧对(gm,fn)。

由此，计算机设备基于所得到的多个帧相关度，从多组音频帧对中，筛选出多组代表音频帧对。其中，代表音频帧对可以是相关度高于阈值的音频帧对等等。计算机设备基于代表音频帧对的帧相关度，确定相邻音频片段间的相关度。在一些实施例中，计算机设备筛选出帧相关度高于阈值的N组音频帧对，并根据这些音频帧对所分别对应的帧相关度进行计算，例如进行加权计算、均值计算等，从而得到相邻音频片段间的最终的相关度，该最终的相关度即为相应的两个目标视频片段间的人声语义相关度。

示例性地，在得到音频帧级别的相关度之后，计算机设备可以通过如下公式计算两个音频片段整体之间的相关度：

其中，

为目标视频片段A中第a个人声片段的第i帧音频帧与目标视频片段B中B第b个人声片段的第j帧音频帧之间的相关度。示例性地，两个目标视频片段整体之间的相关度，可以为所有目标音频帧中相关度最高的10组（Top10）音频帧对的相关度的均值。

通过这种方式，能够排除偶发性噪声（比如只有一两帧比较相似），同时取相关度最高的音频帧来对人声语义相关度进行表征，能够将相关性最强的音频特性进行强调。当然，所选取的音频帧的数量可以根据实际需求设置，并且计算方式也不限于取均值，例如还可以是加权平均、或平方和等。

而在文本维度上，为了增强整个视频片段的台词文本的语义特征，在一些实施例中，提取每个目标视频片段对应的台词文本的特征表示，包括：对于各目标视频片段，对目标视频片段的台词文本进行重编码处理，得到台词文本中每个词对应的特征表示；按照第一顺序对台词文本中每个词对应的特征表示进行线性变化，得到第一顺序下的特征表示序列；按照第二顺序对台词文本中每个词对应的特征表示进行线性变化，得到第二顺序下的特征表示序列，其中，第一顺序与第二顺序相反；将第一顺序下的特征表示序列与第二顺序下的特征表示序列进行拼接，得到每个目标视频片段对应的台词文本的特征表示。

具体地，对于各目标视频片段，计算机设备对各个目标视频片段的台词文本进行重编码处理，从而得到台词文本中每个词对应的特征表示。比如，计算机设备将台词文本输入至编码网络中进行编码，将编码得到的值再输入至解码网络中进行解码，由此对台词文本进行重编码处理，得到台词文本中每个词对应的特征表示。示例性地，计算机设备将整个目标视频片段的台词文本输入至BERT模型中，得到台词文本中每个词对应的特征表示，每个词对应的特征表示构成了整个台词文本对应的特征表示序列。

计算机设备按照第一顺序对台词文本中每个词对应的特征表示进行线性变化，得到第一顺序下的特征表示序列，例如，计算机设备按照台词文本的默认顺序，分别对每个词对应的特征表示进行线性变化，再将线性变化后每个词对应的特征表示按照第一顺序进行排列，得到第一顺序下的特征表示序列。

然后，计算机设备再按照第二顺序对台词文本中每个词对应的特征表示进行线性变化，得到第二顺序下的特征表示序列，其中，第一顺序与第二顺序相反。例如，计算机设备按照台词文本的默认顺序的反顺序，分别对每个词对应的特征表示进行线性变化，再将线性变化后每个词对应的特征表示按照第二顺序进行排列，得到第二顺序下的特征表示序列。

最后，计算机设备将第一顺序下的特征表示序列与第二顺序下的特征表示序列进行拼接，从而得到每个目标视频片段对应的台词文本的特征表示。

示例性地，如图7所示，计算机设备将整个目标视频片段的台词文本输入至BERT模型中，得到台词文本的特征表示，其中，每个词对应的特征表示构成了整个台词文本对应的特征表示序列X。计算机设备将该特征表示序列X输入至Bi-GRU模型（其中，GRU全称为GatedRecurrent Unit，即双向门控循环单元）中，分别对每个特征向量进行第一顺序的线性变化处理，例如图中模型部分中左边的处理支路。示例性地，每一个特征向量均由一个GRU单元进行线性变化处理。同时，计算机设备分别对每个特征向量进行第二顺序的线性变化处理，例如图中模型部分中右边的处理支路。最后，计算机设备将两种顺序下得到的特征表示序列进行拼接处理，由此从而得到整个台词文本的语义特征向量Y，该语义特征向量作为台词文本的特征表示。

在一些实施例中，根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度，包括：根据相邻目标视频片段各自对应的台词文本的特征表示，确定属于其中一个目标视频片段的台词文本的特征表示与属于另一个目标视频片段的台词文本的特征表示之间的文本相关度；基于文本相关度确定相邻目标视频片段间的内容语义相关度。

具体地，对于相邻的两个目标视频片段，计算机设备根据两个目标视频片段各自对应的台词文本的特征表示，计算二者之间的文本相关度。计算方式可以参照前述实施例中对音频片段的目标音频帧的相似度的计算。

示例性地，计算机设备可以通过计算目标视频片段A中每个词与目标视频片段B中相应词之间的余弦距离，从而确定文本相关度。例如，目标视频片段A的台词文本的特征向量为(1,1,2,1,1,1,0,0,0)，目标视频片段B的台词文本的特征向量为(1,1,1,0,1,1,1,1,1)，则文本相关度例如为两个特征向量之间的余弦距离0.81。由此，计算机设备根据文本相似度，即可确定相邻目标视频片段间的内容语义相关度。在一些实施例中，计算机设备将计算得到的文本相似度作为相邻目标视频片段间的内容语义相关度。在另一些实施例中，计算机设备还可以对计算得到的文本相似度进行进一步计算，从而将最终得到的相似度的值作为相邻目标视频片段间的内容语义相关度。本申请对此不做限制。

在得到人声语义相关度和内容语义相关度之后，就可以基于两种相似度进行综合的判断。在一些实施例中，基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，得到多个子视频，包括：基于相邻目标视频片段间的人声语义相关度和内容语义相关度，确定相邻目标视频片段间的整体相关度；在基于整体相关度确定满足情节拆分条件的情况下，对待处理视频进行情节拆分，得到多个子视频。

其中，整体相关度综合了音频维度和文本维度，表征了相邻的两个目标视频片段之间的情节相似度。具体地，对于相邻的两个目标视频片段，计算机设备基于该相邻的两个目标视频片段间的人声语义相关度和内容语义相关度，计算得到一个整体相关度，并以该整体相关度作为依据来判断是否需要进行情节拆分。

在确定相邻的两个目标视频片段之间的整体相关度后，计算机设备确定该整体相关度是否满足情节拆分条件，在确定满足情节拆分条件的情况下，再对待处理视频进行情节拆分，得到多个子视频。其中，情节拆分条件例如为整体相关度是否达到阈值，比如当整体相关度大于预设阈值时，确定整体相关度满足情节拆分条件。

在确定不满足情节拆分条件的情况下，说明该相邻的两个目标视频片段属于同一个情节，则计算机设备不对该相邻的两个目标视频片段进行情节拆分。

本申请实施例中结合计算得到的人声语义相似度和内容语义相似度，根据该两个相似度来对相邻的两个视频片段是否属于同一个情节进行综合判断。考虑到因为某些视频片段中不一定存在人声或者台词，可能导致在计算相似度时人声语义相似度或者内容语义相似度的结果为零。

为此，在一些实施例中，基于相邻目标视频片段间的人声语义相关度和内容语义相关度，确定相邻目标视频片段间的整体相关度，包括：确定相邻目标视频片段间的人声语义相关度和内容语义相关度中的较大值；确定相邻目标视频片段间的人声语义相关度和内容语义相关度的均值；基于较大值和均值，确定相邻目标视频片段间的整体相关度。

具体地，对于相邻的两个目标视频片段，计算机设备先计算人声语义相关度和内容语义相关度，并比较得到人声语义相关度和内容语义相关度中的较大值。并且，计算机设备计算二者的均值，再根据较大值和均值共同确定相邻目标视频片段间的整体相关度。

其中，计算机设备可以通过如下公式计算相邻目标视频片段间的整体相关度：

其中，

为相邻的目标视频片段i和目标视频片段j之间的整体相关度，

为相邻的目标视频片段i和目标视频片段j之间的人声语义相关度，

为相邻的目标视频片段i和目标视频片段j之间的内容语义相关度。

上述实施例中，通过取人声语义相关度和内容语义相关度中的较大值，加强特征表示对结果的影响，并通过取均值来去除干扰，避免没有人声或者没有台词对相似性的影响，由此对相邻目标视频片段是否属于同一情节的判断结果更加准确。

而在对待处理视频进行情节拆分后，可以基于判断得到的各个情节的信息，为待处理视频进行标记，以向用户直观地展示视频中各个情节段落。为此，在一些实施例中，上述方法还包括：展示待处理视频的视频进度条，视频进度条中标记有多个情节分节信息，多个情节分节信息所对应的时间节点为多个子视频间的拆分节点；响应于针对目标情节分节信息的触发操作，从当前视频进度跳转至目标情节分节信息所对应的子视频；其中，目标情节分节信息为多个情节分节信息中的任一情节分节信息。

具体地，计算机设备根据情节划分的时间信息，在待处理视频的视频进度条的相应位置处，标注相应的情节分节信息。情节分节信息包括但不限于情节的序号信息、情节的梗概信息、或者情节对应的开始时间与结束时间等等。多个情节分节信息所对应的时间节点为多个子视频间的拆分节点。

例如，假设第一个子视频与第二个子视频分属于不同的情节，且第一个子视频的开始时间为第10分钟整（10:00），结束时间为14分59秒（14:59），第二个子视频的开始时间为第15分钟整（15:00），结束时间为19分59秒（19:59），则该两个子视频间的拆分节点为14分59秒（或第15分钟整）。对应地，第一个情节的开始时间为第10分钟整，结束时间为14分59秒，第二个情节的开始时间为第15分钟整，第二个情节的结束时间为19分59秒，相应的情节分节信息的时间节点为14分59秒（或第15分钟整）。又如，第一个子视频的末帧对应的时间戳为1小时50分28秒（01:50:28），第二个子视频的首帧对应的时间戳为1小时50分29秒（01:50:29），则第一个情节与第二个情节之间的拆分节点为1小时50分28秒或1小时50分29秒，即第一个子视频与第二个子视频之间的情节分节信息。

由此，当计算机设备为终端时，终端展示待处理视频的视频进度条，以向用户展示该视频进度条中标记的多个情节分节信息。由此，当用户对情节分节信息进行点击、触控等触发操作时，终端确定所触发的目标情节分节信息，该目标情节分节信息为多个情节分节信息中的任一情节分节信息。进而，终端响应于针对目标情节分节信息的触发操作，从当前视频进度跳转至目标情节分节信息所对应的子视频，并进行播放。

上述实施例中，通过在视频的进度条上显示情节分节信息，清楚、直观地展示了各个故事情节的分界线，用户能够通过该故事情节的分界线来直接跳转到自己感兴趣的故事情节，提升用户的观看体验和交互感。

本申请还提供一种应用场景，该应用场景应用上述的视频拆分方法。具体地，该视频拆分方法在该应用场景的应用例如如下：计算机设备获取待处理视频，并按照分镜维度对待处理视频进行划分，得到多个视频片段。计算机设备获取各个视频片段对应的音频片段，并提取各个视频片段的台词文本。一方面，基于各个视频片段对应的音频片段，计算机设备提取其中属于人声的音频帧作为目标音频帧，并提取目标音频帧的特征表示，以此计算相邻的两个视频片段间的人声语义相关度。另一方面，计算机设备根据各个视频片段的台词文本，提取台词文本的特征表示，并根据相邻的两个视频片段各自的台词文本的特征表示，计算该相邻的两个视频片段间的内容语义相关度。最终，计算机设备综合人声语义相关度和内容语义相关度，判断相邻的两个视频片段是否属于同一个情节，以此作为对待处理视频进行情节拆分的依据。最终，得到多个表征不同情节的子视频。

在一些实施例中，通过上述方法能够对视频进行情节上的拆条，检测和定位不同情节之间的分界线，并能够在整个视频的进度条上注明不同的情节，由此给予观看者直观、清楚的故事情节，观看者能够直接跳转至感兴趣的情节进行观看。同时，还可以根据情节的分界线来对整个视频进行分割，将其拆解成为多个单独的短视频，每个短视频均能够单独播放。

当然并不局限于此，本申请提供的视频拆分方法还可以应用在其他应用场景中，例如对课程视频自动制作大纲、对会议视频自动制作会议纪要等等。

在一个具体的示例中，视频拆分方法的整体流程可如图8所示，对于待处理视频，计算机设备分别进行提取，得到各个目标视频片段的音频音轨和台词文本。对于音频音轨，计算机设备通过改进后的PANNs网络（改进后的PANNs网络的网络结构如图6所示）提取每个音频帧的特征表示（embedding），并通过Softmax分类识别是否属于人声。对于属于人声的目标音频帧，计算机设备将这些目标音频帧重新输入至PANNs中，或者，计算机设备直接获取这些目标音频帧已经计算得到的特征表示，进行相似度计算，最后通过最大值处理，得到人声语义相关度。

同时，对于台词文本，计算机设备通过改进后的BERT模型（连接有Bi-GRU模型）提取台词文本对应的特征表示，并进行相似度计算，得到内容语义相关度。由此，根据人声语义相关度和内容语义相关度，计算机设备将其进行融合得到最终结果，由此判断相邻目标视频片段是否属于同一个情节，并对待处理视频进行分割。

在音频数据的处理过程中，改进后的PANNs网络主要是用来进行对每个目标视频片段中存在的人声音频帧进行定位，然后提取出每个目标视频片段中的人声音频帧，即目标音频帧，经过使用改进后的PANNs网络来对语义信息进行提取，每个目标视频片段能够提取出整个人声语义信息的embedding序列，即特征表示。然后，计算机设备根据每相邻的两个目标视频片段之间的embedding序列进行帧级别的相关度计算，然后进行相关度融合得到两个目标视频片段之间的人声语义相关度。

具体地，如图9所示，计算机设备对视频的音轨进行提取，得到原始的音频采样序列，即音频时域信号，并对其进行转换，得到音频频域信号，再将音频时域信号和音频频域信号输入至改进后的PANNs网络中，提取特征表示，并通过Softmax进行分类，识别音频帧是否属于人声；对于属于人声的音频帧，即目标音频帧，计算机设备对于每个目标视频片段中包含的目标音频帧，进行相关度计算，从而判断一个目标视频片段（例如图中的视频片段1）和相邻的另一个目标视频片段（例如图中的视频片段2）之间的人声语义相关度。

在一个具体的示例中，对于待处理视频，计算机设备确定待处理视频中的待处理的当前视频帧，当前视频帧为待处理视频中的任一视频帧；计算当前视频帧与在前视频帧之间的图像相似度；当基于图像相似度确定满足视频分割条件时，以当前视频帧为分割界限，对待处理视频进行分割；将待处理视频帧在当前视频帧之后的在后视频帧，作为下次的当前视频帧，并返回至计算当前视频帧与在前视频帧之间的图像相似度的步骤继续执行，直至遍历完成全部视频帧后，得到分割而成的多个视频片段；基于分割得到的多个视频片段确定多个目标视频片段。示例性地，计算机设备对分割得到的各视频片段分别进行人声识别，并将识别到人声的视频片段作为目标视频片段。由此，实现了对待处理视频的初步划分。

对于基于划分得到的各个目标视频片段，计算机设备获取各个音频片段的音频时域信号，对音频时域信号进行时域特征处理，得到时域特征，时域特征包括中间时域特征和目标时域特征；对各个音频片段的音频时域信号进行转换，得到各个音频片段的音频频域信号，并对音频频域信号进行频域特征处理，得到频域特征，频域特征包括中间频域特征和目标频域特征；基于中间时域特征和中间频域特征进行特征融合，得到目标融合特征；对于各音频片段，融合相对应的目标时域特征、目标频域特征、以及目标融合特征，得到各音频片段的音频特征；基于各个音频片段的音频特征识别得到各个音频片段中的目标音频帧，目标音频帧为音频片段中包含人声的音频帧。

由此，计算机设备提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度。示例性地，计算机设备根据相邻音频片段中目标音频帧的特征表示，确定属于其中一个音频片段的任一目标音频帧分别与属于另一个音频片段的任一目标音频帧之间的帧相关度；基于多个帧相关度从音频帧对中筛选出多组代表音频帧对，音频帧对由一个音频片段的任一目标音频帧与另一个音频片段的任一目标音频帧组成；基于代表音频帧对的帧相关度，确定相邻目标视频片段间的人声语义相关度。

而对于台词文本，计算机设备提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度。示例性地，计算机设备对于各目标视频片段，对目标视频片段的台词文本进行重编码处理，得到台词文本中每个词对应的特征表示；按照第一顺序对台词文本中每个词对应的特征表示进行线性变化，得到第一顺序下的特征表示序列；按照第二顺序对台词文本中每个词对应的特征表示进行线性变化，得到第二顺序下的特征表示序列，其中，第一顺序与第二顺序相反；将第一顺序下的特征表示序列与第二顺序下的特征表示序列进行拼接，得到每个目标视频片段对应的台词文本的特征表示。

根据所得到的台词文本的特征表示，计算机设备根据相邻目标视频片段各自对应的台词文本的特征表示，确定属于其中一个目标视频片段的台词文本的特征表示与属于另一个目标视频片段的台词文本的特征表示之间的文本相关度；基于文本相关度确定相邻目标视频片段间的内容语义相关度。

最后，计算机设备基于相邻目标视频片段间的人声语义相关度和内容语义相关度，确定相邻目标视频片段间的整体相关度。在基于整体相关度确定满足情节拆分条件的情况下，对待处理视频进行情节拆分，得到多个子视频。

由此，所得到的子视频可以作为情节分界线标注的依据，以便于用户方便地观看视频。同时，所得到的各个子视频也可以作为其他视频任务的上游。例如，将整个影视剧的剧集进行拆解，能够把整个视频进行分段，让其他视频任务可以在一个完整的情节视频段中进行分析。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频拆分方法的视频拆分装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频拆分装置实施例中的具体限定可以参见上文中对于视频拆分方法的限定，在此不再赘述。

在一些实施例中，如图10所示，提供了一种视频拆分装置1000，包括：获取模块1001、确定模块1002、提取模块1003和拆分模块1004，其中：

获取模块1001，用于获取待处理视频中各目标视频片段对应的音频片段和台词文本，其中，每个音频片段包括多个音频帧；

确定模块1002，用于将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧；

提取模块1003，用于提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度；

提取模块1003，还用于提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度；

拆分模块1004，用于基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，得到多个子视频。

在一些实施例中，上述装置还包括分割模块，用于确定待处理视频中的待处理的当前视频帧，当前视频帧为待处理视频中的任一视频帧；计算当前视频帧与在前视频帧之间的图像相似度，所述在前视频帧为时间顺序在所述当前视频帧之前的视频帧；当基于图像相似度确定满足视频分割条件时，以当前视频帧为分割界限，对待处理视频进行分割；将待处理视频帧在当前视频帧之后的在后视频帧，作为下次的当前视频帧，并返回至计算当前视频帧与在前视频帧之间的图像相似度的步骤继续执行，直至遍历完成全部视频帧后，得到分割而成的多个视频片段；基于分割得到的多个视频片段确定多个目标视频片段。

在一些实施例中，分割模块还用于对分割得到的各视频片段分别进行人声识别，并将识别到人声的视频片段作为目标视频片段。

在一些实施例中，获取模块用于对于每个目标视频片段，提取目标视频片段中的音频数据，得到对应于每个目标视频片段的音频片段；获取待处理视频对应的台词文本，并按照各个目标视频片段的时间信息，从待处理视频对应的台词文本中获取各目标视频片段所对应的台词文本。

在一些实施例中，确定模块用于获取各个音频片段的音频时域信号，对音频时域信号进行时域特征处理，得到时域特征，时域特征包括中间时域特征和目标时域特征；对各个音频片段的音频时域信号进行转换，得到各个音频片段的音频频域信号，并对音频频域信号进行频域特征处理，得到频域特征，频域特征包括中间频域特征和目标频域特征；基于中间时域特征和中间频域特征进行特征融合，得到目标融合特征；对于各音频片段，融合相对应的目标时域特征、目标频域特征、以及目标融合特征，得到各音频片段的音频特征；基于各个音频片段的音频特征识别得到各个音频片段中的目标音频帧，目标音频帧为音频片段中包含人声的音频帧。

在一些实施例中，中间时域特征的数量为多个，每个中间时域特征对应一个特征提取阶段；中间频域特征的数量为多个，每个中间频域特征对应一个特征提取阶段。

在一些实施例中，确定模块还用于对于当前的特征提取阶段，获取与前次的特征提取阶段对应的中间融合特征，其中，当前的特征提取阶段为除首次外的任一次特征提取阶段；将中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，当前的特征提取阶段对应的中间融合特征用于参与到下一次的特征融合过程中；获取最后一个特征提取阶段所对应的中间融合特征，作为目标融合特征。

在一些实施例中，确定模块还用于调整当前的特征提取阶段所对应的中间时域特征的特征维度，以使当前的特征提取阶段所对应的中间时域特征与中间频域特征的特征维度一致；将前次特征提取阶段所获得的中间融合特征、以及维度一致的中间时域特征和中间频域特征进行叠加，得到当前的特征提取阶段的中间融合特征。

在一些实施例中，提取模块还用于根据相邻音频片段中目标音频帧的特征表示，确定属于其中一个音频片段的任一目标音频帧分别与属于另一个音频片段的任一目标音频帧之间的帧相关度；基于多个帧相关度从音频帧对中筛选出多组代表音频帧对，音频帧对由一个音频片段的任一目标音频帧与另一个音频片段的任一目标音频帧组成；基于代表音频帧对的帧相关度，确定相邻目标视频片段间的人声语义相关度。

在一些实施例中，提取模块还用于对于各目标视频片段，对目标视频片段的台词文本进行重编码处理，得到台词文本中每个词对应的特征表示；按照第一顺序对台词文本中每个词对应的特征表示进行线性变化，得到第一顺序下的特征表示序列；按照第二顺序对台词文本中每个词对应的特征表示进行线性变化，得到第二顺序下的特征表示序列，其中，第一顺序与第二顺序相反；将第一顺序下的特征表示序列与第二顺序下的特征表示序列进行拼接，得到每个目标视频片段对应的台词文本的特征表示。

在一些实施例中，提取模块还用于根据相邻目标视频片段各自对应的台词文本的特征表示，确定属于其中一个目标视频片段的台词文本的特征表示与属于另一个目标视频片段的台词文本的特征表示之间的文本相关度；基于文本相关度确定相邻目标视频片段间的内容语义相关度。

在一些实施例中，拆分模块还用于基于相邻目标视频片段间的人声语义相关度和内容语义相关度，确定相邻目标视频片段间的整体相关度；在基于整体相关度确定满足情节拆分条件的情况下，对待处理视频进行情节拆分，得到多个子视频。

在一些实施例中，拆分模块还用于确定相邻目标视频片段间的人声语义相关度和内容语义相关度中的较大值；确定相邻目标视频片段间的人声语义相关度和内容语义相关度的均值；基于较大值和均值，确定相邻目标视频片段间的整体相关度。

在一些实施例中，上述装置还包括展示模块，用于展示待处理视频的视频进度条，视频进度条中标记有多个情节分节信息，多个情节分节信息所对应的时间节点为多个子视频间的拆分节点；响应于针对目标情节分节信息的触发操作，从当前视频进度跳转至目标情节分节信息所对应的子视频；其中，目标情节分节信息为多个情节分节信息中的任一情节分节信息。

上述视频拆分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器。下面以该计算机设备为终端为例进行说明，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频拆分方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频拆分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中各目标视频片段对应的音频片段和台词文本之前，所述方法还包括：

确定所述待处理视频中的待处理的当前视频帧，所述当前视频帧为所述待处理视频中的任一视频帧；

计算所述当前视频帧与在前视频帧之间的图像相似度，所述在前视频帧为时间顺序在所述当前视频帧之前的视频帧；

当基于所述图像相似度确定满足视频分割条件时，以所述当前视频帧为分割界限，对所述待处理视频进行分割；

将所述待处理视频帧在所述当前视频帧之后的在后视频帧，作为下次的当前视频帧，并返回至计算所述当前视频帧与在前视频帧之间的图像相似度的步骤继续执行，直至遍历完成全部视频帧后，得到分割而成的多个视频片段；

基于分割得到的多个视频片段确定多个目标视频片段。

3.根据权利要求2所述的方法，其特征在于，所述基于分割得到的多个视频片段确定多个目标视频片段，包括：

对分割得到的各视频片段分别进行人声识别，并将识别到人声的视频片段作为目标视频片段。

4.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中各目标视频片段对应的音频片段和台词文本，包括：

对于每个目标视频片段，提取所述目标视频片段中的音频数据，得到对应于每个目标视频片段的音频片段；

获取所述待处理视频对应的台词文本，并按照各个目标视频片段的时间信息，从所述待处理视频对应的台词文本中获取各目标视频片段所对应的台词文本。

5.根据权利要求1所述的方法，其特征在于，所述将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧，包括：

获取各个音频片段的音频时域信号，对所述音频时域信号进行时域特征处理，得到时域特征，所述时域特征包括中间时域特征和目标时域特征；

对所述各个音频片段的音频时域信号进行转换，得到各个音频片段的音频频域信号，并对所述音频频域信号进行频域特征处理，得到频域特征，所述频域特征包括中间频域特征和目标频域特征；

基于所述中间时域特征和所述中间频域特征进行特征融合，得到目标融合特征；

对于各音频片段，融合相对应的目标时域特征、目标频域特征、以及目标融合特征，得到各音频片段的音频特征；

基于各个音频片段的音频特征识别得到各个音频片段中的目标音频帧，所述目标音频帧为所述音频片段中包含人声的音频帧。

6.根据权利要求5所述的方法，其特征在于，所述中间时域特征的数量为多个，每个中间时域特征对应一个特征提取阶段；所述中间频域特征的数量为多个，每个中间频域特征对应一个特征提取阶段；

所述基于所述中间时域特征和所述中间频域特征进行特征融合，得到目标融合特征，包括：

对于当前的特征提取阶段，获取与前次的特征提取阶段对应的中间融合特征，其中，当前的特征提取阶段为除首次外的任一次特征提取阶段；

将所述中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，当前的特征提取阶段对应的中间融合特征用于参与到下一次的特征融合过程中；

获取最后一个特征提取阶段所对应的中间融合特征，作为目标融合特征。

7.根据权利要求6所述的方法，其特征在于，所述将所述中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，包括：

调整当前的特征提取阶段所对应的中间时域特征的特征维度，以使当前的特征提取阶段所对应的中间时域特征与中间频域特征的特征维度一致；

将前次特征提取阶段所获得的中间融合特征、以及维度一致的中间时域特征和中间频域特征进行叠加，得到当前的特征提取阶段的中间融合特征。

8.根据权利要求1所述的方法，其特征在于，所述根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度，包括：

根据相邻音频片段中目标音频帧的特征表示，确定属于其中一个音频片段的任一目标音频帧分别与属于另一个音频片段的任一目标音频帧之间的帧相关度；

基于多个帧相关度从音频帧对中筛选出多组代表音频帧对，所述音频帧对由一个音频片段的任一目标音频帧与另一个音频片段的任一目标音频帧组成；

基于所述代表音频帧对的帧相关度，确定所述相邻目标视频片段间的人声语义相关度。

9.根据权利要求1所述的方法，其特征在于，所述提取每个目标视频片段对应的台词文本的特征表示，包括：

对于各目标视频片段，对所述目标视频片段的台词文本进行重编码处理，得到台词文本中每个词对应的特征表示；

按照第一顺序对所述台词文本中每个词对应的特征表示进行线性变化，得到第一顺序下的特征表示序列；

按照第二顺序对所述台词文本中每个词对应的特征表示进行线性变化，得到第二顺序下的特征表示序列，其中，所述第一顺序与所述第二顺序相反；

将所述第一顺序下的特征表示序列与第二顺序下的特征表示序列进行拼接，得到每个目标视频片段对应的台词文本的特征表示。

10.根据权利要求1所述的方法，其特征在于，所述根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度，包括：

根据相邻目标视频片段各自对应的台词文本的特征表示，确定属于其中一个目标视频片段的台词文本的特征表示与属于另一个目标视频片段的台词文本的特征表示之间的文本相关度；

基于所述文本相关度确定相邻目标视频片段间的内容语义相关度。

11.根据权利要求1所述的方法，其特征在于，所述基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对所述待处理视频进行情节拆分，得到多个子视频，包括：

基于相邻目标视频片段间的人声语义相关度和内容语义相关度，确定相邻目标视频片段间的整体相关度；

在基于所述整体相关度确定满足情节拆分条件的情况下，对所述待处理视频进行情节拆分，得到多个子视频。

12.根据权利要求11所述的方法，其特征在于，所述基于相邻目标视频片段间的人声语义相关度和内容语义相关度，确定相邻目标视频片段间的整体相关度，包括：

确定相邻目标视频片段间的人声语义相关度和内容语义相关度中的较大值；

确定相邻目标视频片段间的人声语义相关度和内容语义相关度的均值；

基于所述较大值和均值，确定相邻目标视频片段间的整体相关度。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：

展示所述待处理视频的视频进度条，所述视频进度条中标记有多个情节分节信息，所述多个情节分节信息所对应的时间节点为多个子视频间的拆分节点；

响应于针对目标情节分节信息的触发操作，从当前视频进度跳转至所述目标情节分节信息所对应的子视频；其中，所述目标情节分节信息为所述多个情节分节信息中的任一情节分节信息。

14.一种视频拆分装置，其特征在于，所述装置包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。