CN120107838A

CN120107838A - 用于检测音视频中的重点片段的方法、系统和计算设备

Info

Publication number: CN120107838A
Application number: CN202311660482.9A
Authority: CN
Inventors: 陈柯宇; 邓乐来; 刘子恒; 吕倩; 宋嘉琪; 刘石竹
Original assignee: Beijing Zitiao Network Technology Co Ltd; Lemon Inc Cayman Island
Current assignee: Beijing Zitiao Network Technology Co Ltd; Lemon Inc Cayman Island
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2025-06-06
Also published as: US20250182746A1; WO2025118841A1

Abstract

本公开提供了用于检测音视频中的重点片段的方法、系统、计算设备、计算机可读存储介质和计算机程序产品。方法包括：获取音视频的多模态特征，多模态特征包括视觉特征、声学特征和自然语言特征；基于多模态特征，确定音视频中的候选重点片段；基于候选重点片段的自动化语音识别文本，获取重点词列表；以及基于重点词列表，确定音视频中的重点片段。

Description

用于检测音视频中的重点片段的方法、系统和计算设备

技术领域

本公开涉及音视频技术领域，更具体地，涉及一种用于检测音视频中的重点片段的方法、系统、计算设备、计算机可读存储介质和计算机程序产品。

背景技术

随着目前短视频技术的快速发展，用户经常需要为视频添加字幕，同时希望能够在一些重点字幕片段有区分度地使用差异化的字幕样式，从而增加视频的丰富度。

当前的一种主流的音视频重点检测的流程为：用户在手动添加视频字幕后，审阅视频内容，基于个人偏好和字幕内容手动选择对应的重点片段，并逐一修改字幕样式。该方式效率低、成本高，并且大多数用户缺乏音视频重点发掘和频率控制的能力。

发明内容

有鉴于此，本公开提供了一种用于检测音视频中的重点片段的方法、系统、计算设备、计算机可读存储介质和计算机程序产品，其能够通过分析音视频的多模态特征自动检测出重点片段，有效节省了用户工作量，并且具有良好的重点发掘能力。

根据本公开的第一方面，提供了一种用于检测音视频中的重点片段的方法，包括：获取音视频的多模态特征，所述多模态特征包括视觉特征、声学特征和自然语言特征；基于所述多模态特征，确定所述音视频中的候选重点片段；基于所述候选重点片段的自动化语音识别文本，获取重点词列表；以及基于所述重点词列表，确定所述音视频中的重点片段。

根据本公开的第二方面，提供了一种用于检测音视频中的重点片段的系统，包括：特征提取单元，被配置为获取音视频的多模态特征，所述多模态特征包括视觉特征、声学特征和自然语言特征；候选重点片段识别单元，被配置为基于所述多模态特征，确定所述音视频中的候选重点片段；重点词列表获取单元，被配置为基于所述候选重点片段的自动化语音识别文本，获取重点词列表；以及重点片段获取单元，被配置为基于所述重点词列表，确定所述音视频中的重点片段。

根据本公开的第三方面，提供了一种计算设备，包括：至少一个处理单元；至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述计算设备执行如本公开的第一方面所述的方法。

根据本公开的第四方面，提供了一种非瞬态计算机存储介质，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行如本公开的第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行如本公开的第一方面所述的方法。

应当理解，发明内容部分并非旨在标识本公开的实施例的关键或重要特征，亦非旨在用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过参照附图的以下详细描述，本公开实施例的上述和其他目的、特征和优点将变得更容易理解。在附图中，将以示例以及非限制性的方式对本公开的多个实施例进行说明，其中：

图1示出了能够实施本公开的多个实施例的计算设备的框图；

图2示出了根据本公开的实施例的重点检测器的框架的示意性框图；

图3示出了根据本公开的实施例的用于检测音视频中的重点片段的方法的流程示意图；

图4示出了根据本公开的实施例的重点词列表获取单元的示意图；

图5A示出了根据本公开的实施例的用于检测音视频中的重点片段的音视频输入页面的示意图；

图5B示出了根据本公开的实施例的用于检测音视频中的重点片段的划重点输出结果的示意图；以及

图6示出了根据本公开的实施例的用于检测音视频中的重点片段的装置的示意性框图。

具体实施方式

现在将参照附图中所示的各种示例性实施例对本公开的构思进行说明。应当理解，这些实施例的描述仅仅为了使得本领域的技术人员能够更好地理解并进一步实现本公开，而并不旨在以任何方式限制本公开的范围。应当注意的是，在可行情况下可以在图中使用类似或相同的附图标记，并且类似或相同的附图标记可以表示类似或相同的元素。本领域的技术人员将理解，从下面的描述中，本文中所说明的结构和/或方法的替代实施例可以被采用而不脱离所描述的本公开的原理和构思。

在本公开的语境中，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”；术语“基于”可以被理解为“至少部分地基于”；术语“一个实施例”可以被理解为“至少一个实施例”；术语“另一实施例”可以被理解为“至少一个其它实施例”。其他可能出现但在此处未提及的术语，除非明确说明，否则不应以与本公开的实施例所基于的构思相悖的方式做出解释或限定。

随着短视频技术的发展，用户常常需要为视频添加字幕，并希望在关键字幕片段使用不同的字幕样式，以增加视频的丰富度和吸引力。目前主流的音视频重点检测流程是：用户手动添加字幕后，需要逐一审查视频内容，根据自己的喜好和字幕内容手动选择重要的片段，并修改相应的字幕样式。这种方法效率低，成本高，而且大多数用户缺乏对音视频重点内容的发掘和频率掌控能力。

为解决或缓解上述问题和/或其他潜在问题，本公开的实施例提出了一种用于检测音视频中的重点片段的方法。该方法通过提取音视频中的多模态特征，对该多模态特征分别进行分析，得到候选重点片段，并结合候选重点片段的自动化语音识别文本进一步筛选来确定最终的重点片段。以此方式，能够自动检测出音视频中的重点片段，从而降低了用户手动添加字幕及选择重点片段的成本，并且与用户基于个人偏好选择重点片段相比，具有更好的重点发掘能力。

以下参考附图来说明本公开的基本原理和实现方式。应当理解，给出的示例性实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例，而并非以任何方式限制本公开的范围。

图1示出了能够实施本公开的多个实施例的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、图形处理单元(GPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括被实现为程序模块的重点检测器122，重点检测器122可以被配置为执行本文所描述的音视频重点检测功能的程序模块。重点检测器122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、触摸屏、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们也可以从传统服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以根据本公开的多种实现来检测音视频中的重点片段。如图1所示，计算设备100可以通过输入设备150接收音视频170，音视频170可以是用户提供的一段无字幕的包括语音的视频。备选地，计算设备100还可以从存储设备130读取音视频170或者从通信设备140接收来自其他设备(例如，手机、平板、个人电脑等)的音视频170。计算设备100可以将音视频170传输给重点检测器122。重点检测器122基于音视频170检测出其中的重点片段180。在生成字幕时将差异化的字幕样式应用于所检测的重点片段180，从而增加视频的丰富度。

例如，音视频170是一段用户录制的讲解料理制作的无字幕视频，其可以是各种语言的视频，例如，英文、中文等，相应地，重点检测器122根据该音视频170检测出的重点片段180包含该视频的重点信息内容，并且具有合适的重点频率。在音视频170是其他包括语音的无字幕视频的情况下，重点片段180也能够包含其中的重点信息内容，而不限于特定的音视频。

上文描述的技术方案仅用于示例，而非限制本发明。为了更清楚地解释上述方案的原理，下文将参考图2来更详细地描述根据音视频170检测出重点片段180的过程。

图2示出了根据本公开的实施例的重点检测器200的框架的示意性框图。重点检测器200是图1的重点检测器122的示例实现方式。需要说明的是，图2所示的重点检测器200仅是示意性的，重点检测器200还可以通过与此不同的系统或框架来实现，例如，一些模块可以被省略或改变，而不限于图2所示的框架。

如图2所示，重点检测器200可以接收用户输入的音视频170。输入的音视频170可以是一段包括语音的无字幕视频，例如，用户通过手机录制的一段带有料理制作讲解的视频。在一些实施例中，重点检测器200可以分别通过视觉特征提取单元201提取音视频170中的视觉特征202、通过声学特征提取单元203提取音视频170中的声学特征204以及通过自然语言特征提取单元205提取音视频170中的自然语言特征206。

在一些实施例中，视觉特征提取单元201可以采用计算机视觉(Computer Vision，CV)领域的目标检测(Object Detection)技术，提取音视频170中的视觉特征202。目标检测的基本流程为，在音视频170的图像中找到关注目标，确定目标类别并输出相应的坐标位置，即识别和定位。视觉特征202包括视觉角度的画面特征。可选地，画面特征可以是颜色特征、形状特征、运动特征等。

在一些实施例中，声学特征提取单元203可以采用声音事件检测(Audio EventDetection，AED)技术，提取音视频170中的声学特征204。声学特征204可以是特定的声音事件。声音事件检测AED能够识别和分类音视频170中特定的声音事件，例如掌声、笑声、撞击声等。可选地，声音事件检测AED可以基于梅尔倒频谱(Mel-Frequency CepstralCoefficients，MFCC)，利用MFCC能够模拟人类听觉系统的特性以检测和识别声音事件。可选地，声音事件检测AED还可以基于滤波器组(Filter Banks，Fbanks)，利用滤波器组对声音信号进行分析和处理以检测和识别声音事件。

在一些实施例中，自然语言特征提取单元205可以采用自然语言理解(NaturalLanguage Processing，NLP)技术，提取音视频170中的自然语言特征206。可选地，可以结合知识图谱(Knowledge Graph，KG)以及预训练的采用基于变换器的双向编码器表示技术(BERT)的文本检测模型来检测出音视频170中的音频对应的自动化语音识别(Auto SpeechRecognition，ASR)文本中的高亮片段。

如图所示，从音视频170中提取出来的视觉特征202、声学特征204和自然语言特征206可以被提供到候选重点片段识别单元207。在一些实施例中，可以通过多模态重点分类器对输入的多模态特征进行分类和打分。

多模态重点分类器是一种可以同时处理多种模态数据的分类器，其可以利用卷积神经网络(CNN)和循环神经网络(RNN)等技术来对音频、视频和文本等不同类型的信息进行分类，以及根据每个模态的特征和它们之间的相互作用来对每个样本进行打分，用以评估样本的质量、相似度或相关性等。候选重点片段识别单元207可以响应于该打分结果超过预设阈值，确定多个可能包含重点信息的片段，并经过进一步的过滤，去除无ASR文本的音视频片段，从而得到候选重点片段208。

如图所示，候选重点片段208可以被提供到重点词列表获取单元209。在一些实施例中，重点词列表获取单元209可以采用召回算法从候选重点片段208的ASR文本中提取候选重点词。召回算法是一种从大量候选项中筛选出与用户需求相关的项的方法。可选地，可以基于预训练的深度学习模型来召回候选重点词，或者基于预先定义的词表或者词典来召回候选重点词，或者通过分析数据模式来召回候选重点词。

在一些实施例中，重点词列表获取单元209可以通过对候选重点词进行排序来获取重点词列表210。例如，如果音视频170被识别为旅游主题，则首先将属于第一优先级的旅游标签下的候选重点词确定为重点词，如果旅游标签下的重点词数量不能满足单位时间区间内的重点词频率，则再将第二优先级的标签(例如，美食)下的候选重点词确定为重点词，如果还不够，则继续将次一级优先级的标签(例如，摄影)下的候选重点词确定为重点词，以此类推，直到单位时间区间内的重点词的数量满足重点词频率的条件。

可选地，音视频170的主题与候选重点片段208的所属标签可以经由多模态重点分类器获得。可选地，各标签的优先级可以从知识图谱获得。知识图谱中包含实体与其对应的标签，并且规定有标签优先级。可选地，标签优先级可以基于数据统计和机器学习的方式获得。在一些实现中，标签优先级可以是用户自定义的。

如图所示，重点词列表210可以被提供到重点片段获取单元211以获得重点片段180。重点词列表210中的重点词具有相关联的时间戳信息，由此重点片段获取单元211可以基于重点词列表210，定位到对应的时间区间列表，从而获得对应的重点片段180。

图3示出了根据本公开的一些实施例的用于检测音视频中的重点片段的方法300的流程示意图。在一些实施例中，方法300可以由例如图1所示的计算设备100来实现。更具体地，方法300可以由图1的重点检测器122来实现。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。为方便说明，将参考图2所示的框架来说明方法300。

如图3所示，在框310，计算设备100获取音视频的多模态特征，多模态特征包括视觉特征202、声学特征203和自然语言特征204。在一些实施例中，计算设备100可以是本地设备，例如手机，并且用户可以在应用程序(APP)中操作，输入音视频。在一些实施例中，计算设备100可以是在因特网的服务器，例如云服务器，经由网络接收从用户手机传输的音视频。

在一些实施例中，计算设备100可以通过目标检测提取音视频170中的视觉特征202，视觉特征202可以包括音视频170的画面特征。可选地，画面特征可以是颜色特征、形状特征、运动特征等。在一些实施例中，计算设备100可以通过声学特征提取单元203提取音视频170中的声学特征203，声学特征203包括声音事件，例如掌声、笑声等。在一些实施例中，计算设备100可以基于知识图谱和预训练的文本检测模型提取音视频170中的自然语言特征204，自然语言特征204包括自动化语音识别文本。

如图3所示，在框320，计算设备100基于多模态特征，确定音视频中的候选重点片段208。在一些实施例中，计算设备100可以通过多模态重点分类器对多模态特征进行分类和打分，并且响应于该打分结果超过预设阈值，确定包含重点信息的片段的时间戳，从而确定音视频170中的多个包括重点信息的片段。随后，计算设备100可以识别这些片段的自动化语音识别文本，并通过过滤掉这些片段中的无自动化语音识别文本的片段，从而获取到候选重点片段208。无自动化语音识别文本的片段，即片段中不含有语音信息，因此也不需要为其生成字幕和对应的重点片段。在一些实施例中，计算设备100还可以基于多模态重点分类器的输出结果和知识图谱来获取音视频170的主题类别标签和候选重点片段的标签。

如图3所示，在框330，计算设备100可以基于候选重点片段208的自动化语音识别文本，获取重点词列表210。在一些实施例中，计算设备100可以基于自动化语音识别文本提取候选重点词，然后基于候选片段的与知识图谱有关的标签，对候选重点词进行排序来确定重点词列表210。下文将参考图4来更详细地描述获取重点词列表210的过程。

图4示出了根据本公开的实施例的重点词列表获取单元400的示意图。重点词列表获取单元400可以是图2所示的重点词列表获取单元209的示例性实现。在一些实施例中，如图4所示，候选重点片段208对应的自动化语音识别文本以及语种(例如使用自然语言特征提取单元205来获取)可以被提供到重点词列表获取单元209中的召回单元401以获取候选重点词列表402，然后可以使用重点词过滤器403来筛选以获取重点词列表210。

可以使用多种方式来挖掘候选重点词。在一些实施例中，召回可以包括基于模型的召回。例如，召回单元401可以通过预训练的深度学习模型，根据自动化语音识别文本的语义信息来挖掘候选重点词。附加地或备选地，召回可以包括基于词表匹配的召回。召回单元401可以通过查询预先定义的词表或者词典进行匹配来挖掘候选重点词，将出现在词表或词典中的词语确定为候选重点词。词表和词典可以是基于知识图谱而得到的。附加地或备选地，召回还可以包括基于模式匹配的召回。召回单元401可以通过从大规模数据中发掘数据模式或结构进行匹配来召回候选重点词列表402。例如，可以将时间、地点等信息确定为候选关键词。需要说明的是，上述召回方式可以以任何方式进行组合，本公开对此没有限制。

候选重点词列表402进一步被提供到重点词过滤器403。重点词过滤器403可以配置有标签优先级和重点词频率条件。在一些实施例中，重点词过滤器403可以依据候选重点词所在的候选重点片段208的标签以及标签优先级对候选重点词列表402进行排序。如上所提及的，候选重点片段208的标签可以由多模态重点分类器获得。标签优先级可以是基于知识图谱来确定的，该知识图谱可以是特定领域(例如，美食、农业、旅游等)的垂直知识图谱。在标签优先级中，当前音视频的主题的标签可以是第一优先级，并且可以根据标签在知识图谱中关系(例如子标签、父标签、兄弟标签等)以及标签之间的距离来确定更低优先级的标签。

重点词过滤器403还可以依据重点词频率条件对经排序的候选重点词列表402进行进一步的筛选，从而确定重点词列表210。重点词频率条件指定一段时间内允许的重点词的最大数目或比例。重点词过滤器403首先将音视频170的主题标签设置为第一优先级的标签，并将该标签作为目标标签，然后将属于目标标签下的候选重点词确定为重点词。如果此时还未满足重点词频率条件，则重点词过滤器403再将次一级的第二优先级的标签作为目标标签，并将属于当前目标标签下的候选重点词确定为重点词。以此类推，直到满足重点词频率条件，最终获得重点词列表210。

返回图3，在框340，计算设备100可以基于重点词列表，确定音视频中的重点片段。参考图2，重点词列表210可以被提供到重点片段获取单元211。重点片段获取单元211可以基于重点词列表210重点词的时间戳，定位到最终的重点片段180的时间区间列表，从而获得重点片段180。在一些实施例中，可以在重点片段180被播放时向用户发出提醒信息，例如，以特定样式来显示对应的重点词。在一些实现中，样式可以与重点词或重点片段的标签相关，例如，根据标签优先级来应用不同的样式。在一些实现中，用户可以根据自身需要来调整样式。

图5A-图5B示出了根据本公开的一些实施例的自动检测音视频中的重点片段的用户交互过程。其中，图5A示出了根据本公开的实施例的用于检测音视频中的重点片段的音视频输入页面500A的示意图。在音视频输入页面500A中，包括输入的音视频501和自动划重点控件502。输入的音视频501可以是一段包括语音的无字幕视频。如图5A所示，用户输入的音视频501为一段讲解麻婆豆腐烹饪方法的无字幕视频，用户可以在上传完该音视频后，点击自动划重点控件502，进入划重点输出结果页面500B，获得带有字幕的视频，以及已标注好重点关键词的字幕。

图5B示出了根据本公开的实施例的用于检测音视频中的重点片段的划重点输出结果页面500B的示意图。在划重点输出结果页面500B中，包括生成的带有字幕的音视频503和划好重点词的实时字幕504。如图5B所示，相比于输入的音视频501，生成的音视频503已经生成了字幕，并且在实时字幕504中，“胡椒粉”作为调料标签下的词，已经被当做重点词做了标记。

以上参考图2至图5B描述了本公开的示例性实施例。相比于现有的字幕添加方案，本公开的检测音视频中的重点片段的方案能够建立自动化的处理流程，自动生成字幕并基于输入音视频的多模态特征确定重点片段，从而方便用户进行后续的字幕样式添加，有效减少了人力和时间成本。在一些实现中，本公开的方案通过同时引入多种召回算法来获取候选重点词并进一步地经由标签优先级排序获取最终的重点词，能够具有更好的视频重点发掘能力。在一些实现中，本公开的方案还通过引入重点词频率条件控制单位时间区间内的重点词频率，从而能够引导用户更加有区分度地使用差异化的字幕样式，增加视频的丰富度。

图6示出了根据本公开的实施例的用于检测音视频中的重点片段的装置600的示意性框图。装置600可以被实现在例如图1所示的计算设备100中的重点检测器122处。如图6所示，装置600包括：特征提取单元610、候选重点片段识别单元620、重点词列表获取单元630和重点片段获取单元640。

在一些实施例中，特征提取单元610被配置为获取音视频的多模态特征，多模态特征包括视觉特征、声学特征和自然语言特征；候选重点片段识别单元620被配置为基于多模态特征，确定音视频中的候选重点片段；重点词列表获取单元630被配置为基于候选重点片段的自动化语音识别文本，获取重点词列表；以及重点片段获取单元640被配置为基于重点词列表，确定音视频中的重点片段。

需要说明的是，参考图2至图5B所示的更多的动作或步骤可以通过图6所示的装置600来实现。例如，装置600可以包括更多的模块或单元来实现上文描述的动作或步骤，或者图6所示的一些单元或模块可以被进一步配置为实现上文描述的动作或步骤。这里不再重复阐述。

在一些实施例中，以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于检测音视频中的重点片段的方法，包括：

获取音视频的多模态特征，所述多模态特征包括视觉特征、声学特征和自然语言特征；

基于所述多模态特征，确定所述音视频中的候选重点片段；

基于所述候选重点片段的自动化语音识别文本，获取重点词列表；以及

基于所述重点词列表，确定所述音视频中的重点片段。

2.根据权利要求1所述的方法，其中，基于所述多模态特征确定所述音视频中的候选重点片段包括：

基于所述多模态特征，确定所述音视频中的多个片段；

识别所述多个片段的自动化语音识别文本；以及

通过过滤掉所述多个片段中的无自动化语音识别文本的片段，获取所述候选重点片段。

3.根据权利要求2所述的方法，其中，确定所述音视频中的多个片段包括：

对所述多模态特征进行分类和打分；以及

响应于所述打分结果超过预设阈值，确定所述音视频中的多个片段。

4.根据权利要求1所述的方法，其中，基于所述候选重点片段的自动化语音识别文本获取重点词列表包括：

基于所述候选重点片段的所述自动化语音识别文本，获取候选重点词；以及

基于所述候选重点片段的与知识图谱有关的标签，对所述候选重点词进行排序来获取所述重点词列表。

5.根据权利要求4所述的方法，其中，获取候选重点词包括：

从所述候选重点片段的所述自动化语音识别文本中召回所述候选重点词，所述召回包括以下至少一项：基于模型的召回；基于词表匹配的召回；或者基于数据模式匹配的召回。

6.根据权利要求4所述的方法，其中，对所述候选重点词进行排序来获取所述重点词列表包括：

基于所述候选重点词所在的候选重点片段的所述标签和标签优先级，对所述候选重点词进行排序；以及

基于重点词频率条件，从经排序的候选重点词中获取所述重点词列表。

7.根据权利要求6所述的方法，其中，所述重点词频率条件指定一段时间内允许的重点词的最大数目或比例。

8.根据权利要求6所述的方法，其中，所述标签优先级是基于知识图谱而被确定的。

9.根据权利要求1所述的方法，其中，获取音视频的多模态特征包括：

通过目标检测从所述音视频获取所述音视频的视觉特征，所述视觉特征包括所述音视频的画面特征。

10.根据权利要求1所述的方法，其中，获取音视频的多模态特征包括：

通过声音事件检测从所述音视频获取所述声学特征，所述声学特征包括声音事件。

11.根据权利要求1所述的方法，其中，获取音视频的多模态特征包括：

基于知识图谱和预训练的文本检测模型，从所述音视频获取自然语言特征，所述自然语言特征包括自动化语音识别文本。

12.一种用于检测音视频中的重点片段的系统，包括：

特征提取单元，被配置为获取音视频的多模态特征，所述多模态特征包括视觉特征、声学特征和自然语言特征；

候选重点片段识别单元，被配置为基于所述多模态特征，确定所述音视频中的候选重点片段；

重点词列表获取单元，被配置为基于所述候选重点片段的自动化语音识别文本，获取重点词列表；以及

重点片段获取单元，被配置为基于所述重点词列表，确定所述音视频中的重点片段。

13.一种计算设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述计算设备执行如权利要求1至11中任一项所述的方法。

14.一种非瞬态计算机存储介质，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行如权利要求1至11中的任一项所述的方法。

15.一种计算机程序产品，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行如权利要求1至11中的任一项所述的方法。