CN110798703A

CN110798703A - 视频违规内容检测的方法、装置以及存储介质

Info

Publication number: CN110798703A
Application number: CN201911067905.XA
Authority: CN
Inventors: 刘洋; 杨文鲜; 王新然; 李云飞; 傅景楠
Original assignee: Yunmu Future Technology Beijing Co Ltd
Current assignee: Yunmu Future Technology Beijing Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-14

Abstract

本申请公开了一种视频违规内容检测的方法、装置以及存储介质。其中，一种视频违规内容检测的方法包括：获取待检测视频；根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果；对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果；对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果；以及根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果。

Description

视频违规内容检测的方法、装置以及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频违规内容检测的方法、装置以及存储介质。

背景技术

随着计算机网络技术的发展，出现了越来越多的为用户提供上传、分享视频服务的互联网服务提供商，导致互联网中的视频数量呈现井喷式增长，这对视频内容的监控提出了更高的要求，人工审核的方式已经远远无法满足需求。近些年出现了自动化的视频内容监控解决方案，现有的视频违规内容检测的方法是通过提取视频中的一部分视频帧和音频分别进行检测，只要存在违规即视为违规视频，不仅没有考虑视频的连续信息，也没有对违规内容过检测的结果进行综合的处理，鲁棒性不足。

针对上述的现有技术中存在的视频违规内容检测方法提取视频中的一部分视频帧和音频分别进行检测，只要存在违规即视为违规视频，不仅没有考虑视频的连续信息，也没有对违规内容过检测的结果进行综合的处理，鲁棒性不足的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种视频违规内容检测的方法、装置以及存储介质，以至少解决现有技术中存在的视频违规内容检测方法提取视频中的一部分视频帧和音频分别进行检测，只要存在违规即视为违规视频，不仅没有考虑视频的连续信息，也没有对违规内容过检测的结果进行综合的处理，鲁棒性不足的技术问题。

根据本公开实施例的一个方面，提供了一种视频违规内容检测的方法，包括：获取待检测视频；根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象；对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签；对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种视频违规内容检测的装置，包括：待检测视频获取模块，用于获取待检测视频；提取模块，用于根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；第一违规内容检测结果确定模块，用于对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象；第二违规内容检测结果确定模块，用于对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签；第三违规内容检测结果确定模块，用于对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及第四违规内容检测结果确定模块，用于根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果。

根据本公开实施例的另一个方面，还提供了一种视频违规内容检测的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待检测视频；根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象；对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签；对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果。

从而根据本实施例的技术方案，计算设备通过提取待检测视频中的视频帧、视频片段以及音频，以及提取视频帧的图像的第一文本信息和音频中的第二文本信息，然后分别得出待检测视频的第一违规内容检测结果、第二违规内容检测结果、第三违规内容检测结果以及第五违规内容检测结果，从而确定了待检测视频的最终检测结果，即第四违规内容检测结果。通过这种方法达到了从待检测视频的图像、视频片段、人脸、物体、语音以及文字等各个角度对待检测视频进行违规内容识别分析，真正做到了全面检测视频的违规内容。与此同时，第四违规内容检测结果涵盖了视频帧和视频片段在待检测视频帧中的时域位置，进而能更加精确的定位待检测视频的违规内容。进而解决了现有技术中存在的视频违规内容检测方法提取视频中的一部分视频帧和音频分别进行检测，只要存在违规即视为违规视频，不仅没有考虑视频的连续信息，也没有对违规内容过检测的结果进行综合的处理，鲁棒性不足的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1所述的视频违规内容检测的方法的流程示意图；

图3A是根据本公开实施例1的所述的视频违规内容检测的方法的进一步流程示意图；

图3B是根据本公开实施例1的所述多模态融合结果的示意图；

图3C是根据本公开实施例1的所述视频帧和视频片段在待检测视频中的时域位置的示意图；

图4是根据本公开实施例2的所述的视频违规内容检测的装置的示意图；以及

图5是根据本公开实施例3的所述的视频违规内容检测的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，还提供了一种视频违规内容检测的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现视频违规内容检测的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的视频违规内容检测方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的视频违规内容检测的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种视频违规内容检测的方法，所述用于视频违规内容检测的方法例如可以在上面所述的计算设备中运行。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取待检测视频；

S204：根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；

S206：对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象；

S208：对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签；

S210：对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及

S212：根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果。

正如背景技术中所述的，随着计算机网络技术的发展，出现了越来越多的为用户提供上传、分享视频服务的互联网服务提供商，导致互联网中的视频数量呈现井喷式增长，这对视频内容的监控提出了更高的要求，人工审核的方式已经远远无法满足需求。近些年出现了许多半自动化的视频内容监控解决方案，现有的视频违规内容检测的方法是通过提取视频中的一部分视频帧和音频分别进行检测，只要存在违规即视为违规视频，不仅没有考虑视频的连续信息，也没有对违规内容过检测的结果进行综合的处理，鲁棒性不足。

有鉴于此，本实施例的技术方案提供了一种视频违规内容检测的方法，具体地，参考图2所示，计算设备获取待检测的视频之后(S202)，计算设备根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频(S204)，具体地，图3A示出了用于示例性说明根据本实施例所述的视频违规内容检测的方法的进一步的流程图，参考图3A所示，计算设备通过从待检测视频抽取出视频帧作为对待检测视频中的图像进行分违规内容检测的输入、抽取视频片段作为待检测视频违规内容检测的输入以及抽取音频作为待检测视频中的违规内容检测的输入。此外，视频处理方法采用的结束可以包括：等间隔视频帧抽取技术、关键帧抽取技术、视频切片段技术以及音频抽取技术等。

进一步地，对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象(S206)，计算设备可以采用多种深度学习模型对视频帧中的图像进行违规内容检测。

进一步地，对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签(S208)，其中行为标签可以是例如“打架”等行为性标签。

进一步地，对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签(S210)其中音频的类别标签可以是例如“爆炸声”等声音性的类别标签。

进一步地，图3B示出了多模态融合的结果示意图，参考图3B所示，根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果(S212)，其中第四违规内容检测结果可以是“色情视频”以及“暴恐视频”等。

从而根据本实施例的技术方案，计算设备通过提取待检测视频中的视频帧、视频片段以及音频，以及提取视频帧的图像的第一文本信息和音频中的第二文本信息，然后分别得出待检测视频的第一违规内容检测结果、第二违规内容检测结果、第三违规内容检测结果以及第五违规内容检测结果，从而确定了待检测视频的最终检测结果，即第四违规内容检测结果。通过这种方法达到了从待检测视频的图像、视频片段、人脸、物体、语音以及文字等各个角度对待检测视频进行违规内容识别分析，真正做到了全面检测视频的违规内容。进而解决了现有技术中存在的视频违规内容检测方法提取视频中的一部分视频帧和音频分别进行检测，只要存在违规即视为违规视频，不仅没有考虑视频的连续信息，也没有对违规内容过检测的结果进行综合的处理，鲁棒性不足的技术问题。

可选地，对视频帧的图像进行违规内容识别的操作包括：根据预先设置的图像分类模型，对图像进行分类，确定图像的类别，图像的类别用户指示图像违规的类型；根据预先设置的物体检测模型，检测图像中的物体，确定图像中违规物体的信息，其中违规物体的信息用于指示图像中物体的位置信息以及违规物体类型信息；根据预先设置的文本识别模型，识别图像中的第一文本信息，并输出图像的第一文本信息；根据预先设置的人脸识别模型，识别图像中的人脸，确定图像中人脸的信息，其中人脸的信息用于指示人脸的位置信息以及人脸的对象的身份信息；以及根据图像的类别、图像中违规物体的信息以及图像中人脸的信息确定第一违规内容检测结果。

具体地，参考图3A所示，计算设备对视频帧的图像进行违规内容识别的操作例如可以根据预先设置的图像分类模型，对图像进行分类，确定图像的类别，图像的类别用户指示图像违规的类型，其中图像的类别可以是“色情”等违规类型；计算设备根据预先设置的物体检测模型，检测图像中的物体，确定图像中违规物体的信息，其中违规物体的信息用于指示图像中物体的位置信息以及违规物体类型信息，其中例如可以使用矩形框的方法标注出物体所在的位置；计算设备根据预先设置的文本识别模型，识别图像中的第一文本信息，并输出图像的第一文本信息，其中第一文本信息可以是图像中的文字；计算设备根据预先设置的人脸识别模型，识别图像中的人脸，确定图像中人脸的信息，其中人脸的信息用于指示人脸的位置信息以及人脸的对象的身份信息，其中人脸的位置也可以通过矩形框标注的方法。然后计算设备根据图像的类别、图像中违规物体的信息以及图像中人脸的信息确定第一违规内容检测结果，从而计算设备可以检测出视频帧的图像中所存在的违规类别、违规物品以及违规人物等。

可选地，对视频片段进行违规内容识别的操作包括：确定视频片段的行为标签，其中行为标签用于指示视频片段的违规类型；以及根据行为标签，确定第二违规内容检测结果。

具体地，参考图3A所示，计算设备对视频片段进行违规内容识别的操作包括：确定视频片段的行为标签，其中行为标签用于指示视频片段的违规类型，例如可以是“打架”等行为类的标签。然后计算设备根据行为标签，确定第二违规内容检测结果，从而当行为标签为“打架”的情况下，确定视频片段中出现的行为标签为“打架”。

可选地，对音频进行违规内容识别的操作包括：根据预先设置的声音分类模型，对音频进行分类，输出音频的类别标签，其中类别标签用于指示音频的声音的违规类别；根据音频的类别标签，确定第三违规内容检测结果；以及根据预先设置的语音识别模型，对音频中的语音进行识别，并输出音频中的第二文本信息。

具体地，参考图3A所示，计算设备对音频进行违规内容识别例如可以根据预先设置的声音分类模型，对音频进行分类，输出音频的类别标签，其中类别标签用于指示音频的声音的违规类别，类别标签例如可以是“爆炸声”；计算设备根据音频的类别标签，确定第三违规内容检测结果，即确定待检测视频的音频的类别标签，这里例如可以是“爆炸声”；计算设备根据预先设置的语音识别模型，对音频中的语音进行识别，并输出音频中的第二文本信息，从而计算设备可以通过待检测视频中的音频检测出音频中的类别标签，并将音频中的声音转换成文字。

可选地，根据的第一违规内容检测结果、第二违规内容检测结果以及第三违规内容检测结果，确定待检测视频的第四违规内容检测结果，包括：根据预先设置的文本信息分类模型，对第一文本信息和第二文本信息进行违规内容检测，确定第一文本信息和第二文本信息的违规标签，其中违规标签用于指示第一文本信息和第二文本信息违规的类型；根据第一文本信息和第二文本信息的违规标签，确定待检测视频的第五违规内容检测结果，其中第五违规内容检测结果用于确定待检测视频的文字信息的违规标签；以及根据第一违规内容检测结果、第二违规内容过检测结果、第三违规内容过检测结果以及第五违规内容检测结果，确定第四违规内容检测结果。

具体地，参考图3A所示，计算设备根据的第一违规内容检测结果、第二违规内容检测结果以及第三违规内容检测结果，确定待检测视频的第四违规内容检测结果，例如可以根据预先设置的文本信息分类模型，对第一文本信息和第二文本信息进行违规内容检测，即对图像中识别出的文字和音频中识别出的文字，确定第一文本信息和第二文本信息的违规标签，其中违规标签用于指示第一文本信息和第二文本信息违规的类型；计算设备根据第一文本信息和第二文本信息的违规标签，确定待检测视频的第五违规内容检测结果，其中第五违规内容检测结果用于确定待检测视频的文字信息的违规标签，然后计算设备根据第一违规内容检测结果、第二违规内容过检测结果、第三违规内容过检测结果以及第五违规内容检测结果，确定第四违规内容检测结果。从而计算设备可以融合图像违规内容、音频违规内容、视频片段违规内容以及文字违规内容从多个角度对待检测视频进行违规内容分析，进而得出待检测视频的最终违规内容检测结果。

可选地，根据待检测视频的时序信息以及视频片段和视频帧在待检测视频中的时域位置确定第四违规内容检测结果在待检测视频中的位置。

具体的，图3B示出了多模态融合结果的示意图以及图3C示出了视频帧和视频片段在待检测视频中的时域位置的示意图，参考图3B和图3C所示，计算设备根据待检测视频的时序信息以及视频片段和视频帧在待检测视频中的时域位置确定第四违规内容检测结果在待检测视频中的位置。计算设备采用多模态融合模型将图像违规内容、音频违规内容、视频片段违规内容以及文字违规内容进行融合，同时结合了待检测视频的时序信息，即视频帧和视频片段在待检测视频中的位置，从而确定了待检测视频的最终的违规内容的识别结果，同时也可以确定违规内容在待检测视频中的时域位置。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图4示出了根据本实施例的所述的视频违规内容检测的装置400，该装置400与根据实施例1所述的方法相对应。参考图4所示，该装置400包括：待检测视频获取模块410，用于获取待检测视频；提取模块420，用于根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；第一违规内容检测结果确定模块430，用于对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象；第二违规内容检测结果确定模块440，用于对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签；第三违规内容检测结果确定模块450，用于对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及第四违规内容检测结果确定模块460，用于根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果。

可选地，第一违规内容检测结果确定模块430包括：图像类别确定子模块，用于根据预先设置的图像分类模型，对图像进行分类，确定图像的类别，图像的类别用户指示图像违规的类型；违规物体确定子模块，用于根据预先设置的物体检测模型，检测图像中的物体，确定图像中违规物体的信息，其中违规物体的信息用于指示图像中物体的位置信息以及违规物体类型信息；第一文本信息确定子模块，用于根据预先设置的文本识别模型，识别图像中的第一文本信息，并输出图像的第一文本信息；人脸信息确定子模块，用于根据预先设置的人脸识别模型，识别图像中的人脸，确定图像中人脸的信息，其中人脸的信息用于指示人脸的位置信息以及人脸的对象的身份信息；以及第一违规内容检测结果确定子模块，用于根据图像的类别、图像中违规物体的信息以及图像中人脸的信息确定第一违规内容检测结果。

可选地，第二违规内容检测结果确定模块440包括：行为标签确定子模块，用于确定视频片段的行为标签，其中行为标签用于指示视频片段的违规类型；以及第二违规内容检测结果确定子模块，用于根据行为标签，确定第二违规内容检测结果。

可选地，第三违规内容检测结果确定模块450包括：类别标签确定子模块，用于根据预先设置的声音分类模型，对音频进行分类，输出音频的类别标签，其中类别标签用于指示音频的声音的违规类别；第三违规内容检测结果确定子模块，用于根据音频的类别标签，确定第三违规内容检测结果；以及第二文本信息确定子模块，用于根据预先设置的语音识别模型，对音频中的语音进行识别，并输出音频中的第二文本信息。

可选地，第四违规内容检测结果确定模块460包括：对视频帧的图像进行违规内容识别的操作包括：根据预先设置的图像分类模型，对图像进行分类，确定图像的类别，图像的类别用户指示图像违规的类型；根据预先设置的物体检测模型，检测图像中的物体，确定图像中违规物体的信息，其中违规物体的信息用于指示图像中物体的位置信息以及违规物体类型信息；根据预先设置的文本识别模型，识别图像中的第一文本信息，并输出图像的第一文本信息；根据预先设置的人脸识别模型，识别图像中的人脸，确定图像中人脸的信息，其中人脸的信息用于指示人脸的位置信息以及人脸的对象的身份信息；以及根据图像的类别、图像中违规物体的信息以及图像中人脸的信息确定第一违规内容检测结果，对音频进行违规内容识别的操作包括：根据预先设置的声音分类模型，对音频进行分类，输出音频的类别标签，其中类别标签用于指示音频的声音的违规类别；根据音频的类别标签，确定第三违规内容检测结果；以及根据预先设置的语音识别模型，对音频中的语音进行识别，并输出音频中的第二文本信息，并且违规标签确定子模块，用于根据预先设置的文本信息分类模型，对第一文本信息和第二文本信息进行违规内容检测，确定第一文本信息和第二文本信息的违规标签，其中违规标签用于指示第一文本信息和第二文本信息违规的类型；第五违规内容检测结果确定子模块，用于根据第一文本信息和第二文本信息的违规标签，确定待检测视频的第五违规内容检测结果，其中第五违规内容检测结果用于确定待检测视频的文字信息的违规标签；以及第四违规内容检测结果确定子模块，用于根据第一违规内容检测结果、第二违规内容过检测结果、第三违规内容过检测结果以及第五违规内容检测结果，确定第四违规内容检测结果。

可选地，装置400还包括：位置确定子模块，用于根据待检测视频的时序信息以及视频片段和视频帧在待检测视频中的时域位置确定第四违规内容检测结果在待检测视频中的位置。

实施例3

图5示出了根据本实施例所述的视频违规内容检测的装置500，该装置500与根据实施例1所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：获取待检测视频；根据预先设置的视频处理方法提取待检测视频中的视频帧、视频片段以及音频；对视频帧的图像进行违规内容识别，并确定待检测视频的第一违规内容检测结果，其中第一违规内容检测结果用于确定待检测视频中的目标对象；对视频片段进行违规内容识别，并确定待检测视频的第二违规内容检测结果，其中第二违规内容检测结果用于确定待检测视频的行为标签；对音频进行违规内容识别，并确定待检测视频的第三违规内容检测结果，其中第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及根据的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定待检测视频的第四违规内容检测结果，其中第四违规内容检测结果用于确定待检测视频的最终的违规内容识别结果。。

可选地，根据的第一违规内容检测结果、第二违规内容检测结果以及第三违规内容检测结果，确定待检测视频的第四违规内容检测结果，包括：对视频帧的图像进行违规内容识别的操作包括：根据预先设置的图像分类模型，对图像进行分类，确定图像的类别，图像的类别用户指示图像违规的类型；根据预先设置的物体检测模型，检测图像中的物体，确定图像中违规物体的信息，其中违规物体的信息用于指示图像中物体的位置信息以及违规物体类型信息；根据预先设置的文本识别模型，识别图像中的第一文本信息，并输出图像的第一文本信息；根据预先设置的人脸识别模型，识别图像中的人脸，确定图像中人脸的信息，其中人脸的信息用于指示人脸的位置信息以及人脸的对象的身份信息；以及根据图像的类别、图像中违规物体的信息以及图像中人脸的信息确定第一违规内容检测结果，对音频进行违规内容识别的操作包括：根据预先设置的声音分类模型，对音频进行分类，输出音频的类别标签，其中类别标签用于指示音频的声音的违规类别；根据音频的类别标签，确定第三违规内容检测结果；以及根据预先设置的语音识别模型，对音频中的语音进行识别，并输出音频中的第二文本信息，并且根据预先设置的文本信息分类模型，对第一文本信息和第二文本信息进行违规内容检测，确定第一文本信息和第二文本信息的违规标签，其中违规标签用于指示第一文本信息和第二文本信息违规的类型；根据第一文本信息和第二文本信息的违规标签，确定待检测视频的第五违规内容检测结果，其中第五违规内容检测结果用于确定待检测视频的文字信息的违规标签；以及根据第一违规内容检测结果、第二违规内容过检测结果、第三违规内容过检测结果以及第五违规内容检测结果，确定第四违规内容检测结果。

可选地，装置500还包括：根据待检测视频的时序信息以及视频片段和视频帧在待检测视频中的时域位置确定第四违规内容检测结果在待检测视频中的位置。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频违规内容检测的方法，其特征在于，包括：

获取待检测视频；

根据预先设置的视频处理方法提取所述待检测视频中的视频帧、视频片段以及音频；

对所述视频帧的图像进行违规内容识别，并确定所述待检测视频的第一违规内容检测结果，其中所述第一违规内容检测结果用于确定所述待检测视频中的目标对象；

对所述视频片段进行违规内容识别，并确定所述待检测视频的第二违规内容检测结果，其中所述第二违规内容检测结果用于确定所述待检测视频的行为标签；

对所述音频进行违规内容识别，并确定所述待检测视频的第三违规内容检测结果，其中所述第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及

根据所述的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定所述待检测视频的第四违规内容检测结果，其中所述第四违规内容检测结果用于确定所述待检测视频的最终的违规内容识别结果。

2.根据权利要求1所述的方法，其特征在于，对所述视频帧的图像进行违规内容识别的操作包括：

根据预先设置的图像分类模型，对所述图像进行分类，确定所述图像的类别，所述图像的类别用户指示所述图像违规的类型；

根据预先设置的物体检测模型，检测所述图像中的物体，确定所述图像中违规物体的信息，其中所述违规物体的信息用于指示所述图像中物体的位置信息以及违规物体类型信息；

根据预先设置的文本识别模型，识别所述图像中的第一文本信息，并输出所述图像的第一文本信息；

根据预先设置的人脸识别模型，识别所述图像中的人脸，确定所述图像中人脸的信息，其中所述人脸的信息用于指示所述人脸的位置信息以及人脸的对象的身份信息；以及

根据所述图像的类别、所述图像中违规物体的信息以及所述图像中人脸的信息确定所述第一违规内容检测结果。

3.根据权利要求1所述的方法，其特征在于，对所述视频片段进行违规内容识别的操作包括：

确定所述视频片段的行为标签，其中所述行为标签用于指示所述视频片段的违规类型；以及

根据所述行为标签，确定所述第二违规内容检测结果。

4.根据权利要求1所述的方法，其特征在于，对所述音频进行违规内容识别的操作包括：

根据预先设置的声音分类模型，对所述音频进行分类，输出所述音频的类别标签，其中所述类别标签用于指示所述音频的声音的违规类别；

根据所述音频的类别标签，确定所述第三违规内容检测结果；以及

根据预先设置的语音识别模型，对所述音频中的语音进行识别，并输出所述音频中的第二文本信息。

5.根据权利要求1所述的方法，其特征在于，根据所述的第一违规内容检测结果、第二违规内容检测结果以及第三违规内容检测结果，确定所述待检测视频的第四违规内容检测结果，包括：

对所述视频帧的图像进行违规内容识别的操作包括：根据预先设置的图像分类模型，对所述图像进行分类，确定所述图像的类别，所述图像的类别用户指示所述图像违规的类型；根据预先设置的物体检测模型，检测所述图像中的物体，确定所述图像中违规物体的信息，其中所述违规物体的信息用于指示所述图像中物体的位置信息以及违规物体类型信息；根据预先设置的文本识别模型，识别所述图像中的第一文本信息，并输出所述图像的第一文本信息；根据预先设置的人脸识别模型，识别所述图像中的人脸，确定所述图像中人脸的信息，其中所述人脸的信息用于指示所述人脸的位置信息以及人脸的对象的身份信息；以及根据所述图像的类别、所述图像中违规物体的信息以及所述图像中人脸的信息确定所述第一违规内容检测结果，

对所述音频进行违规内容识别的操作包括：根据预先设置的声音分类模型，对所述音频进行分类，输出所述音频的类别标签，其中所述类别标签用于指示所述音频的声音的违规类别；根据所述音频的类别标签，确定所述第三违规内容检测结果；以及根据预先设置的语音识别模型，对所述音频中的语音进行识别，并输出所述音频中的第二文本信息，并且

根据预先设置的文本信息分类模型，对所述第一文本信息和第二文本信息进行违规内容检测，确定所述第一文本信息和所述第二文本信息的违规标签，其中所述违规标签用于指示所述第一文本信息和第二文本信息违规的类型；

根据所述第一文本信息和所述第二文本信息的违规标签，确定所述待检测视频的第五违规内容检测结果，其中所述第五违规内容检测结果用于确定待检测视频的文字信息的违规标签；以及

根据所述第一违规内容检测结果、第二违规内容过检测结果、第三违规内容过检测结果以及所述第五违规内容检测结果，确定所述第四违规内容检测结果。

6.根据权利要求1所述的方法，其特征在于，还包括：

根据所述待检测视频的时序信息以及所述视频片段和所述视频帧在所述待检测视频中的时域位置确定所述第四违规内容检测结果在所述待检测视频中的位置。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

8.一种视频违规内容检测的装置，其特征在于，包括：

待检测视频获取模块，用于获取待检测视频；

提取模块，用于根据预先设置的视频处理方法提取所述待检测视频中的视频帧、视频片段以及音频；

第一违规内容检测结果确定模块，用于对所述视频帧的图像进行违规内容识别，并确定所述待检测视频的第一违规内容检测结果，其中所述第一违规内容检测结果用于确定所述待检测视频中的目标对象；

第二违规内容检测结果确定模块，用于对所述视频片段进行违规内容识别，并确定所述待检测视频的第二违规内容检测结果，其中所述第二违规内容检测结果用于确定所述待检测视频的行为标签；

第三违规内容检测结果确定模块，用于对所述音频进行违规内容识别，并确定所述待检测视频的第三违规内容检测结果，其中所述第三违规内容检测结果用于确定待检测视频的音频的类别标签；以及

第四违规内容检测结果确定模块，用于根据所述的第一违规内容检测结果、第二违规内容过检测结果以及第三违规内容过检测结果，确定所述待检测视频的第四违规内容检测结果，其中所述第四违规内容检测结果用于确定所述待检测视频的最终的违规内容识别结果。

9.根据权利要求8所述的装置，其特征在于，第一违规内容检测结果确定模块包括：

图像类别确定子模块，用于根据预先设置的图像分类模型，对所述图像进行分类，确定所述图像的类别，所述图像的类别用户指示所述图像违规的类型；

违规物体确定子模块，用于根据预先设置的物体检测模型，检测所述图像中的物体，确定所述图像中违规物体的信息，其中所述违规物体的信息用于指示所述图像中物体的位置信息以及违规物体类型信息；

第一文本信息确定子模块，用于根据预先设置的文本识别模型，识别所述图像中的第一文本信息，确定所述图像的第一文本信息；

人脸信息确定子模块，用于根据预先设置的人脸识别模型，识别所述图像中的人脸，确定所述图像中人脸的信息，其中所述人脸的信息用于指示所述人脸的位置信息以及人脸的对象的身份信息；以及

第一违规内容检测结果确定子模块，用于根据所述图像的类别、所述图像中违规物体的信息以及所述图像中人脸的信息确定所述第一违规内容检测结果。

10.一种视频违规内容检测的装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取待检测视频；