CN111401474B

CN111401474B - 视频分类模型的训练方法、装置、设备及存储介质

Info

Publication number: CN111401474B
Application number: CN202010286261.XA
Authority: CN
Inventors: 尹康; 吴宇斌; 郭烽
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2023-09-08
Anticipated expiration: 2040-04-13
Also published as: CN111401474A

Abstract

本申请实施例提供了一种视频分类模型的训练方法、装置、设备及存储介质，涉及视频分类技术领域。所述方法包括：获取无标签视频集合，无标签视频集合中包括至少一个无标签视频，无标签视频是指未经人工标注的视频；根据无标签视频集合对神经网络模型进行训练，得到完成训练的神经网络模型，神经网络模型包括特征提取模块；将完成训练的特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；获取标签视频集合，标签视频集合中包括至少一个标签视频，标签视频是指经人工标注的视频；通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。本申请实施例可以提高视频分类模型的训练效率。

Description

视频分类模型的训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及视频分类技术领域，特别涉及一种视频分类模型的训练方法、装置、设备及存储介质。

背景技术

视频分类的目的在于对输入视频打上一个或多个包含主体、场景、行为等信息的标签，如：人、操场、跑步等。

在相关技术中，可以通过视频分类模型完成对视频的分类，视频分类模型进行应用之前需要先进行训练，一般通过带有标签的视频对视频分类模型进行训练，视频分类模型需要超大规模的带有标签的视频才能使得训练得到的视频分类模型的精度较高。

由于视频分类模型的预测精度依赖于视频的标签的准确度，虽然人工标注能提升标签的准确度，但人工标注的效率低，从而导致视频分类模型的训练效率也较低。

发明内容

本申请实施例提供一种视频分类模型的训练方法、装置、设备及存储介质。

所述技术方案如下：

一方面，本申请实施例提供一种视频分类模型的训练方法，所述方法包括：

获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；

根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；

将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；

获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；

通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。

另一方面，本申请实施例提供一种视频分类模型的训练装置，所述装置包括：

集合获取模块，用于获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；

模型训练模块，用于根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；

模型生成模块，用于将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；

所述集合获取模块，还用于获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；

所述模型训练模块，还用于通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述方面所述的视频分类模型的训练方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的视频分类模型的训练方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过根据无标签视频集合对神经网络进行训练，得到完成训练的特征提取模块；将完成训练的特征提取模块和随机初始化的视频分类模块进行级联，得到视频分类模型；通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。本申请实施例先根据无标签视频集合对视频分类模型中的特征提取模块进行训练，能够利用理论上无限多的无标签视频进行训练，有利于增强特征提取模块的鲁棒性，增强了特征提取模块的准确性。在保证了特征提取模块的精确性的情况下，本申请实施例提供的视频分类模型的训练方法不依赖于大量的标签视频，不需要耗费大量时间在人工标注上，因此可以提高视频分类模型的训练效率。

附图说明

图1是本申请一个实施例提供的视频分类模型的训练方法的流程图；

图2是本申请一个实施例提供的视频片段获取方法的示意图；

图3是本申请一个实施例提供的自监督标签视频生成方法的示意图；

图4是本申请一个实施例提供的视频分类模型的训练方法的示意图；

图5是本申请一个实施例提供的视频分类模型的训练装置的框图；

图6是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的各步骤的执行主体可以是计算机设备，计算机设备是指具备计算和处理能力的电子设备。在一个示例中，计算机设备可以是终端，例如，手机、平板电脑、PC(Personal Computer，个人计算机)、智能可穿戴设备等；在另一个示例中，计算机设备可以是服务器，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，还可以是云服务器，本申请实施例对此不作限定。

为了便于描述，下述实施例仅以各步骤的执行主体为计算机设备为例进行介绍说明，但不应对本申请实施例造成限定。

请参考图1，其示出了本申请一个实施例提供的视频分类模型的训练方法的流程图。该方法可以包括如下几个步骤。

步骤101，获取无标签视频集合。

在本申请实施例中，无标签视频集合中包括至少一个无标签视频，无标签视频是指未经人工标注的视频。可选地，计算机设备可以通过网络爬取等方式在许可范围内获取未经人工标注的视频，从而得到无标签视频集合。

步骤102，根据无标签视频集合对神经网络模型进行训练，得到完成训练的神经网络模型。

在本申请实施例中，神经网络模型包括特征提取模块，特征提取模块是指用于对视频的特征进行提取的模块。相应地，根据无标签视频集合对神经网络模型进行训练，可以得到完成训练的特征提取模块。

步骤103，将完成训练的特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型。

视频分类模块是指用于对视频进行分类的模块。本申请实施例保留特征提取模块的结构和参数，在其后级联视频分类模块并随机初始化函数。

在可能的实现方式中，特征提取模块包括带有残差结构的卷积层，视频分类模块包括单隐层的MLP(Multi-Layer Perceptron，多层感知机)。

在可能的实现方式中，在对算法时间效率要求较高的场合，特征提取模块可以采用更高效的结构，如轻量化网络提取帧级特征+NeXtVLAD算法集成的方式。

步骤104，获取标签视频集合。

在本申请实施例中，标签视频集合中包括至少一个标签视频，标签视频是指经人工标注的视频，标签视频上带有人工标记标签。计算机设备可以采用公开数据集(例如，YouTube-8M)的方式获取标签视频集合。

步骤105，通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。

在特征提取模块已经完成训练的情况下，本申请实施例可以通过标签视频集合以较小的学习率训练视频分类模型至收敛，因为特征提取模块之前已经训练过，所以此次只需要对视频分类模型进行微调，因此对视频分类模型进行训练的时候可以以较小的学习率进行训练，有助于加快视频分类模型的收敛。

本申请实施例涉及了两阶段的网络训练方式，第一阶段在无监督数据集(无标签视频集合)上利用自监督信息训练特征提取模块，第二阶段在有监督数据集(标签视频集合)上对视频分类模型进行微调，可以提升视频分类模型的性能，加快视频分类模型的训练效率。

综上所述，本申请实施例提供的技术方案中，通过根据无标签视频集合对神经网络进行训练，得到完成训练的特征提取模块；将完成训练的特征提取模块和随机初始化的视频分类模块进行级联，得到视频分类模型；通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。本申请实施例先根据无标签视频集合对视频分类模型中的特征提取模块进行训练，能够利用理论上无限多的无标签视频进行训练，有利于增强特征提取模块的鲁棒性，增强了特征提取模块的准确性。在保证了特征提取模块的精确性的情况下，本申请实施例提供的视频分类模型的训练方法不依赖于大量的标签视频，不需要耗费大量时间在人工标注上，因此可以提高视频分类模型的训练效率。

在示意性实施例中，神经网络模型的训练过程可以包括如下步骤：

第一、根据无标签视频集合生成自监督标签视频集合。

在本申请实施例中，自监督标签视频集合包括至少一个自监督标签视频，自监督标签视频对应有各自的标准标签向量。

可选地，此步骤包括如下几个子步骤：

1、对于无标签视频集合中的每一个无标签视频，在无标签视频中随机截取n个视频片段，n为正整数。

在可能的实现方式中，计算机设备通过如下方式获得视频片段：

1.1、从无标签视频的第一帧至目标帧之间随机选择一帧作为起始帧；

1.2、从起始帧开始每隔预设帧数截取等长的图像帧，得到n个视频片段。

示例性地，如图2所示，假设无标签视频一共有l帧图像帧，每个视频片段包括m帧图像帧，相邻两个视频片段间隔k帧图像帧，则目标帧的帧数可以通过如下公式确定：l-nm-(n-1)k，即计算机设备可以从第一帧至第l-nm-(n-1)k帧之间随机选择一帧作为起始帧。起始帧的帧数可以记为start，则n个视频片段中的第i个视频片段可以包括无标签视频的第(start+(i-1)(m+k))帧图像帧到第(start+(i-1)(m+k)+m)帧图像帧，i为小于或等于n的正整数。

可选地，计算机设备将截取到的视频片段中包括的每帧图像帧的尺寸归一化为相等尺寸的图像帧。例如，计算机设备可以将尺寸归一化为统一大小sxs像素的图像帧。

在可能的实现方式中，计算机设备从无标签视频中截取3个视频片段，每个视频片段包括16帧图像帧，每两个视频片段之间间隔8帧图像帧，每个视频片段包括的图像帧统一化为224x224像素尺寸大小的图像帧。

2、对n个视频片段按照时间顺序依次编号。

3、随机打乱n个视频片段的顺序。

4、根据不同顺序的n个视频片段各自形成的自监督标签视频，生成自监督标签视频集合。

如图3所示，将来自同一无标签视频的n个片段记为一组，在组内按照时间顺序将各视频片段依次编号为1、2、3、……n，随机打乱这n个视频片段的顺序，为打乱顺序后的编号在1、2、3、……n的所有排列组合形成的自监督标签视频打上不同的标签。每个标签对应有各自的标准标签向量。

以n＝3为例，随机打乱顺序后的编号与标签的对应关系如表1所示。

表1

乱序编号	标签
		1-2-3	0
1-3-2	1
		2-1-3	2
2-3-1	3
		3-1-2	4
3-2-1	5

乱序编号为1-2-3的自监督标签视频对应的标签为0，其对应的标准标签向量为[1，0，0，0，0，0]；乱序编号为1-3-2的自监督标签视频对应的标签为1，其对应的标准标签向量为[0，1，0，0，0，0]；乱序编号为2-1-3的自监督标签视频对应的标签为2，其对应的标准标签向量为[0，0，1，0，0，0]；乱序编号为2-3-1的自监督标签视频对应的标签为3，其对应的标准标签向量为[0，0，0，1，0，0]；乱序编号为3-1-2的自监督标签视频对应的标签为4，其对应的标准标签向量为[0，0，0，0，1，0]；乱序编号为3-2-1的自监督标签视频对应的标签为5，其对应的标准标签向量为[0，0，0，0，0，1]。

第二、通过自监督标签视频集合对神经网络模型进行训练，得到完成训练的神经网络模型。

可选地，此步骤包括如下几个子步骤：

1、将自监督标签视频输入神经网络模型中，得到自监督标签视频对应的预测标签向量；

2、根据指数归一化处理后的预测标签向量和自监督标签视频对应的标准标签向量，确定神经网络模型的第一交叉熵损失函数的值；

预测标签向量和标准标签向量为n！维向量，表示n个视频片段存在n！种排序方式。

可选地，通过如下公式对预测标签向量进行指数归一化处理：

其中，l_k表示预测标签向量中第k位的取值，l_i表示预测标签向量中第i位的取值，n代表视频片段的个数。

可选地，计算机设备通过如下公式计算得到第一交叉熵损失函数Loss₁：

其中，y_i表示标准标签向量中第i位的取值。

在可能的实现方式中，神经网络模型还包括顺序预测模块。特征提取模块用于提取自监督标签视频的特征，顺序预测模块用于根据该自监督标签视频的特征预测视频的顺序。顺序预测模块可以包括单隐层的MLP。

3、根据第一交叉熵损失函数的值，训练神经网络模型，得到完成训练的神经网络模型。

综上所述，本申请实施例提供的技术方案中，通过自监督的网络训练方式，能够利用理论上无限多的无标签视频训练特征提取模块，可以有效增强特征提取模块的鲁棒性，从而提升视频分类的准确性。

在示意性实施例中，视频分类模型的训练过程可以包括如下步骤：

第一、将标签视频输入视频分类模型中，得到标签视频对应的预测分类向量。

第二、根据归一化处理后的预测分类向量和标签视频对应的标准分类向量，确定视频分类模型的第二交叉熵损失函数的值。

可选地，计算机设备通过如下公式对预测分类向量进行归一化处理：

其中，p_i表示预测标签向量中的第i位的取值。

第三、根据第二交叉熵损失函数的值，训练视频分类模型，得到完成训练的视频分类模型。

可选地，通过如下公式计算得到第二交叉熵损失函数Loss₂：

其中，q_i表示标准分类向量中的第i位的取值。

如图4所示，其示出了本申请一个实施例提供的视频分类模型的训练方法的示意图。本申请实施例提供的视频分类模型的训练方法可以分为预训练和微调两个过程。预训练过程是指通过海量的无标签视频生成用于自监督任务的自监督标签视频集合，再优化自监督损失(第一交叉熵损失)训练神经网络模型。微调过程是指在预训练过程中获得的完成训练的神经网络模块的基础上，保留前半部分的特征提取模块，将后半部分替换为面向视频分类任务的视频分类模块，并在小规模的有监督训练集(标签视频集合)上根据有监督损失(第二交叉熵损失)继续进行训练，最终得到所需的视频分类模型，有助于提升视频分类模型的性能。

在示意性实施例中，当视频分类模型完成训练后，计算机设备还可以执行以下步骤：

第一、获取待分类视频。

待分类视频是指用于进行分类的视频。待分类视频可以是长视频，也可以是短视频，本申请实施例对此不作限定。

第二、将待分类视频输入完成训练的视频分类模型中，得到待分类视频对应的分类向量。

完成训练的视频分类模型中包括特征提取模块和视频分类模块。特征提取模块用于提取待分类视频的特征，视频分类模块用于根据上述待分类视频的特征对该待分类视频进行分类，得到分类向量。分类向量中包括的每一个向量对应不同的视频类别。

第三、响应于分类向量包括的目标向量的值大于阈值，确定待分类视频属于目标向量对应的类别。

假设分类向量中包括5个向量，其取值分别为0.2、0.3、0.8、0.7、0.9，阈值为0.85，第5个向量的值大于阈值，则确定待分类视频属于第5类。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图5，其示出了本申请一个实施例提供的视频分类模型的训练装置的框图，该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置500可以包括：集合获取模块510、模型训练模块520和模型生成模块530。

集合获取模块510，用于获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；

模型训练模块520，用于根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；

模型生成模块530，用于将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；

所述集合获取模块510，还用于获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；

所述模型训练模块520，还用于通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。

可选地，所述模型训练模块520，包括:集合生成单元和模型训练单元(图中未示出)。

集合生成单元，用于根据所述无标签视频集合生成自监督标签视频集合，所述自监督标签视频集合包括至少一个自监督标签视频，所述自监督标签视频对应有各自的标准标签向量；

模型训练单元，用于通过所述自监督标签视频集合对所述神经网络模型进行训练，得到完成训练的所述神经网络模型。

可选地，所述集合生成单元，包括：片段截取子单元、片段编号子单元、顺序打乱子单元和集合生成子单元(图中未示出)。

片段截取子单元，用于对于所述无标签视频集合中的每一个所述无标签视频，在所述无标签视频中随机截取n个视频片段，所述n为正整数；

片段编号子单元，用于对所述n个视频片段按照时间顺序依次编号；

顺序打乱子单元，用于随机打乱所述n个视频片段的顺序；

集合生成子单元，用于根据不同顺序的所述n个视频片段各自形成的自监督标签视频，生成所述自监督标签视频集合。

可选地，所述片段截取子单元，用于：

从所述无标签视频的第一帧至目标帧之间随机选择一帧作为起始帧；

从所述起始帧开始每隔预设帧数截取等长的图像帧，得到所述n个视频片段。

可选地，所述模型训练单元，用于：

将所述自监督标签视频输入所述神经网络模型中，得到所述自监督标签视频对应的预测标签向量；

根据指数归一化处理后的所述预测标签向量和所述自监督标签视频对应的标准标签向量，确定所述神经网络模型的第一交叉熵损失函数的值；

根据所述第一交叉熵损失函数的值，训练所述神经网络模型，得到完成训练的所述神经网络模型。

可选地，所述模型训练模块520，用于：

将所述标签视频输入所述视频分类模型中，得到所述标签视频对应的预测分类向量；

根据归一化处理后的所述预测分类向量和所述标签视频对应的标准分类向量，确定所述视频分类模型的第二交叉熵损失函数的值；

根据所述第二交叉熵损失函数的值，训练所述视频分类模型，得到完成训练的所述视频分类模型。

可选地，所述装置500，还包括：视频获取模块和视频分类模块(图中未示出)。

视频获取模块，用于获取待分类视频；

视频分类模块，用于将所述待分类视频输入完成训练的所述视频分类模型中，得到所述待分类视频对应的分类向量；

所述视频分类模块，还用于响应于所述分类向量包括的目标向量的值大于阈值，确定所述待分类视频属于所述目标向量对应的类别。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图6，其示出了本申请一个实施例提供的计算机设备的结构框图。

本申请实施例中的计算机设备可以包括一个或多个如下部件：处理器610和存储器620。

处理器610可以包括一个或者多个处理核心。处理器610利用各种接口和线路连接整个计算机设备内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的，执行计算机设备的各种功能和处理。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块芯片进行实现。

可选地，处理器610执行存储器620中的程序指令时实现上述各个方法实施例提供的方法。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器620包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等；存储区可存储根据计算机设备的使用所创建的等。

上述计算机设备的结构仅是示意性的，在实际实现时，计算机设备可以包括更多或更少的组件，比如：显示屏等，本实施例对此不作限定。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由计算机设备的处理器加载并执行以实现上述方法实施例中的各个步骤。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述方法。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类模型的训练方法，其特征在于，所述方法包括：

根据所述无标签视频集合生成自监督标签视频集合，所述自监督标签视频集合包括至少一个自监督标签视频，所述自监督标签视频对应有各自的标准标签向量；

将所述自监督标签视频输入神经网络模型中，得到所述自监督标签视频对应的预测标签向量；

根据指数归一化处理后的所述预测标签向量和所述自监督标签视频对应的所述标准标签向量，确定所述神经网络模型的第一交叉熵损失函数的值；

根据所述第一交叉熵损失函数的值，训练所述神经网络模型，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；

2.根据权利要求1所述的方法，其特征在于，所述根据所述无标签视频集合生成自监督标签视频集合，包括：

对于所述无标签视频集合中的每一个所述无标签视频，在所述无标签视频中随机截取n个视频片段，所述n为正整数；

对所述n个视频片段按照时间顺序依次编号；

随机打乱所述n个视频片段的顺序；

根据不同顺序的所述n个视频片段各自形成的自监督标签视频，生成所述自监督标签视频集合。

3.根据权利要求2所述的方法，其特征在于，所述在所述无标签视频中随机截取n个视频片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

获取待分类视频；

将所述待分类视频输入完成训练的所述视频分类模型中，得到所述待分类视频对应的分类向量；

响应于所述分类向量包括的目标向量的值大于阈值，确定所述待分类视频属于所述目标向量对应的类别。

6.一种视频分类模型的训练装置，其特征在于，所述装置包括：

模型训练单元，用于将所述自监督标签视频输入神经网络模型中，得到所述自监督标签视频对应的预测标签向量；

所述模型训练单元，还用于根据指数归一化处理后的所述预测标签向量和所述自监督标签视频对应的所述标准标签向量，确定所述神经网络模型的第一交叉熵损失函数的值；

所述模型训练单元，还用于根据所述第一交叉熵损失函数的值，训练所述神经网络模型，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；

模型训练模块，用于通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型；

其中，所述模型训练模块包括所述集合生成单元和所述模型训练单元。

7.根据权利要求6所述的装置，其特征在于，所述集合生成单元包括片段截取子单元、片段编号子单元、顺序打乱子单元和集合生成子单元；其中，

所述片段截取子单元，用于对于所述无标签视频集合中的每一个所述无标签视频，在所述无标签视频中随机截取n个视频片段，所述n为正整数；

所述片段编号子单元，用于对所述n个视频片段按照时间顺序依次编号；

所述顺序打乱子单元，用于随机打乱所述n个视频片段的顺序；

所述集合生成子单元，用于根据不同顺序的所述n个视频片段各自形成的自监督标签视频，生成所述自监督标签视频集合。

8.根据权利要求7所述的装置，其特征在于，

所述片段截取子单元，还用于从所述无标签视频的第一帧至目标帧之间随机选择一帧作为起始帧；

所述片段截取子单元，还用于从所述起始帧开始每隔预设帧数截取等长的图像帧，得到所述n个视频片段。

9.根据权利要求6所述的装置，其特征在于，

所述模型训练模块，还用于将所述标签视频输入所述视频分类模型中，得到所述标签视频对应的预测分类向量；

所述模型训练模块，还用于根据归一化处理后的所述预测分类向量和所述标签视频对应的标准分类向量，确定所述视频分类模型的第二交叉熵损失函数的值；

所述模型训练模块，还用于根据所述第二交叉熵损失函数的值，训练所述视频分类模型，得到完成训练的所述视频分类模型。

10.根据权利要求6至9任一所述的装置，其特征在于，所述装置还包括：

视频获取模块，用于获取待分类视频；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的视频分类模型的训练方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至5任一项所述的视频分类模型的训练方法。