CN117011571A

CN117011571A - 图像分类模型的训练方法、装置及设备

Info

Publication number: CN117011571A
Application number: CN202211210860.9A
Authority: CN
Inventors: 黄雅雯; 蔡子贇; 张丹丹; 李悦翔; 王红; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-11-07
Also published as: WO2024066927A1; US20240355110A1

Abstract

本申请公开了一种图像分类模型的训练方法、装置及设备，属于计算机技术领域。方法包括：基于任一个类别标注结果对应的各个源域图像特征对，确定该类别标注结果对应的第一损失，该类别标注结果对应的一个源域图像特征对包括该类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征；基于各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，训练神经网络模型得到图像分类模型。利用类别标注结果对应的第一损失训练模型，可以使相同类别标注结果不同模态标注结果的样本源域图像对应相似的图像特征，从而使图像特征侧重于区分类别，提高分类准确性。

Description

图像分类模型的训练方法、装置及设备

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种图像分类模型的训练方法、装置及设备。

背景技术

随着计算机技术的不断发展，图像分类技术被广泛应用于各行各业中。通过训练图像分类模型，可以利用图像分类模型进行图像分类。

相关技术中，在训练图像分类模型时，可以获取样本源域图像、样本目标域图像和样本源域图像的类别标注结果。将样本源域图像和样本目标域图像输入神经网络模型，由神经网络模型确定样本源域图像的类别预测结果和样本目标域图像的类别预测结果。基于样本源域图像的类别预测结果和类别标注结果、样本目标域图像的类别预测结果，对神经网络模型进行训练，得到图像分类模型。

然而，上述方式训练出的图像分类模型的分类效果不佳，影响了图像分类结果的准确性。

发明内容

本申请提供了一种图像分类模型的训练方法、装置及设备，可用于解决相关技术中的问题，所述技术方案包括如下内容。

一方面，提供了一种图像分类模型的训练方法，所述方法包括：

获取多个样本源域图像、多个样本目标域图像、各个样本源域图像的模态标注结果和所述各个样本源域图像的类别标注结果；

通过神经网络模型确定所述各个样本源域图像的第一类别预测结果；

通过所述神经网络模型确定所述各个样本目标域图像的第一类别预测结果；

对于任一个类别标注结果，基于所述任一个类别标注结果对应的各个源域图像特征对，确定所述任一个类别标注结果对应的第一损失，所述任一个类别标注结果对应的一个源域图像特征对包括所述任一个类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征；

基于各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

另一方面，提供了一种图像分类模型的训练装置，所述装置包括：

获取模块，用于获取多个样本源域图像、多个样本目标域图像、各个样本源域图像的模态标注结果和所述各个样本源域图像的类别标注结果；

确定模块，用于通过神经网络模型确定所述各个样本源域图像的第一类别预测结果；

所述确定模块，还用于通过所述神经网络模型确定所述各个样本目标域图像的第一类别预测结果；

所述确定模块，还用于对于任一个类别标注结果，基于所述任一个类别标注结果对应的各个源域图像特征对，确定所述任一个类别标注结果对应的第一损失，所述任一个类别标注结果对应的一个源域图像特征对包括所述任一个类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征；

训练模块，用于基于各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，所述确定模块，用于对于任一个样本源域图像，通过所述神经网络模型基于所述任一个样本源域图像的图像特征生成所述任一个样本源域图像对应的第一目标域图像；通过所述神经网络模型基于所述任一个样本源域图像对应的第一目标域图像确定所述任一个样本源域图像的第一类别预测结果。

在一种可能的实现方式中，所述确定模块，用于基于所述任一个样本源域图像的图像特征，生成所述任一个样本源域图像对应的目标域特征和图像内容特征；基于所述任一个样本源域图像对应的目标域特征和图像内容特征，生成所述任一个样本源域图像对应的第一目标域图像。

在一种可能的实现方式中，所述确定模块，用于对于任一个样本目标域图像，通过所述神经网络模型基于所述任一个样本目标域图像的图像特征生成所述任一个样本目标域图像对应的第一源域图像；通过所述神经网络模型基于所述任一个样本目标域图像对应的第一源域图像确定所述任一个样本目标域图像的第一类别预测结果。

在一种可能的实现方式中，所述训练模块，用于基于所述各个样本源域图像的第一类别预测结果和所述各个样本源域图像的类别标注结果，确定第二损失；基于所述各个样本目标域图像的第一类别预测结果，确定第三损失；基于所述第二损失、所述第三损失和各个类别标注结果对应的第一损失，对所述神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，所述训练模块，用于基于所述各个样本目标域图像的第一类别预测结果，确定所述各个样本目标域图像的权重系数；基于所述各个样本目标域图像的权重系数，确定所述各个样本源域图像的权重系数；基于所述各个样本目标域图像的权重系数和所述各个样本源域图像的权重系数，确定第三损失。

在一种可能的实现方式中，任一个样本目标域图像的第一类别预测结果包括所述任一个样本目标域图像属于除所述各个类别标注结果之外的其他类别的第一概率；

所述训练模块，用于获取所述各个样本目标域图像的第二类别预测结果，所述任一个样本目标域图像的第二类别预测结果包括所述任一个样本目标域图像属于所述各个类别标注结果的第二概率；对于所述任一个样本目标域图像，基于所述任一个样本目标域图像对应的第一概率和第二概率，确定所述任一个样本目标域图像的权重系数。

在一种可能的实现方式中，所述训练模块，用于基于所述各个样本目标域图像的权重系数，从所述各个样本目标域图像中确定多个参考图像，所述参考图像的权重系数大于权重阈值；对于任一个样本源域图像，基于所述各个参考图像属于所述任一个样本源域图像的类别标注结果的第二概率，确定所述任一个样本源域图像的权重系数。

在一种可能的实现方式中，所述训练模块，用于获取所述各个样本目标域图像的域预测结果和所述各个样本源域图像对应的第一目标域图像的域预测结果；基于所述各个样本目标域图像的权重系数、所述各个样本目标域图像的域预测结果、所述各个样本源域图像的权重系数、所述各个样本源域图像对应的第一目标域图像的域预测结果，确定第三损失。

在一种可能的实现方式中，所述装置还包括：

所述确定模块，还用于通过所述神经网络模型确定所述各个样本源域图像的模态预测结果；基于所述各个样本源域图像的模态预测结果和模态标注结果确定第四损失；

所述训练模块，用于基于所述第四损失、各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，所述装置还包括：

所述确定模块，还用于获取所述各个样本源域图像对应的第一目标域图像的域预测结果和所述各个样本目标域图像的域预测结果；基于所述各个样本源域图像对应的第一目标域图像的域预测结果和所述各个样本目标域图像的域预测结果，确定第五损失；

所述训练模块，用于基于所述第五损失、各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，所述装置还包括：

所述确定模块，还用于基于所述各个样本源域图像对应的第一目标域图像，生成所述各个样本源域图像对应的第二源域图像；基于所述各个样本源域图像和所述各个样本源域图像对应的第二源域图像，确定第六损失；

所述训练模块，用于基于所述第六损失、各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现上述任一所述的图像分类模型的训练方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一所述的图像分类模型的训练方法。

另一方面，还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种图像分类模型的训练方法。

本申请提供的技术方案至少带来如下有益效果：

本申请提供的技术方案是对于任一个类别标注结果，将该类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征作为该类别标注结果对应的一个源域图像特征对，有利于对比两个相同类别标注结果不同模态标注结果的样本源域图像的图像特征。利用该类别标注结果对应的各个源域图像特征对确定该类别标注结果对应的第一损失，以利用该类别标注结果对应的第一损失训练得到图像分类模型，使得图像分类模型可以拉近每两个相同类别标注结果不同模态标注结果的样本源域图像的图像特征，使得相同类别标注结果不同模态标注结果的样本源域图像对应相似的图像特征，从而使得图像特征更侧重于区分类别并弱化区分模态。因此，图像分类模型提取出的图像特征更有利于图像分类，提高了分类结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像分类模型的训练方法或者图像分类方法的实施环境示意图；

图2是本申请实施例提供的一种图像分类模型的训练方法的流程图；

图3是本申请实施例提供的一种源域的图像与目标域的图像之间的类别示意图；

图4是本申请实施例提供的一种图像分类方法的流程图；

图5是本申请实施例提供的一种图像分类模型的训练过程的示意图；

图6是本申请实施例提供的一种图像分类的示意图；

图7是本申请实施例提供的一种图像分类模型的训练装置的结构示意图；

图8是本申请实施例提供的一种图像分类装置的结构示意图；

图9是本申请实施例提供的一种终端设备的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种图像分类模型的训练方法或者图像分类方法的实施环境示意图，如图1所示，该实施环境包括终端设备101和服务器102。其中，本申请实施例中的图像分类模型的训练方法或者图像分类方法可以由终端设备101执行，也可以由服务器102执行，或者由终端设备101和服务器102共同执行。

终端设备101可以是智能手机、游戏主机、台式计算机、平板电脑、膝上型便携计算机、智能电视、智能车载设备、智能语音交互设备、智能家电等。服务器102可以为一台服务器，或者为多台服务器组成的服务器集群，或者为云计算平台和虚拟化中心中的任意一种，本申请实施例对此不加以限定。服务器102可以与终端设备101通过有线网络或无线网络进行通信连接。服务器102可以具有数据处理、数据存储以及数据收发等功能，在本申请实施例中不加以限定。终端设备101和服务器102的数量不受限制，可以是一个或多个。

本申请实施例提供的图像分类模型的训练方法或者图像分类方法可以基于人工智能技术实现。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

图像分类技术是一项非常重要的技术，可以被应用于各行各业中。通常情况下，利用训练出的图像分类模型对图像进行分类。

相关技术中，可以获取源域图像、目标域图像和源域图像的类别标注结果。通过神经网络模型确定源域图像的类别预测结果和目标域图像的类别预测结果。基于源域图像的类别预测结果和类别标注结果、目标域图像的类别预测结果，训练神经网络模型得到图像分类模型。然而，训练出的图像分类模型的分类效果不佳，会影响图像分类结果的准确性。

需要说明的是，源域和目标域属于迁移学习(Transfer Learning)的名词。迁移学习指的是运用已有的知识来学习新的知识，目的是找到已有知识和新知识之间的相似性。在迁移学习中，已有的知识属于做源域(Source Domain)，要学习的新知识属于目标域(Target Domain)，源域和目标域不同但有一定关联，需要减小源域和目标域的分布差异从而进行知识迁移，进而实现数据标定。本申请实施例提供的图像分类模型的训练方法属于迁移学习的内容。

本申请实施例提供了一种图像分类模型的训练方法，该方法可应用于上述实施环境中，利用该方法训练出的图像分类模型可以提高分类准确性。以图2所示的本申请实施例提供的一种图像分类模型的训练方法的流程图为例，该方法可由图1中的终端设备101或者服务器102执行，也可以由终端设备101和服务器102共同执行。为便于描述，将执行本申请实施例中的图像分类模型的训练方法的终端设备101或者服务器102称为电子设备，该方法可以由电子设备来执行。如图2所示，该方法包括如下步骤。

步骤201，获取多个样本源域图像、多个样本目标域图像、各个样本源域图像的模态标注结果和各个样本源域图像的类别标注结果。

样本源域图像是源域的图像，样本目标域图像是目标域的图像。源域和目标域是两个不同的领域，本申请实施例不对源域和目标域做限定，示例性地，源域为绘画领域，目标域为现实领域。可以通过人工输入的方式、网络抓取的方式等，获取多个样本源域图像和多个样本目标域图像。

一个样本源域图像对应一种模态，任两个样本源域图像的模态可以相同，也可以不同。在本申请实施例中，模态可以表征某个领域中图像的图像风格，本申请实施例不对模态做限定，示例性地，源域为绘画领域，则样本源域图像的模态包括油画、水彩画、素描等任一种模态。可以对任一个样本源域图像进行模态标注，得到该样本源域图像的模态标注结果。样本源域图像的模态标注结果可以理解为样本源域图像的模态标签，用于反应该样本源域图像所属的图像风格的模态。本申请实施例不对模态标注的方式做限定，示例性地，通过模态分类模型或者人工标注的方式，对样本源域图像进行模态标注。

一个样本源域图像对应一种类别，任两个样本源域图像的类别可以相同，也可以完全不同。在本申请实施例中，类别可以反映图像内容，本申请实施例不对类别做限定，示例性地，样本源域图像的类别包括动物、建筑物、车辆等类别。可以对任一个样本源域图像进行类别标注，得到该样本源域图像的类别标注结果。样本源域图像的类别标注结果可以理解为样本源域图像的类别标签，用于反应该样本源域图像所属的图像内容的类别。本申请实施例不对类别标注的方式做限定，示例性地，通过图像分类模型或者人工标注的方式，对样本源域图像进行类别标注。

步骤202，通过神经网络模型确定各个样本源域图像的第一类别预测结果。

可以将任一个样本源域图像输入神经网络模型，通过神经网络模型对该样本源域图像进行类别分类，得到该样本源域图像的第一类别预测结果。由于每一个样本源域图像对应一种类别标注结果，而任两个样本源域图像的类别标注结果可以相同，也可以不同，因此，类别标注结果的数量为多个。本申请实施例中，样本源域图像的第一类别预测结果包括样本源域图像属于各个类别标注结果的概率。

本申请实施例不对神经网络模型的模型结构、大小等做限定，示例性地，神经网络模型包括特征提取器和第一类别分类器，特征提取器用于对样本源域图像进行特征提取，第一类别分类器用于对样本源域图像进行类别分类。

可选地，将任一个样本源域图像输入神经网络模型，由神经网络模型中的特征提取器对该样本源域图像进行特征提取，得到该样本源域图像的图像特征。示例性地，特征提取器包括至少一个依次串联的卷积块，样本源域图像可以看做第一个卷积块的输入特征，样本源域图像的图像特征可以看做最后一个卷积块的输出特征。

任一个卷积块包括卷积神经网络(Convolutional Neural Networks，CNN)，CNN对卷积块的输入特征进行卷积处理，以降低输入特征的特征维度，CNN之后可以拼接池化层、激活层等网络层，池化层用于对该池化层的输入特征进行池化处理，激活层用于对该激活层的输入特征进行激活处理。

在一种可能的实现方式中，步骤202包括步骤2021至步骤2022。

步骤2021，对于任一个样本源域图像，通过神经网络模型基于任一个样本源域图像的图像特征生成任一个样本源域图像对应的第一目标域图像。

本申请实施例中，神经网络模型包括第一生成器。第一生成器串联在特征提取器之后。第一生成器是一种内置注意力机制的生成器，该生成器可以学习源域的图像与目标域的图像之间的映射关系，以在特征提取器提取出任一个样本源域图像的图像特征之后，基于该样本源域图像的图像特征，将样本源域图像映射为该样本源域图像对应的第一目标域图像。

样本源域图像为源域的图像，而该样本源域图像对应的第一目标域图像为目标域的图像。因此，样本源域图像对应的第一目标域图像与该样本源域图像所属的领域不同。

可选地，步骤2021包括：基于任一个样本源域图像的图像特征，生成任一个样本源域图像对应的目标域特征和图像内容特征；基于任一个样本源域图像对应的目标域特征和图像内容特征，生成任一个样本源域图像对应的第一目标域图像。

第一生成器可以将任一个样本源域图像的图像特征拆分为样本源域图像的源域特征和该样本源域图像的图像内容特征。样本源域图像的源域特征用于表征源域的图像具有的公共特点，例如，源域为绘画领域，绘画领域中的图像大多不具备逼真的纹理，且线条感较强，因此，样本源域图像的源域特征能反应源域的图像的线条和纹理。样本源域图像的图像内容特征用于表征样本源域图像的图像内容，更侧重于描述样本源域图像中的物体。例如，样本源域图像是有关面部的图像，则样本源域图像的图像内容特征能反应出样本源域图像中的眼睛、鼻子、嘴巴、眉毛等面部信息，更侧重于描述面部。

由于第一生成器学习了源域的图像与目标域的图像之间的映射关系，因此，第一生成器可以基于该映射关系，将样本源域图像的源域特征映射为样本源域图像对应的目标域特征。样本源域图像对应的目标域特征用于表征目标域的图像具有的公共特点，例如，目标域为现实领域，现实领域中的图像大多具备逼真的纹理，且线条感较弱，因此，样本源域图像对应的目标域特征能反应目标域的图像的线条和纹理。

接着，第一生成器可以将任一个样本源域图像对应的目标域特征和该样本源域图像的图像内容特征进行融合，从而将样本源域图像的图像内容与目标域的图像具有的公共特点进行融合，得到该样本源域图像对应的第一目标域图像的图像特征，从而生成该样本源域图像对应的第一目标域图像。

示例性地，样本源域图像对应的第一目标域图像的生成过程可以表示为：其中，x表征样本源域图像，A表征样本源域图像对应的目标域特征，C表征样本源域图像的图像内容特征，表征样本源域图像对应的第一目标域图像。表征第一生成器，第一生成器是基于注意力机制的生成器，可以将源域的图像转化为目标域的图像。

可选地，第一生成器将样本源域图像对应的目标域特征和该样本源域图像的图像内容特征进行相乘得到第一乘积结果，将样本源域图像的图像特征和样本源域图像对应的目标域特征进行相乘得到第二乘积结果。将第一乘积结果和样本源域图像的图像特征的相加结果减去第二乘积结果的信息，得到样本源域图像对应的第一目标域图像的图像特征，从而确定样本源域图像对应的第一目标域图像。通过这种方式，可以使样本源域图像对应的第一目标域图像在图像内容上更贴近于样本源域图像，实现将样本源域图像对应的第一目标域图像和样本源域图像的区别尽量控制在领域层面。

示例性地，样本源域图像对应的第一目标域图像可以表示为：其中，表征样本源域图像对应的第一目标域图像，C^s→t表征样本源域图像的图像内容特征，A^s→t表征样本源域图像对应的目标域特征，x表征样本源域图像。可以理解的是，第一生成器可以提取样本源域图像的图像特征，也可以基于样本源域图像对应的第一目标域图像的图像特征确定样本源域图像对应的第一目标域图像，因此，此处省略了提取图像特征的过程和基于图像特征生成图像的过程。

步骤2022，通过神经网络模型基于任一个样本源域图像对应的第一目标域图像确定任一个样本源域图像的第一类别预测结果。

本申请实施例中，第一类别分类器串联在第一生成器之后。将第一生成器生成的任一个样本源域图像对应的第一目标域图像或者该第一目标域图像的图像特征作为第一类别分类器的输入信息，由第一类别分类器基于输入信息对该第一目标域图像进行类别分类，得到该样本源域图像的第一类别预测结果。本申请实施例不对第一类别分类器的模型结构、模型大小等做限定。

步骤203，通过神经网络模型确定各个样本目标域图像的第一类别预测结果。

可以将任一个样本目标域图像输入神经网络模型，通过神经网络模型对该样本目标域图像进行类别分类，得到该样本目标域图像的第一类别预测结果，样本目标域图像的第一类别预测结果包括样本目标域图像属于各个类别标注结果的概率。

可选地，将任一个样本目标域图像输入神经网络模型，由神经网络模型中的特征提取器对该样本目标域图像进行特征提取，得到该样本目标域图像的图像特征。示例性地，特征提取器包括至少一个依次串联的卷积块，样本目标域图像可以看做第一个卷积块的输入特征，样本目标域图像的图像特征可以看做最后一个卷积块的输出特征。

在一种可能的实现方式中，步骤203包括步骤2031至步骤2032。

步骤2031，对于任一个样本目标域图像，通过神经网络模型基于任一个样本目标域图像的图像特征生成任一个样本目标域图像对应的第一源域图像。

本申请实施例中，第一生成器学习了源域的图像与目标域的图像之间的映射关系，在特征提取器提取出任一个样本目标域图像的图像特征之后，基于该样本目标域图像的图像特征，将样本目标域图像映射为该样本目标域图像对应的第一源域图像。

样本目标域图像为目标域的图像，而该样本目标域图像对应的第一源域图像为源域的图像。因此，样本目标域图像对应的第一源域图像与该样本目标域图像所属的领域不同。

可选地，步骤2031包括：基于任一个样本目标域图像的图像特征，生成任一个样本目标域图像对应的源域特征和图像内容特征；基于任一个样本目标域图像对应的源域特征和图像内容特征，生成任一个样本目标域图像对应的第一源域图像。

第一生成器可以将任一个样本目标域图像的图像特征拆分为样本目标域图像的目标域特征和该样本目标域图像的图像内容特征。样本目标域图像的目标域特征用于表征目标域的图像具有的公共特点，样本目标域图像的图像内容特征用于表征样本目标域图像的图像内容，更侧重于描述样本目标域图像中的物体。

由于第一生成器学习了源域的图像与目标域的图像之间的映射关系，因此，第一生成器可以基于该映射关系，将样本目标域图像的目标域特征映射为样本目标域图像对应的源域特征。样本目标域图像对应的源域特征用于表征源域的图像具有的公共特点。

接着，第一生成器可以将任一个样本目标域图像对应的源域特征和该样本目标域图像的图像内容特征进行融合，从而将样本目标域图像的图像内容与源域的图像具有的公共特点进行融合，得到该样本目标域图像对应的第一源域图像的图像特征，从而生成该样本目标域图像对应的第一源域图像。

示例性地，样本目标域图像对应的第一源域图像的生成过程可以表示为：其中，x表征样本目标域图像，A表征样本目标域图像对应的源域特征，C表征样本目标域图像的图像内容特征，表征样本目标域图像对应的第一源域图像。表征第一生成器，第一生成器是基于注意力机制的生成器，可以将目标域的图像转化为源域的图像。

可选地，第一生成器将样本目标域图像对应的源域特征和该样本目标域图像的图像内容特征进行相乘得到第三乘积结果，将样本目标域图像的图像特征和样本目标域图像对应的源域特征进行相乘得到第四乘积结果。将第三乘积结果和样本目标域图像的图像特征的相加结果减去第四乘积结果的信息，得到样本目标域图像对应的第一源域图像的图像特征，从而确定样本目标域图像对应的第一源域图像。通过这种方式，可以使样本目标域图像对应的第一源域图像在图像内容上更贴近于样本目标域图像，实现将样本目标域图像对应的第一源域图像和样本目标域图像的区别尽量控制在领域层面。

示例性地，样本目标域图像对应的第一源域图像可以表示为：其中，表征样本目标域图像对应的第一源域图像，C^t→s表征样本目标域图像的图像内容特征，A^t→s表征样本目标域图像对应的源域特征，x表征样本目标域图像。可以理解的是，第一生成器可以提取样本目标域图像的图像特征，也可以基于样本目标域图像对应的第一源域图像的图像特征确定样本目标域图像对应的第一源域图像，因此，此处省略了提取图像特征的过程和基于图像特征生成图像的过程。

步骤2032，通过神经网络模型基于任一个样本目标域图像对应的第一源域图像确定任一个样本目标域图像的第一类别预测结果。

本申请实施例中，将第一生成器生成的任一个样本目标域图像对应的第一源域图像或者该第一源域图像的图像特征作为第一类别分类器的输入信息，由第一类别分类器基于输入信息对该第一源域图像进行类别分类，得到该样本目标域图像的第一类别预测结果。

步骤204，对于任一个类别标注结果，基于任一个类别标注结果对应的各个源域图像特征对，确定任一个类别标注结果对应的第一损失，任一个类别标注结果对应的一个源域图像特征对包括任一个类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征。

本申请实施例中，任一个类别标注结果对应多个样本源域图像。对于该类别标注结果对应的任两个样本源域图像，若这两个样本源域图像的模态标注结果不同，则将这两个样本源域图像的图像特征作为该类别标注结果对应的一个源域图像特征对。

对于任一个类别标注结果对应的一个源域图像特征对，计算该源域图像特征对包括两个样本源域图像的图像特征之间的特征距离，该特征距离可以为余弦距离、欧氏距离、最小平方误差(也称L2范数)、L2范数的平方等，可以将该特征距离简记为该源域图像特征对的距离。

例如，第i个类别标注结果对应的各个样本源域图像可以表征为其中，m表征第i个类别标注结果对应的模态标注结果的数量。这种情况下，样本源域图像的类别标注结果为第i个类别标注结果，模态标注结果为第1个模态标注结果；样本源域图像的类别标注结果为第i个类别标注结果，模态标注结果为第m个模态标注结果。

基于上述信息，样本源域图像的类别标注结果为第k个类别标注结果，样本源域图像的模态标注结果为第i个模态标注结果，而样本源域图像的类别标注结果为第k个类别标注结果，样本源域图像的模态标注结果为第j个模态标注结果。因此，样本源域图像的图像特征和样本源域图像的图像特征可以作为第k个类别标注结果对应的一个源域图像特征对，该源域图像特征对的距离可以表征为该源域图像特征对的距离为和之间L2范数的平方。

通过计算同一个类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征之间的特征距离，一方面，可以达到最大化同一个类别标注结果对应的不同模态标注结果的样本源域图像之间的两两相似度，通过利用不同模态的互补知识，可以模态之间的域偏移，避免负迁移。另一方面，使同一个类别标注结果对应的不同模态标注结果的样本源域图像对应相似的图像特征，有利于对齐源域的图像和目标域的图像，从而有利于后续的模态分类、类别分类等处理。

基于任一个类别标注结果对应的各个源域图像特征对的距离，确定该类别标注结果对应的第一损失。示例性地，将任一个类别标注结果对应的各个源域图像特征对的距离进行求平均、求和等计算，得到的计算结果作为该类别标注结果对应的第一损失。

步骤205，基于各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

可以基于各个类别标注结果对应的第一损失，确定多源模态对齐损失。可选地，将各个类别标注结果对应的第一损失进行求平均、求和等计算，得到的计算结果作为多源模态对齐损失。示例性地，多源模态对齐损失的计算公式如下公式(1)所示。

其中，L¹表征多源模态对齐损失。K表征类别标注结果的数量。Y_s表征由各个类别标注结果组成的类别标签集。m表征第k个类别标注结果对应的模态标注结果的数量。∑为求和符号。表征第k个类别标注结果对应的一个源域图像特征对的距离，在上文有对应描述，在此不再赘述。

本申请实施例中，各个样本源域图像的第一类别预测结果和各个样本目标域图像的第一类别预测结果均用于确定损失，基于确定出的损失和多源模态对齐损失可以确定神经网络模型的损失，以利用神经网络模型的损失对神经网络模型进行训练，得到训练后的神经网络模型。

若训练后的神经网络模型满足训练结束条件，则将训练后的神经网络模型作为图像分类模型；若训练后的神经网络模型不满足训练结束条件，则将训练后的神经网络模型作为下一次训练的神经网络模型，并按照上述步骤201至步骤205的方式对神经网络模型进行下一次训练，直至得到图像分类模型为止。

本申请实施例不对满足训练结束条件做限定。示例性地，满足训练结束条件为训练次数达到设定的次数，例如，训练次数为500次。或者，满足训练结束条件为神经网络模型的损失的梯度下降在设定的范围内。

本申请实施例中，多源模态对齐损失是基于各个类别标注结果对应的各个源域图像特征对的距离计算得到的，通过利用多源模态对齐损失对神经网络模型进行训练，可以使神经网络模型拉近同一个类别标注结果对应的源域图像特征对的距离，使同一个类别标注结果对应的各个模态标注结果的样本源域图像具有相类似的图像特征，也就是说，同一个类别标注结果的样本源域图像具有相类似的图像特征。因此，图像分类模型提取的图像特征更侧重于区分类别且弱化区分模态，使得基于图像特征进行图像分类时，可以提高分类准确性。

在一种可能的实现方式中，步骤205包括步骤2051至步骤2053。

步骤2051，基于各个样本源域图像的第一类别预测结果和各个样本源域图像的类别标注结果，确定第二损失。

本申请实施例中，任一个样本源域图像的第一类别预测结果包括样本源域图像属于各个类别标注结果的概率。任一个样本源域图像的类别标注结果表征该样本源域图像属于某一个类别标注结果，不属于除该类别标注结果之外的其他类别标注结果。

可以将类别标注结果的数量记为N，则任一个样本源域图像的第一类别预测结果为一个矩阵，该矩阵记为Y，则矩阵Y包括N个数据，任一个数据表征样本源域图像属于该数据对应的类别标注结果的概率，每一个数据均为大于等于0且小于等于1的数值。任一个样本源域图像的类别标注结果也为一个矩阵，该矩阵记为P，则矩阵P包括N个数据，任一个数据表征样本源域图像属于该数据对应的类别标注结果或者样本源域图像不属于该数据对应的该类别标注结果，任一个数据为两种数值中的一种。示例性地，矩阵P中的任一个数据可以为1，表征样本源域图像属于该数据对应的类别标注结果，矩阵P中的任一个数据也可以为0，表征样本源域图像不属于该数据对应的类别标注结果。

可选地，源域的图像包括各个类别标注结果，而由于目标域的图像可能除包括至少一个类别标注结果之外，还包括其他类别。例如，源域的图像包括苹果和梨两个类别，而目标域的图像包括苹果、香蕉和西瓜三个类别，由于香蕉和西瓜属于源域的图像不包括的类别，因此，可以将香蕉和西瓜看做其他类别。

由于本申请实施例需要对目标域的图像进行类别分类，而目标域的图像可能包括其他类别，因此，对于任一个样本源域图像，神经网络模型可以确定出该样本源域图像属于各个类别标注结果的概率以及该样本源域图像属于其他类别的概率，使得转移机制更加可靠，这里的转移机制指的是将对源域的图像的类别分类转移至对目标域的图像的类别分类。

在这种情况下，假设类别标注结果的数量为N，则任一个样本源域图像的第一类别预测结果对应的矩阵Y包括N+1个数据，前N个数据中的任一个数据表征样本源域图像属于该数据对应的类别标注结果的概率，最后一个数据表征样本源域图像属于未知类别的概率。同样地，任一个样本源域图像的类别标注结果对应的矩阵P也包括N+1个数据，前N个数据中的任一个数据表征样本源域图像属于该数据对应的类别标注结果或者样本源域图像不属于该数据对应的该类别标注结果，最后一个数据表征样本源域图像不属于未知类别。

可以理解的是，上述最后一个数据对应未知类别是一种可能的实现方式，在应用时，矩阵Y和矩阵P中的任一个数据都有可能对应未知类别。

本申请实施例中，可以按照第二损失函数，基于各个样本源域图像的第一类别预测结果和各个样本源域图像的类别标注结果计算出第二损失，即基于矩阵Y和矩阵P计算出第二损失。本申请实施例不对第二损失函数做限定，示例性地，第二损失函数为交叉熵损失函数、相对熵损失函数等。

步骤2052，基于各个样本目标域图像的第一类别预测结果，确定第三损失。

本申请实施例不需要对样本目标域图像进行类别标注，因此，样本目标域图像不存在类别标注结果。可以基于各个样本目标域图像的第一类别预测结果和其他信息，确定第三损失。示例性地，其他信息为样本目标域图像的图像特征、样本源域图像的图像特征等中的至少一项。

在一种可能的实现方式中，步骤2052包括步骤A1至步骤A3。

步骤A1，基于各个样本目标域图像的第一类别预测结果，确定各个样本目标域图像的权重系数。

本申请实施例中，任一个样本目标域图像的第一类别预测结果包括样本目标域图像属于各个类别标注结果的概率，因此，可以基于样本目标域图像属于各个类别标注结果的概率，确定概率之和或者概率平均值等数据，将确定出的数据作为样本目标域图像的权重系数。

可选地，任一个样本目标域图像的第一类别预测结果还包括样本目标域图像属于其他类别的概率。可以将样本目标域图像属于其他类别的概率作为样本目标域图像的权重系数，或者，基于样本目标域图像属于各个类别标注结果的概率和样本目标域图像属于其他类别的概率，计算出样本目标域图像的权重系数。

可选地，任一个样本目标域图像的第一类别预测结果包括任一个样本目标域图像属于除各个类别标注结果之外的其他类别的第一概率。在这种情况下，步骤A1包括：获取各个样本目标域图像的第二类别预测结果，任一个样本目标域图像的第二类别预测结果包括任一个样本目标域图像属于各个类别标注结果的第二概率；对于任一个样本目标域图像，基于任一个样本目标域图像对应的第一概率和第二概率，确定任一个样本目标域图像的权重系数。

本申请实施例中，任一个样本目标域图像的第一类别预测结果可以包括该样本目标域图像的第二类别预测结果和样本目标域图像属于其他类别的概率。其中，样本目标域图像的第二类别预测结果包括样本目标域图像属于各个类别标注结果的概率，该概率可以记为样本目标域图像对应的第二概率。样本目标域图像属于其他类别的概率可以记为样本目标域图像对应的第一概率。

可选地，神经网络模型还包括第二类别分类器，第二类别分类器用于对样本目标域图像进行类别分类，得到样本目标域图像的第二类别预测结果。第二类别分类器串联在第一生成器之后。将第一生成器生成的任一个样本目标域图像对应的第一源域图像或者该第一源域图像的图像特征作为第二类别分类器的输入信息，由第二类别分类器基于输入信息对该第一源域图像进行类别分类，得到该样本目标域图像的第二类别预测结果。本申请实施例不对第二类别分类器的模型结构、模型大小等做限定。

示例性地，第二类别分类器包括激活函数，该激活函数可以是包括Leaky-Softmax函数在内的任一种激活函数。激活函数可以通过确定样本目标域图像对应的第一源域图像与源域的图像之间的相似度，得到样本目标域图像属于各个类别标注结果的第二概率。可选地，样本目标域图像属于各个类别标注结果的第二概率之和大于等于0且小于1。

对于任一个样本目标域图像，可以将该样本目标域图像属于各个类别标注结果的第二概率进行相加，得到样本目标域图像对应的第二概率之和。可选地，第二概率之和是按照如下所示的公式(2)确定的。

其中，P(X)表征样本目标域图像对应的第二概率之和。C_s表征类别标注结果的数量。表征样本目标域图像属于第i个类别标注结果的第二概率。

在本申请实施例中引入了三个概念。请参见图3，图3是本申请实施例提供的一种源域的图像与目标域的图像之间的类别示意图。源域的图像具有而目标域的图像不具有的类别称为源域私有类别，源域的图像具有且目标域的图像也具有的类别称为公有类别，源域的图像不具有而目标域的图像具有的类别称为目标域私有类别。

本申请实施例中，样本目标域图像对应的第二概率之和可以直观地反应样本目标域图像属于公有类别的概率，彰显样本目标域图像与源域的图像之间的相似度，也能间接的反应出样本目标域图像属于目标域私有类别的概率。当P(X)较高时，样本目标域图像的类别更有可能属于公有类别，当P(X)较低时，样本目标域图像的类别更有可能属于目标域私有类别。

可以基于任一个样本目标域图像对应的第一概率、第二概率之和，确定该样本目标域图像的权重系数。示例性地，样本目标域图像的权重系数是按照如下所示的公式(3)确定的。

其中，W^t表征样本目标域图像的权重系数，P(X)表征样本目标域图像对应的第二概率之和，P(y＝N+1|x)表征样本目标域图像对应的第一概率。P^un(x)表征样本目标域图像对应的第三概率。N表征类别标注结果的数量，此处的N+1对应其他类别。

本申请实施例中，样本目标域图像对应的第一概率可以反应样本目标域图像属于目标域私有类别的概率。通过样本目标域图像对应的第一概率、第二概率之和，可以实现探索样本目标域图像属于公有类别、目标域私有类别的可能性，从而确定出样本目标域图像的类别。

为使P^un(x)较小，可以通过训练可以实现增大样本目标域图像属于目标域私有类别的第一概率；为使P^un(x)较大，可以通过训练可以实现减小样本目标域图像属于目标域私有类别的第一概率。一般情况下，属于公有类别的样本目标域图像相较于属于目标域私有类别的样本目标域来说，P^un(x)的值更大。因此，P^un(x)是决定增大或减小样本目标域图像属于目标域私有类别的关键参数。通过P^un(x)和P(X)计算样本目标域图像的权重系数，可以使属于公有类别的目标域的图像相较于属于目标域私有类别的目标域的图像，更接近于源域的图像。

步骤A2，基于各个样本目标域图像的权重系数，确定各个样本源域图像的权重系数。

本申请实施例中，若样本目标域图像的类别属于目标域私有类别，则样本目标域图像对应的第二概率之和近似等于0，且样本目标域图像对应的第三概率也近似等于0，导致样本目标域图像的权重系数较低，越有可能确定出样本目标域图像的类别为目标域私有类别(即样本目标域图像属于其他类别)。反之，若样本目标域图像的类别属于公有类别，则样本目标域图像对应的第二概率之和较大，且样本目标域图像对应的第三概率也较大，导致样本目标域图像的权重系数较高，越有可能确定出样本目标域图像的类别为公有类别(即样本目标域图像属于任一个类别标注结果)。

由于属于公有类别的目标域的图像相较于属于目标域私有类别的目标域的图像，更接近于源域的图像，因此，可以筛选出权重系数较大的样本目标域图像(下文称为参考图像)，利用参考图像确定任一个样本源域图像的权重系数。

可选地，步骤A2包括：基于各个样本目标域图像的权重系数，从各个样本目标域图像中确定多个参考图像，参考图像的权重系数大于权重阈值；对于任一个样本源域图像，基于各个参考图像属于任一个样本源域图像的类别标注结果的第二概率，确定任一个样本源域图像的权重系数。

若任一个样本目标域图像的权重系数大于权重阈值，则将该样本目标域图像作为参考图像，并获取该参考图像属于各个类别标注结果的第二概率。通过这种方式，可以实现从各个样本目标域图像中筛选出多个参考图像，并获取各个参考图像属于各个类别标注结果的第二概率。本申请实施例不对权重阈值的数值大小做限定，示例性地，权重阈值为超参数，可以设置为0.6或者0.5。

由于一个样本源域图像对应一个类别标注结果，因此，可以对各个参考图像属于任一个样本源域图像的类别标注结果的第二概率进行求平均、求和等运算，将运算结果确定为该样本源域图像的权重系数。示例性地，按照如下所示的公式(4)确定样本源域图像的权重系数。

其中，V表征各个类别标注结果的权重系数。avg表征平均值。W^t(x_t>w₀)表征样本目标域图像x_t的权重系数W^t大于权重阈值w₀，此时，样本目标域图像x_t可作为参考图像。表征参考图像属于各个类别标注结果的第二概率。W^s(x_s)表征样本源域图像x_s的权重系数，表征第y_s个类别标注结果的权重系数，且样本源域图像x_s对应第y_s个类别标注结果。

步骤A3，基于各个样本目标域图像的权重系数和各个样本源域图像的权重系数，确定第三损失。

可以基于各个样本目标域图像的权重系数、各个样本目标域图像、各个样本源域图像的权重系数以及各个样本源域图像，确定第三损失。可以理解的是，此处的样本目标域图像、样本源域图像在通过神经网络模型进行处理后，得到的任意信息均可以参与第三损失的计算。例如，基于各个样本目标域图像的权重系数、各个样本目标域图像的图像特征、各个样本源域图像的权重系数以及各个样本源域图像的图像特征，确定第三损失。

可选地，步骤A3包括：获取各个样本目标域图像的域预测结果和各个样本源域图像对应的第一目标域图像的域预测结果；基于各个样本目标域图像的权重系数、各个样本目标域图像的域预测结果、各个样本源域图像的权重系数、各个样本源域图像对应的第一目标域图像的域预测结果，确定第三损失。

本申请实施例中，神经网络模型还包括域分类器。域分类器串联在特征提取器之后，用于在特征提取器提取出样本目标域图像的图像特征之后，基于样本目标域图像的图像特征对样本目标域图像进行域分类，得到样本目标域图像的域预测结果。其中，样本目标域图像的域预测结果包括样本目标域图像属于源域的概率和/或样本目标域图像属于目标域的概率。

此外，域分类器还串联在第一生成器之后，用于在第一生成器生成样本源域图像对应的第一目标域图像之后，基于该第一目标域图像或者该第一目标域图像的图像特征，对该第一目标域图像进行域分类，得到该第一目标域图像的域预测结果。其中，该第一目标域图像的域预测结果包括该第一目标域图像属于源域的概率和/或该第一目标域图像属于目标域的概率。

接着，将各个样本目标域图像的权重系数和各个样本目标域图像的域预测结果进行加权求平均、加权求和等运算，得到第一运算结果。将各个样本源域图像的权重系数和各个样本源域图像对应的第一目标域图像的域预测结果进行加权求平均、加权求和等运算，得到第二运算结果。基于第一运算结果和第二运算结果确定第三损失，例如，第一运算结果和第二运算结果之和作为第三损失，或者，第一运算结果和第二运算结果的平均值作为第三损失。

步骤2053，基于第二损失、第三损失和各个类别标注结果对应的第一损失，对神经网络模型进行训练，得到图像分类模型。

可以将第二损失、第三损失和各个类别标注结果对应的第一损失进行相加得到神经网络模型的损失，或者，基于各个类别标注结果对应的第一损失确定多源模态对齐损失，将多源模态对齐损失、第二损失和第三损失进行相加，得到神经网络模型的损失。接着，利用神经网络模型的损失对神经网络模型进行训练得到图像分类模型。

本申请实施例中，还可以计算其他的损失，利用计算出的损失结合第二损失、第三损失和各个类别标注结果对应的第一损失，确定出神经网络模型的损失。下面提供几种可能的实现方式，分别记为实现方式B1至实现方式B3。

在实现方式B1中，在步骤205之后还包括步骤206。

步骤206，通过神经网络模型确定各个样本源域图像的模态预测结果；基于各个样本源域图像的模态预测结果和模态标注结果确定第四损失。

神经网络模型还包括模态分类器。模态分类器串联在特征提取器之后，用于在特征提取器提取出样本源域图像的图像特征之后，基于样本源域图像的图像特征对样本源域图像进行模态分类，得到样本源域图像的模态预测结果。由于任一个样本源域图像对应一个模态标注结果，因此，模态标注结果的数量为多个。本申请实施例中，样本源域图像的模态预测结果包括样本源域图像属于各个模态标注结果的概率。

可以按照第四损失函数利用各个样本源域图像的模态预测结果和模态标注结果确定第四损失。示例性地，第四损失函数为相对熵损失函数、交叉熵损失函数等。可以按照如下所示的公式(5)确定第四损失。

其中，L⁴表征第四损失，m表征样本源域图像的数量。表征第i个样本源域图像的图像特征。f_m(·)表征模态分类器。表征第i个样本源域图像的模态预测结果。Y_s表征第i个样本源域图像的模态标注结果。表征第i个样本源域图像的模态损失。

在确定出第四损失的基础上，步骤205包括：基于第四损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

可以基于各个样本源域图像的第一类别预测结果和各个样本目标域图像的第一类别预测结果，确定第二损失和第三损失。将第二损失、第三损失、第四损失和各个类别标注结果对应的第一损失进行相加得到神经网络模型的损失，或者，基于各个类别标注结果对应的第一损失确定多源模态对齐损失，将多源模态对齐损失、第二损失、第三损失和第四损失进行相加，得到神经网络模型的损失。接着，利用神经网络模型的损失对神经网络模型进行训练得到图像分类模型。

在实现方式B2中，在步骤205之后还包括步骤207。

步骤207，获取各个样本源域图像对应的第一目标域图像的域预测结果和各个样本目标域图像的域预测结果；基于各个样本源域图像对应的第一目标域图像的域预测结果和各个样本目标域图像的域预测结果，确定第五损失。

在步骤A3已描述了样本目标域图像的域预测结果、样本源域图像对应的第一目标域图像的域预测结果的确定方式，在此不再赘述。可以按照第五损失函数，基于各个样本源域图像对应的第一目标域图像的域预测结果和各个样本目标域图像的域预测结果，确定第五损失。

示例性地，基于各个样本源域图像对应的第一目标域图像的域预测结果确定源域对应的域损失部分，基于各个样本目标域图像的域预测结果确定目标域对应的域损失部分。基于源域对应的域损失部分和目标域对应的域损失部分，确定第五损失。

可选地，按照如下所示的公式(6)确定第五损失。

其中，表征第五损失。表征源域对应的域损失部分。其中，E表征平均函数的符号，log表征对数符号，F(x)～D_s表征属于源域D_s的样本源域图像x的图像特征，表征样本源域图像对应的第一目标域图像的域预测结果。表征目标域对应的域损失部分。其中，F(x)～D_t表征属于目标域D_t的样本目标域图像x的图像特征，D_Y(x)表征样本目标域图像的域预测结果。

在确定出第五损失的基础上，步骤205包括：基于第五损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

可以基于各个样本源域图像的第一类别预测结果和各个样本目标域图像的第一类别预测结果，确定第二损失和第三损失。将第二损失、第三损失、第五损失和各个类别标注结果对应的第一损失进行相加得到神经网络模型的损失，或者，基于各个类别标注结果对应的第一损失确定多源模态对齐损失，将多源模态对齐损失、第二损失、第三损失和第五损失进行相加，得到神经网络模型的损失。接着，利用神经网络模型的损失对神经网络模型进行训练得到图像分类模型。

示例性地，本申请实施例也可以获取各个样本目标域图像对应的第一源域图像的域预测结果和各个样本源域图像的域预测结果；基于各个样本目标域图像对应的第一源域图像的域预测结果和各个样本源域图像的域预测结果，确定第七损失。第七损失的确定方式和第五损失的确定方式相类似，在此不再赘述。

接着，基于第七损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。比如，将第二损失、第三损失、第七损失和各个类别标注结果对应的第一损失进行相加得到神经网络模型的损失，或者，基于各个类别标注结果对应的第一损失确定多源模态对齐损失，将多源模态对齐损失、第二损失、第三损失和第七损失进行相加，得到神经网络模型的损失。接着，利用神经网络模型的损失对神经网络模型进行训练得到图像分类模型。

在实现方式B3中，在步骤205之后还包括步骤208。

步骤208，基于各个样本源域图像对应的第一目标域图像，生成各个样本源域图像对应的第二源域图像；基于各个样本源域图像和各个样本源域图像对应的第二源域图像，确定第六损失。

神经网络模型还包括第二生成器，第二生成器串联在第一生成器之后。第二生成器是一种内置注意力机制的生成器，且第二生成器内置注意力机制的方向与第一生成器内置注意力机制的方向相反。第二生成器可以学习目标域的图像与源域的图像之间的映射关系，以在第一生成器生成样本源域图像对应的第一目标域图像之后，基于该第一目标域图像或者该第一目标域图像的图像特征，将第一目标域图像映射为该样本源域图像对应的第二源域图像。

样本源域图像为源域的图像，而该样本源域图像对应的第一目标域图像为目标域的图像，但该样本源域图像对应的第二源域图像为源域的图像。因此，第一生成器和第二生成器构成一个循环结构，在将源域的图像转化为目标域的图像之后，需要再将目标域的图像转化为源域的图像，以保留源域的信息，避免模式崩溃。

也就是说，对于源域的每一个样本源域图像，通过第一生成器和第二生成器，可以重构出该样本源域图像，即其中，x表征样本源域图像，表征样本源域图像x对应的第一目标域图像，表征样本源域图像x对应的第二源域图像。

可选地，基于各个样本源域图像对应的第一目标域图像，生成各个样本源域图像对应的第二源域图像，包括：基于任一个样本源域图像对应的第一目标域图像的图像特征，生成任一个样本源域图像对应的第一目标域图像所对应的源域特征和图像内容特征；基于任一个样本源域图像对应的第一目标域图像所对应的源域特征和图像内容特征，生成任一个样本源域图像对应的第二源域图像。

第二生成器基于样本源域图像对应的第一目标域图像生成该样本源域图像对应的第二源域图像，本质上是基于目标域的图像生成源域的图像。因此，实现方式可以见上文步骤2031的描述，二者实现原理相类似，在此不再赘述。

本申请实施例中，可以按照第六损失函数，基于各个样本源域图像和各个样本源域图像对应的第二源域图像，确定第六损失。本申请实施例不对第六损失函数做限定。示例性地，计算任一个样本源域图像和该样本源域图像对应的第二源域图像之间的距离(例如，L1距离、L2距离等)，将该距离作为该样本源域图像对应的距离。基于各个样本源域图像对应的距离确定第六损失。或者，计算任一个样本源域图像的图像特征和该样本源域图像对应的第二源域图像的图像特征之间的相似度(例如余弦相似度)，将该相似度作为该样本源域图像对应的相似度。基于各个样本源域图像对应的相似度确定第六损失。

在确定出第六损失的基础上，步骤205包括：基于第六损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

可以基于各个样本源域图像的第一类别预测结果和各个样本目标域图像的第一类别预测结果，确定第二损失和第三损失。将第二损失、第三损失、第六损失和各个类别标注结果对应的第一损失进行相加得到神经网络模型的损失，或者，基于各个类别标注结果对应的第一损失确定多源模态对齐损失，将多源模态对齐损失、第二损失、第三损失和第六损失进行相加，得到神经网络模型的损失。接着，利用神经网络模型的损失对神经网络模型进行训练得到图像分类模型。

示例性地，本申请实施例也可以基于各个样本目标域图像对应的第一源域图像，生成各个样本目标域图像对应的第二目标域图像；基于各个样本目标域图像和各个样本目标域图像对应的第二目标域图像，确定第八损失。

第二生成器可以在第一生成器生成样本目标域图像对应的第一源域图像之后，基于该第一源域图像或者该第一源域图像的图像特征，将第一源域图像映射为该样本目标域图像对应的第二目标域图像。

样本目标域图像为目标域的图像，而该样本目标域图像对应的第一源域图像为源域的图像，但该样本目标域图像对应的第二目标域图像为目标域的图像。因此，第一生成器和第二生成器构成了一个循环结构，在将目标域的图像转化为源域的图像之后，需要再将源域的图像转化为目标域的图像，以保留目标域的信息，避免模式崩溃。

也就是说，对于目标域的每一个样本目标域图像，通过第一生成器和第二生成器，可以重构出该样本目标域图像，即其中，x表征样本目标域图像，表征样本目标域图像x对应的第一源域图像，表征样本目标域图像x对应的第二目标域图像。

可选地，基于各个样本目标域图像对应的第一源域图像，生成各个样本目标域图像对应的第二目标域图像，包括：基于任一个样本目标域图像对应的第一源域图像的图像特征，生成任一个样本目标域图像对应的第一源域图像所对应的目标域特征和图像内容特征；基于任一个样本目标域图像对应的第一源域图像所对应的目标域特征和图像内容特征，生成任一个样本目标域图像对应的第二目标域图像。

第二生成器基于样本目标域图像对应的第一源域图像生成该样本目标域图像对应的第二目标域图像，本质上是基于源域的图像生成目标域的图像。因此，实现方式可以见上文步骤2021的描述，二者实现原理相类似，在此不再赘述。

本申请实施例中，可以按照第八损失函数，基于各个样本目标域图像和各个样本目标域图像对应的第二目标域图像，确定第八损失。本申请实施例不对第八损失函数做限定。示例性地，计算任一个样本目标域图像和该样本目标域图像对应的第二目标域图像之间的距离(例如，L1距离、L2距离等)，将该距离作为该样本目标域图像对应的距离。基于各个样本目标域图像对应的距离确定第八损失。或者，计算任一个样本目标域图像的图像特征和该样本目标域图像对应的第二目标域图像的图像特征之间的相似度(例如余弦相似度)，将该相似度作为该样本目标域图像对应的相似度。基于各个样本目标域图像对应的相似度确定第八损失。

在确定出第八损失的基础上，基于第八损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

需要说明的是，本申请实施例可以基于多源模态对齐损失、第二损失至第八损失中的至少一项，对神经网络模型进行训练得到图像分类模型。本申请实施例中，可以使用预训练后的残差网络作为特征提取器，且预训练时设置特征提取器中除最后两个网络层之外的其他网络层的初始学习率为10^-6，而特征提取器中最后两个网络层的初始学习率为10^-5，设置每1000步学习率衰减率0.5。利用预训练后的特征提取器搭建神经网络模型，并对神经网络模型进行训练，此时，可以采用优化器(如Adam优化器)进行训练，优化器的两个超参数分别为beta1＝0.5、beta2＝0.999，且权重衰减为0.0001。调整神经网络模型的模型参数时，可以基于超参数λ＝0.1来调整，神经网络模型总共训练10000次。若神经网络模型提早收敛，则停止训练。

在每一次训练时，使用样本源域图像的数量和样本目标域图像的数量总共为256。可以对样本源域图像和/或样本目标域图像进行数据增强，例如，对样本目标域图像进行仿射变换，以扩充图像数量。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本源域图像、样本目标域图像等都是在充分授权的情况下获取的。

上述方法对于任一个类别标注结果，将该类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征作为该类别标注结果对应的一个源域图像特征对，有利于对比两个相同类别标注结果不同模态标注结果的样本源域图像的图像特征。利用该类别标注结果对应的各个源域图像特征对确定该类别标注结果对应的第一损失，以利用该类别标注结果对应的第一损失训练得到图像分类模型，使得图像分类模型可以拉近每两个相同类别标注结果不同模态标注结果的样本源域图像的图像特征，使得相同类别标注结果不同模态标注结果的样本源域图像对应相似的图像特征，从而使得图像特征更侧重于区分类别并弱化区分模态。因此，图像分类模型提取出的图像特征更有利于图像分类，提高了分类结果的准确性。

本申请实施例还提供了一种图像分类方法，该方法可应用于上述实施环境中。以图4所示的本申请实施例提供的一种图像分类方法的流程图为例，该方法可由图1中的终端设备101或者服务器102执行，也可以由终端设备101和服务器102共同执行。为便于描述，将执行本申请实施例中的图像分类方法的终端设备101或者服务器102称为电子设备，该方法可以由电子设备来执行。如图4所示，该方法包括如下步骤。

步骤401，获取待分类图像，待分类图像为源域图像或者目标域图像。

待分类图像可以是源域的图像(即源域图像)，也可以是目标域的图像(即目标域图像)。本申请实施例不对待分类图像的获取方式做限定，示例性地，电子设备可以接收其他设备发送的或者人工输入的待分类图像，或者，电子设备可以拍摄得到待分类图像。

步骤402，通过图像分类模型确定待分类图像的图像特征。

其中，图像分类模型是按照与权2相关的图像分类模型的训练方法训练得到的。

图像分类模型包括特征提取器，特征提取器用于对待分类图像进行特征提取，得到待分类图像的图像特征。其中，待分类图像的图像特征的确定方式可以见上文有关样本源域图像的图像特征的描述，二者实现原理相类似，在此不再赘述。

步骤403，通过图像分类模型基于待分类图像的图像特征，确定待分类图像的类别。

本申请实施例中，可以通过图像分类模型基于待分类图像的图像特征，确定待分类图像的类别预测结果。其中，确定待分类图像的类别预测结果的过程见步骤202以及步骤203的描述，二者实现原理相类似，在此不再赘述。

接着，基于待分类图像的类别预测结果确定待分类图像的类别。可选地，待分类图像的类别预测结果包括待分类图像属于各个类别标注结果的概率。若待分类图像属于任一个类别标注结果的概率大于或者等于参考概率，则确定待分类图像的类别为该类别标注结果。

本申请实施例不对参考概率的数值做限定。示例性地，参考概率为待分类图像属于各个类别标注结果的概率中最大的概率，或者，对待分类图像属于各个类别标注结果的概率进行排序，将排序后第设定数量个概率作为参考概率，或者，参考概率是设定的数据。

可选地，待分类图像的类别预测结果包括待分类图像属于各个类别标注结果的概率和待分类图像属于除各个类别标注结果之外的其他类别的概率。若待分类图像属于任一个类别标注结果的概率大于或者等于参考概率，则确定待分类图像的类别为该类别标注结果。

在一种可能的实现方式中，步骤403包括步骤4031至步骤4032。

步骤4031，当待分类图像为源域图像时，通过图像分类模型基于源域图像的图像特征生成源域图像对应的目标域图像；通过图像分类模型基于源域图像对应的目标域图像确定源域图像的类别。

步骤4031需要基于源域图像对应的目标域图像确定源域图像的类别预测结果，再基于源域图像的类别预测结果确定源域图像的类别。其中，确定源域图像的类别预测结果的内容可以见步骤2021至步骤2022的描述，二者均是确定源域的图像的类别预测结果的过程，实现原理相同，在此不再赘述。

可选地，步骤4031中通过图像分类模型基于源域图像的图像特征生成源域图像对应的目标域图像，包括：通过图像分类模型基于源域图像的图像特征，生成源域图像对应的目标域特征和图像内容特征；通过图像分类模型基于源域图像对应的目标域特征和图像内容特征，生成源域图像对应的目标域图像。

生成源域图像对应的目标域图像的过程可以见步骤2021的描述，步骤2021涉及生成样本源域图像对应的第一目标域图像的过程，二者实现原理相同，在此不再赘述。

步骤4032，当待分类图像为目标域图像时，通过图像分类模型基于目标域图像的图像特征生成目标域图像对应的源域图像；通过图像分类模型基于目标域图像对应的源域图像确定目标域图像的类别。

步骤4032需要基于目标域图像对应的源域图像确定目标域图像的类别预测结果，再基于目标域图像的类别预测结果确定目标域图像的类别。其中，确定目标域图像的类别预测结果的内容可以见步骤2031至步骤2032的描述，二者均是确定目标域的图像的类别预测结果的过程，实现原理相同，在此不再赘述。

可选地，步骤4032中通过图像分类模型基于目标域图像的图像特征生成目标域图像对应的源域图像，包括：通过图像分类模型基于目标域图像的图像特征，生成目标域图像对应的源域特征和图像内容特征；通过图像分类模型基于目标域图像对应的源域特征和图像内容特征，生成目标域图像对应的源域图像。

生成目标域图像对应的源域图像的过程可以见步骤2031的描述，步骤2031涉及生成样本目标域图像对应的第一源域图像的过程，二者实现原理相同，在此不再赘述。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的待分类图像等都是在充分授权的情况下获取的。

上述方法中的图像分类模型提取出的图像特征更有利于图像分类，因此，利用该图像分类模型对待分类图像进行分类时，分类准确性较高。且该图像分类模型可以应用于各种分类场景中，例如，对医学图像进行图像分类，以达到诊断病种、分析病变类型等目的。

上文从方法步骤的角度阐述了本申请实施例提供的图像分类模型的训练方法以及图像分类方法，下面系统的阐述本申请实施例提供的图像分类模型的训练过程。请参见图5，图5中的(1)是本申请实施例提供的图像分类模型的训练框架图。

本申请实施例中，利用样本源域图像和样本目标域图像对神经网络模型进行训练，得到图像分类模型。神经网络模型包括特征提取器、模态分类器、域分类器、第一生成器、第二生成器、第一类别分类器、第二类别分类器以及判别器。其中，特征提取器用提取样本源域图像的图像特征和样本目标域图像的图像特征。样本源域图像的图像特征可用于确定各个类别标注结果对应的第一损失，从而确定多源模态对齐损失。

样本源域图像的图像特征还可以输入第一生成器，由第一生成器基于样本源域图像的图像特征生成样本源域图像对应的第一目标域图像。第一目标域图像可以输入第一类别分类器，由第一类别分类器确定样本源域图像的第一类别预测结果，其中，样本源域图像的第一类别预测结果用于和样本源域图像的类别标注结果一起确定第二损失。

样本源域图像对应的第一目标域图像还可以输入第二类别分类器，由第二类别分类器确定样本源域图像的第二类别预测结果，将第一类别预测结果和第二类别预测结果一起输入判别器，由判别器生成样本目标域图像的权重系数，并基于样本目标域图像的权重系数确定样本源域图像的权重系数。样本目标域图像的图像特征可以输入域分类器，由域分类器输出样本目标域图像的域预测结果；且第一目标域图像也可以输入域分类器，由域分类器输出第一目标域图像的域预测结果。样本目标域图像的权重系数、样本目标域图像的域预测结果、样本源域图像的权重系数和第一目标域图像的域预测结果用于确定第三损失。

源域图像的图像特征输入模态分类器，以利用模态分类器对源域图像进行模态分类，得到源域图像的模态预测结果。源域图像的模态预测结果用于和源域图像的模态标注结果一起确定第四损失。

其中，第一目标域图像的域预测结果和样本目标域图像的域预测结果还用于确定第五损失。

第一目标域图像还可以输入第二生成器，由第二生成器生成样本源域图像对应的第二源域图像。样本源域图像和第二源域图像用于确定第六损失。

接着，可以将多源模态对齐损失、第二损失至第六损失进行相加，得到神经网络模型的损失。利用神经网络模型的损失对神经网络模型进行训练，得到图像分类模型。

其中，样本目标域图像的权重系数可用于调节第一类别分类器。请参见图5中的(2)，图5中的(2)是本申请实施例提供的一种样本目标域图像的权重系数影响类别的示意图。本申请实施例中，样本目标域图像输入特征提取器，由特征提取器提取样本目标域图像的图像特征。通过第一类别分类器基于样本目标域图像的图像特征，可以确定样本目标域图像的第一类别预测结果；通过判别器基于样本目标域图像的图像特征，可以确定样本目标域图像的权重系数，其中，样本目标域图像的权重系数需要基于样本目标域图像的第一类别预测结果来确定。

当样本目标域图像的权重系数小于权重阈值时，可以基于样本目标域图像的第一类别预测结果确定样本目标域图像大概率属于目标域私有类别；当样本目标域图像的权重系数不小于权重阈值时，可以基于样本目标域图像的第一类别预测结果确定样本目标域图像大概率属于公有类别。

在训练出图像分类模型之后，可以利用图像分类模型对待分类图像进行分类。请参见图6，图6是本申请实施例提供的一种图像分类的示意图。本申请实施例中，后端配置有本申请实施例的图像分类模型，后端可以接收前端A输入的待分类图像，对该待分类图像进行类别分类，并将该待分类图像的类别输出至前端B。可选地，前端A和前端B是终端设备，后端为服务器。

可选地，后端配置的图像分类模型可以是去掉模态分类器、域分类器、第二生成器、第二类别分类器以及判别器中的至少一项后剩余的模型。从而节省后端的计算量和存储量。

本申请实施例中，可以获取5个样本数据集，每一个样本数据集均没有源域图像和目标域图像之间类别重叠的先验知识，也不确定源域图像的类别是否具有多个模态。将这5个样本数据集分别记为数据集1至数据集6。其中，数据集1共有31个类，包括3个域，任一个域可以作为源域或者目标域。数据集2共有65个类，包括4个域，任一个域可以作为源域或者目标域。数据集3共有12个类，包括2个域，这两个域分别作为源域和目标域。数据集4共有256个类，包括1000个域，任一个域可以作为源域或者目标域。数据集5共有345个类，包括6个域，任一个域可以作为源域或者目标域。

本申请实施例测试了18种模型分别在数据集1、数据集2以及数据集5中的准确性。其中，这18个模型分别记为M1至M18，M1至M17是相关技术中的图像分类模型，而M18是本申请实施例中的图像分类模型。在训练M2和M3时所使用的的优化器的参数β＝0.32。在训练M4至M6时所使用的的优化器的参数β＝0.15。在训练M7至M8时所使用的的优化器的参数β＝0.5。在训练M9至M14时所使用的的优化器的参数β＝0.07。在训练M15和M17时所使用的的优化器的参数β＝0.43。上述5个优化器的参数依次记为i、ii、iii、iv、v。数据集1中的三个域随机组合两个域，得到D1至D3。数据集2中的四个域随机组合两个域得到D1至D4。数据集5中的6个域随机组合两个域得到D1至D6。基于上述内容，可以统计出如下表1所示的数据，其中，E表征平均值。

表1

由表1可以看出M18对应的数据大于M1至M17对应的数据，因此，本申请实施例中的图像分类模型的准确性较高。

本申请实施例还测试了M1至M4、M6至M8、M12至M13以及M18这10种模型分别在数据集1、数据集2、数据集3以及数据集5中的分类精度。其中，数据集1中的三个域随机组合两个域，得到D1至D3。数据集2中的四个域随机组合两个域得到D1至D6。数据集3中的2个域随机组合两个域得到D1至D2。数据集5中的6个域随机组合两个域得到D1至D3。基于上述内容，可以统计出如下表2所示的数据。

表2

由表2可知，M18的分类精度要高于M1至M4、M6至M8、M12的分类精度。在数据集3上，M13的分类精度优于M18，但在数据集1、数据集2上，M18的分类精度和M13的分类精度差异较小，但在数据集5上，M18的分类精度优于M13的分类精度。这是因为数据集3仅有两个域，数据集1的域数量、数据集2的域数量均多于数据集3的域数量，而数据集5的域数量又多于数据集1的域数量、数据集2的域数量。由此可以得知，本申请实施例中的图像分类模型在较少的域中具有与相关技术中的图像分类模型差不多的性能，但在域数量较多的数据集中，本申请实施例中的图像分类模型可以提高分类精度。

本申请实施例中，将采用图5的方式训练得到的图像分类模型记为模型1。此外，在图5所示的训练过程的基础上，去掉了模态分类器之后训练得到的图像分类模型记为模型2；在图5所示的训练过程的基础上，去掉了第一生成器和第二生成器之后训练得到的图像分类模型记为模型3；在图5所示的训练过程的基础上，去掉了第二类别分类器和判别器之后训练得到的图像分类模型记为模型4。

通过测试模型1至模型4在数据集1、数据集2和数据集5中的性能。其中，数据集1中的三个域随机组合两个域，得到D1。数据集2中的四个域随机组合两个域得到D1至D3。数据集5中的6个域随机组合两个域得到D1。基于上述内容，可以统计出如下表3所示的数据。

表3

由表3可以看出，模型1的性能要高于模型2、模型3和模型4的性能，因此，基于图5所示的训练过程训练得到的图像分类模型的分类性能较高。

图7所示为本申请实施例提供的一种图像分类模型的训练装置的结构示意图，如图7所示，该装置包括：

获取模块701，用于获取多个样本源域图像、多个样本目标域图像、各个样本源域图像的模态标注结果和各个样本源域图像的类别标注结果；

确定模块702，用于通过神经网络模型确定各个样本源域图像的第一类别预测结果；

确定模块702，还用于通过神经网络模型确定各个样本目标域图像的第一类别预测结果；

确定模块702，还用于对于任一个类别标注结果，基于任一个类别标注结果对应的各个源域图像特征对，确定任一个类别标注结果对应的第一损失，任一个类别标注结果对应的一个源域图像特征对包括任一个类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征；

训练模块703，用于基于各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，确定模块702，用于对于任一个样本源域图像，通过神经网络模型基于任一个样本源域图像的图像特征生成任一个样本源域图像对应的第一目标域图像；通过神经网络模型基于任一个样本源域图像对应的第一目标域图像确定任一个样本源域图像的第一类别预测结果。

在一种可能的实现方式中，确定模块702，用于基于任一个样本源域图像的图像特征，生成任一个样本源域图像对应的目标域特征和图像内容特征；基于任一个样本源域图像对应的目标域特征和图像内容特征，生成任一个样本源域图像对应的第一目标域图像。

在一种可能的实现方式中，确定模块702，用于对于任一个样本目标域图像，通过神经网络模型基于任一个样本目标域图像的图像特征生成任一个样本目标域图像对应的第一源域图像；通过神经网络模型基于任一个样本目标域图像对应的第一源域图像确定任一个样本目标域图像的第一类别预测结果。

在一种可能的实现方式中，训练模块703，用于基于各个样本源域图像的第一类别预测结果和各个样本源域图像的类别标注结果，确定第二损失；基于各个样本目标域图像的第一类别预测结果，确定第三损失；基于第二损失、第三损失和各个类别标注结果对应的第一损失，对神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，训练模块703，用于基于各个样本目标域图像的第一类别预测结果，确定各个样本目标域图像的权重系数；基于各个样本目标域图像的权重系数，确定各个样本源域图像的权重系数；基于各个样本目标域图像的权重系数和各个样本源域图像的权重系数，确定第三损失。

在一种可能的实现方式中，任一个样本目标域图像的第一类别预测结果包括任一个样本目标域图像属于除各个类别标注结果之外的其他类别的第一概率；

训练模块703，用于获取各个样本目标域图像的第二类别预测结果，任一个样本目标域图像的第二类别预测结果包括任一个样本目标域图像属于各个类别标注结果的第二概率；对于任一个样本目标域图像，基于任一个样本目标域图像对应的第一概率和第二概率，确定任一个样本目标域图像的权重系数。

在一种可能的实现方式中，训练模块703，用于基于各个样本目标域图像的权重系数，从各个样本目标域图像中确定多个参考图像，参考图像的权重系数大于权重阈值；对于任一个样本源域图像，基于各个参考图像属于任一个样本源域图像的类别标注结果的第二概率，确定任一个样本源域图像的权重系数。

在一种可能的实现方式中，训练模块703，用于获取各个样本目标域图像的域预测结果和各个样本源域图像对应的第一目标域图像的域预测结果；基于各个样本目标域图像的权重系数、各个样本目标域图像的域预测结果、各个样本源域图像的权重系数、各个样本源域图像对应的第一目标域图像的域预测结果，确定第三损失。

在一种可能的实现方式中，装置还包括：

确定模块702，还用于通过神经网络模型确定各个样本源域图像的模态预测结果；基于各个样本源域图像的模态预测结果和模态标注结果确定第四损失；

训练模块703，用于基于第四损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，装置还包括：

确定模块702，还用于获取各个样本源域图像对应的第一目标域图像的域预测结果和各个样本目标域图像的域预测结果；基于各个样本源域图像对应的第一目标域图像的域预测结果和各个样本目标域图像的域预测结果，确定第五损失；

训练模块703，用于基于第五损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

在一种可能的实现方式中，装置还包括：

确定模块702，还用于基于各个样本源域图像对应的第一目标域图像，生成各个样本源域图像对应的第二源域图像；基于各个样本源域图像和各个样本源域图像对应的第二源域图像，确定第六损失；

训练模块703，用于基于第六损失、各个类别标注结果对应的第一损失、各个样本源域图像的第一类别预测结果、各个样本目标域图像的第一类别预测结果，对神经网络模型进行训练，得到图像分类模型。

上述装置对于任一个类别标注结果，将该类别标注结果对应的两个不同模态标注结果的样本源域图像的图像特征作为该类别标注结果对应的一个源域图像特征对，有利于对比两个相同类别标注结果不同模态标注结果的样本源域图像的图像特征。利用该类别标注结果对应的各个源域图像特征对确定该类别标注结果对应的第一损失，以利用该类别标注结果对应的第一损失训练得到图像分类模型，使得图像分类模型可以拉近每两个相同类别标注结果不同模态标注结果的样本源域图像的图像特征，使得相同类别标注结果不同模态标注结果的样本源域图像对应相似的图像特征，从而使得图像特征更侧重于区分类别并弱化区分模态。因此，图像分类模型提取出的图像特征更有利于图像分类，提高了分类结果的准确性。

应理解的是，上述图7提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8所示为本申请实施例提供的一种图像分类装置的结构示意图，如图8所示，该装置包括：

获取模块801，用于获取待分类图像，待分类图像为源域图像或者目标域图像；

确定模块802，用于通过图像分类模型确定待分类图像的图像特征，图像分类模型是按照上述任一项的图像分类模型的训练方法训练得到的；

确定模块802，还用于通过图像分类模型基于待分类图像的图像特征，确定待分类图像的类别。

在一种可能的实现方式中，确定模块802，用于当待分类图像为源域图像时，通过图像分类模型基于源域图像的图像特征生成源域图像对应的目标域图像；通过图像分类模型基于源域图像对应的目标域图像确定源域图像的类别；当待分类图像为目标域图像时，通过图像分类模型基于目标域图像的图像特征生成目标域图像对应的源域图像；通过图像分类模型基于目标域图像对应的源域图像确定目标域图像的类别。

在一种可能的实现方式中，确定模块802，用于通过图像分类模型基于源域图像的图像特征，生成源域图像对应的目标域特征和图像内容特征；通过图像分类模型基于源域图像对应的目标域特征和图像内容特征，生成源域图像对应的目标域图像；

确定模块802，用于通过图像分类模型基于目标域图像的图像特征，生成目标域图像对应的源域特征和图像内容特征；通过图像分类模型基于目标域图像对应的源域特征和图像内容特征，生成目标域图像对应的源域图像。

上述装置中的图像分类模型提取出的图像特征更有利于图像分类，因此，利用该图像分类模型对待分类图像进行分类时，分类准确性较高。

应理解的是，上述图8提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9示出了本申请一个示例性实施例提供的终端设备900的结构框图。该终端设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器901所执行以实现本申请中方法实施例提供的图像分类模型的训练方法或者图像分类方法。

在一些实施例中，终端设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907和电源908中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置在终端设备900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端设备900的不同表面或呈折叠设计；在另一些实施例中，显示屏905可以是柔性显示屏，设置在终端设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

电源908用于为终端设备900中的各个组件进行供电。电源908可以是交流电、直流电、一次性电池或可充电电池。当电源908包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端设备900还包括有一个或多个传感器909。该一个或多个传感器909包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、光学传感器914以及接近传感器915。

加速度传感器911可以检测以终端设备900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端设备900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端设备900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端设备900的侧边框时，可以检测用户对终端设备900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器914用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器914采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器914采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器915，也称距离传感器，通常设置在终端设备900的前面板。接近传感器915用于采集用户与终端设备900的正面之间的距离。在一个实施例中，当接近传感器915检测到用户与终端设备900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器915检测到用户与终端设备900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10为本申请实施例提供的服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器1001和一个或多个的存储器1002，其中，该一个或多个存储器1002中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的图像分类模型的训练方法或者图像分类方法，示例性的，处理器1001为CPU。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种图像分类模型的训练方法或者图像分类方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种图像分类模型的训练方法或者图像分类方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过神经网络模型确定所述各个样本源域图像的第一类别预测结果，包括：

对于任一个样本源域图像，通过所述神经网络模型基于所述任一个样本源域图像的图像特征生成所述任一个样本源域图像对应的第一目标域图像；

通过所述神经网络模型基于所述任一个样本源域图像对应的第一目标域图像确定所述任一个样本源域图像的第一类别预测结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述任一个样本源域图像的图像特征生成所述任一个样本源域图像对应的第一目标域图像，包括：

基于所述任一个样本源域图像的图像特征，生成所述任一个样本源域图像对应的目标域特征和图像内容特征；

基于所述任一个样本源域图像对应的目标域特征和图像内容特征，生成所述任一个样本源域图像对应的第一目标域图像。

4.根据权利要求1所述的方法，其特征在于，所述基于各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型，包括：

基于所述各个样本源域图像的第一类别预测结果和所述各个样本源域图像的类别标注结果，确定第二损失；

基于所述各个样本目标域图像的第一类别预测结果，确定第三损失；

基于所述第二损失、所述第三损失和各个类别标注结果对应的第一损失，对所述神经网络模型进行训练，得到图像分类模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述各个样本目标域图像的第一类别预测结果，确定第三损失，包括：

基于所述各个样本目标域图像的第一类别预测结果，确定所述各个样本目标域图像的权重系数；

基于所述各个样本目标域图像的权重系数，确定所述各个样本源域图像的权重系数；

基于所述各个样本目标域图像的权重系数和所述各个样本源域图像的权重系数，确定第三损失。

6.根据权利要求5所述的方法，其特征在于，任一个样本目标域图像的第一类别预测结果包括所述任一个样本目标域图像属于除所述各个类别标注结果之外的其他类别的第一概率；

所述基于所述各个样本目标域图像的第一类别预测结果，确定所述各个样本目标域图像的权重系数，包括：

获取所述各个样本目标域图像的第二类别预测结果，所述任一个样本目标域图像的第二类别预测结果包括所述任一个样本目标域图像属于所述各个类别标注结果的第二概率；

对于所述任一个样本目标域图像，基于所述任一个样本目标域图像对应的第一概率和第二概率，确定所述任一个样本目标域图像的权重系数。

7.根据权利要求5所述的方法，其特征在于，所述基于所述各个样本目标域图像的权重系数，确定所述各个样本源域图像的权重系数，包括：

基于所述各个样本目标域图像的权重系数，从所述各个样本目标域图像中确定多个参考图像，所述参考图像的权重系数大于权重阈值；

对于任一个样本源域图像，基于所述各个参考图像属于所述任一个样本源域图像的类别标注结果的第二概率，确定所述任一个样本源域图像的权重系数。

8.根据权利要求5所述的方法，其特征在于，所述基于所述各个样本目标域图像的权重系数和所述各个样本源域图像的权重系数，确定第三损失，包括：

获取所述各个样本目标域图像的域预测结果和所述各个样本源域图像对应的第一目标域图像的域预测结果；

基于所述各个样本目标域图像的权重系数、所述各个样本目标域图像的域预测结果、所述各个样本源域图像的权重系数、所述各个样本源域图像对应的第一目标域图像的域预测结果，确定第三损失。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

通过所述神经网络模型确定所述各个样本源域图像的模态预测结果；

基于所述各个样本源域图像的模态预测结果和模态标注结果确定第四损失；

所述基于各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型，包括：

基于所述第四损失、各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

10.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

获取所述各个样本源域图像对应的第一目标域图像的域预测结果和所述各个样本目标域图像的域预测结果；

基于所述各个样本源域图像对应的第一目标域图像的域预测结果和所述各个样本目标域图像的域预测结果，确定第五损失；

基于所述第五损失、各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

11.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

基于所述各个样本源域图像对应的第一目标域图像，生成所述各个样本源域图像对应的第二源域图像；

基于所述各个样本源域图像和所述各个样本源域图像对应的第二源域图像，确定第六损失；

基于所述第六损失、各个类别标注结果对应的第一损失、所述各个样本源域图像的第一类别预测结果、所述各个样本目标域图像的第一类别预测结果，对所述神经网络模型进行训练，得到图像分类模型。

12.一种图像分类模型的训练装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现如权利要求1至11任一所述的图像分类模型的训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现如权利要求1至11任一所述的图像分类模型的训练方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现如权利要求1至11任一所述的图像分类模型的训练方法。