CN111461203A

CN111461203A - 跨模态处理方法、装置、电子设备和计算机存储介质

Info

Publication number: CN111461203A
Application number: CN202010238730.0A
Authority: CN
Inventors: 牛国成; 何伯磊; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Also published as: KR20210040326A; EP3889830A1; US11341366B2; JP7397786B2; US20210303921A1; JP2021163456A

Abstract

本申请公开了跨模态处理方法、装置、电子设备和计算机存储介质，涉及自然语言处理技术领域。具体实现方案为：获取样本集，样本集包括多个语料和多个图像，根据样本集，生成多个训练样本，每一个训练样本是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过将语料和对应的图像的组合进行训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了语义模型的训练效果，解决了现有技术中，多模态处理时，针对每一种模态单独训练，隔离了不同模态间的语义关联，使得训练得到的模型效果较差。

Description

跨模态处理方法、装置、电子设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言处理技术领域，具体涉及一种跨模态处理方法、装置、电子设备和计算机存储介质。

背景技术

我们生活的世界是一个多模态的世界，文字、视觉等不同模态的内容充斥着我们的生活。随着人工智能技术的快速发展，基于多模态处理，例如视觉-语言的多模态处理的需求和要求越来越高。

然而，目前的多模态处理方法在进行模型训练时，无法捕捉到足够的语义信息，同时，也没有建立文本和视觉两种模态之间的语义关联，使得模型的训练效果不佳。

发明内容

提供了一种用于跨模态处理方法、装置、电子设备和计算机存储介质。

根据第一方面，提供了一种跨模态处理方法，通过对训练语料和对应的图像的组合进行训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

本申请的第二方面提出一种跨模态处理装置。

本申请的第三方面提出一种电子设备。

本申请的第四方面提出一种存储有计算机指令的非瞬时计算机可读存储介质。

本申请第一方面实施例提出了一种跨模态处理方法，包括：

获取样本集；其中，所述样本集包括多个语料，以及多个图像；

根据所述样本集，生成多个训练样本；其中，每一个所述训练样本，是至少一个所述语料与对应的至少一个所述图像的组合；

采用所述多个训练样本，对语义模型进行训练，以使所述语义模型学习得到语料与图像组合的语义向量；

采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

本申请第二方面实施例提出了一种跨模态处理装置，包括：

获取模块，用于获取样本集；其中，所述样本集包括多个语料，以及多个图像；

生成模块，用于根据所述样本集，生成多个训练样本；其中，每一个所述训练样本，是至少一个所述语料与对应的至少一个所述图像的组合；

训练模块，用于采用所述多个训练样本，对语义模型进行训练，以使所述语义模型学习得到语料与图像组合的语义向量；

处理模块，用于采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

本申请第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一所述的跨模态处理方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如第一方面所述的跨模态处理方法。

本申请实施例所提供的技术方案可以包含如下的有益效果：

获取样本集，其中，样本集包括多个语料，以及多个图像，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过对训练语料和对应的图像进行组合训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种跨模态处理方法的流程示意图；

图2为本申请实施例所提供的另一种跨模态处理方法的流程示意图；

图3为本申请实施例提供的跨模态处理的架构示意图；

图4为本申请实施例所提供的又一种跨模态处理方法的流程示意图；

图5为本申请实施例提供的图像和文本对应的示意图；

图6为本申请实施例所提供的再一种跨模态处理方法的流程示意图；

图7为本申请实施例提供的一种跨模态处理装置的结构示意图；以及

图8为本申请实施例提供的跨模态处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的跨模态处理方法、装置、电子设备和计算机存储介质。

图1为本申请实施例所提供的一种跨模态处理方法的流程示意图。其中，模态一种交互时使用的术语，跨模态是指综合运用文本、图像、视频等多种手段和符号载体进行交互的现象，对应的，跨模态即为同时包含至少两种模态的信息，例如同时包含图像和文本信息。

如图1所示，该方法包括以下步骤：

步骤101，获取样本集；其中，样本集包括多个语料，以及多个图像。

其中，语料包含至少一个文本单元。

作为一种可能的实现方式，可从多媒体数据集中采集不同模态的数据，生成样本集，样本集中包含多个图像和对应的多个语料，语料用于对对应图像中的内容进行描述。

步骤102，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合。

具体地，根据样本集中包含的多个语料以及多个图像，将语料和对应的图像进行组合，生成多个训练样本，而每一个训练样本，是至少一个语料与对应的至少一个图像的组合。

步骤103，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量。

本实施例中，通过将语料与图像组合生成训练样本，使得训练样本中同时包含了文本的信息和对应的图像的信息，以使得语义模型在进行训练时是基于语料和图像的组合信息进行的训练，使得模型可以学习到语料与图像组合的语义向量，而语料与图像组合的语义向量中包含了两种模态间的语义关联，提高了语义模型的训练效果，相比于现有技术中，在进行语义模型训练时，基于语料和图像单独建立识别模型并进行训练，将各个模态对应的识别模型的结果进行加权得到对应的语义信息，使得训练得到的模型无法识别语料和图像之间的语义关联，即割裂了语料和对应的图像之间的语义关联，使得模型的训练效果不佳，从而识别效果较差。

需要理解的是，本实施例中的训练样本，可以是至少一个语料与任意的至少一个图像的组合，而语料和图像的组合方式不同，对应的训练任务也不同，针对不同的训练任务，对语义模型进行训练，后续实施例中会详细介绍。

步骤104，采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

本实施例中经过训练的语义模型学习得到语料与图像组合的语义向量，学习到了语料与图像组合间的语义关联，进而，将经过训练的语义模型应用于具体的语料和图像的跨模态处理中，例如，基于图像生成描述相应图像的语料，或者是基于语料检索对应的图像等。

可选的，在实际应用场景中，根据不同的识别任务，可以对用于进行识别的图像和语料进行标识，根据模型的识别结果，对模型的参数进行微调，以提高模型在该场景的识别任务中的识别效果。

本实施例的跨模态处理方法中，获取样本集，其中，样本集包括多个语料，以及多个图像，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过对训练语料和对应的图像的组合进行训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

基于上一实施例，本实施例提供了另一种跨模态处理方法，本实施例中以语义模型执行的为第一训练任务进行说明。

图2为本申请实施例所提供的另一种跨模态处理方法的流程示意图。

如图2所示，该方法可以包括以下步骤：

步骤201，获取样本集；其中，所述样本集包括多个语料，以及多个图像。

步骤202，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合。

具体的，可以参照上一实施例中的步骤101-102，原理相同，此处不再赘述。

步骤203，针对每一个训练样本，对相应训练样本中图像呈现的各对象提取图像特征，以及对语料中各文本单元提取文本特征。

本实施例中，针对每一个训练样本，对相应训练样本中图像呈现的各对象提取图像特征，其中，对象是指图像中呈现的实体，例如，人，楼、树木和车辆等等。具体地，对图像中呈现的各对象，获取视觉特征和空间坐标，作为一种可能的实现方式，针对每一个训练样本，对样本中包含的图像，利用快速目标检测模型Faster R-CNN识别出图像中的各对象的区域，及区域对应的特征，即视觉特征和空间坐标，其中，视觉特征是对相应感兴趣区域的图像内容信息通过Faster R-CNN模型池化得到的，空间坐标，用于指示相应对象在图像中的展示位置。将视觉特征和空间坐标拼接，生成各对象的对象特征，根据各对象的对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征，其中，对象顺序特征，用于指示各对象之间的相互顺序关系，第一模态标识，用于指示相应对象属于相应的图像。

如图3所示，训练样本中的图像如图3中的图像。对图3中的图像通过语义分割模型进行识别，识别到图像中呈现的对象包含T1指示的建筑building，T2指示的门door，T3指示的自行车bicycle、T4指示的车篮basket和T5指示的女士woman，对各对象提取特征得到图像中呈现的各对象的对象特征，标记为V_building，V_door，V_woman，V_bicycle和V_basket。由于图像中各对象不存在顺序，因此，图像中各对象的顺序特征可用一个固定ID对应的向量，例如，都设置为1。第一模态标识，例如为设定标识[IMG]。其中，顺序特征和第一模态标识，还可以有其它的实现方式，本实施例中不进行限定。进而，将各对象对应的对象特征、顺序特征和第一模态标识拼接，即生成各对象的图像特征。

针对每一个训练样本，对语料中各文本单元提取文本特征，具体地，对语料中的各文本单元，获取字符特征和位置特征，其中，字符特征，用于指示相应文本单元所含字符，位置特征，用于指示相应文本单元的语序，根据各文本单元的字符特征、位置特征和设定的第二模态标识，生成各文本单元的文本特征。第二模态标识，用于指示相应文本单元属于相应的语料。

例如，一个语料为：A woman riding a bike with a dog in a basket，将该语料划分为多个文本单元，每个文本单元包含预设数量的字符，其中，预设数量可以为1个或多个，获取各个文本单元的字符特征，即各个文本单元包含的预设数量的字符，将语料中包含的所有文本单元按照语序，从2开始顺序依次递增1编码，若语料有12个文本单元，则对应的位置特征依次编码为2，3，4，5……12和13。设定的第二模态标识，例如为[Text]，如图3所示。

需要说明的是，本实施例中，针对每一个训练样本，会生成图像中呈现的各对象的对象特征，还会生成对应的文本特征，对象特征生成后，若对象特征包含的向量的维度大于文本特征的维度，则将各个对象的对象特征压缩至和对应的文本特征的维度相同，以实现维度的统一，便于数据的处理。

步骤204，将各对象的图像特征和各文本单元的文本特征拼接，得到输入特征。

具体地，将各对象的图像特征和各文本单元的文本特征拼接，得到语义模型的输入特征，以使得语义模型对图像和语料的组合特征进行训练，使得语义模型可以获取图像和语料之间的语义联系，提高语义模型的识别效果。

例如，如图3所示，针对语料中的每一个文本单元，将A2中对应的字符特征，B2中对应的第二模态标识和C2中对应的位置特征拼接生成相应文本单元的文本特征。针对图像中的每一个对象，将A1中对应的对象特征，B1中对应的第一模态标识和C1中对应的位置特征拼接生成相应对象的图像特征。进而将各个对象的图像特征和各个文本单元的文本特征相加拼接，得到输入特征，输入特征以向量表示。

步骤205，根据输入特征，执行第一训练任务，以对语义模型训练。

本实施例中包含第一训练任务和第二训练任务，本实施例中基于第一训练任务，对语义模型进行训练，基于第二训练任务对模型的训练过程，后续实施例中再具体介绍。

其中，第一训练任务包含：对每一个训练样本，选中至少一个文本单元，将输入特征中相应文本单元的文本特征替换为设定的文本掩码，和/或，选中至少一个对象，将输入特征中相应对象的图像特征替换为设定的图像掩码。将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测选中的文本单元和/或选中的对象，根据预测准确性，调整语义模型的参数。

具体来说，作为第一种可能的实现方式，基于对语料的文本单元的掩码对模型进行训练，具体地，对每一个训练样本，选中至少一个文本单元，将输入特征中相应文本单元的文本特征替换为设定的文本掩码，将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测选中的文本单元，根据预测准确性，调整语义模型的参数。

作为第二种可能的实现方式，基于对图像中的对象掩码对模型进行训练，具体地，从每一个训练样本的图像中，选中至少一个对象，由于图像中的对象的显示区域在空间中可能存在有交叉重叠显示区域，也可能无交叉重叠区域，因此以两种场景进行说明：

在一种场景下，图像中的对象的显示区域在空间中存在有交叉重叠显示区域，则两个对象之间存在语义关联，因此，选中的对象可以包括具有重叠显示区域的至少两个对象，以增加掩码区域的粒度，增加了掩码区域包含的语义信息。

在另一种场景下，图像中的对象相互之间没有重叠的显示区域，因此，选中的对象为与任一对象均不具有重叠显示区域的一个对象，以实现当图像中的对象均为相互独立的对象时，也可以确定选中的对象，也就是说选中的至少一个对象为与任一对象均不具有重叠显示区域的一个对象，通过增加掩码区域的粒度，增加了掩码区域包含的语义信息。

进而，将输入特征中相应对象的图像特征替换为设定的图像掩码。将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测选中的对象，根据预测准确性，调整语义模型的参数。

作为第三种可能的实现方式，基于对语料和图像同时进行掩码，对模型进行训练，具体地，选中至少一个文本单元，将输入特征中相应文本单元的文本特征替换为设定的文本掩码，以及选中至少一个对象，将输入特征中相应对象的图像特征替换为设定的图像掩码。将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测被掩码的文本部分，以及掩码的图像部分对应的文本，根据预测准确性，调整语义模型的参数，通过对至少一个文本单元和图像单元都进行掩码，由于掩码的粒度较粗，增加了掩码部分包含的语义信息，可以使得模型更好的学习到语料和图像间的语义关联，同事，提高语义模型的参数调整的速度，提高模型的训练效果。

例如，图3中时基于对语料和图像同时进行掩码，对模型进行的训练，如图3所示，对语料中的4个连续的文本单元进行遮挡，即将各个文本单元对应的字符woman，riding，a和bike利用设定的图像掩码[mask]进行替换，完成了对4个文本单元的掩码。同时对图像中的3个对象，即T3对应的对象自行车bicycle，T4对应的对象车篮basket，T5对应的对象女士woman，对应的图像特征中的对象特征V_woman，V_bicycle和V_basket，利用设定的图像掩码[mask]进行替换。因此，本实施例中掩码的粒度更粗，针对语料，是对至少一个文本单元进行掩码，而对图像，是对图像中的至少一个对象进行掩码，可以捕捉到更丰富的语义信息。而现有技术中，掩码粒度为单个词语或者是单个物体对象，对于更大的语义单元则表现不佳，例如，哈尔滨，如果“尔”字被单独掩码替换，让“哈”和“滨”来预测“尔”，则较容易，没有太大的价值，而如果“哈尔滨”这个短语整个被掩码，让这个短语前后的词语来预测“哈尔滨”，那么“哈尔滨”就可以学习到更好的语义。

进而，将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测选中的文本单元和选中的对象，如3中，被掩码的文本单元对应的字符为woman，riding，a和bike，根据语义模型输出的第一语义向量预测得到的字符为woamn，riding，a和bike，预测结果完全准确。而图像特征中被掩码的对象特征对应的对象为basket的图像，bicycle的图像和woman的图像，语义模型预测输出的为对应的描述文本basket，bicycle和woman，预测结果也完全准确。实际应用中，则模型的训练过程中，模型的准确度开始较低，是根据预测结果的准确性，不断调整语义模型的参数，直至模型收敛，即语义模型的损失函数最小，识别的准确度最高。

步骤206，采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

本实施例中经过训练的语义模型学习得到语料与图像组合的语义向量，学习到了语料与图像组合间的语义关联，进而，将经过训练的语义模型应用于具体的语料和图像的跨模态处理中，本实施例中提供了两种应用场景。

在一种场景下，采用经过训练的语义模型，基于语料检索对应的图像，具体来说，将需要判断是否匹配的图像和语料输入模型，根据模型的输出确定两者是否匹配，即，将已知语料对应的特征，和未知图像的初始化特征输入语义模型，根据语义模型输出的已知语料与未知图像组合的语义向量中对应图片部分的数据，预测未知图像中呈现的对象，根据预测出的对象从多个未知图像中检索该未知图像，从而确定已知语料对应的图像。

在另一种场景下，采用经过训练的语义模型，基于图像生成描述相应图像的语料，具体来说，将已知的图像对应的特征，和未知语料的初始化特征输入语义模型，根据模型输出的已知图像与未知语料组合的语义向量中对应语料部分的数据，确定用于描述相应已知图像的未知描述语料。

需要说明的是，未知语料，是指不确定该语料用于描述哪个图像，即语料对应的图像是未知的。

本实施例所提供的跨模态处理方法中，获取样本集，其中，样本集包括多个语料，以及多个图像，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过对训练语料和对应的图像进行组合训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

基于上述实施例，本实施例提供了另一种跨模态处理方法，在本实施例中预选建立了种子库，基于种子库将图像和文本进行信息对齐，并进行信息融合，以提高图像特征和文本特征中包含的信息量，提高模型的训练效果。

图4为本申请实施例所提供的又一种跨模态处理方法的流程示意图。

如图4所示，该方法包括以下步骤：

步骤301，获取样本集，其中，样本集包括多个语料，以及多个图像。

步骤302，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合。

步骤303，针对每一个训练样本，对图像中呈现的各对象，获取视觉特征和空间坐标，将视觉特征和空间坐标拼接，生成对象特征。

作为一种可能的实现方式，针对每一个训练样本，对样本中包含的图像，利用快速目标检测模型Faster R-CNN识别出图像中的各对象的区域，及区域对应的特征，即视觉特征和空间坐标，其中，视觉特征是对相应感兴趣区域的图像内容信息通过Faster R-CNN模型池化得到的，空间坐标，用于指示相应对象在图像中的展示位置。将视觉特征和空间坐标拼接，生成相应对象的对象特征。

需要说明的是，本实施例中，针对每一个训练样本，会生成图像中呈现的各对象的对象特征，还会生成对应的文本特征，对象特征生成后，若对象特征包含的向量的维度大于文本特征的维度，则将各个对象的对象特征压缩至和对应的文本特征的维度相同，以实现维度的统一，便于数据的处理。其中，文本特征的生成方法，后续步骤中会具体说明。

步骤304，对每一对象，从建立的种子库中搜索对应的标准文本，将标准文本的字符内容与相应的对象特征融合。

其中，标准文本用于描述相应对象。

本实施例中，种子库是预先建立的，作为一种可能的实现方式，获取海量图片样本，使用快速目标检测模型Faster R-CNN对每个海量图片提取各个方框子图boundingbox，并建立每一个boundingbox对应的子图片和其对应文字描述的关系映射库，如图5所示，标准文本棒球棒baseballbat和S1指示的方框子图boundingbox具有对应关系，而标准文本人person和S2指示的方框子图具有对应关系，标准文本运动球sport ball和S3指示的方框子图具有对应关系，标准文本棒球手套和S4指示的方框子图具有对应关系。同理，可以得到每一个图像中各方框子图和对应的标准文本的对应关系，由于一个标准文本可以对应多个物体，例如，车篮具有多种外形和造性，但是不同图像的车篮，对应的标准文本可以都是车篮，从而，我们可以构建一定规模的一对多的映射，每个物体的标准文本都可以对应多个不同的图，从而构建包含标准文本和图像间映射关系的种子库。

例如，对每一对象，从建立的种子库中搜索对应的标准文本，若标准文本的字符内容是300维的特征向量，而相应对象的对象特征为128维的特征向量，则将标注文本对应的300维的特征向量融合进入相应的128维的对象特征中后，得到的相应对象的对象特征的向量仍维持128维，从而实现将标准文本的字符内容融合进相应的对象特征中后，对象特征的维数不变，但是对象特征中包含的信息量增加，从而提高了图像特征中包含的信息。

步骤305，根据各对象的对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征。

其中，对象顺序特征，用于指示各对象之间的相互顺序关系，第一模态标识，用于指示相应对象属于相应的图像，第一模态标识可以为设定的特殊标识，如[IMG]。

作为一种可能的实现方式，根据各对象的对象特征、对象顺序特征和设定的第一模态标识，可通过拼接的方式生成各对象的图像特征，增加了图像特征包含的信息。

具体地，关于图像特征的举例说明，可参照图2对应实施例中的步骤203，原理相同，此处不再赘述。

步骤306，对语料中的各文本单元，获取字符特征和位置特征。

其中，字符特征，用于指示相应文本单元所含字符，位置特征，用于指示相应文本单元的语序。

步骤307，对每一文本单元，从建立的种子库中搜索对应的标准图像，将标准图像的图像内容与相应文本单元的字符特征融合。

其中，标准图像呈现有相应文本单元所描述的对象，标注图像的图像内容包含图像中呈现对象的大小、颜色、形状等。

例如，对每一对象，由于种子库中已经预先建立了每一个文本单元和对应的标注图像的对应关系，因此，从建立的种子库中看搜索得到对应的标准图像，例如，如图3中所示，文本单元包含的字符为车篮basket，通过在种子库中搜索，确定了多个标注图像，图3中仅示意性示出3种，将搜索到的多个标注图像的图像内容与相应文本单元的字符特征融合，具体来说，若标准图像的图像内容对应的是300维的特征向量，而相应文本单元的字符特征为128维的特征向量，则将图像内容对应的300维的特征向量融合进入字符特征128维的特征向量中后，得到的字符特征的向量仍维持128维，从而实现将对应的图像内容融合进字符特征中后，字符特征的维数不变，但是字符特征中包含的信息增加，从而提高了文本特征中包含的信息，以及文本和对象间的语义关联性，进而，后续步骤中将文本特征和图像特征拼接得到的输入特征包含的语义信息量也会增加，从而可以提高基于输入特征进行训练的语义模型的训练效果。

步骤308，根据各文本单元的字符特征、位置特征和设定的第二模态标识，生成各文本单元的文本特征。

其中，字符特征，用于指示相应文本单元所含字符，位置特征，用于指示相应文本单元的语序，第二模态标识，用于指示相应文本单元属于相应的语料，例如为设定标识[Text]。

本实施例中将各文本单元的字符特征、位置特征和设定的第二模态标识，拼接生成各文本单元的文本特征，增加了文本特征中包含的信息。

步骤309，将各对象的图像特征和各文本单元的文本特征拼接，得到输入特征。

例如，如图3所示，针对语料中的每一个文本单元，将A2中对应的字符特征，B2中对应的第二模态标识和C2中对应的位置特征拼接生成相应文本单元的文本特征。针对图像中的每一个对象，将A1中对应的对象特征，B1中对应的第一模态标识和C1中对应的位置特征拼接生成相应对象的图像特征。进而将各个对象的图像特征和各个文本单元的文本特征相加拼接，得到输入特征，输入特征以向量表示，实现了文本信息和图像信息的联合方式，使得模型可以学习到文本和图像间的关联信息，提高了后续模型的训练效果。

步骤310，根据输入特征，执行第一训练任务，以对语义模型训练。

作为第三种可能的实现方式，基于对语料和图像同时进行掩码，对模型进行训练，具体地，选中至少一个文本单元，将输入特征中相应文本单元的文本特征替换为设定的文本掩码，以及选中至少一个对象，将输入特征中相应对象的图像特征替换为设定的图像掩码。将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测选中的文本单元和选中的对象，根据预测准确性，调整语义模型的参数，通过对文本单元和图像单元都进行掩码，进行准确度预测，可以使得模型更加快速的学习到语料和图像间的语义关联，提高语义模型的参数调整的速度，提高模型的训练效果。

例如，图3中时基于对语料和图像同时进行掩码，对模型进行的训练，如图3所示，对语料中的4个连续的文本单元进行遮挡，即将各个文本单元对应的字符woman，riding，a和bike利用设定的图像掩码[mask]进行替换，完成了对4个文本单元的掩码。同时对图像中的3个对象的图像特征中的对象特征利用设定的图像掩码[Mask]进行替换。因此，本实施例中掩码的粒度更粗，针对语料，是对至少一个文本单元进行掩码，而对图像，是对图像中的至少一个对象进行掩码，可以捕捉到更丰富的语义信息。而现有技术中，掩码粒度为单个词语或者是单个物体对象，对于更大的语义单元则表现不佳，例如，哈尔滨，如果“尔”字被单独掩码替换，让“哈”和“滨”来预测“尔”，则较容易，没有太大的价值，而如果“哈尔滨”这个短语整个被掩码，让这个短语前后的词语来预测“哈尔滨”，那么“哈尔滨”就可以学习到更好的语义。

进而，将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量，根据第一语义向量，预测选中的文本单元和选中的对象，如3中，被掩码的文本单元对应的字符为woman，riding，a和bike，根据语义模型输出的第一语义向量预测得到的字符为woamn，riding，a和bike，预测结果完全准确。而图像特征中被掩码的对象特征对应的对象为basket，bicycle和woman，语义模型对被掩码的对象预测对应的描述信息，预测输出的为basket，bicycle和woman，预测结果也完全准确。实际应用中，在模型的训练过程中，模型识别的准确度开始较低，是根据预测结果的准确性，不断调整语义模型的参数，直至模型收敛，即语义模型的损失函数最小，识别的准确度最高。

步骤311，采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

具体地，步骤309-步骤311中基于输入特征对第一训练任务可参照图2对应实施例中的步骤204-206，原理相同，此处不再赘述。

需要理解的是，本实施例中，通过预设的种子库，实现了将各对象的图像特征中融合了对应的标准文本的字符内容，使得包含的信息增加，同理，实现了各文本单元的文本特征中融合了对应的标准图像的图像内容，使得包含的信息增加，从而在将信息量增加后的文本特征和图像特征拼接后，得到的输入特征包含的语义信息量也会增加，相比于现有技术中，文本和图像进行联合视觉表示时，并没有建立两种模态的特征间的对应关系，两种模态的特征都是分离开的，使得语义模型无法学习到跨模态时模态间的语义关系，模型的训练效果较差，而本申请中，通过构造的种子库，将文本和图像特征进行对齐并相互融合，可使得语义模型无法学习到跨模态时模态间的语义关系，从而可以提高语义模型的训练效果。

本申请实施例的跨模态处理方法中，获取样本集，其中，样本集包括多个语料，以及多个图像，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过对训练语料和对应的图像进行组合训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果，而基于预设的种子库，生成了信息量增加的文本特征和图像特征，将文本特征和图像特征拼接后，得到的输入特征包含的语义信息量也会增加，从而可以提高基于输入特征进行训练的语义模型的训练效果。

基于上述实施例，本实施例提供了另一种跨模态处理方法，本实施例中说明了利用第二训练任务对语义模型进行训练的过程。

图6为本申请实施例所提供的再一种跨模态处理方法的流程示意图。

如图6所示，该方法包括以下步骤：

步骤601，获取样本集，其中，样本集包括多个语料，以及多个图像。

其中，语料包含至少一个文本单元。

步骤602，根据样本集，生成语料与图像匹配的训练样本，以及语料与图像不匹配的训练样本。

本实施例中利用第二训练任务对模型进行训练，采用的训练样本包含正例训练样本，以及负例训练样本，通过大量的正例的训练样本和负例的训练样本，可以提高模型的训练效果和模型的训练速度。

具体地，根据样本集，将各语料，与相应语料描述的图像组合，得到语料与图像匹配的训练样本，也就是作为正例的训练样本。

本实施例中，对于语料和图像不匹配的训练样本，也就是作为反例的训练样本，具有三种可能的生成方式。作为第一种可能的实现方式，将固定设置的语料与随机确定的图像组合，得到语料与图像不匹配的训练样本。

作为第二种可能的实现方式，将固定设置的图像与随机确定的语料组合，得到语料与图像不匹配的训练样本。

作为第三种可能的实现方式，将固定设置的语料与随机确定的图像组合，得到语料与图像不匹配的训练样本，以及将固定设置的图像与随机确定的语料组合，得到语料与图像不匹配的训练样本。

步骤603，针对每一个训练样本，对图像中呈现的各对象，获取视觉特征和空间坐标。

作为一种可能的实现方式，针对每一个训练样本，对样本中包含的图像，利用快速目标检测模型Faster R-CNN识别出图像中的各对象的区域，及区域对应的特征，即视觉特征和空间坐标，其中，视觉特征是对相应感兴趣区域的图像内容信息通过Faster R-CNN模型池化得到的，空间坐标，用于指示相应对象在图像中的展示位置。

步骤604，对每一对象，从建立的种子库中搜索对应的标准文本，将标准文本的字符内容与相应的对象特征融合。

其中，标准文本用于描述相应对象。

本实施例中，种子库是预先建立的，作为一种可能的实现方式，获取海量图片样本，使用快速目标检测模型Faster R-CNN对每个海量图片提取各个方框子图boundingbox，并建立每一个boundingbox对应的子图片和其对应文字描述的关系映射库，如图5所示，标准文本棒球棒baseballbat和S1指示的方框子图boundingbox具有对应关系，而标准文本人person和S2指示的方框子图具有对应关系，标准文本运动球sport ball和S3指示的方框子图具有对应关系，标准文本棒球手套和S4指示的方框子图具有对应关系。同理，可以得到每一个图像中各方框子图和对应的标准文本的对应关系，由于一个标准文本可以对应多个物体，例如，车篮具有多种外形和造性，但是不同图像的车篮，对应的标准文本可以都是车篮，从而，我们可以构建一定规模的一对多的映射，每个物体的标准文本都可以对应多个不同的标准图像，从而构建包含标准文本和标准图像间映射关系的种子库。

例如，对每一对象，从建立的种子库中搜索对应的标准文本，若标准文本的字符内容是300维的特征向量，而相应对象的对象特征为128维的特征向量，则将标注文本对应的300维的特征向量融合进入相应对应的128维的对象特征中后，得到的相应对象的对象特征的向量仍维持128维，从而实现将标准文本的字符内容融合进相应的对象特征中后，对象特征的维数不变，但是对象特征中包含的信息增加，从而提高了图像特征中包含的信息。

步骤605，根据各对象的对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征。

作为一种可能的实现方式，根据各对象的对象特征、对象顺序特征和设定的第一模态标识，可通过拼接的方式生成各对象的图像特征，

步骤606，对语料中的各文本单元，获取字符特征和位置特征。

步骤607，对每一文本单元，从建立的种子库中搜索对应的标准图像，将标准图像的图像内容与相应文本单元的字符特征融合。

步骤608，根据各文本单元的字符特征、位置特征和设定的第二模态标识，生成各文本单元的文本特征。

步骤609，将各对象的图像特征和各文本单元的文本特征拼接，得到输入特征。

例如，如图3所示，针对语料中的每一个文本单元，将A2中对应的字符特征，B2中对应的第二模态标识和C2中对应的位置特征拼接生成相应文本单元的文本特征。针对图像中的每一个对象，将A1中对应的对象特征，B1中对应的第一模态标识和C1中对应的位置特征拼接生成相应对象的图像特征。进而将各个对象的图像特征和各个文本单元的文本特征拼接，得到输入特征，输入特征以向量表示。

步骤610，输入特征中还包括匹配标识，根据输入特征，执行第二训练任务，以对语义模型训练。

其中，输入特征中还包含匹配标识，匹配标识是预设的可学习的向量，例如，学习类别(classification，CLS)向量。

其中，第二训练任务包括：对每一个训练样本，将对应的输入特征中包含的匹配标识取设定值后，输入语义模型，以得到语义模型输出的第二语义向量，根据第二语义向量中匹配标识的取值，预测相应训练样本中语料与图像的匹配性，根据预测的匹配性与相应训练样本的实际匹配性之间的差异，调整语义模型的参数，通过第二训练任务不断的训练和调整模型的参数，以使得语义模型收敛，即达到预测匹配结果和实际匹配结果之间的差异最小，以实现语料和对应的图像的匹配确定，可用于图像和语料对应检索的领域。

需要说明的是，语义模型根据输入特征，调整匹配标识的取值，而取值调整后的匹配标识的取值可用于指示训练样本中语料与图像的匹配性。

步骤611，采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

在一种场景下，采用经过训练的语义模型，基于语料检索对应的图像，具体来说，将需要判断是否匹配的图像和语料输入模型，根据模型的输出的CLS的值，确定两者是否匹配，即，将已知语料对应的特征，和未知图像的初始化特征输入语义模型，根据语义模型输出的已知语料与未知图像组合的语义向量中对应图片部分的数据，预测未知图像中呈现的对象，根据预测出的对象从多个未知图像中检索该未知图像，从而确定已知语料对应的图像。

需要说明的是，未知语料是指不确定该语料用于描述哪个图像，即语料对应的图像是未知的。

需要说明的是，而为了提高训练的效果，第一训练任务和第二训练任务还可以都执行，两个训练任务是迭代进行的，根据第一训练任务的预测结果和第二训练任务的匹配度预测结果，进行语义模型损失值计算，其中，模型的损失值通过两个训练任务对应的损失函数的损失值得出，根据计算得到的模型的损失值，调整语义模型的参数以使两个任务的损失函数均收敛，以提高模型训练的效果。

为了实现上述实施例，本申请还提出一种跨模态处理装置。

图7为本申请实施例提供的一种跨模态处理装置的结构示意图。

如图7所示，该装置包括：获取模块71、生成模块72、训练模块73和处理模块74。

获取模块71，用于获取样本集；其中，所述样本集包括多个语料，以及多个图像。

生成模块72，用于根据所述样本集，生成多个训练样本；其中，每一个所述训练样本，是至少一个所述语料与对应的至少一个所述图像的组合。

训练模块73，用于采用所述多个训练样本，对语义模型进行训练，以使所述语义模型学习得到语料与图像组合的语义向量。

处理模块74，用于采用经过训练的语义模型，进行语料和图像之间的跨模态处理。

进一步地，在本申请实施例的一种可能的实现方式中，上述训练模块73，包括：

提取单元，用于针对每一个训练样本，对相应训练样本中所述图像呈现的各对象提取图像特征，以及对语料中各文本单元提取文本特征。

拼接单元，用于将各对象的图像特征和各文本单元的文本特征拼接，得到输入特征。

训练单元，用于根据输入特征，执行第一训练任务，以对语义模型训练；

其中，第一训练任务包括：

对每一个训练样本，选中至少一个文本单元，将输入特征中相应文本单元的文本特征替换为设定的文本掩码，和/或，选中至少一个对象，将输入特征中相应对象的图像特征替换为设定的图像掩码；将替换后得到的输入特征输入语义模型，以得到语义模型输出的第一语义向量；根据第一语义向量，预测选中的文本单元和/或选中的对象；根据预测准确性，调整语义模型的参数。

作为一种可能的实现方式，选中的对象包括具有重叠显示区域的至少两个对象；或者，选中的对象为与任一对象均不具有重叠显示区域的一个对象。

作为一种可能的实现方式，上述生成模块72，具体用于：

将各语料，与相应语料描述的图像组合，得到语料与图像匹配的训练样本；以及，将固定设置的语料与随机确定的图像组合，得到语料与图像不匹配的训练样本，和/或，将固定设置的图像与随机确定的语料组合，得到语料与图像不匹配的训练样本。

作为另一种可能的实现方式，输入特征中还包括匹配标识，上述训练模块73，具体还用于：

根据输入特征，执行第二训练任务，以对语义模型训练；

其中，所述第二训练任务包括：

对每一个训练样本，将对应的输入特征中匹配标识取设定值后，输入语义模型，以得到语义模型输出的第二语义向量；根据第二语义向量中匹配标识的取值，预测相应训练样本中语料与图像的匹配性；根据预测的匹配性与相应训练样本的实际匹配性之间的差异，调整语义模型的参数。

作为一种可能的实现方式，提取单元，还包括：

获取子单元，用于对图像中呈现的各对象，获取视觉特征和空间坐标，其中，视觉特征，是对相应感兴趣区域的图像内容信息池化得到的，空间坐标，用于指示相应对象在图像中的展示位置。

拼接子单元，用于将视觉特征和空间坐标拼接，生成对象特征。

生成子单元，用于根据各对象的所述对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征，其中，对象顺序特征，用于指示各对象之间的相互顺序关系，第一模态标识，用于指示相应对象属于图像。

作为另一种可能的实现方式，提取单元，还包括：

搜索子单元，用于对每一对象，从建立的种子库中搜索对应的标准文本，标准文本用于描述相应对象。

融合子单元，用于将标准文本的字符内容与对象特征融合。

作为另一种可能的实现方式，获取子单元，还用于对语料中的各文本单元，获取字符特征和位置特征，其中，字符特征，用于指示相应文本单元所含字符，位置特征，用于指示相应文本单元的语序。

生成子单元，还用于根据各文本单元的字符特征、位置特征和设定的第二模态标识，生成各文本单元的文本特征。

作为另一种可能的实现方式，搜索子单元，还用于对每一文本单元，从建立的种子库中搜索对应的标准图像，标准图像呈现有相应文本单元所描述的对象。

融合子单元，还用于将标准图像的图像内容与字符特征融合。

作为另一种可能的实现方式，上述处理模块74，具体用于：

采用经过训练的语义模型，基于语料检索对应的图像；或者，采用经过训练的语义模型，基于图像生成描述相应图像的语料。

需要说明的是，前述对跨模态处理方法实施例的解释说明也适用于该实施例的跨模态处理装置，此处不再赘述。

本申请实施例的跨模态处理方法中，获取样本集，其中，样本集包括多个语料，以及多个图像，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过对训练语料和对应的图像进行组合训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

为了实现上述实施例，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述方法实施例中所述的跨模态处理方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如前述方法实施例所述的跨模态处理方法。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例提供的跨模态处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的跨模态处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的跨模态处理方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的XXX的方法对应的程序指令/模块(例如，附图7所示的获取模块71、生成模块72、训练模块73和处理模块74)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的跨模态处理方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据跨模态处理方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至跨模态处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

跨模态处理方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与跨模态处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，获取样本集，其中，样本集包括多个语料，以及多个图像，根据样本集，生成多个训练样本，其中，每一个训练样本，是至少一个语料与对应的至少一个图像的组合，采用多个训练样本，对语义模型进行训练，以使语义模型学习得到语料与图像组合的语义向量，采用经过训练的语义模型，进行语料和图像之间的跨模态处理，通过对训练语料和对应的图像进行组合训练，使得语义模型学习到了语料和对应的图像之间的语义关联，提高了进行跨模态处理的语义模型的训练效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种跨模态处理方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的跨模态处理方法，其特征在于，所述采用所述多个训练样本，对语义模型进行训练，以使所述语义模型学习得到语料与图像组合的语义向量，包括：

针对每一个训练样本，对相应训练样本中所述图像呈现的各对象提取图像特征，以及对所述语料中各文本单元提取文本特征；

将各对象的所述图像特征和各文本单元的所述文本特征拼接，得到输入特征；

根据所述输入特征，执行第一训练任务，以对所述语义模型训练；

其中，所述第一训练任务包括：

对每一个训练样本，选中至少一个文本单元，将所述输入特征中相应文本单元的文本特征替换为设定的文本掩码，和/或，选中至少一个对象，将所述输入特征中相应对象的图像特征替换为设定的图像掩码；

将替换后得到的输入特征输入所述语义模型，以得到所述语义模型输出的第一语义向量；

根据所述第一语义向量，预测选中的文本单元和/或选中的对象；

根据预测准确性，调整所述语义模型的参数。

3.根据权利要求2所述的跨模态处理方法，其特征在于，所述选中的对象包括具有重叠显示区域的至少两个对象；或者，所述选中的对象为与任一对象均不具有重叠显示区域的一个对象。

4.根据权利要求2所述的跨模态处理方法，其特征在于，所述根据所述样本集，生成多个训练样本，包括：

将各所述语料，与相应语料描述的所述图像组合，得到语料与图像匹配的训练样本；

以及，将固定设置的所述语料与随机确定的所述图像组合，得到语料与图像不匹配的训练样本，和/或，将固定设置的所述图像与随机确定的所述语料组合，得到语料与图像不匹配的训练样本。

5.根据权利要求4所述的跨模态处理方法，其特征在于，所述输入特征中还包括匹配标识；所述采用所述多个训练样本，对语义模型进行训练，包括：

根据所述输入特征，执行第二训练任务，以对所述语义模型训练；

其中，所述第二训练任务包括：

对每一个训练样本，将对应的输入特征中所述匹配标识取设定值后，输入所述语义模型，以得到所述语义模型输出的第二语义向量；

根据所述第二语义向量中所述匹配标识的取值，预测相应训练样本中语料与图像的匹配性；

根据预测的匹配性与相应训练样本的实际匹配性之间的差异，调整所述语义模型的参数。

6.根据权利要求2所述的跨模态处理方法，其特征在于，所述对相应训练样本中所述图像呈现的各对象提取图像特征，包括：

对所述图像中呈现的各对象，获取视觉特征和空间坐标；其中，所述视觉特征，是对相应感兴趣区域的图像内容信息池化得到的；所述空间坐标，用于指示相应对象在图像中的展示位置；

将所述视觉特征和所述空间坐标拼接，生成对象特征；

根据各对象的所述对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征；其中，所述对象顺序特征，用于指示各对象之间的相互顺序关系；所述第一模态标识，用于指示相应对象属于图像。

7.根据权利要求6所述的跨模态处理方法，其特征在于，所述根据各对象的所述对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征之前，还包括：

对每一对象，从建立的种子库中搜索对应的标准文本；所述标准文本用于描述相应对象；

将所述标准文本的字符内容与所述对象特征融合。

8.根据权利要求2所述的跨模态处理方法，其特征在于，所述对所述语料中各文本单元提取文本特征，包括：

对所述语料中的各文本单元，获取字符特征和位置特征；其中，所述字符特征，用于指示相应文本单元所含字符；所述位置特征，用于指示相应文本单元的语序；

根据各文本单元的所述字符特征、所述位置特征和设定的第二模态标识，生成各文本单元的文本特征。

9.根据权利要求8所述的跨模态处理方法，其特征在于，所述根据各文本单元的所述字符特征、所述位置特征和设定的第二模态标识，生成各文本单元的文本特征之前，还包括：

对每一文本单元，从建立的种子库中搜索对应的标准图像；所述标准图像呈现有相应文本单元所描述的对象；

将所述标准图像的图像内容与所述字符特征融合。

10.根据权利要求1-9中任一项所述的跨模态处理方法，其特征在于，所述采用经过训练的语义模型，进行语料和图像之间的跨模态处理，包括：

采用经过训练的语义模型，基于语料检索对应的图像；

或者，采用经过训练的语义模型，基于图像生成描述相应图像的语料。

11.一种跨模态处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的跨模态处理装置，其特征在于，所述训练模块，包括：

提取单元，用于针对每一个训练样本，对相应训练样本中所述图像呈现的各对象提取图像特征，以及对所述语料中各文本单元提取文本特征；

拼接单元，用于将各对象的所述图像特征和各文本单元的所述文本特征拼接，得到输入特征；

训练单元，用于根据所述输入特征，执行第一训练任务，以对所述语义模型训练；

其中，所述第一训练任务包括：

对每一个训练样本，选中至少一个文本单元，将所述输入特征中相应文本单元的文本特征替换为设定的文本掩码，和/或，选中至少一个对象，将所述输入特征中相应对象的图像特征替换为设定的图像掩码；将替换后得到的输入特征输入所述语义模型，以得到所述语义模型输出的第一语义向量；根据所述第一语义向量，预测选中的文本单元和/或选中的对象；根据预测准确性，调整所述语义模型的参数。

13.根据权利要求12所述的跨模态处理装置，其特征在于，所述选中的对象包括具有重叠显示区域的至少两个对象；或者，所述选中的对象为与任一对象均不具有重叠显示区域的一个对象。

14.根据权利要求12所述的跨模态处理装置，其特征在于，所述生成模块，具体用于：

将各所述语料，与相应语料描述的所述图像组合，得到语料与图像匹配的训练样本；以及，将固定设置的所述语料与随机确定的所述图像组合，得到语料与图像不匹配的训练样本，和/或，将固定设置的所述图像与随机确定的所述语料组合，得到语料与图像不匹配的训练样本。

15.根据权利要求14所述的跨模态处理装置，其特征在于，所述输入特征中还包括匹配标识；所述训练模块，具体用于：

其中，所述第二训练任务包括：

对每一个训练样本，将对应的输入特征中所述匹配标识取设定值后，输入所述语义模型，以得到所述语义模型输出的第二语义向量；根据所述第二语义向量中所述匹配标识的取值，预测相应训练样本中语料与图像的匹配性；根据预测的匹配性与相应训练样本的实际匹配性之间的差异，调整所述语义模型的参数。

16.根据权利要求12所述的跨模态处理装置，其特征在于，所述提取单元，还包括：

获取子单元，用于对所述图像中呈现的各对象，获取视觉特征和空间坐标；其中，所述视觉特征，是对相应感兴趣区域的图像内容信息池化得到的；所述空间坐标，用于指示相应对象在图像中的展示位置；

拼接子单元，用于将所述视觉特征和所述空间坐标拼接，生成对象特征；

生成子单元，用于根据各对象的所述对象特征、对象顺序特征和设定的第一模态标识，生成各对象的图像特征；其中，所述对象顺序特征，用于指示各对象之间的相互顺序关系；所述第一模态标识，用于指示相应对象属于图像。

17.根据权利要求16所述的跨模态处理装置，其特征在于，所述提取单元，还包括：

搜索子单元，用于对每一对象，从建立的种子库中搜索对应的标准文本；所述标准文本用于描述相应对象；

融合子单元，用于将所述标准文本的字符内容与所述对象特征融合。

18.根据权利要求12所述的跨模态处理装置，其特征在于，

所述获取子单元，还用于对所述语料中的各文本单元，获取字符特征和位置特征；其中，所述字符特征，用于指示相应文本单元所含字符；所述位置特征，用于指示相应文本单元的语序；

所述生成子单元，还用于根据各文本单元的所述字符特征、所述位置特征和设定的第二模态标识，生成各文本单元的文本特征。

19.根据权利要求18所述的跨模态处理装置，其特征在于，

所述搜索子单元，还用于对每一文本单元，从建立的种子库中搜索对应的标准图像；所述标准图像呈现有相应文本单元所描述的对象；

所述融合子单元，还用于将所述标准图像的图像内容与所述字符特征融合。

20.根据权利要求11-19中任一项所述的跨模态处理装置，其特征在于，所述处理模块，具体用于：

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一所述的跨模态处理方法。