CN113127672B

CN113127672B - 量化图像检索模型的生成方法、检索方法、介质及终端

Info

Publication number: CN113127672B
Application number: CN202110432335.0A
Authority: CN
Inventors: 陈斌; 王锦鹏; 夏树涛; 戴涛; 李清
Original assignee: Shenzhen International Graduate School of Tsinghua University; Peng Cheng Laboratory
Current assignee: Shenzhen International Graduate School of Tsinghua University; Peng Cheng Laboratory
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2024-06-25
Anticipated expiration: 2041-04-21
Also published as: CN113127672A

Abstract

本申请公开了一种量化图像检索模型的生成方法、检索方法、介质及终端，所述生成方法包括：利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量；基于所述训练图像的文本标签确定所述训练图像对应的文本向量；基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型。本申请通过采用训练图像对应的文本标签作为弱监督标注，并且通过弱监督标注以及预测量化向量对预设网络模型进行训练，这样可以使得深度量化可以利用弱标注图片数据进行学习，解决了现有深度量化依赖高质量标注的数据的问题，这样可以降低量化图像检索模型所处的人工成本，从而降低量化图像检索模型的训练成本。

Description

量化图像检索模型的生成方法、检索方法、介质及终端

技术领域

本申请涉及图像检索技术领域，特别涉及一种量化图像检索模型的生成方法、检索方法、介质及终端。

背景技术

目前利用深度学习的量化技术(例如，利用积神经网络(CNN)的深度量化技术等)被广泛应用于大规模图像检索中，其相比于基于传统的手动特征的量化编码，具有检索精度高的特点。然而，现有的深度量化模型普遍是在带有准确的人工标注的图像数据集(例如，CIFAR-10图像数据集和ImageNet图像数据集)上训练的，这就需要在训练模型之前花费大量人力资源进行数据标注，从而增加了量化模型的训练成本。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种量化图像检索模型的生成方法、检索方法、介质及终端。

为了解决上述技术问题，本申请实施例第一方面提供了一种量化图像检索模型的生成方法，所述生成方法包括：

利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量；

基于所述训练图像的文本标签确定所述训练图像对应的文本向量；

基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型。

所述量化图像检索模型的生成方法，其中，所述预设样本集包括若干训练图像组，若干训练图像组中的每个训练图像组均包括训练图像以及所述训练图像对应的文本标签。

所述量化图像检索模型的生成方法，其中，所述预设网络模型包括特征提取模块以及注意力模块；所述利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量具体包括：

将所述预设样本集中的训练图像输入所述特征提取模块，通过所述特征提取模块确定所述训练图像对应的特征向量；

将所述特征向量输入所述注意力模块，通过所述注意力模块确定所述训练图像对应的预测量化向量。

所述量化图像检索模型的生成方法，其中，所述预设网络模型配置有若干预设码本；将所述特征向量输入所述注意力模块，通过所述注意力模块确定所述训练图像对应的预测量化向量具体包括：

将所述特征向量划分为若干向量段，其中，若干向量段与若干预设码本一一对应；

基于各向量段各自对应的预设码本，确定各向量段各自对应的量化向量段；

基于各向量段各自对应的量化向量段，确定所述训练图像对应的预测量化向量。

所述量化图像检索模型的生成方法，其中，所述基于各向量段各自对应的预设码本，确定各向量段各自对应的量化向量段具体包括：

对于若干向量段中的每个向量段，分别确定该向量段对应的预设码本中的各预设码字与该向量段的注意力权重；

基于各预设码字以及各预设码字各自对应的注意力权重，确定该向量段对应的量化向量段，以得到各向量段各自对应的量化向量段。

所述量化图像检索模型的生成方法，其中，所述对于若干向量段中的每个向量段，分别确定该向量段对应的预设码本中的各预设码字与该向量段的注意力权重具体包括：

对于若干向量段中的每个向量段，分别计算预设码本中的各预设码字与该向量段的第一注意力权重，并计算所有第一注意力权重的和值；

对于预设码本中的每个预设码字，计算该预设码字对应的第一注意力权重与所述和值的比值，并将所述比值作为该预设码字对应的注意力权重。

所述量化图像检索模型的生成方法，其中，所述文本标签包括若干文本标签；所述确定所述训练图像的文本标签对应的文本向量具体包括：

将若干文本标签中的各文本标签输入词嵌入模型，通过所述词嵌入模型确定各文本标签各自对应的候选文本向量；

基于各文本标签各自对应的候选文本向量，确定所述训练图像对应的文本向量。

所述量化图像检索模型的生成方法，其中，所述各文本标签各自对应的候选文本向量的向量维度相同；所述基于各文本标签各自对应的候选文本向量，确定所述训练图像对应的文本向量具体为：

计算各文本向量各自对应的候选文本向量的平均文本向量，并将所述平均文本向量作为所述训练图像对应的文本向量。

所述量化图像检索模型的生成方法，其中，特征在于，所述基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型具体包括：

基于所述文本向量以所述预测量化向量，确定所述训练图像对应的损失函数值；

基于所述损失函数值对所述预设网络模型的模型参数以及其配置的若干预设码本进行训练，以得到量化图像检索模型以及若干码本。

本申请实施例第二方面提供了一种图像检索方法，应用如上任一所述的量化图像检索模型的生成方法确定的量化图像检索模型，所述的图像检索方法包括：

将查询图像输入所述量化图像检索模型，通过所述量化图像检索模型确定所述查询图像对应的查询向量；

确定所述查询向量与若干码本中的每个码本中的各码字的相似度；

基于确定的相似度，在预设图像数据库中检索所述查询图像对应的目标图像。

所述的图像检索方法，其中，所述将查询图像输入所述量化图像检索模型，通过所述量化图像检索模型确定所述查询图像对应的查询向量之前，所述方法还包括：

将预设图像数据库中的各图像分别输入所述量化图像检索模型，通过所述量化图像检索模型确定各图像各自对应的量化向量。

所述的图像检索方法，其中，所述基于确定的相似度，在预设图像数据库中检索所述查询图像对应的目标图像具体包括：

基于确定的相似度，确定查询图像与预设图像数据库中的各图像各自对应的量化向量的候选相似度；

基于确定的候选相似度在预设图像数据库中查找所述查询图像对应的目标图像；

若查找到目标图像，则判定所述预设图像数据库包含所述查询图像；

若未查找到目标图像，则判定所述预设图像数据库未包含所述查询图像。

本实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的量化图像检索模型的生成方法中的步骤，和/或以实现如上任一所述的图像检索方法中的步骤。

本实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的量化图像检索模型的生成方法中的步骤，和/或实现如上任一所述的图像检索方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种量化图像检索模型的生成方法、检索方法、介质及终端，所述生成方法包括：利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量；基于所述训练图像的文本标签确定所述训练图像对应的文本向量；基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型。本申请通过采用训练图像对应的文本标签作为弱监督标注，并且通过弱监督标注以及预测量化向量对预设网络模型进行训练，这样可以使得深度量化可以利用弱标注图片数据进行学习，解决了现有深度量化依赖高质量标注的数据的问题，这样可以降低量化图像检索模型所处的人工成本，从而降低量化图像检索模型的训练成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的量化图像检索模型的生成方法的流程图。

图2为本申请提供的量化图像检索模型的生成方法的工作原理图。

图3为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种量化图像检索模型的生成方法、检索方法、介质及终端，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

具体实现中，本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸显示屏和/或触摸板)的移动电话，膝上形计算机或平板计算机之类的其他便携式设备。还应该理解的是，在某些实施例中，所述设备并非便携式通讯设备，而是具有触摸敏感表面(例如，触摸显示屏和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端设备。然而，应当理解的是，终端设备还可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。

终端设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、视频会议应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件由于程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数据相机应用程序、数字摄像机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放应用程序等。

可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的第一或多个功能以及终端上显示的相应信息。这样，终端的公共物理框架(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

发明人经过研究发现，目前利用深度学习的量化技术(例如，利用积神经网络(CNN)的深度量化技术等)被广泛应用于大规模图像检索中，其相比于基于传统的手动特征的量化编码，具有检索精度高的特点。然而，现有的深度量化模型普遍是在带有准确的人工标注的图像数据集(例如，CIFAR-10图像数据集和ImageNet图像数据集)上训练的，这就需要在训练模型之前花费大量人力资源进行数据标注，从而增加了量化模型的训练成本。

然而，在实际应用中，带有弱标注的图像数据是普遍存在的，例如，在社交媒体应用中，用户在上传图像时可能会附带一段评论文本以及选择话题标签等，这使得该图像携带有一段评论文本和话题标签两个弱监督标注。虽然图片携带的文本信息不一定准确反映图片的内容，但是然可以利用文本信息作为图片的含有视觉语义信息的弱监督信号。

基于此，在本申请实施例中，利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量；基于所述训练图像的文本标签确定所述训练图像对应的文本向量；基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型。本申请通过采用训练图像对应的文本标签作为弱监督标注，并且通过弱监督标注以及预测量化向量对预设网络模型进行训练，这样可以使得深度量化可以利用弱标注图片数据进行学习，解决了现有深度量化依赖高质量标注的数据的问题，这样可以降低量化图像检索模型所处的人工成本，从而降低量化图像检索模型的训练成本。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种量化图像检索模型的生成方法，如图1和图2所示，所述方法包括：

S10、利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量。

具体地，所述预设样本集为预先设的，用于训练预设网络模型，以得到量化图像检索模型。预设样本集包括若干训练图像组，若干训练图像组中的每个训练图像组均包括训练图像以及文本标签，其中，文本标签可以作为训练图像的弱监督标注。所述文本标签可以包括一个标签，也可以包括多个标签，可以理解的是，训练图像可以对应一个文本标签，也可以对应多个文本标签，并且当训练图像对应多个文本标签时，多个文本标签均用于作为训练图像的弱监督标注。例如，训练图像为一张山谷的风景照，该训练图像对应的多个文本标签分别为自然、壮观以及山水。

在本实施例的一个实现方式中，由于在社交媒体的用户在上传图像时普遍会携带评论和/或者话题标签等，从而所述预设样本集的获取过程可以为：获取社交媒体中用户上传的图像，提取该图像上传是携带的评论和/或者话题标签，并将提取到文本信息作为图像对应的文本标签，最后，将该图像以及该图像对应的文本标签作为一组训练图像组，以得到预设样本集。当然，在实际应用中，预设样本集中的训练图像还可以采用其他方式确定，例如，通过成像模组拍摄训练图像，并为拍摄得到的训练图像配置文本标签以形成预设样本集等。本实现方式采用社交媒体的用户在上传图像作为训练图像，以其携带的评论和/或者话题标签作为文本标签，这样可以提高预设样本集的获取速度，进而可以提高量化图像检索模型的训练速度。

如图2所示，所述预设网络模型包括特征提取模块以及注意力模块；所述利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量具体包括：

具体地，所述特征提取模块用于提取训练图像对应的特征向量，其中，所述特征提取模块可以包括特征提取单元以及转换单元，所述特征提取单元的输入项为训练图像，输出项为训练图像对应的特征图，转换单元的输入项为特图，输出项为训练图像对应的特征向量。可以理解的是，将训练图像输入特征提取单元，通过特征提取单元输出训练图像对应的特征图；将特征图输入转换单元，通过转换单元输出训练图像对应的特征向量。

在本实施例的一个实现方式中，所述特征提取单元可以采用卷积神经网络模型，卷积神经网络模型可以包括输入层、若干卷积层以及若干全连接层，输入层、若干卷积层以及若干全连接层依次级联，输入层的输入项为训练图像，最后一个全连接层的输入项为特征图。在一个具体实现方式中，若干卷积层可以为4个卷积层，若干全连接层可以为2个全连层。当然，在实际应用中，若干卷积层的数量可以根据实际需求确定，例如，5个卷积层等。此外，所述转换单元用于将特征图展开为特征向量，其中，所述特征向量的向量维度基于特征图的图像尺度确定，并且特征向量的向量维度等于图像尺度乘积。例如，特征图的图像尺度为40*40*3，那么特征向量的向量维度为40*40*3＝4800。

在本实施例的一个实现方式中，所述预设网络模型配置有若干预设码本；若干预设码本中的每个预设码本均包括若干码字，若干码字中的每个码字互不相同，并且均可以用于作为训练图像对应的量化码，其中，若干预设码本中的每个预设码本包括的若干码字的数量可以相同，也可以不相同，也可以不相同，具体可以基于实际需求确定。

基于此，所述将所述特征向量输入所述注意力模块，通过所述注意力模块确定所述训练图像对应的预测量化向量具体包括：

将所述特征向量划分为若干向量段；

具体地，若干向量段中的各向量段互不重叠，并且若干向量段构成所述特征向量，其中，若干向量段的向量段的数量与若干预设码本的数量相等，并且若干向量段与若干预设码本一一对应。可以理解的是，在将特征向量划分为若干向量段时，可以下获取若干预设码本的码本数量，并基于码本数量将特征向量划分为若干向量段。在一个具体实现方式中，若干向量段中的各向量段的向量维度均相同，例如，特征向量的向量维度为d，那么若干向量段的数量为D，并且每个向量段的向量维度均为M，其中，d＝D*M。

在本实施例的一个实现方式中，若干预设码本可以预设配置有码本顺序，特征向量划分的若干向量段按照其在特征向量中的顺序排序后，若干向量段构成的向量段序列与若干预设码本的构成的码本序列相对应，其中，相对应指的是向量段在向量端序列中的位置与其对应给的预设码本在码本序列中的位置相同。例如，若干向量段包括向量段A和向量段B，若干预设码本包括预设码本a和预设码本b，向量段A和向量段B构成的向量段序列为<向量段A,向量段B>,预设码本a和预设码本b构成的码本序列为<预设码本a,预设码本b>，那么向量段A对应的预设码本为预设码本a，向量段B对应的预设码本为预设码本b。

所述量化向量段为用于预设码本表示的向量段，通过量化向量段将向量段进行量化，从而通过各向量段各自对应的量化向量段可以将特征向量量化，从而将特征向量对应的训练图量化。在本实施例的一个具体实现方式中，所述基于各向量段各自对应的预设码本，确定各向量段各自对应的量化向量段具体包括：

具体地，注意力权重为反映其对应的预设码字在量化向量段中的权重，用于反映该预设码字在量化向量段中的重要程度；其中，注意力权重越大，说明该注意力权重对应的预设码字的重要程度越高，反之，注意力权重越小，说明该注意力权重对应的预设码字的重要程度越低。各预设码字各自对应的注意力权重可以是预先设置的，也可以是利用注意力机制基于预设码字与向量段计算得到等。

在本实施例的一个实现方式中，所述对于若干向量段中的每个向量段，分别确定该向量段对应的预设码本中的各预设码字与该向量段的注意力权重具体包括：

具体地，预设码本为该向量段对应的预设码本，预设码本中的每个预设码字对应第一注意力权重，第一注意力权重可以是基于向量段与预设码字的余弦相似度确定的，或者是，基于该向量段与预设码字的向量乘积确定的等。在本实施的一个具体实现方式中，所述第一注意力权重的计算公式可以为：

其中，v^m为第m个向量段，为第m个向量段的转置向量，为第m个预设码本中的第k个预设码字。

进一步，在获取到第一注意力权重后，预设码字对应的注意力权重的计算公式可以为：

其中，v^m为第m个向量段，为第m个向量段的转置向量，为第m个预设码本中的第k个预设码字，K为第m个预设码本中的预设码字的数量，为第m个预设码本中的第k′个预设码字。

在获取到预设码本中的各预设码字各自对应给的注意力权重后，可以基于各预设码字各自对应给的注意力权重确定向量段对应的量化向量段，其中，量化向量段可以为预设码字中注意力权重最大的预设码字，或者是，基于预设码本中的各预设码字以及各预设码字各自对应的注意力权重加权得到等等。

在本实施例的一个实现方式中，向量段对应的量化向量段为基于该向量段对应的预设码本中的各预设码字加权得到，其计算公式可以为：

其中，K为预设码本中的预设码字的数量，为第m个向量段对应的量化向量段，为第k个预设码字对应的注意力权重，为第k个预设码字。

在获取到各向量段各自对应的量化向量段后，将各向量段各自对应的量化向量段按照其对应的向量段在特征向量中的位置进行连接，以得到特征向量对应的预测量化向量。例如，特征向量对应的若干向量段分别为v¹，v²，...，v^N，向量段v¹对应的量化向量段为向量段v²对应的量化向量段为...，向量段v^N对应的量化向量段为那么特征向量(v¹，v²，...，v^N)对应的预测量化向量

S20、基于所述训练图像的文本标签确定所述训练图像对应的文本向量。

具体地，所述文本向量为文本标签对应的词向量，可以理解的是，文本标签对应的文本向量可以通过词向量模型确定的，例如，将文本标签输入词向量模型，通过词向量模型输出文本标签对应到的词向量，并将该词向量作为训练图像对应的文本向量。此外，训练图像可以对应一个文本标签，也可以对应多个文本标签，当训练图像对应一个文本标签时，该文本标签对应的词向量为该训练图像对应的文本向量；当训练图像对应若干文本标签时，训练图像对应的文本向量可以是基于若干文本标签中的各文本标签各自对应的词向量确定得到。

在本实施例的一个实现方式中，所述文本标签包括若干文本标签；所述确定所述训练图像的文本标签对应的文本向量具体包括：

具体地，所述词嵌入模型为经过训练的，在将文本标签输入词嵌入模型时，该词嵌入模型可以输出文本标签对应的候选文本向量，由此，分别将若干文本标签中的各文本标签分别输入词嵌入模型，通过词嵌入模型确定各文本标签各自对应的候选文本向量。此外，在获取到的各文本标签各自对应的候选文本向量，可以将各候选文本向量的平均值作为训练图像对应的文本向量，或者是，将各候选文本向量加权以得到训练图像对应的文本向量，或者是，在若干候选文本向量中随机选取一个候选文本向量作为训练图像对应的文本向量等。在本实施例的一个实现方式中，所述各文本标签各自对应的候选文本向量的向量维度相同；所述基于各文本标签各自对应的候选文本向量，确定所述训练图像对应的文本向量具体为：计算各文本向量各自对应的候选文本向量的平均文本向量，并将所述平均文本向量作为所述训练图像对应的文本向量。

S30、基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型。

具体地，所述量化图像检索模型为对所述预设网络模型进行训练得到，量化图像检索模型的模型结构与预设网络模型的模型结构相同，两者不同是预设网络模型的模型参数为初始模型参数，预设网络模型配置的若干预设码本；量化图像检测模型的模型参数为经过训练的模型参数，量化图像检索模型配置若干码本，其中，若干码本为基于预设样本集对预设网络模型进行训练的过程中确定。可以理解的是，在基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练时，对预设网络模型的模型参数以及若干预设码本进行训练，在训练得到量化图像检索模型时，得到经过训练的若干码本。

基于此，所述基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型具体包括：

具体地，所述损失函数值为基于文本向量与预测量化向量确定，并且在训练过程中，可以将预设训练样本分为若干训练批，当若干训练批中的一训练批对预设网络模型进行训练完成，基于该训练批包括的训练图像确定损失函数值，对预设网络模型进行训练。当然，也可以将每个训练图像作为一个训练批，在基于该训练图像对预设网络模型进行训练后，确定该训练图像对应的损失函数值。

在本实施例的一个实现方式中，所述损失函数值的计算公式可以为：

其中，L为损失函数值，B为训练批的大小，为第k张训练图像的预测量化向量，为第k张训练图像的预测量化向量的转置向量，t_k为第k张训练图像对应的文本向量，t_j为第j张训练图像对应的文本向量。

综上所述，本实施例提供了一种量化图像检索模型的生成方法，所述生成方法包括：利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量；基于所述训练图像的文本标签确定所述训练图像对应的文本向量；基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型。本申请通过采用训练图像对应的文本标签作为弱监督标注，并且通过弱监督标注以及预测量化向量对预设网络模型进行训练，这样可以使得深度量化可以利用弱标注图片数据进行学习，解决了现有深度量化依赖高质量标注的数据的问题，这样可以降低量化图像检索模型所处的人工成本，从而降低量化图像检索模型的训练成本。此外，首先，本实施例使用一个基于词向量平均的作为训练图像对应的文本向量，自动消除噪声标签的干扰并增强了文本语义信息，可以有效提升基于文本向量的弱监督学习的效果，进而提高量化图像检索模型的训练效果；其次，通过基于注意力机制的端到端乘积量化的量化图像检索模型，使得深度量化编码的训练过程可以端到端进行，并且可以提高图像检索技术精度；最后，该方案通过对比学习损失函数，直接匹配量化后的图片表示向量和对应的文本表示向量，可得到具有更强语义表征能力的量化向量。

为了进一步说明本实施例提供的量化图像检索模型的生成方法确定的量化图像检测模型的效果，公开人在MIR-FLICKR25K和NUS-WIDE数据集上进行测试，编码长度分别为8bits，16bits，24bits和32bits时的MAP指标，比较了当前业界的主流方法，结果如下表所示。

基于上述量化图像检索模型的生成方法，本实施例还提供了一种图像检索方法，应用上述方法确定的量化图像检索模型，所述的图像检索方法包括：

具体地，所述查询向量为查询图像通过量化图像检索模型确定得到，可以理解的是，查询向量为基于量化图像检索模型确定的查询图像的量化向量，其中，通过量化图像检索模型确定查询图像对应的查询向量的过程可以为:将查询图像输入量化图像检索模型，通过量化图像检索模型确定查询图像对应给的特征向量；基于若干码本将特征向量划分为若干特征向量段，并在各特征向量段各自对应的码本中选取各特征向量段各自对应的候选码字，最后将各特征向量段各自对应的候选码字连接得到查询图像对应的查询向量。

在本实施例的一个实现方式中，对于若干特征向量段中的每个特征向量段，确定该特征向量段与其对应的码本中的各码字的余弦相似度，然后在若干码字中选取余弦相似度最大的码字，并将选取到码字作为特征向量段对应的候选码字。其中，特征向量段与其对应的码本中的各码字的余弦相似度的计算公式可以为：

其中，v^m为特征向量段，为第m个码本中的第i个码字，C^m为第m个码本，为为的转置向量。

此外，在实际应用中，预设码本中的各预设码字均配置有码字标识，在获取到向量段对应的候选码字后，可以存储该候选码字的码字标识，将训练图像的特征向量转换为由若干码字标识的量化向量。例如，若干预设码本分别为C¹，C²，...，C^N，其中，N为预设码本的数量，预设码本包括的若干预设码字可以分别为其中，m表示第m个预设码本，K为预设码字的数量，向量段m对应的候选码字为那么向量段m对应的码字标识可以为k。

基于此，在本实施例的一个实现方式中，所述将查询图像输入所述量化图像检索模型，通过所述量化图像检索模型确定所述查询图像对应的查询向量之前，所述方法还包括：

具体地，量化向量的确定过程可以与上述查询向量的确定过程相同，这里就不再赘述。此外，在确定到各图像各自对应的量化向量后，可以将采用各量化向量中的各码字各自对应的码字标识来表示各码字，以得到若干码字标识的量化向量，这样可以将预设图像数据库中的每个图像均转换为由若干码字标识表示的量化向量，从而可以将图像数据库转换为若干量化向量以及若干码本，进而可以节约图像数据库所需的存储空间。

在本实施例的一个实现方式中，所述相似度为查询向量与若干码本中每个码字的相似度，也就是说，若干码本中的每个码字中的每个码字均对应一个相似度，以形成相似度列表，这样将在图像数据库中查找查询图像可以转换为查询相似度列表求和的过程，从而可以提高图像检索速度。其中，查询向量与码字的相似度可以为其中，S_q,(m,i)表示查询向量与码字的相似度，为查询向量r_q的转置向量，为码本C_m中的第i个码字，相应的，查询向量与第m个码本的相似度序列可以为其中，S_q,m为查询向量与第m个码本的相似度序列，C_m为第m个码本。

在本实施例的一个实现方式中，所述基于确定的相似度，在预设数据库中检索所述查询图像对应的目标图像具体包括：

基于确定的相似度，确定查询图像与预设数据库中的各图像各自对应的量化向量的候选相似度；

基于确定的候选相似度在预设数据库中查找所述查询图像对应的目标图像；

若查找到目标图像，则判定所述预设数据库包含所述查询图像；

若未查找到目标图像，则判定所述预设数据库未包含所述查询图像。

具体地，所述候选相似度可以为的计算公式可以为：

其中，b_m为预设图像数据库中的图像关于第m个码本的量化向量段，S_q,m为查询向量与第m个码本的相似度序列，C_m为第m个码本，为查询向量r_q的转置向量。

进一步，在获取到各查询图像与各图像的候选相似度后，可以在候选相似度中查找是否存在大于预设阈值的候选相似度，若存在大于预设阈值的候选相似度，则将该大于预设阈值的候选相似度对应的图像作为查询图像对应的目标图像，并判定所述预设数据库包含所述查询图像；若未存在大于预设阈值的候选相似度，则判定未查找到目标图像，相应的，判定所述预设数据库未包含所述查询图像。

基于上述量化图像检索模型的生成方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的量化图像检索模型的生成方法中的步骤。

基于上述量化图像检索模型的生成方法，本申请还提供了一种终端设备，如图3所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及移动终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种量化图像检索模型的生成方法，其特征在于，所述生成方法包括：

基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型；

其中，所述预设网络模型包括特征提取模块以及注意力模块；所述利用预设网络模型，确定预设样本集中的训练图像对应的预测量化向量具体包括：

将所述特征向量输入所述注意力模块，通过所述注意力模块确定所述训练图像对应的预测量化向量；

所述预设网络模型配置有若干预设码本；将所述特征向量输入所述注意力模块，通过所述注意力模块确定所述训练图像对应的预测量化向量具体包括：

将所述特征向量划分为若干向量段，其中，若干向量段与若干预设码本一一对应，若干预设码本预设配置有码本顺序，特征向量划分的若干向量段按照其在特征向量中的顺序排序后，若干向量段构成的向量段序列与若干预设码本的构成的码本序列相对应；

基于各向量段各自对应的量化向量段，确定所述训练图像对应的预测量化向量；

其中，所述基于各向量段各自对应的预设码本，确定各向量段各自对应的量化向量段具体包括：

基于各预设码字以及各预设码字各自对应的注意力权重，确定该向量段对应的量化向量段，以得到各向量段各自对应的量化向量段；

所述对于若干向量段中的每个向量段，分别确定该向量段对应的预设码本中的各预设码字与该向量段的注意力权重具体包括：

2.根据权利要求1所述量化图像检索模型的生成方法，其特征在于，所述预设样本集包括若干训练图像组，若干训练图像组中的每个训练图像组均包括训练图像以及所述训练图像对应的文本标签。

3.根据权利要求1所述量化图像检索模型的生成方法，其特征在于，所述文本标签包括若干文本标签；所述确定所述训练图像的文本标签对应的文本向量具体包括：

4.根据权利要求3所述量化图像检索模型的生成方法，其特征在于，所述各文本标签各自对应的候选文本向量的向量维度相同；所述基于各文本标签各自对应的候选文本向量，确定所述训练图像对应的文本向量具体为：

5.根据权利要求1-4任意一项所述量化图像检索模型的生成方法，其特征在于，所述基于所述文本向量以及所述预测量化向量对所述预设网络模型进行训练，以得到量化图像检索模型具体包括：

基于所述文本向量以所述预测量化向量，确定所述训练图像对应的损失函数值；基于所述损失函数值对所述预设网络模型的模型参数以及其配置的若干预设码本进行训练，以得到量化图像检索模型以及若干码本。

6.一种图像检索方法，其特征在于，应用如权利要求1-5任意一项所述的量化图像检索模型的生成方法确定的量化图像检索模型，所述的图像检索方法包括：

7.根据权利要求6所述的图像检索方法，其特征在于，所述将查询图像输入所述量化图像检索模型，通过所述量化图像检索模型确定所述查询图像对应的查询向量之前，所述方法还包括：

8.根据权利要求7所述的图像检索方法，其特征在于，所述基于确定的相似度，在预设图像数据库中检索所述查询图像对应的目标图像具体包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-5任意一项所述的量化图像检索模型的生成方法中的步骤，和/或以实现如权利要求6-8任意一项所述的图像检索方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-5任意一项所述的量化图像检索模型的生成方法中的步骤，和/或实现如权利要求6-8任意一项所述的图像检索方法中的步骤。