CN117611944A

CN117611944A - 基于深度学习的文本生成图像方法、装置和可读存储介质

Info

Publication number: CN117611944A
Application number: CN202311629569.XA
Authority: CN
Inventors: 赵骥; 钟平
Original assignee: University of Science and Technology Liaoning USTL
Current assignee: University of Science and Technology Liaoning USTL
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-27

Abstract

本发明提供一种基于深度学习的文本生成图像方法。该方法包括：获取文本图像数据集；按照预设比例将文本图像数据集划分为训练集、测试集和验证集；搭建基于深度学习的文本生成图像网络模型；构造生成器和鉴别器的损失函数；将训练集对应的文本描述作为文本编码器输入，将第一随机向量作为生成器输入，基于所述损失函数对该网络模型进行训练，使用验证集对该网络模型进行优化，保存最优模型；将测试集输入最优模型，输出生成图像，并输出测试集中的各真实图像的特征与对应的各生成图像的特征的相似性。本发明提出的方法达到文本特征和图像特征融合的目的，采用能够对图像局部进行评估的分块鉴别器思想，可以将文本描述转换成具有很高逼真性的图像。

Description

基于深度学习的文本生成图像方法、装置和可读存储介质

技术领域

本发明涉及计算机视觉的图像生成的技术领域，具体而言，涉及一种基于深度学习的文本生成图像方法、计算机装置和计算机可读存储介质。

背景技术

随着深度学习技术的发展，文本生成图像成为了一个备受关注的研究领域。文本生成图像是指将文本描述转化为相应的图像。传统的文本生成图像方法通常基于规则或模板，缺乏灵活性和泛化能力。而基于深度学习的文本生成图像方法则可以自动地从大量的数据中学习到文本与图像之间的映射关系，具有更高的灵活性和泛化能力。

目前，基于深度学习的文本生成图像方法已经得到了广泛的研究和应用。其中最具代表性的是生成对抗网络(GAN)模型。GAN模型是一种基于博弈论的深度学习模型，由生成器和鉴别器两部分组成。在文本生成图像任务中，生成器接受文本描述作为输入，并生成相应的图像，而鉴别器则尝试区分这些生成的图像和真实的图像之间的差异。通过对生成器和鉴别器进行交替训练，可以不断提高生成器的性能，从而生成更加逼真的图像。除了GAN模型，还有许多其他的基于深度学习的文本生成图像方法。例如，可以使用变分自编码器(VAE)模型，将文本描述映射到一个潜在空间中，并从中采样生成图像。还可以使用条件变分自编码器(CVAE)模型，将文本描述和图像特征结合起来，生成与文本描述相符合的图像。另外，还可以使用卷积神经网络(CNN)和循环神经网络(RNN)等模型，分别处理文本和图像，然后将它们结合起来，生成文本描述对应的图像。

但是，现有的基于深度学习的文本生成图像方法都存在以下缺陷：

(1)文本特征提取不充分。文本特征提取是指从原始文本中提取出一组代表性的特征，以便进行后续的处理和分析。文本特征提取对于文本生成图像方法的精度和准确性至关重要。因此在选择特征提取方法时需要进行实验和比较，以选出最佳的特征组合；

(2)全局一致性差。生成的图像往往存在一些局部特征(例如对象的形态，纹理等)，这些局部特征很准确，但表现的全局结构和背景缺少一致性，会显得比较不自然；

(3)像素级别的错误。生成的图像存在一些不真实的问题，例如过多或者过少的细节、重要特征部分的缺失和失真等；

(4)图像分辨率低。文本生成图像模型生成的图像分辨率通常较低，这限制了场景的应用范围。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一目的在于提出一种基于深度学习的文本生成图像方法。

本发明的第二目的在于提出一种计算机装置。

本发明的第三目的在于提出一种计算机可读存储介质。

为了实现上述目的，本发明的第一方面的技术方案，提供了一种基于深度学习的文本生成图像方法，包括：步骤S1：获取文本图像数据集，所述文本图像数据集包括多组数据，每一组数据包括文本描述和与所述文本描述相对应的真实图像；步骤S2：按照预设比例将所述文本图像数据集划分为训练集、测试集和验证集；步骤S3：搭建基于深度学习的文本生成图像网络模型；所述基于深度学习的文本生成图像网络模型包括：以Bert模型为骨干网络的文本编码器、生成器和鉴别器；所述生成器以第一随机向量为输入；所述文本编码器包括一个全局特征提取器和一个局部特征提取器；所述生成器包括：一个全连接层、多个相互串联的文本图像融合块和一个卷积层，所述第一随机向量通过一个全连接层输入到所述多个相互串联的文本图像融合块中；每个文本图像融合块包括多个相互串联的仿射变换层；所述鉴别器包括：多个相互串联的卷积池化块和一个输出层，每个卷积池化块包括相互串联的一个卷积层和一个池化层；所述文本编码器，以文本描述为输入，用于提取所述文本描述对应的文本特征向量，其中所述文本特征向量包括全局特征和局部特征；所述文本编码器，还用于将所述文本特征向量与第二随机向量进行拼接以得到拼接后的向量矩阵，并将所述拼接后的向量矩阵输入到所述文本图像融合块中；所述全局特征提取器，用于提取所述文本描述对应的全局特征；所述局部特征提取器，用于提取所述文本描述对应的局部特征；所述文本图像融合块，用于通过多个仿射变换层将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征，融合在一起生成对应的图像特征；融合后的所述对应的图像特征通过一个卷积层输出与所述文本描述语义相一致的生成图像；所述多个相互串联的卷积池化块，用于接收与所述文本描述语义相一致的生成图像和所述真实图像，并将与所述文本描述语义相一致的生成图像和所述真实图像进行相应的卷积、池化操作后，生成对应的图像特征；卷积、池化操作后的所述对应的图像特征再与所述文本特征向量进行拼接，经过所述输出层分别将卷积、池化操作后的所述对应的图像特征和所述文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性；步骤S4：构造所述生成器和鉴别器的损失函数；步骤S5：将所述训练集对应的文本描述作为所述文本编码器的输入，将所述第一随机向量作为所述生成器的输入，基于所述生成器和鉴别器的损失函数对所述基于深度学习的文本生成图像网络模型进行训练及优化，保存最优模型；步骤S6：将所述测试集输入最优模型，输出与所述测试集对应的文本描述语义相一致的生成图像，并输出所述测试集中的各真实图像的特征与对应的各生成图像的特征的相似性。

优选地，所述步骤S3中，所述文本编码器，还用于：预训练所述Bert模型，并将预训练后的BERT模型的预训练权重加载到文本编码器中，以微调所述文本编码器的权重。

优选地，所述生成器的损失函数的表达式为：

L_G＝αlog(D(G(z)))+β||x-G(z)||

其中，G表示生成器；D表示鉴别器；z表示生成器的输入随机向量；G(z)为生成器接收随机向量并生成相应的图像输出；D(G(z))为鉴别器接收生成器生成的图像作为输入，并输出一个判别结果，表示图像的真实性；x表示原始输入图像；α、β则表示该部分对应的权重；所述鉴别器的损失函数的表达式为：

其中，x_i为真实图像中第i块；D(x_i)为真实图像的鉴别器输出；G(z_i)为生成器输入的随机向量z_i后生成的假图像的第i块；D(G(z_i)为生成图像的鉴别器输出；n为所有块的数量。

优选地，所述生成器包括七个相互串联的文本图像融合块；所述鉴别器包括：六个相互串联的卷积池化块。

优选地，每个文本图像融合块包括：相互串联的第一仿射变换层、第一激活层、第二仿射变换层、第二激活层、和一个卷积层；将所述文本描述对应的全局和局部特征，以及经过上采样操作后的所述第一随机向量、第二随机向量对应的图像特征，依次输入到相互串联的第一仿射变换层、第一激活层、第二仿射变换层，以及将所述文本描述对应的局部特征和全局输入到第一和第二仿射变换层，以实现将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征融合在一起，最后通过一个卷积层输出融合后的对应的图像特征。

优选地，所述多个相互串联的文本图像融合块的后面还设置有一个批量归一化层。

本发明的第二方面的技术方案，还提供了一种计算机装置，该计算机装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一技术方案中的基于深度学习的文本生成图像方法的步骤。

本发明的第三方面的技术方案，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一技术方案中的基于深度学习的文本生成图像方法的步骤。

本发明的有益效果：

(1)本发明提出的基于深度学习的文本生成图像方法，可以将文本描述转换成对应的图像，该转换成的图像具有很高的逼真性和实用性。具体地，该基于深度学习的文本生成图像方法采用的文本编码器以Bert模型为骨干网络，并且该文本编码器包括一个全局特征提取器和一个局部特征提取器，实现了采用更先进的文本编码器进行文本特征提取，并解决了现有的基于深度学习的文本生成图像方法文本特征提取不充分的问题。

(2)本发明提出的基于深度学习的文本生成图像方法，采用的生成器包括多个相互串联的文本图像融合块，每个文本图像融合块包括多个相互串联的仿射变换层，它可以更有效、更深入的充分融合文本特征和图像特征，并解决了现有的基于深度学习的文本生成图像方法像素级别的错误和图像分辨率低的问题。

(3)本发明提出的基于深度学习的文本生成图像方法，采用能够对图像局部进行评估的分块鉴别器的思想，该分块鉴别器的思想解决了现有的基于深度学习的文本生成图像方法全局一致性差的问题。具体地，经过输出层分别将卷积、池化操作后的对应的图像特征和文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性，上述操作使得鉴别器能够在每个像素块的级别上去检查输入图像的真实性,能够更好的捕捉图像中的局部信息，并在整合每个块的判别结果之后，最终得到每张图的真实性评估。

本发明的附加方面和优点将在下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了本发明的一个实施例的基于深度学习的文本生成图像方法的示意流程图；

图2示出了本发明的一个实施例的基于深度学习的文本生成图像网络模型的总框架图；

图3示出了本发明的一个实施例的文本图像融合块的示意结构图；

图4示出了本发明的一个实施例的分块鉴别器的思想的示意图；

图5示出了本发明的一个实施例的本发明网络模型和其他网络模型在CUB和COCO数据集生成的图像的示意图；

图6示出了本发明的一个实施例的计算机装置的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

图1示出了本发明的一个实施例的基于深度学习的文本生成图像方法的示意流程图。如图1所示，该基于深度学习的文本生成图像方法，包括：

步骤S1：获取文本图像数据集；

步骤S2：按照预设比例将文本图像数据集划分为训练集、测试集和验证集；

步骤S3：搭建基于深度学习的文本生成图像网络模型；

步骤S4：构造生成器和鉴别器的损失函数；

步骤S5：将训练集对应的文本描述作为文本编码器的输入，将第一随机向量作为生成器的输入，基于生成器和鉴别器的损失函数对该基于深度学习的文本生成图像网络模型进行训练，使用验证集对该基于深度学习的文本生成图像网络模型进行优化，保存最优模型；

步骤S6：将测试集输入最优模型，输出与测试集对应的文本描述语义相一致的生成图像，并输出测试集中的各真实图像的特征与对应的各生成图像的特征的相似性。

在本实施例中，文本图像数据集包括多组数据，每一组数据包括文本描述和与文本描述相对应的真实图像。如图2所示，该基于深度学习的文本生成图像网络模型包括：以Bert模型为骨干网络的文本编码器、生成器和鉴别器；所述生成器以第一随机向量为输入；所述文本编码器包括一个全局特征提取器和一个局部特征提取器；所述生成器包括：一个全连接层、多个相互串联的文本图像融合块和一个卷积层，所述第一随机向量通过一个全连接层输入到所述多个相互串联的文本图像融合块中；每个文本图像融合块包括多个相互串联的仿射变换层；所述鉴别器包括：多个相互串联的卷积池化块和一个输出层，每个卷积池化块包括相互串联的一个卷积层和一个池化层；所述文本编码器，以文本描述为输入，用于提取所述文本描述对应的文本特征向量，其中所述文本特征向量包括全局特征和局部特征；所述文本编码器，还用于将所述文本特征向量与第二随机向量进行拼接以得到拼接后的向量矩阵，并将所述拼接后的向量矩阵输入到所述文本图像融合块中；所述全局特征提取器，用于提取所述文本描述对应的全局特征；所述局部特征提取器，用于提取所述文本描述对应的局部特征；所述文本图像融合块，用于通过多个仿射变换层将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征，融合在一起生成对应的图像特征；融合后的所述对应的图像特征通过一个卷积层输出与所述文本描述语义相一致的生成图像；所述多个相互串联的卷积池化块，用于接收与所述文本描述语义相一致的生成图像和所述真实图像，并将与所述文本描述语义相一致的生成图像和所述真实图像进行相应的卷积、池化操作后，生成对应的图像特征；卷积、池化操作后的所述对应的图像特征再与所述文本特征向量进行拼接，经过所述输出层分别将卷积、池化操作后的所述对应的图像特征和所述文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性。

在本实施例中，所述文本特征向量包括全局特征和局部特征，全局特征即为句子级特征，局部特征即为单词级特征。

在本实施例中，本发明提出一种基于深度学习的文本生成图像方法，该方法可以将文本描述转换成对应的图像，该转换成的图像具有很高的逼真性和实用性。具体地，该基于深度学习的文本生成图像方法采用的文本编码器以Bert模型为骨干网络，并且该文本编码器包括一个全局特征提取器和一个局部特征提取器，实现了采用更先进的文本编码器进行文本特征提取。

在本实施例中，该基于深度学习的文本生成图像方法采用的生成器包括多个相互串联的文本图像融合块，每个文本图像融合块包括多个相互串联的仿射变换层，它可以更有效、更深入的充分融合文本特征和图像特征。

在本实施例中，该基于深度学习的文本生成图像方法采用能够对图像局部进行评估的分块鉴别器的思想。如图3和图4所示，具体地，经过输出层分别将卷积、池化操作后的对应的图像特征和文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性，上述操作使得鉴别器能够在每个像素块的级别上去检查输入图像的真实性,能够更好的捕捉图像中的局部信息，并在整合每个块的判别结果之后，最终得到每张图的真实性评估。

在本发明的一个实施例中，所述步骤S3中，所述文本编码器，还用于：预训练所述Bert模型，并将预训练后的BERT模型的预训练权重加载到文本编码器中，以微调所述文本编码器的权重。

在本实施例中，采用了基于BERT预训练的文本编码器，是一种常用的自然语言处理技术，用于将文本数据转化为向量表示，以便于输入到搭建的基于深度学习的文本生成图像网络模型中进行处理。它更关注上下文信息,有效捕捉复杂单词之间的关系,能够更好的提取文本的语义信息。与传统的词袋模型和词嵌入模型相比较，基于BERT预训练的文本编码器具有以下优点：能够更好地捕捉文本数据中的语义信息；能够更好地处理长文本数据，避免了传统模型中的截断问题；能够更好地适应不同的NLP任务，因为BERT模型在多个NLP任务中都取得了良好的效果。

在本发明的一个实施例中，所述生成器的损失函数的表达式为：

L_G＝αlog(D(G(z)))+β||x-G(z)||

其中，x_i为真实图像中第i块；D(x_i)为真实图像的鉴别器输出；G(z_i)为生成器输入的随机向量z_i后生成的假图像的第i块；D(G(z_i))为生成图像的鉴别器输出；n为所有块的数量。

在本实施例中，鉴别器的损失函数由两部分组成：真实图像中每个块的鉴别器输出趋近于1的损失和生成图像中每个块的鉴别器输出趋近于0的损失。最终，将两个损失相加并标准化后即可获得总的损失函数。在训练过程中，生成器会尝试生成逼真的假图像，从而使生成图像的鉴别器输出趋近于0，而鉴别器会尝试从真实图像和假图像中正确地对每个块进行分类，从而最小化损失函数。

在本发明的一个实施例中，如图2所示，所述生成器包括七个相互串联的文本图像融合块；所述鉴别器包括：六个相互串联的卷积池化块。

在本实施例中，生成器包括七个相互串联的文本图像融合块，鉴别器包括六个相互串联的卷积池化块，该结构对应的搭建的基于深度学习的文本生成图像网络模型是最优模型。

在本发明的一个实施例中，如图3所示，每个文本图像融合块包括：相互串联的第一仿射变换层、第一激活层、第二仿射变换层、第二激活层、和一个卷积层；将所述文本描述对应的全局和局部特征，以及经过上采样操作后的所述第一随机向量、第二随机向量对应的图像特征，依次输入到相互串联的第一仿射变换层、第一激活层、第二仿射变换层，以及将所述文本描述对应的局部特征和全局输入到第一和第二仿射变换层，以实现将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征融合在一起，最后通过一个卷积层输出融合后的对应的图像特征。

在本实施例中，上采样操作是为了让图像的特征图能够从小分辨率到大分辨率的提升。为了防止模型在训练的时候出现梯度消失或梯度爆炸的问题，还引入了残差连接，主要用于保持图像特征的主题内容不被破坏。具体地，将前一层的输入(即残差)与当前层的计算结果相加，形成当前层的输出。这样做的好处是，通过直接传递残差信息，可以避免网络在训练过程中的信息丢失和减少。残差连接可以形成一个跨层的反馈机制,可以将低层次的特征继续应用于高层次的特征学习，从而增强网络的泛化能力和鲁棒性。

残差连接的计算公式为：

y＝x+f(x)

其中，x表示前一层的输入数据；f(x)表示当前层的计算结果；y表示当前层的输出数据。

在本发明的一个实施例中，所述多个相互串联的文本图像融合块的后面还设置有一个批量归一化层。

在本实施例中，在多个相互串联的文本图像融合块的后面还设置有一个批量归一化层，保证了搭建的基于深度学习的文本生成图像网络模型的准确度和鲁棒性。

如图6所示，一种计算机装置600包括：存储器602、处理器604及存储在存储器602上并可在处理器604上运行的计算机程序，处理器604执行计算机程序时实现如上述任一实施例中的基于深度学习的文本生成图像方法的步骤。

本发明提供的计算机装置600，处理器604执行计算机程序时，可以将文本描述转换成对应的图像，该转换成的图像具有很高的逼真性和实用性。具体地，采用的文本编码器以Bert模型为骨干网络，并且该文本编码器包括一个全局特征提取器和一个局部特征提取器，实现了采用更先进的文本编码器进行文本特征提取。进一步地，采用的生成器包括多个相互串联的文本图像融合块，每个文本图像融合块包括多个相互串联的仿射变换层，它可以更有效、更深入的充分融合文本特征和图像特征。进一步地，采用能够对图像局部进行评估的分块鉴别器的思想。具体地，经过输出层分别将卷积、池化操作后的对应的图像特征和文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性，上述操作使得鉴别器能够在每个像素块的级别上去检查输入图像的真实性,能够更好的捕捉图像中的局部信息，并在整合每个块的判别结果之后，最终得到每张图的真实性评估。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例中的基于深度学习的文本生成图像方法的步骤。

本发明提供的计算机可读存储介质，计算机程序被处理器执行时，可以将文本描述转换成对应的图像，该转换成的图像具有很高的逼真性和实用性。具体地，采用的文本编码器以Bert模型为骨干网络，并且该文本编码器包括一个全局特征提取器和一个局部特征提取器，实现了采用更先进的文本编码器进行文本特征提取。进一步地，采用的生成器包括多个相互串联的文本图像融合块，每个文本图像融合块包括多个相互串联的仿射变换层，它可以更有效、更深入的充分融合文本特征和图像特征。进一步地，采用能够对图像局部进行评估的分块鉴别器的思想。具体地，经过输出层分别将卷积、池化操作后的对应的图像特征和文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性，上述操作使得鉴别器能够在每个像素块的级别上去检查输入图像的真实性,能够更好的捕捉图像中的局部信息，并在整合每个块的判别结果之后，最终得到每张图的真实性评估。

下面将以一个具体的实施例来展示本发明的技术方案。

(1)在CUB数据集官网和COCO数据集官网上下载两个数据集的完整压缩包。跟以往的研究一样，本发明选择了两个更具挑战的数据集CUB bird和COCO，CUB数据集包含属于200种鸟类的11788张图像，每张鸟图都有十种语言描述。COCO数据集包含80k个用于训练的图像和40k个用于测试的图像，此数据集中的每个图像都有五种语言描述。两个数据集都划分了80％作为训练集、10％作为验证集、10％作为测试集，在训练集上训练模型，验证集上进行参数调优，最后在测试集上评估模型的性能。

(2)实验设置。选择网络的优化器以及一些实验参数的设置，逐步优化网络的参数。本发明使用Adam作为网络的优化器。其中，优化器参数β1＝0.0和β2＝0.9。批量大小Batch_size设置为64，每批数据的训练轮数epoch设置为100，生成器的学习率设置为0.0001，鉴别器的学习率设置为0.0004，生成器和鉴别器交替进行训练，每个迭代分别更新他们的参数。

(3)确定模型评估指标。本发明受到以往的研究启发，选择了用IS(InceptionScore)和FID(Fréchet Inception Distance)来评价本发明模型的表现。具体来说，IS计算条件分布和边际分布之间的Kullback-Leibler(KL)散度。更高的IS意味着生成的图像质量更高，并且每张图像显然属于特定的类别。FID在预训练的Inception v3网络的特征空间中计算合成图像和真实世界图像分布之间的Fréchet距离。与IS相反，更逼真的图像具有较低的FID.为了计算IS和FID，每个模型根据从测试数据集中随机选择的文本描述生成30000张图像(256×256分辨率)。IS不能很好地评估COCO数据集上的图像质量，这也存在于本发明提出的方法中。此外，我们发现一些基于GAN的模型在COCO数据集上实现的IS明显高于基于Transformer的大型文本到图像模型，但合成图像的视觉质量明显较低于Transformer的模型。因此，本发明不在COCO数据集上比较IS。相比之下，FID更稳健，并使人类对COCO数据集的定性评估保持一致。

(4)最优模型的获取。训练程序采用每轮训练结束后均使用测试集进行测试，网络保存最优的模型。最优的训练模型的命名使用了训练轮数，为了更加直观的观察是否发生了过拟合的现象。最终训练结束后我们将得到最终训练的1200轮训练模型以及最优训练模型。

(5)本发明为了更好的训练整个网络，网络的采用了两个损失函数，一个对抗损失函数、一个鉴别器损失函数。对抗损失函数用来监测生成的图像输出情况。鉴别器损失函数，主要用于检测鉴别器的判别输出情况。

(6)图2示出了本发明的一个实施例的基于深度学习的文本生成图像网络模型的总框架图，介绍了在网络对文字和图像的整个处理流程。网络首先将输入的文字经过文本编码器生成文本特征，然后再与搜集生成的图像特征进行融合，经过卷积层之后生成图像，之后再通过鉴别器的判断，不断地优化生成器生成的图像质量，最终生成高分辨率和高质量的图像。其中，设计文本图像融合块的上采样过程，可以将低分辨率图像或特征图增大为高分辨率图像或特征图，从而使细节更加清晰，上采样可以通过多种方式实现，其中最常见的方法有双线性插值、反卷积和转置卷积等方法。在本发明中采用了双线性插值的方法来实现上采样，假设图像或特征图的原始宽高为W和H，目标图像或特征图的宽高为W2和H2，那么对于目标图像或特征图的每个像素(i,j)，他的上采样计算公式为：

p*q*x(i-1,j-1)+(1-p)q*x(i,j-1))

其中，p＝i/2,，q＝j/2，f(x)表示像素的插值结果，x(i,j)表示原始图像中位置为(i,j)的像素值。

(7)文本图像融合模块将图像特征和文本编码器生成的文本特征通过多个仿射变换层，将文本和图像的特征充分的融合在一起，合成具有富含空间信息和上下文信息的特征图，然后经过卷积操作送入下一层融合块继续融合，得到文本和图像充分融合后的信息。

(8)结合鉴别器进行总体训练。鉴别器的主要作用在与判别生成器生成的图像的真伪，随着生成器生成能力的提高，鉴别器的鉴别能力也会有所提高，最终网络的对抗损失就会达到最优值。

(9)最后使用保存的最优模型生成30000图像来进行评估，分为FID和IS指标的评估。FID是一种用于衡量生成图像与真实图像之间差异的指标。它利用预训练的Inception网络提取图像特征，并计算生成图像和真实图像在这些特征空间中的分布差异。FID的数值越低，表示生成图像和真实图像的分布越接近，生成模型的质量越高。IS是一种用于度量生成模型多样性和图像质量的指标。它利用预训练的Inception网络计算生成图像的互信息和类别分布熵。IS的数值越高，表示生成图像的多样性越好，生成模型的质量越高。

表1显示了本发明提出的网络和几个最先进的GAN模型的定量结果，这些模型在T2I(Text to Image)生成方面取得了显著进步。

表1对比实验

注：粗体字表示该指标的最优值；“↑”表示该指标越大则效果越好；“↓”表示该指标越小则效果越好。

从表的第二列可以看到，与最新的最先进方法SSA-GAN相比，本发明的模型在CUB数据集上报告了IS的显着改进(从5.25到5.38)。更高的IS意味着更高的质量和文本图像语义一致性。因此，本发明方法的优越性能表明有效地融合了文本和图像特征并将文本信息转换为图像。与最先进的性能相比，本发明的方法在COCO数据集上将FID分数从18.23显着降低到17.96在CUB数据集上，本发明的FID分数略低于最近给出的分数(12.24对12.16)，但远低于其他最近的方法：DF-GAN中的12.24和Mirror-GAN中的18.34与CUB数据集相比，COCO数据集更具挑战性，因为图像中总是存在多个对象，背景更复杂。本发明所提出网络的卓越性能表明本发明的模型能够合成高质量的复杂图像。本发明提出的模型的优越性和有效性通过广泛的定量评估结果得到证明，无论是对于具有许多详细属性的图像还是具有多个对象的更复杂的图像，能够生成具有更好语义一致性的高质量图像。

(10)消融实验。本发明验证了基于BERT的文本编码器、文本图像融合块和分块鉴别器如何影响网络的性能。表2给出了使用不同组件的结果。以下消融实验是以DF-GAN作为基线进行的。

用本发明的文本编码器去替换DAMSM中的Encoder，IS和FID性能都有所提高，这表明本发明的文本编码器能够更好地感知文本数据中的语义信息，在处理长语句信息时表现得更加优秀。然后再将DAMSM作为本发明网络的文本特征提取器，整体性能得到提升。这表明DAMSM有助于提高文本图像的一致性，值得注意的是,在改善了DAMSM编码器的情况下，本发明的方法与最新的最先进方法DF-GAN相比实现了更好的性能。

本发明在生成器阶段用了一个两层的仿射变换来分别融合文本的局部和全局的特征到图像特征里，保证了图像和文本的语义一致性有所提高。本发明从表2的结果中发现,与没有加入此融合块的方法相比，图像的FID从15.43提升到了12.65，IS从4.81提升到了5.15，表现出来的效果都比较好，证明本发明提出的文本融合块在此网络中能够改善最终的结果，也证明了深化文本图像融合过程的有效性。

与传统的鉴别器相比，以往的鉴别器将整张图像的鉴别结果输出为一个标量作为本次鉴别的结果，而本发明提出的鉴别器采用了将图像分成一个N×N的图像矩阵，分别对这N×N个图像分别进行鉴别真假,，输出一个N×N的矩阵，最后得到图像的判别结果，这样做的好处是提高图像的分辨率以及鉴别准确性。由表2可以看出，在网络中加入本发明的分块鉴别器之后，图像的FID由12.65提升到了12.16，IS也从5.15提升到了5.38，结果表明本发明的分块鉴别器优于额外的网络。

表2消融实验

图5示出了本发明的一个实施例的本发明网络模型和其他网络模型在CUB和COCO数据集生成的图像的示意图。如图5所示，本发明提出的方法在CUB数据集和更具挑战性的COCO数据集上明显优于当前最先进的模型。通过对本发明的基于深度学习的文本生成图像方法进行实验验证，并与其他流行的文本生成图像方法进行比较，证明了本发明的基于深度学习的文本生成图像方法的有效性和优越性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的文本生成图像方法，其特征在于，包括：

步骤S1：获取文本图像数据集，所述文本图像数据集包括多组数据，每一组数据包括文本描述和与所述文本描述相对应的真实图像；

步骤S2：按照预设比例将所述文本图像数据集划分为训练集、测试集和验证集；

步骤S3：搭建基于深度学习的文本生成图像网络模型；所述基于深度学习的文本生成图像网络模型包括：以Bert模型为骨干网络的文本编码器、生成器和鉴别器；所述生成器以第一随机向量为输入；所述文本编码器包括一个全局特征提取器和一个局部特征提取器；所述生成器包括：一个全连接层、多个相互串联的文本图像融合块和一个卷积层，所述第一随机向量通过一个全连接层输入到所述多个相互串联的文本图像融合块中；每个文本图像融合块包括多个相互串联的仿射变换层；所述鉴别器包括：多个相互串联的卷积池化块和一个输出层，每个卷积池化块包括相互串联的一个卷积层和一个池化层；

所述文本编码器，以文本描述为输入，用于提取所述文本描述对应的文本特征向量，其中所述文本特征向量包括全局特征和局部特征；

所述文本编码器，还用于将所述文本特征向量与第二随机向量进行拼接以得到拼接后的向量矩阵，并将所述拼接后的向量矩阵输入到所述文本图像融合块中；

所述全局特征提取器，用于提取所述文本描述对应的全局特征；

所述局部特征提取器，用于提取所述文本描述对应的局部特征；

所述文本图像融合块，用于通过多个仿射变换层将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征，融合在一起生成对应的图像特征；融合后的所述对应的图像特征通过一个卷积层输出与所述文本描述语义相一致的生成图像；

所述多个相互串联的卷积池化块，用于接收与所述文本描述语义相一致的生成图像和所述真实图像，并将与所述文本描述语义相一致的生成图像和所述真实图像进行相应的卷积、池化操作后，生成对应的图像特征；卷积、池化操作后的所述对应的图像特征再与所述文本特征向量进行拼接，经过所述输出层分别将卷积、池化操作后的所述对应的图像特征和所述文本特征向量分成n个大小相同的块，对每个块进行鉴别，经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性；

步骤S4：构造所述生成器和鉴别器的损失函数；

步骤S5：将所述训练集对应的文本描述作为所述文本编码器的输入，将所述第一随机向量作为所述生成器的输入，基于所述生成器和鉴别器的损失函数对所述基于深度学习的文本生成图像网络模型进行训练，使用验证集对所述基于深度学习的文本生成图像网络模型进行优化，保存最优模型；

步骤S6：将所述测试集输入最优模型，输出与所述测试集对应的文本描述语义相一致的生成图像，并输出所述测试集中的各真实图像的特征与对应的各生成图像的特征的相似性。

2.根据权利要求1所述的基于深度学习的文本生成图像方法，其特征在于，所述步骤S3中，所述文本编码器，还用于：预训练所述Bert模型，并将预训练后的BERT模型的预训练权重加载到文本编码器中，以微调所述文本编码器的权重。

3.根据权利要求1所述的基于深度学习的文本生成图像方法，其特征在于，所述生成器的损失函数的表达式为：

L_G＝αlog(D(G(z)))+β||x-G(z)||

其中，G表示生成器；D表示鉴别器；z表示生成器的输入随机向量；G(z)为生成器接收随机向量并生成相应的图像输出；D(G(z))为鉴别器接收生成器生成的图像作为输入，并输出一个判别结果，表示图像的真实性；x表示原始输入图像；α、β则表示该部分对应的权重；

所述鉴别器的损失函数的表达式为：

4.根据权利要求1至3中任一项所述的基于深度学习的文本生成图像方法，其特征在于，所述生成器包括七个相互串联的文本图像融合块；所述鉴别器包括：六个相互串联的卷积池化块。

5.根据权利要求1至3中任一项所述的基于深度学习的文本生成图像方法，其特征在于，每个文本图像融合块包括：相互串联的第一仿射变换层、第一激活层、第二仿射变换层、第二激活层、和一个卷积层；

将所述文本描述对应的全局和局部特征，以及经过上采样操作后的所述第一随机向量、第二随机向量对应的图像特征，依次输入到相互串联的第一仿射变换层、第一激活层、第二仿射变换层，以及将所述文本描述对应的局部特征和全局输入到第一和第二仿射变换层，以实现将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征融合在一起，最后通过一个卷积层输出融合后的对应的图像特征。

6.根据权利要求1至3中任一项所述的基于深度学习的文本生成图像方法，其特征在于，所述多个相互串联的文本图像融合块的后面还设置有一个批量归一化层。

7.一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于深度学习的文本生成图像方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于深度学习的文本生成图像方法的步骤。