CN119203999B

CN119203999B - 一种基于知识注入和知识编码的语言隐写分析方法

Info

Publication number: CN119203999B
Application number: CN202411009662.5A
Authority: CN
Inventors: 周琳娜; 杨忠良; 周志立; 马宾; 王壮; 尤玮珂; 陈学楷
Original assignee: Beijing University of Posts and Telecommunications; Guangzhou University; National Supercomputing Center in Jinan
Current assignee: Beijing University of Posts and Telecommunications; Guangzhou University; National Supercomputing Center in Jinan
Priority date: 2024-07-25
Filing date: 2024-07-25
Publication date: 2025-09-26
Anticipated expiration: 2044-07-25
Also published as: CN119203999A

Abstract

本发明公开了一种基于知识注入和知识编码的语言隐写分析方法，属于信息隐藏领域。首先构建一个基于知识注入和知识编码的语言隐写分析系统模型，该系统模型借助知识图对输入句子进行预处理，完成知识注入。然后对句子树和可见矩阵采用BERT，完成语义特征的提取，并进行知识注入语义编码。在预处理的同时，使用图结构建模的KE模块对输入句子和知识图进行知识提取，得到迷你图，通过GAT对迷你图进行知识编码。最后将捕获的实体节点特征和从知识注入模块获得的表示向量串联并加入到一个全连接层中，系统模型通过全连接层的输出预测输入文本是正常载体还是隐写载体。本发明解决了网络文本的碎片化问题，使语言隐写分析的结果更加准确。

Description

一种基于知识注入和知识编码的语言隐写分析方法

技术领域

本发明属于信息隐藏领域，涉及文本隐写检测，具体涉及一种基于知识注入和知识编码的语言隐写分析方法。

背景技术

文本隐写分析随着自然语言处理技术的进步而迅速发展。尽管检测能力有了显著提升，但在面对真实的在线文本检测场景时，仍然难以取得令人满意的结果。一个显著的原因在于，公共网络空间中的文本，如Twitter等，往往是高度碎片化的，单个文本通常具有有限的指示特征。当前的检测模型在从个体输入文本中提取足够丰富的特征方面面临着挑战，阻碍了对文本的全面理解，限制了模型的最终检测能力。

Yang等人[Sesy:Linguistic steganalysis framework integrating semanticand syntactic features]提出了一种Sesy方案，使用强大的预训练语言模型——双向编码器表示变换(BERT)来提取语义特征，并设计了SeSy框架来考虑由于嵌入秘密信息而引起的语法变化，有效提升了现有先进的语言隐写分析算法。这种方案在一定程度上增强了文本隐写分析的能力，但这些检测模型在真实网络检测场景中面临着由网络文本的碎片化性质引起的严峻挑战。

Fu等人[Hga:hierarchical feature extraction with graph and attentionmechanism for linguistic steganalysis]提出了一种Hga方案，引入了LS-BGAT，这是一种创新方法，将文本节点与单词节点合并，形成一个庞大的异构图，利用图注意网络(GAT)来全面了解单词和语料库之间的相互关系。但是这种方案仍然未能有效应对在线隐写文本检测中面临的文本碎片化挑战。基于单个句子输入实现对文本的深入理解几乎是不可能的。

发明内容

本发明提出了一种基于知识注入和知识编码的语言隐写分析方法，用以解决由网络文本碎片化引起的文本隐写分析的实际挑战等问题。

所述基于知识注入和知识编码的语言隐写分析方法，具体步骤如下：

步骤一，构建一个基于知识注入和知识编码的语言隐写分析系统模型；

所述的系统模型命名为KIKE，包括两个部分：基于知识注入的语义编码和基于知识提取的知识编码。

步骤二，语言隐写分析系统模型借助知识图对输入句子进行预处理，以适应现有的顺序语言模型框架，完成知识注入；

预处理过程具体为：

步骤201，输入句子S是由一系列标记组成的集合，表示为S＝{w₁,w₂,...,w_n}，其中n是句子的长度，w_i是句子的第i个标记。知识图K是由实体和实体之间关系的三元组组成的图结构，表示为K(V,E)，K包含多个三元组(v_i,e_k,v_j)，其中v_i和v_j是实体，e_k表示实体之间的关系。

步骤202，利用知识图将输入句子从原始形式S转换为句子树S'为：

其中，(w_i,...,w_i+l-1)代表由l个词组成的实体E_i，表示连接到E_i的多个分支。

步骤203，对句子树S'中的标记重新编号，使用软位置索引和硬位置索引的组合进行语言模型的位置嵌入；

具体实现过程为：

首先，原句子每个标记的软位置索引为1～n，若知识图注入的内容与原句子软位置i的距离为x，则知识图注入内容的软位置索引为i+x，并在位置嵌入过程中映射到相同的位置向量；

然后，硬位置索引用于重新排序句子树中的标记，并将句子树展平为线性序列，以进行编码阶段。

最后，通过以上软硬位置索引的组合，得到句子树中各标记的索引。

步骤204，使用硬位置索引构建可见矩阵M，指导知识分支的可视范围；

可见矩阵M表示如下：

其中，表示两个标记在同一分支，表示两个标记不在同一分支。i和j是硬位置索引。

步骤三，对句子树和可见矩阵采用BERT，完成语义特征的提取，并进行知识注入语义编码；

具体过程为：

步骤301，BERT的嵌入层包括词嵌入、位置嵌入和段嵌入，在位置嵌入部分使用软位置索引，以表示句子中标记的相对位置，词嵌入和段嵌入部分保留原始的映射方法。

步骤302，将这三部分信息嵌入到高维特征空间并相加，以获得隐藏层变量H₀＝{h₁,h₂,...,h_n′}∈R^n′×d，其中n'是经过压缩句子树后展平序列的长度，d是特征的数量。

步骤303，将H₀传递给Mask-Transformer模块，该模块由L个堆叠的Mask-Transformer子层组成，每一层的输入向量集是前一层的输出向量集，如下所示：

H^l＝Mask-Transformer_l(H^l-1),1≤l≤L

每一层Mask-Transformer子层包括一个多头注意力层、一个全连接层和两个残差连接标准化层。使用可见矩阵来控制在注意力计算过程中标记之间的相关性计算。每个隐藏向量组(Q^l,K^l,V^l)的计算如下：

其中，W_q、W_k和W_v是可训练的参数矩阵，h^l是第l层中所有隐藏向量的组合。如果向量h^l _i对h^l _j是可见的，那么相关计算与BERT中的相同。如果h^l _i和h^l _j是不可见的，由于M_ij＝-∞，注意力得分将被设置为0。S^l是第l层的注意力得分。

步骤304，经过L层语义特征的细化，使用sigmoid函数得到知识注入语义编码的表示向量：

表示第L层Mask-Transformer子层输出的隐藏层变量；

步骤四，在预处理的同时，使用图结构建模的KE模块对输入句子和知识图进行知识提取，得到迷你图；

首先从输入句子中提取已识别的实体，并逐一连接，然后将它们连接到知识图中相应的对象分支，形成一个迷你图G(γ,E)，其中γ＝{v₁,…,v_m}，m是句子树中实体的数量，E＝{ε_ab＝(v_a,v_b)1≤a,b≤m}是边集。

通过最大池化函数将H^C中的实体向量作为图节点的初始向量，并采用一个邻接矩阵A∈R^m×m来表示实体之间的连接关系。

步骤五，通过一个两层的GAT对迷你图进行知识编码。

具体实现过程为：

首先，第一层采用多头图注意力层，提取节点之间的关联信息。对于每个多头图注意力层，使用一个全局共享的权重矩阵W对初始向量进行线性变换。

然后，使用Softmax方法计算每个节点与其连接节点之间的图注意力系数α_ij，具体表达式如下：

其中，N_i表示与节点e_i相连接的所有邻居节点的集合，W∈R^d×d'和是可训练的模型参数，LeakyReLU是一个非线性激活函数。

最后，利用α_ij，通过自适应聚合来自邻居节点的信息对节点i的特征表示进行更新，如下所示：

其中，σ是sigmoid激活函数。将多个GALs的输出向量串联起来，馈送到下一个单独的GAL中，得到m个节点的向量集合e²。

步骤六，知识编码完成后，将捕获的实体节点特征和从知识注入模块获得的表示向量串联并加入到一个全连接层中，系统模型通过全连接层的输出预测输入文本是正常载体还是隐写载体。

步骤七，对系统模型的预测准确性进行训练，在训练阶段，使用交叉熵损失函数更新系统模型参数，当损失函数最小化时，训练完成。

交叉熵损失函数为：

其中，y是正常载体的标签，是模型输出的预测标签，N是输入样本的数量。

本发明的优点在于：

1、本发明提出了一种基于知识注入和知识编码的语言隐写分析方法，解决真实的在线环境中面临着与网络文本的碎片化问题，可以通过知识注入的语义提取部分、认知验证部分和信息融合部分。通过借助知识图引入专业领域知识，语言模型可以更好地辅助执行分类任务。

2、本发明为了实现基于知识注入和知识编码的新型语言隐写分析，在知识注入中，借助来自专业领域的知识图将三元组注入到句子中，结合生成的句子树和可见矩阵与现有的Transformer架构一起提取语义特征。在知识编码中，将实体集成到迷你图中，并使用图神经网络进行认知验证。上述两个过程结合，使语言隐写分析的结果更加准确。

附图说明

图1为本发明提出的基于知识注入和知识编码的语言隐写分析系统模型的示意图；

图2为实施例中插入不同分支数目对检测效果F1值的影响。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

受到借助外部知识的新型语言隐写分析框架的创新应用的启发，本发明利用大多数文本隐写分析算法主要致力于设计更强大的文本特征提取模型，以期实现高效的隐写分析。但是，在真实的在线环境中面临着与网络文本的碎片化相关的显著挑战，这在很大程度上限制了它们的实际适用性。

本发明提出了一种基于知识注入和知识编码的语言隐写分析方法，由知识注入和知识编码组成，被命名为KIKE。KIKE模型的核心思想是通过引入外部知识，同时从数据层和模型层指导实体向量的微调过程，相当于为文本中的实体添加注释，以帮助模型更好地理解文本。

在知识注入中，借助来自专业领域的知识图将三元组注入到句子中，结合生成的句子树和可见矩阵与现有的Transformer架构一起提取语义特征。在知识编码中，将实体集成到迷你图中，并使用图神经网络进行认知验证。各阶段协议流程如图1所示。所提出的算法可以分为基于知识注入的语义编码算法和基于知识提取的知识编码算法两种，知识提取发生在预处理阶段，语义编码部分整合外部信息。

具体步骤如下：

系统模型包括知识注入的语义提取部分、认知验证部分和信息融合部分。通过借助知识图引入专业领域知识，语言模型可以更好地辅助执行分类任务。如图1所示，提出的系统模型分为两个部分：底部基于知识注入的语义编码和顶部基于知识提取的知识编码。

基于知识注入的语义编码:借助来自专业领域的知识图将三元组注入到句子中，结合生成的句子树和可见矩阵与现有的Transformer架构一起提取语义特征。

基于知识提取的知识编码:负责将实体集成到迷你图中，并使用图神经网络进行认知验证。

步骤二，为了更好地将知识融入句子并适应现有的顺序语言模型框架，在提取语义特征之前系统模型借助知识图对输入句子进行预处理，即“知识注入”；

预处理过程具体为：

步骤201，将输入句子表示为S＝{w₁,w₂,...,w_n}，其中n是句子的长度，w_i是句子的第i个标记。将知识图表示为K(V,E)，其中K包含多个三元组(v_i,e_k,v_j)，其中v_i和v_j是实体，e_k表示实体之间的关系。

在这个步骤中，将输入句子和知识图以数据结构的形式进行表示，其中句子S是由一系列标记组成的集合，每个标记表示句子中的一个词或标识。知识图K则是由实体和实体之间关系的三元组组成的图结构。这样的表示有助于后续的处理和分析。

在这个步骤中，将原始句子S转换为了一种更具结构的形式，其中实体E_i包含了一系列相关的词汇，并且通过分支与其他实体相连接，形成了句子树结构。这样的转换有助于捕捉句子中词汇之间的关联性和结构信息。

步骤203，由于线性序列被转换为树结构，需要重新编号S'中的标记，以适应先进语言模型的位置嵌入和注意力计算机制。使用软位置索引和硬位置索引的组合进行嵌入，软位置索引用于确保在位置嵌入过程中不影响上下文结构信息；

图1所示的实施例中，输入句子为“We use syntactic tree pruning strategyto optimize semantic space”，位置嵌入过程中软位置索引和硬位置索引的具体实现过程为：

软位置索引的计算：对于句子树中的每个标记，计算软位置索引。例如，对于"graph"和"information"，它们与"pruning"在句子树中的距离均为2，因此它们的软位置索引都是7。这些软位置索引将在位置嵌入过程中用于映射到相应的位置向量。

硬位置索引的计算：硬位置索引用于重新排序句子树中的标记，并将句子树展平为线性序列，以便进行后续的编码阶段。例如，通过硬位置索引，"graph"的索引为7，而"information"的索引为10。

通过软硬位置索引的组合，可以确保在转换过程中既考虑到了句子树的结构信息，又适应了语言模型对于位置嵌入和注意力计算的需求。这有助于保留上下文信息，提高模型对输入数据的理解和处理能力。

步骤204，由于知识注入方法引入了外部标记到表示学习过程中，需要确保知识分支仅用于丰富其相应实体的含义，避免干扰原始句子中其他单词的语义表示。因此，使用硬位置索引构建可见矩阵M，如下所示：

其中，表示两个标记在同一分支，而表示它们不在同一分支。i和j是硬位置索引。

这样构建的可见矩阵M通过硬位置索引指导知识分支的可视范围，确保注入的知识只会影响到相应实体，而不会扰乱原始句子中其他单词的语义表示。这是保持模型鲁棒性和理解力的重要步骤。

步骤三，为了能够从多个角度探索词语的丰富含义，还能够捕捉字符之间的长距离依赖关系。在实践中，采用BERT，完成语义特征提取的任务。

BERT的嵌入层包括三个部分：词嵌入、位置嵌入和段嵌入，嵌入过程为：

首先，在位置嵌入部分使用软位置索引，以表示句子中标记的相对位置。其他两个部分保留了原始的映射方法。

接着，在将这三种信息嵌入到高维特征空间之后，它们相加以获得隐藏层变量H₀＝{h₁,h₂,...,h_n′}∈R^n′×d，其中n'是经过压缩句子树后展平序列的长度，d是特征的数量。

最后，将H₀传递给Mask-Transformer模块，该模块由L个堆叠的Mask-Transformer子层组成，每一层的输入向量集是前一层的输出向量集，如下所示：

H^l＝Mask-Transformer_l(H^l-1),1≤l≤L

每一层的计算包括一个多头注意力层、一个全连接层和两个残差连接标准化层。与BERT模型不同，本发明使用可见矩阵来控制在注意力计算过程中标记之间的相关性计算。形式上，每个隐藏向量组的计算如下：

其中，W_q、W_k和W_v是可训练的参数矩阵，h_l是第l层中所有隐藏向量的组合。如公式所示，如果向量h^l _i对h^l _j是可见的，那么相关计算与BERT中的相同。如果h^l _i和h^l _j是不可见的，由于M_ij＝-∞，注意力得分将被设置为0。

经过L层语义特征的细化，通过使用Sigmoid函数得到知识注入语义编码的表示向量：

词嵌入：使用BERT模型的词嵌入部分，保留了原始的映射方法。

位置嵌入：在位置嵌入部分，使用软位置索引表示句子中标记的相对位置，以保留标记之间的顺序信息。

段嵌入：保留原始的段嵌入映射方法。

Mask-Transformer模块：将H₀传递给Mask-Transformer模块，该模块由L个堆叠的Mask-Transformer子层组成。每一层的输入向量集是前一层的输出向量集。每一层的计算包括一个多头注意力层、一个全连接层和两个残差连接标准化层。其中，使用可见矩阵来控制在注意力计算过程中标记之间的相关性计算。

Sigmoid函数：经过L层语义特征的细化，通过使用Sigmoid函数得到知识注入语义编码的表示向量。

这一过程旨在从多个角度捕捉词语的丰富含义，并同时考虑字符之间的长距离依赖关系，通过Mask-Transformer模块引入了可见矩阵以控制注意力计算的相关性。

步骤四，语义编码部分整合了外部信息，并且可以独立输入鉴别器完成检测任务。然而，为了更好地从认知角度探索实体概念之间的潜在关系，并从认知角度识别内容中的知识一致性，本发明设计了一个使用图结构建模的KE模块，包括知识提取和知识编码两部分。

知识提取发生在预处理阶段，从句子中提取已识别的实体，并逐一连接它们，然后将它们连接到知识图中相应的对象分支，形成一个小图G(γ,E)，其中γ＝{v₁,…,v_m}，m是句子树中实体的数量，E＝{ε_ab＝(v_a,v_b)1≤a,b≤m}是边集。

这一部分旨在利用图结构来建模实体概念之间的关系，通过知识提取形成的小图，从而更好地识别内容中的知识一致性。知识编码的过程通过图神经网络(GNN)进行，以进一步捕捉实体之间的语义关系。这有助于从认知的角度更好地理解文本中的实体关联。

步骤五，应用了一个两层的GAT(Graph Attention Network，图注意力网络)来对迷你图进行编码。能够同时提取文本节点的局部关系和整个图的全局结构，以及从学习到的图数据中推断出类似的结构和特征，具有良好的泛化性能。

具体实现过程为：

首先，第一层采用多头图注意力层，从不同的角度探索节点之间的关联信息。对于每个多头图注意力层，使用一个全局共享的权重矩阵W对初始向量进行线性变换。

其中，N_i表示与节点e_i相连接的所有邻居节点的集合，W∈R^d×d'和a∈R^2d'是可训练的模型参数，LeakyReLU是一个非线性激活函数。

利用α_ij，节点i的特征表示可以通过自适应聚合来自邻居节点的信息进行更新，如下所示：

其中，σ是sigmoid激活函数。将多个GALs的输出向量串联起来，然后将它们馈送到下一个单独的GAL(Graph Attentional Layer，图注意力层)中，得到m个节点的向量集合e²。

整个步骤的作用是通过多头图注意力机制捕捉文本节点之间的复杂关系，充分利用图结构的信息，以获得更高层次的语义表示。这有助于模型更好地理解实体之间的关联性，提高模型对文本的理解和表达能力。

步骤六，一旦知识编码完成，捕获的实体节点特征和从知识注入模块获得的表示向量被串联并加入到一个全连接层中，以确定文本是否是一个隐写载体。

在训练阶段，使用以下交叉熵损失函数更新模型参数：

信息融合：一旦知识编码完成，即实体节点特征和从知识注入模块获得的表示向量，这两方面的信息被串联。这是为了充分利用通过知识注入和知识编码阶段获得的不同层次和类型的信息，以提高模型对文本的全面理解。

全连接层：将串联的特征向量输入到一个全连接层中。全连接层是一种常见的神经网络层，用于学习特征之间的复杂关系。在这里，它的作用是进一步组合和转换输入的特征，为最终的分类任务做好准备。

文本检测任务：最终的全连接层输出被用于确定文本是否是一个隐写载体。这是通过模型的二分类输出来实现的，即模型预测输入文本是正常载体还是隐写载体。这个任务的目的是通过训练过程中的参数更新，使模型具有良好的文本检测性能。

损失函数：在训练阶段，采用了交叉熵损失函数作为模型的优化目标。交叉熵损失函数用于衡量模型输出的概率分布与实际标签的差异，通过最小化这个差异来调整模型参数，使模型更准确地预测文本的类别。

整个步骤的作用是将通过知识注入和知识编码获得的信息结合到最终的文本检测任务中，从而提高模型对网络文本隐写的检测性能。

本发明对所提议方案的有效性进行分析，并通过提供性能分析来验证提出的基于知识注入和知识编码的语言隐写分析方案的有效性。

验证1：测试了所提出方案及baseline模型在不同的嵌入率下，对各数据集文本隐写算法的检测性能，结果见表1。总的来说，本发明提出的方案优于所有其他baseline模型。首先，得益于BERT模型强大的语义理解能力，以BERT为基础的检测模型效果要明显优于其他深度学习方法，可以在精度Acc上提升8％左右，在FLC嵌入量为3.98bpw情况下，KIKE的Acc更是达到了98.6％。其次，在该场景下仅适用BERT模型通常在准确率P和召回率R的平衡上没有那么稳定，而采用了Knowledge Infusion的策略后可以获得更优更鲁棒的效果。

验证2：在表2中进行了消融实验研究，以量化所提出模型的关键组成部分的影响。首先，在不改变BERT模型原有结构和参数大小的情况下，单独加入KI模块可以有效提高约2％～3％的检测准确率，证明了本发明将知识整合到句子中的数据增强策略的有效性。其次，对比KI和KIKE的实验效果，可以发现当bpw较低时，句子中缺乏实体相关性，使得基于数据增强的语言模型发挥更大的作用。然而，当bpw逐渐增加时，增加的KE模块可以通过检查实体语义的一致性，从认知角度更好地检测隐写痕迹。

验证3：对引入知识的分支数目进行了更深的探究，如图2所示。总体来看，首先，KI和KIKE均在分枝数目为3时效果最好。因为适当的补充知识有助于充分刻画专业实体的语义，而不仅仅依靠语言模型中该实体内每个独立单词的作用来影响整句话的意思。然而，分枝数目上升到4时检测效果会有一个衰减，猜测原因是太多的额外信息会导致单词偏离原有的词向量空间位置，扰乱原始句子的语义表达。

在实验过程中根据对GAT不同参数量的调整，控制Knowlede Encoding最终输入到分类器中的权重。观察到分枝数目低适合参数量较小的知识编码，因为分支过少的知识图对引入知识的精度要求高，片面的知识可能会影响语言模型的精度；而分枝数目高适合参数量更大的知识编码，能够让知识图发挥作用，但也不宜过于多，因为还是要根据句子本身的语词逻辑进行判断。

表1在不同的嵌入率下，各模型对不同文本隐写算法的检测性能

表2KIKE中各模块文本隐写分析性能比较

Claims

1.一种基于知识注入和知识编码的语言隐写分析方法，其特征在于，具体步骤如下：

所述的系统模型命名为KIKE，包括基于知识注入的语义编码和基于知识提取的知识编码；

预处理过程具体为：

步骤201，输入句子S是由一系列标记组成的集合，表示为S＝{w₁,w₂,...,w_n}，其中n是句子的长度，w_i是句子的第i个标记；知识图K是由实体和实体之间关系的三元组组成的图结构，表示为K(V,E)，K包含多个三元组(v_i,e_k,v_j)，其中v_i和v_j是实体，e_k表示实体之间的关系；

其中，(w_i,...,w_i+l-1)代表由l个词组成的实体E_i，表示连接到E_i的多个分支；

可见矩阵M表示如下：

其中，表示两个标记在同一分支，表示两个标记不在同一分支，i和j是硬位置索引；

具体过程为：

步骤301，BERT的嵌入层包括词嵌入、位置嵌入和段嵌入，在位置嵌入部分使用软位置索引，以表示句子中标记的相对位置，词嵌入和段嵌入部分保留原始的映射方法；

步骤302，将这三部分信息嵌入到高维特征空间并相加，以获得隐藏层变量H₀＝{h₁,h₂,...,h_n′}∈R^n′×d，其中n'是经过压缩句子树后展平序列的长度，d是特征的数量；

H^l＝Mask-Transformer_l(H^l-1),1≤l≤L

其中，H₀ ^L表示第L层Mask-Transformer子层输出的隐藏层变量；

首先从输入句子中提取已识别的实体，并逐一连接，然后将它们连接到知识图中相应的对象分支，形成一个迷你图G(γ,E)，其中γ＝{v₁,…,v_m}，m是句子树中实体的数量，E＝{ε_ab＝(v_a,v_b)1≤a,b≤m}是边集；

通过最大池化函数将H^C中的实体向量作为图节点的初始向量，并采用一个邻接矩阵A∈R^m×m来表示实体之间的连接关系；

步骤五，通过一个两层的GAT对迷你图进行知识编码，然后将捕获的实体节点特征和从知识注入模块获得的表示向量串联并加入到一个全连接层中，系统模型通过全连接层的输出预测输入文本是正常载体还是隐写载体；

步骤六，对系统模型的预测准确性进行训练，在训练阶段，使用交叉熵损失函数更新系统模型参数，当损失函数最小化时，训练完成。

2.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法，其特征在于，对句子树S'中的标记重新编号的具体实现过程为：

然后，硬位置索引用于重新排序句子树中的标记，并将句子树展平为线性序列，以进行编码阶段；

3.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法，其特征在于，所述每一层Mask-Transformer子层包括一个多头注意力层、一个全连接层和两个残差连接标准化层。

4.根据权利要求3所述的一种基于知识注入和知识编码的语言隐写分析方法，其特征在于，所述Mask-Transformer子层使用可见矩阵来控制在注意力计算过程中标记之间的相关性计算；每个隐藏向量组(Q^l,K^l,V^l)的计算如下：

其中，W_q、W_k和W_v是可训练的参数矩阵，h^l是第l层中所有隐藏向量的组合；S^l是第l层的注意力得分；如果向量h^l _i对h^l _j是可见的，那么相关计算与BERT中的相同；如果h^l _i和h^l _j是不可见的，由于M_ij＝-∞，注意力得分将被设置为0。

5.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法，其特征在于，GAT对迷你图进行知识编码的过程为：

首先，第一层采用多头图注意力层，提取节点之间的关联信息；对于每个多头图注意力层，使用一个全局共享的权重矩阵W对初始向量进行线性变换；

其中，N_i表示与节点e_i相连接的所有邻居节点的集合，W∈R^d×d'和a∈R^2d'是模型参数，LeakyReLU是一个非线性激活函数；

其中，σ是sigmoid激活函数；将多个GALs的输出向量串联起来，馈送到下一个单独的GAL中，得到m个节点的向量集合e²。

6.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法，其特征在于，交叉熵损失函数为：