CN116894476A

CN116894476A - 一种基于双通道的多行为注意力自监督学习方法

Info

Publication number: CN116894476A
Application number: CN202310823335.2A
Authority: CN
Inventors: 王楠; 曲明月; 钟颖莉
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-10-17

Abstract

本发明提出一种基于双通道的多行为注意力自监督学习方法。所述方法能够区分不同用户行为感知偏好的能力。利用用户与项目交互的不同行为。捕获用户的多种行为的依赖，发明的三种自监督学习方式，不仅增强了双通道的表征结果，也使模型在通道内和通道间的自监督学习中能够获得更多的辅助监督信号，有效缓解了监督信号稀疏的问题。

Description

一种基于双通道的多行为注意力自监督学习方法

技术领域

本发明涉及基于双通道的跨行为依赖建模的多种行为偏好预测技术领域，具体涉及双向编码表征转换器和图神经网络和自监督学习的个性化行为推荐方法。特别涉及一种基于双通道的多行为注意力自监督学习方法。

背景技术

近年来，随着移动互联网的发展，电子商务的重心从个人电脑转移到智能手机，各种移动电子商务平台应运而生，基于用户交互的训练网络也有了长足的发展，尤其是多行为推荐受到了学术界的广泛关注。数百万用户生成的海量交互数据为探索用户多种行为中的潜在意图提供了绝佳的机会，但同时海量数据也使用户陷入行为信息种类稀疏的困境，无法有效地进行个性化推荐。为了解决这一问题，多行为推荐作为一种不仅帮助用户探索自己感兴趣的商品且帮助电商平台提供吸引更多潜在的用户的有效方法，已成为电商平台挖掘领域最热门的研究课题之一。

通常，由于在移动设备上打字比在台式电脑上更困难，意图推荐可以节省用户的时间，而不需要任何输入，这将提高用户的活跃度和购物体验感，并且用户可以通过分享行为与朋友分享他们的爱用物，这些行为包含用户上下文信息通常能够反映用户兴趣。通过对这些行为信息的深度挖掘，可以揭示更深层次的用户对商品的喜好。用户的交互行为代表用户与商品的交互，同样还表现出了商品特征和用户特征。从用户角度来看，用户点击商品后对该商品加入购物车，最后对购物车中的多个商品一同清算；从商品的角度来看，对于包括加购，收藏的交互行为的商品比只有单一交互行为的商品更能吸引该用户。另外，用户通常会跟好友分享商品。这些独特的行为使多种行为推荐不同于传统的推荐系统，因此，需要全面了解多种行为中的用户对于商品的交互信息，从而开发用于多种行为推荐的新算法。

发明内容

本发明目的是为了解决现有技术中的问题，从而提出一种基于双通道的多行为注意力自监督学习方法。

本发明是通过以下技术方案实现的，本发明提出一种基于双通道的多行为注意力自监督学习方法，所述方法包括以下步骤：

步骤一、在天猫和CIKM2019电商人工智能挑战赛获取商品交互数据集，选取T％的数据作为训练数据集，(1-T％)的数据作为测试数据集，其中训练数据集包含用户对商品、用户及用户的多种交互行为历史；

步骤二、训练数据集中的用户集合为U，U＝{u₁，u₂，...，u_q，_...，u_N}，q∈{1，...，N}，其中u_q为第q个用户，N为用户的数量；商品集合为I，I＝{i₁，i₂，...，i_t，...，i_T}，t∈{1，...，T}，其中i_t为第t个用户，T为商品的数量；行为集合为B，B＝{b₁，b₂，...，b_k，....，i_K}，k∈{1，...，K}，其中b_k为第k个行为，K为行为的数量；

步骤三、从序列通道角度考虑，根据用户的行为历史，构建用户-商品交互序列；

步骤四、从序列通道角度考虑，由于深度双向模型优于单向模型，引入BERT4Rec的计算方法GELU为高斯误差线性单元激活函数；W表示GELU激活函数的权重矩阵，b表示偏置；softmax作为输出的激活函数，对各种行为序列拼接的结果进行归一化操作，对于不同的用户，他们拥有不同的行为交互序列导致不同编码结果；

步骤五、从序列通道考虑，根据上述表征结果，设计自监督损失；

步骤六、从图通道考虑，获取用户足够多的可用信息；用户存在多种行为，包括点击，加入购物车，收藏和购买行为；定义G＝(V，E)，V表示结点集合包含用户集u∈U和项目集i∈I即(U，I)∈V；E表示用户结点与项目结点间的不同交互行为；多行为图的嵌入由多个行为子图嵌入构成，行为子图嵌入表示成G_b＝(V_b，E_b)；

步骤七、从图通道考虑，辅助行为图和目标行为图作为注意力的输入；

步骤八、从图通道考虑，设计通道内多行为交互图的自监督学习，通过自监督学习增强多种行为数据监督信号；

步骤九、从序列通道和图通道考虑，通过双通道结合的自监督学习来增强监督信号。

进一步地，在步骤三中，设定用户交互行为序列内的每个元素为一个三元组的特征向量表示用户q用第k种行为与项目x交互；用户的多行为序列包含的是单一用户的交互信息，用户的多行为交互序列映射成初始嵌入形成特征矩阵其包含用户q通过所有行为交互的商品；辅助行为交互序列的特征向量和目标行为交互序列的特征向量作为多行为交互序列依赖编码器的输入。

进一步地，计算每个辅助行为的特征向量和目标行为的特征向量，计算过程为其中W^Q，W^Q∈R^d*n是可学习的行为向量的权重矩阵；表示的转置；表示辅助行为k和目标行为k′之间的关联矩阵；每个关联矩阵经过softmax归一化就得到了符合概率分布取值区间的注意力分数softmax通过计算余弦相似度得出与购买行为最相近的行为；W^V∈R^d*n是可学习的行为向量的权重矩阵。

进一步地，在步骤五中，把同一用户的不同行为当作正样本对不同用户间的不同行为当作负样本对由此关于用户行为的自监督损失为：其中中的表示计算余弦相似度。

进一步地，在步骤六中，图卷积用于学习图的结点表征，聚合并且传递结点特征；图卷积的过程具体为：对于每个行为子图嵌入成邻接矩阵A_k，其是由矩阵R_k构成，具体过程为：每个行为子图嵌入成邻接矩阵A_k作为行为的归一化拉普拉斯矩阵的输入，归一化过程为：其中表征k行为的度矩阵，I_k表示k行为的单位矩阵图卷积的输出通过阈值函数sigmoid：其中是图中结点的l层的结点特征矩阵，W_k是行为视图信息传递的转换矩阵；图卷积共L层，L表示获取的L阶邻居结点，通过结点信息来得到信息聚合的过程，获取图中关于k种行为的结点的特征，能够保存多行为上下文信息。

进一步地，在步骤七中，通过注意力辨别出辅助行为图对目标行为图的影响强度过程为：其中W^Q∈R^d*n和W^K∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是注意力相关系数矩阵；的注意力计算过程与的注意力计算过程相同，被视作权重乘辅助行为其中W^V∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是对于目标行为的辅助行为特征矩阵，作为跨行为交互图注意力编码器最终的输出。

进一步地，在步骤八中，同一用户的不同行为视图被视为正样本对不同用户的不同行为被视为负样本对通过自监督正样本和负样本对来最大化用户之间的互信息：两个行为视图的一致性，并且最大化不同用户行为之间的差异性，得到行为数据监督信号的增强。

进一步地，在步骤九中，把同一用户的序列通道和视图通道看作是正样本，用表示；不同用户的序列通道和视图通道看作是负样本，用表示；自监督损失：τ是温度系数，平衡两通道间学习的强度；所有的自监督损失和作为最终的目标损失：L_CL＝L_SCL+L_GCL+L_SGCL；L_SCL是序列通道内多行为交互序列自监督损失；L_GCL是图通道内多行为交互图的自监督损失；最终的损失函数列表L_CL由每对行为的序列损失函数L_ScL和视图损失函数L_GCL和序列视图损失函数L_SGCL构成。

本发明提出一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述一种基于双通道的多行为注意力自监督学习方法的步骤。

本发明提出一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现所述一种基于双通道的多行为注意力自监督学习方法的步骤。

本发明具有以下有益效果：

本发明提出一种基于双通道的多行为注意力自监督学习方法，所述方法能够区分不同用户行为感知偏好的能力。利用不同模态下用户与项目交互的不同行为。捕获用户的多行为的共性，发明的三种自监督学习方式，不仅增强了双通道的表征结果，也使模型在通道内和通道间的自监督学习中能够获得更多的辅助监督信号，有效缓解了监督信号稀疏的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的一种基于双通道的多行为注意力自监督学习方法的整体示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

个性化推荐是电子商务平台中的重要组成部分。推荐系统通过神经网络来增强协同过滤，以达到准确捕获用户偏好，从而得到更好的推荐性能。传统的推荐方法集中于用户单一行为的结果，忽略了利用用户多种交互行为(点击，加入购物车，购买)的建模。虽然很多研究也集中在多行为建模上，但是，目前依然有两个重要挑战：1)由于忽略了多重行为上下文信息，在识别行为的多模态关系问题上仍然存在挑战。2)监督信号依然稀疏。为了解决这一问题，本发明提出了多行为注意力双通道对比学习方法，通过设定的自监督学习在用户的不同类型的交互中提取多重行为上下文信息，为用户提供行为依赖，得到不同行为的多种关系。增强模型的鲁棒性。本发明设计了双通道的自监督学习来增强数据监督信号。在两个真实数据集上的大量实验表明，本发明的方法始终优于最先进的多行为推荐方法。

结合图1，本发明提出一种基于双通道的多行为注意力自监督学习方法，所述方法包括以下步骤：

步骤二、训练数据集中的用户集合为U，U＝{u₁，u₂，...，u_q，_...，u_N}，q∈{1，...，N}，其中u_q为第q个用户，N为用户的数量；商品集合为I，I＝{i₁，i₂，...，i_t，....，i_T}，t∈{1，...，T}，其中i_t为第t个用户，T为商品的数量；行为集合为B，B＝{b₁，b₂，...，b_k，....，i_K}，k∈{1，...，K}，其中b_k为第k个行为，K为行为的数量；

在步骤三中，设定用户交互行为序列内的每个元素为一个三元组的特征向量表示用户q用第k种行为与项目x交互；用户的多行为序列包含的是单一用户的交互信息，用户的多行为交互序列映射成初始嵌入形成特征矩阵其包含用户q通过所有行为交互的商品；辅助行为交互序列的特征向量和目标行为交互序列的特征向量作为多行为交互序列依赖编码器的输入。

计算每个辅助行为的特征向量和目标行为的特征向量，计算过程为其中WQ，WQ∈Rd*n是可学习的行为向量的权重矩阵；表示的转置；表示辅助行为k和目标行为k′之间的关联矩阵；每个关联矩阵经过softmax归一化就得到了符合概率分布取值区间的注意力分数softmax通过计算余弦相似度得出与购买行为最相近的行为；WV∈Rd*n是可学习的行为向量的权重矩阵。

在步骤五中，把同一用户的不同行为当作正样本对不同用户间的不同行为当作负样本对由此关于用户行为的自监督损失为：其中中的表示计算余弦相似度。

在步骤六中，图卷积用于学习图的结点表征，聚合并且传递结点特征；图卷积的过程具体为：对于每个行为子图嵌入成邻接矩阵A_k，其是由矩阵R_k构成，具体过程为：每个行为子图嵌入成邻接矩阵A_k作为行为的归一化拉普拉斯矩阵的输入，归一化过程为：其中表征k行为的度矩阵，I_k表示k行为的单位矩阵图卷积的输出通过阈值函数sigmoid：其中是图中结点的l层的结点特征矩阵，W_k是行为视图信息传递的转换矩阵；图卷积共L层，L表示获取的L阶邻居结点，通过结点信息来得到信息聚合的过程，获取图中关于k种行为的结点的特征，能够保存多行为上下文信息。

在步骤七中，通过注意力辨别出辅助行为图对目标行为图的影响强度过程为：其中W^Q∈R^d*n和W^K∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是注意力相关系数矩阵；的注意力计算过程与的注意力计算过程相同，被视作权重乘辅助行为其中W^V∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是对于目标行为的辅助行为特征矩阵，作为跨行为交互图注意力编码器最终的输出。

在步骤八中，同一用户的不同行为视图被视为正样本对不同用户的不同行为被视为负样本对通过自监督正样本和负样本对来最大化用户之间的互信息：两个行为视图的一致性，并且最大化不同用户行为之间的差异性，得到行为数据监督信号的增强。

在步骤九中，把同一用户的序列通道和视图通道看作是正样本，用表示；不同用户的序列通道和视图通道看作是负样本，用表示；自监督损失：τ是温度系数，平衡两通道间学习的强度；所有的自监督损失和作为最终的目标损失：L_CL＝L_SCL+L_GCL+L_SGCL；L_SCL是序列通道内多行为交互序列自监督损失；L_GCL是图通道内多行为交互图的自监督损失；最终的损失函数列表L_CL由每对行为的序列损失函数L_SCL和视图损失函数L_GCL和序列视图损失函数L_SGCL构成。

实施例

本发明提出了一个通用且灵活的多行为关系学习框架——基于双通道的多行为注意力自监督学习方法。具体来说，所述方法首先提出了一个多行为依赖编码器，通过在不同类型的用户-项目交互中结合特定类型的行为表示来学习行为的相互依赖关系。然后双通道的多行为自监督学习解决数据稀疏问题。为了对多类型行为模式依赖性进行建模，并进行综合学习以进行推荐。本发明设计的双通道多行为依赖自监督学习模型是将每种类型的用户-项目交互参数化到单独的嵌入空间中学习用户个性化行为类型的依赖表示，利用通道间的自监督学习范式增强数据监督信号。

本发明提出一种基于双通道的多行为注意力自监督学习方法，所述方法包括以下步骤：

步骤1、在天猫和CIKM2019电商人工智能挑战赛获取商品交互数据集选取T％的数据作为训练数据，(1-T％)的数据作为测试数据，其中训练数据集包含用户对商品、用户及用户的多种交互行为历史；

步骤2、训练集中的用户集合为U，U＝{u₁，u₂，...，u_q，...，u._N}，q∈{1，...，N}，其中u_q为第q个用户，N为用户的数量。商品集合为I，I＝{i₁，i₂，...，i_t，....，i_T}，t∈{1，...，T}，其中i_t为第t个用户，T为商品的数量。行为集合为B，B＝{b₁，b₂，...，b_k，_....，i_K}，k∈{1，...，K}，其中b_k为第k个行为，K为行为的数量。

步骤3、从序列通道角度考虑，根据用户的行为历史，构建用户-商品交互序列。设定用户交互行为序列内的每个元素为一个三元组的特征向量表示用户q用第k种行为与项目x交互。用户的多行为序列包含的是单一用户的交互信息。由此，用户的多行为交互序列映射成初始嵌入形成特征矩阵其包含用户q通过所有行为交互的商品。辅助行为交互序列的特征向量和目标行为交互序列的特征向量作为多行为交互序列依赖编码器的输入，多行为交互序列依赖编码器计算的计算方法与注意力的计算方法一致，计算每个辅助行为的特征向量和目标行为的特征向量，计算过程为其中W^Q，W^Q∈R^d*n是可学习的行为向量的权重矩阵。表示的转置。表示辅助行为k和目标行为k′之间的关联矩阵。每个关联矩阵经过softmax归一化就得到了符合概率分布取值区间的注意力分数softmax通过计算余弦相似度得出与购买行为最相近的行为。W^V∈R^d*n是可学习的行为向量的权重矩阵。为了防止过拟合问题同时避免计算时间成本过大，我们使用dropout得到

步骤4、从序列通道角度考虑，由于深度双向模型优于单向模型，引入BERT4Rec的计算方注GELU为高斯误差线性单元激活函数。W表示GELU激活函数的权重矩阵，b表示偏置。softmax作为输出的激活函数，对各种行为序列拼接的结果进行归一化操作。对于不同的用户，他们拥有不同的行为交互序列导致不同编码结果。

步骤5、从序列通道考虑，针对上述表征结果，设计了自监督损失。具体来说，把同一用户的不同行为当作正样本对不同用户间的不同行为当作负样本对因此关于用户行为的自监督损失为：其中中的表示计算余弦相似度。

步骤6、从图通道考虑，利用用户的单一信息无法获取足够的可用信息。由于用户存在多种行为，包括点击，加入购物车，收藏和购买行为。定义G＝(V，E)，V表示结点集合包含用户集u∈U和项目集i∈I即(U，I)∈V。E表示用户结点与项目结点间的不同交互行为。此外，多行为图的嵌入由多个行为子图嵌入构成，因此行为子图嵌入可以表示成G_b＝(V_b，E_b)。例如用户点击的项目构成的行为子图，G_click＝(V_click，E_click)，其中G_click表示用户通过点击行为交互的项目视图表示，V_click表示与点击行为连接的用户和项目结点，E_click表示用户的点击行为。首先图卷积致力于学习图的结点表征，聚合并且传递结点特征。图卷积的过程，具体来说，对于每个行为子图嵌入成邻接矩阵A_k，它是由矩阵R_k构成，具体过程如：每个行为子图嵌入成邻接矩阵A_k作为行为的归一化拉普拉斯矩阵的输入，归一化过程如：其中表征k行为的度矩阵，I_k表示k行为的单位矩阵由于图卷积能够很好的获取用户结点的的高阶依赖关系，因此，对于用户的多行为交互图可以使用图卷积更好的获取所有用户结点的全局表征。图卷积的输出方法经过阈值函数其中是图中结点的l层的结点特征矩阵，W_k是行为视图信息传递的转换矩阵。图卷积共L层，L表示获取的L阶邻居结点，通过结点信息来得到信息聚合的过程，获取图中关于k种行为的结点的特征，可以保存多行为上下文信息。

步骤7、从图通道考虑，辅助行为图和目标行为图作为注意力的输入。通过注意力辨别出辅助行为图对目标行为图的影响强度过程如：其中W^Q∈R^d*n和W^K∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是注意力相关系数矩阵。的注意力计算过程与步骤3中注意力计算过程相同，被视作权重乘辅助行为其中W^V∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵。是对于目标行为的辅助行为特征矩阵，作为跨行为交互图注意力编码器最终的输出。

步骤8、从图通道考虑，设计了通道内多行为交互图的自监督学习，通过自监督学习增强多种行为数据监督信号。同一用户的不同行为视图被视为正样本对不同用户的不同行为被视为负样本对通过自监督正样本和负样本对来最大化用户之间的互信息：两个行为视图的一致性。并且最大化不同用户行为之间的差异性，得到行为数据监督信号的增强。

步骤9、从序列通道和图通道考虑，双通道结合的自监督学习，更加有利于增强监督信号。把同一用户的序列通道和视图通道看作是正样本，用表示。不同用户的序列通道和视图通道看作是负样本，用表示。自监督损失：τ是温度系数，平衡两通道间学习的强度。所有的自监督损失和作为最终的目标损失：L_CL＝L_SCL+L_GCL+L_SaCL。L_SCL是在步骤5部分提到的序列通道内多行为交互序列自监督损失。L_GCL是在步骤9部分提到的图通道内多行为交互图的自监督损失。因此本发明将所提出的两种自监督损失作为补充。最终的损失函数列表L_CL由每对行为的序列损失函数L_SCL和视图损失函数L_GCL和序列视图损失函数L_SGCL构成。

本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM，DR RAM)。应注意，本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disc，SSD))等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

以上对本发明所提出的一种基于双通道的多行为注意力自监督学习方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于双通道的多行为注意力自监督学习方法，其特征在于：所述方法包括以下步骤：

步骤二、训练数据集中的用户集合为U，U＝{u₁,u₂,...,u_q,...,u_N}，q∈{1,...,N}，其中u_q为第q个用户，N为用户的数量；商品集合为I，I＝{i₁,i₂,...,i_t,....,i_T},t∈{1,...,T},其中i_t为第t个用户，T为商品的数量；行为集合为B，B＝{b₁,b₂,...,b_k,....,i_K},k∈{1,...,K}，其中b_k为第k个行为，K为行为的数量；

步骤六、从图通道考虑，获取用户足够多的可用信息；用户存在多种行为，包括点击，加入购物车，收藏和购买行为；定义G＝(V,E)，V表示结点集合包含用户集u∈U和项目集i∈I即(U,I)∈V；E表示用户结点与项目结点间的不同交互行为；多行为图的嵌入由多个行为子图嵌入构成，行为子图嵌入表示成G_b＝(V_b,E_b)；

步骤八、从图通道考虑,设计通道内多行为交互图的自监督学习，通过自监督学习增强多种行为数据监督信号；

2.根据权利要求1所述的方法，其特征在于：在步骤三中，设定用户交互行为序列内的每个元素为一个三元组的特征向量表示用户q用第k种行为与项目x交互；用户的多行为序列包含的是单一用户的交互信息，用户的多行为交互序列映射成初始嵌入形成特征矩阵其包含用户q通过所有行为交互的商品；辅助行为交互序列的特征向量和目标行为交互序列的特征向量作为多行为交互序列依赖编码器的输入。

3.根据权利要求2所述的方法，其特征在于：计算每个辅助行为的特征向量和目标行为的特征向量，计算过程为其中W^Q，W^Q∈R^d*n是可学习的行为向量的权重矩阵；表示的转置；表示辅助行为k和目标行为k'之间的关联矩阵；每个关联矩阵经过softmax归一化就得到了符合概率分布取值区间的注意力分数softmax通过计算余弦相似度得出与购买行为最相近的行为；W^V∈R^d*n是可学习的行为向量的权重矩阵。

4.根据权利要求3所述的方法，其特征在于：在步骤五中，把同一用户的不同行为当作正样本对不同用户间的不同行为当作负样本对U,q≠p}；由此关于用户行为的自监督损失为：其中中的表示计算余弦相似度。

5.根据权利要求4所述的方法，其特征在于：在步骤六中，图卷积用于学习图的结点表征，聚合并且传递结点特征；图卷积的过程具体为：对于每个行为子图嵌入成邻接矩阵A_k，其是由矩阵R_k构成,具体过程为：每个行为子图嵌入成邻接矩阵A_k作为行为的归一化拉普拉斯矩阵的输入，归一化过程为：其中表征k行为的度矩阵，I_k表示k行为的单位矩阵图卷积的输出通过阈值函数其中是图中结点的l层的结点特征矩阵，W_k是行为视图信息传递的转换矩阵；图卷积共L层，L表示获取的L阶邻居结点，通过结点信息来得到信息聚合的过程，获取图中关于k种行为的结点的特征，能够保存多行为上下文信息。

6.根据权利要求5所述的方法，其特征在于：在步骤七中，通过注意力辨别出辅助行为图对目标行为图的影响强度过程为：其中W^Q∈R^d*n和W^K∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是注意力相关系数矩阵；的注意力计算过程与的注意力计算过程相同，被视作权重乘辅助行为其中W^V∈R^d*n是可不断迭代更新的行为矩阵的权重矩阵，是对于目标行为的辅助行为特征矩阵，作为跨行为交互图注意力编码器最终的输出。

7.根据权利要求6所述的方法，其特征在于：在步骤八中，同一用户的不同行为视图被视为正样本对不同用户的不同行为被视为负样本对通过自监督正样本和负样本对来最大化用户之间的互信息：两个行为视图的一致性，并且最大化不同用户行为之间的差异性，得到行为数据监督信号的增强。

8.根据权利要求7所述的方法，其特征在于：在步骤九中，把同一用户的序列通道和视图通道看作是正样本，用表示；不同用户的序列通道和视图通道看作是负样本，用表示；自监督损失： τ是温度系数，平衡两通道间学习的强度；所有的自监督损失和作为最终的目标损失：L_CL＝L_SCL+L_GCL+L_SGCL；L_SCL是序列通道内多行为交互序列自监督损失；L_GCL是图通道内多行为交互图的自监督损失；最终的损失函数列表L_CL由每对行为的序列损失函数L_SCL和视图损失函数L_GCL和序列视图损失函数L_SGCL构成。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。

10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。