CN115810360A

CN115810360A - 用户身份的验证方法、装置和服务器

Info

Publication number: CN115810360A
Application number: CN202211474563.5A
Authority: CN
Inventors: 智益
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-17

Abstract

本说明书提供了用户身份的验证方法、装置和服务器，可应用于金融领域。基于该方法，可以先获取目标语音音频数据；其中，目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。从而可以获取并利用用户的语音音频数据高效、准确地进行用户的身份验证，有效地减少验证误差，提高验证效率。

Description

用户身份的验证方法、装置和服务器

技术领域

本说明书属于互联网技术领域，尤其涉及用户身份的验证方法、装置和服务器。

背景技术

在金融业务场景中，为了保护用户的账户安全，在用户登录账户之前，常常需要采集并利用用户的语音音频数据对用户进行身份验证。

基于现有的声纹验证方法，在利用用户的语音音频数据对用户进行身份验证时往往存在验证误差大、验证效率低等问题。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种用户身份的验证方法、装置和服务器，可以获取并利用用户的语音音频数据高效、准确地进行用户的身份验证，有效地减少验证误差，提高验证效率。

本说明书提供了一种用户身份的验证方法，应用于云服务器，所述方法包括：

获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；

利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；

根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；

利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；

根据目标处理结果，确定用户身份是否验证通过。

在一个实施例中，所述预设的声纹特征向量提取模型包括：基于CNN+Transformer结构的神经网络模型。

在一个实施例中，所述声纹特征向量包括以下至少之一：基于声道发音特征的embedding向量、基于口腔发音特征的embedding向量、基于鼻腔发音特征的embedding向量。

在一个实施例中，根据目标用户的用户标识，确定出与目标用户对应的目标判断模型，包括：

根据目标用户的用户标识，检索预设的模型库；其中，所述预设的模型库包含有多个预设的判断模型；所述预设的判断模型与一个用户标识对应；

从预设的模型库中，确定出与目标用户的用户标识对应的预设的判断模型，作为目标判断模型。

在一个实施例中，所述目标判断模型至少包括分类网络层和推理网络层。

在一个实施例中，所述目标判断模型按照以下方式训练得到：

采集目标用户的语音音频数据，作为样本语音音频数据；

利用预设的声纹特征向量提取模型处理样本语音音频数据，得到多个样本声纹特征向量组；其中，每个样本声纹特征向量组对应一个声纹特征类型；每个样本声纹特征向量组包含有属于同一个声纹特征类型的多个样本声纹特征向量；

标注出样本声纹特征向量组的声纹特征类型，得到标注后的样本声纹特征向量组；并利用标注后的样本声纹特征向量组训练初始模型中的分类网络层；

从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组；并确定目标声纹特征向量所对应的声纹特征类型，作为目标声纹特征类型；

利用目标声纹特征向量组训练初始模型中的推理网络层。

在一个实施例中，采集目标用户的语音音频数据，作为样本语音音频数据，包括：

生成关于采集目标用户的语音音频数据的授权请求；

向目标用户展示所述授权请求；

在确定在预设的有效时长内接收到目标用户针对所述授权请求的确认指令的情况下，采集目标用户的语音音频数据，作为样本语音音频数据。

在一个实施例中，从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组，包括：

计算多个样本声纹特征向量组中各个样本声纹特征向量组的声纹特征向量的平均值；

从多个声纹特征向量的平均值中，筛选出与预设的人类声纹特征向量模板差异值大于预设的差异阈值的声纹特征向量的平均值，作为目标声纹特征向量的平均值；

将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组。

在一个实施例中，利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果，包括：

利用目标判断模型中的分类网络层从多个声纹特征向量中筛选出针对目标用户的目标声纹特征向量；

利用目标判断模型中的推理网络层通过处理目标声纹特征向量，得到对应的目标处理结果。

在一个实施例中，采集目标用户的语音音频数据，作为样本语音音频数据，还包括：

间隔预设的时间段，采集目标用户的语音音频数据，作为样本语音音频数据；其中，所述样本语音音频数据还携带有所对应的采集时间段的时间段标识。

在一个实施例中，在将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组之后，所述方法还包括：

将目标声纹特征向量组中所包含的声纹特征量，与所携带的时间段标识进行拼接，得到处理后的目标声纹特征向量组。

本说明书还提供了一种用户身份的验证装置，应用于云服务器，所述装置包括：

获取模块，用于获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；

第一处理模块，用于利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；

第一确定模块，用于根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；

第二处理模块，用于利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；

第二确定模块，用于根据目标处理结果，确定用户身份是否验证通过。

本说明书还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述用户身份的验证方法的相关步骤。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现以下步骤：获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。

本说明书还提供了一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现所述用户身份的验证方法的相关步骤。

基于本说明书提供的用户身份的验证方法、装置和服务器，可以先获取目标语音音频数据；其中，目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。从而可以获取并利用用户的语音音频数据高效、准确地进行用户的身份验证，有效地减少验证误差，提高验证效率，进而可以较好地保护用户的账户数据安全。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的用户身份的验证方法的流程示意图；

图2是在一个场景示例中，应用本说明书实施例提供的用户身份的验证方法的一种实施例的示意图；

图3是在一个场景示例中，应用本说明书实施例提供的用户身份的验证方法的一种实施例的示意图；

图4是在一个场景示例中，应用本说明书实施例提供的用户身份的验证方法的一种实施例的示意图；

图5是在一个场景示例中，应用本说明书实施例提供的用户身份的验证方法的一种实施例的示意图；

图6是在一个场景示例中，应用本说明书实施例提供的用户身份的验证方法的一种实施例的示意图；

图7是本说明书的一个实施例提供的服务器的结构组成示意图；

图8是本说明书的一个实施例提供的用户身份的验证装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

参阅图1所示，本说明书实施例提供了一种用户身份的验证方法，其中，该方法具体应用于云服务器一侧。具体实施时，该方法可以包括以下内容：

S101：获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；

S102：利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；

S103：根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；

S104：利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；

S105：根据目标处理结果，确定用户身份是否验证通过。

在一些实施例中，上述用户身份的验证方法具体可以应用于云服务器一侧。

上述云服务器具体可以包括一种应用于交易平台一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述云服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述云服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述云服务器所包含的服务器的数量。所述云服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

具体实施时，当用户想要登录目标用户的交易账户时，可以使用所持有的用户终端发起关于登录目标用户的交易账户的登录请求。

其中，上述用户终端具体可以包括一种应用于用户一侧，能够实现数据采集、数据传输等功能的前端。具体的，所述用户终端例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等电子设备。或者，所述用户终端也可以为能够运行于上述电子设备中的软件应用。例如，可以是在智能手机上运行的交易平台的APP等。

云服务器在接收到关于登录目标用户的交易账户的登录请求之后，可以向用户终端发送语音音频数据的采集指令。用户终端接收并响应该采集指令，在用户允许的情况下，采集预登陆目标用户的交易账户的用户的语音音频数据，作为目标语音音频数据。其中，上述目标语音音频数据至少携带有目标用户的用户标识。

上述目标用户的用户标识，具体可以理解为一种能够指示目标用户的标识信息。例如，目标用户的用户名、目标用户的用户编号、目标用户的交易账户的账号等。当然，需要说明的是，上述所列举的目标用户的用户标识只是一种示意性说明。具体实施时，根据具体情况和处理需求，上述目标用户的用户标识还可以包括其他类型的标识信息。对此，本说明书不作限定。

需要说明的是，在本说明书中所涉及的与用户相关的信息数据，均为在用户知晓且同意的前提下获取和使用的。并且，对于上述信息数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

在一些实施例中，上述预设的声纹特征向量提取模型具体可以理解为一种能够智能地自动从输入的语音音频数据中提取出用于进行用户验证的声纹特征向量的端到端的神经网络模型。

在一些实施例中，所述预设的声纹特征向量提取模型具体可以包括：基于CNN+Transformer结构的神经网络模型。

其中，上述CNN具体可以是指卷积神经网络，擅长通过卷积运算，以分层的方式地提取出局部特征表示，但在捕获全局特征表示方面有一定的局限性。

上述Transformer(例如，Vision Transformer)具体可以通过将每个图像分割为具有位置嵌入的Patch来构建一系列token；然后用Transformer Block来提取参数化向量作为视觉表示。由于自注意力机制(Self-Attention)和多层感知机(MLP)结构，能够通过较好地反映出复杂的空间变换和长距离特征依赖性，从而获得全局特征表示。

上述CNN+Transformer结构具体可以是指一种将Transformer插入CNN的神经网络结构。具体的，可以将用CNN作为前端，并在CNN之后连接Transformer的encoder和decoder。基于上述CNN+Transformer结构，可以同时提取得到效果较好的局部特征和全局特征。相应的，利用上述基于CNN+Transformer结构的预设的声纹特征向量提取模型可以从用户的语音音频数据中较为全面地提取得到所需要的全量声纹特征向量。

在一些实施例中，所述声纹特征向量具体可以包括以下至少之一：基于声道发音特征的embedding向量、基于口腔发音特征的embedding向量、基于鼻腔发音特征的embedding向量等。

在一些实施例中，具体实施前，参阅图2所示，可以按照以下方式训练得到预设的声纹特征向量提取模型：

S1：构建基于CNN+Transformer结构的神经网络模型作为初始模型；

S2：获取样本语音音频数据；并从样本语音音频数据中分离出全量的能用于用户身份验证的样本声纹特征向量；

S3：组合相对应的样本语音音频数据和样本声纹特征向量，得到对应的样本训练数据；

S4：利用样本训练数据训练初始模型，以得到符合要求的预设的声纹特征向量提取模型。

在一些实施例中，根据目标用户的用户标识，确定出与目标用户对应的目标判断模型，具体实施时，可以包括以下内容：

S1：根据目标用户的用户标识，检索预设的模型库；其中，所述预设的模型库包含有多个预设的判断模型；所述预设的判断模型与一个用户标识对应；

S2：从预设的模型库中，确定出与目标用户的用户标识对应的预设的判断模型，作为目标判断模型。

在一些实施例中，所述目标判断模型至少可以包括分类网络层和推理网络层。其中，所述分类网络层具体可以用于确定多个声纹特征向量中的各个声纹特征向量的声纹特征类型；并从多个声纹特征向量中筛选出针对目标用户身份验证效果较好、针对性较强的目标声纹特征向量。所述推理网络层具体可以用于根据目标声纹特征向量对用户进行身份验证，以确定用户身份验证是否通过。

在一些实施例中，具体实施前，参阅图3所示，可以按照以方式提前训练好针对目标用户的目标判断模型：

S1：采集目标用户的语音音频数据，作为样本语音音频数据；

S2：利用预设的声纹特征向量提取模型处理样本语音音频数据，得到多个样本声纹特征向量组；其中，每个样本声纹特征向量组对应一个声纹特征类型；每个样本声纹特征向量组包含有属于同一个声纹特征类型的多个样本声纹特征向量；

S3：标注出样本声纹特征向量组的声纹特征类型，得到标注后的样本声纹特征向量组；并利用标注后的样本声纹特征向量组训练初始模型中的分类网络层；

S4：从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组；并确定目标声纹特征向量所对应的声纹特征类型，作为目标声纹特征类型；

S5：利用目标声纹特征向量组训练初始模型中的推理网络层。

基于上述实施例，云服务器可以预先采集并利用目标用户的语音音频数据训练得到针对目标用户精度较高的预设的判断模型，作为与目标用户的用户标识对应的目标判断模型。

在一些实施例中，参阅图4所示，上述采集目标用户的语音音频数据，作为样本语音音频数据，具体实施时，可以包括以下内容：

S1：生成关于采集目标用户的语音音频数据的授权请求；

S2：向目标用户展示所述授权请求；

S3：在确定在预设的有效时长内接收到目标用户针对所述授权请求的确认指令的情况下，采集目标用户的语音音频数据，作为样本语音音频数据。

基于上述实施例，可以较好地尊重用户，保护用户的数据隐私，使用户获得较好的交互体验。

在一些实施例中，参阅图5所示，上述从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组，具体实施时，可以包括以下内容：

S1：计算多个样本声纹特征向量组中各个样本声纹特征向量组的声纹特征向量的平均值；

S2：从多个声纹特征向量的平均值中，筛选出与预设的人类声纹特征向量模板差异值大于预设的差异阈值的声纹特征向量的平均值，作为目标声纹特征向量的平均值；

S3：将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组。

基于上述实施例，可以从多声纹特征向量组中筛选出针对目标用户效果较好，相对其他用户具有较高的区分度的声纹特征向量组作为目标声纹特征向量；进而可以利用上述目标声纹特征向量，训练得到针对目标用户的目标判断模型。

在一些实施例中，上述预设的人类声纹特征向量模板具体可以按照以下方式构建得到：

S1：获取的大量样本用户的语音音频数据；

S2：利用预设的声纹特征向量提取模型处理样本用户的语音音频数据，得到样本用户的不同声纹特征类型的声纹特征向量；

S3：通过对样本用户的不同声纹特征类型的声纹特征向量分别进行聚类处理，得到的对应不同声纹特征类型的声纹特征向量模板；

S4：组合所述声纹特征向量模板，得到预设的人类声纹特征向量模板。

在一些实施例中，基于上述方式训练得到的目标判断模型，上述利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果，具体实施时，可以包括以下内容：

S1：利用目标判断模型中的分类网络层从多个声纹特征向量中筛选出针对目标用户的目标声纹特征向量；

S2：利用目标判断模型中的推理网络层通过处理目标声纹特征向量，得到对应的目标处理结果。

在一些实施例中，考虑到同一个人不同时间段的语音音频数据往往也会存在差异，为了能够训练得到精度更高的目标判断模型，上述采集目标用户的语音音频数据，作为样本语音音频数据，具体实施时，还可以包括以下内容：间隔预设的时间段，采集目标用户的语音音频数据，作为样本语音音频数据；其中，所述样本语音音频数据还携带有所对应的采集时间段的时间段标识。

其中，预设的时间段具体可以为1小时或者2小时等。

在一些实施例中，在将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组之后，所述方法具体实施时，还可以包括以下内容：将目标声纹特征向量组中所包含的声纹特征量，与所携带的时间段标识进行拼接，得到处理后的目标声纹特征向量组。进而可以利用处理后的目标声纹特征向量组来训练初始模型，得到同时考虑了目标用户在不同时间段内的声纹差异的、精度相对更高的目标判断模型。

在一些实施例中，所述目标语音音频数据具体还可以携带有时间信息。

在一些实施例中，在所述目标语音音频数据还携带有时间信息的情况下，所述方法具体实施时，还可以包括以下内容：根据时间信息，确定对应的时间段标识。

相应的，在得到多个声纹特征向量之后，具体实施时，可以将多个声纹特征向量分别与时间段标识拼接，得到处理后的声纹特征向量；

相应的，上述利用目标判断模型中的推理网络层通过处理目标声纹特征向量，得到对应的目标处理结果，具体实施时，可以包括：利用目标判断模型中的推理网络层，通过处理处理后的目标声纹特征向量，得到对应的目标处理结果。

基于上述实施例，可以利用目标语音音频数据更加准确地进行关于目标用户的用户身份验证。

在一些实施例中，在从多个声纹特征向量的平均值中，筛选出与预设的人类声纹特征向量模板差异值大于预设的差异阈值的声纹特征向量的平均值，作为目标声纹特征向量的平均值之后，参阅图6所示，所述方法具体实施时，还可以包括以下内容：

S1：将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为候选声纹特征向量组；

S2：根据时间段标识，计算各个候选声纹特征向量组中不同时间段的声纹特征向量之间的向量变化幅度；

S3：从候选声纹特征向量组中筛选出向量变化幅度小于预设的幅度阈值的候选声纹特征向量组，作为目标声纹特征向量组。

基于上述实施例，可以先从候选声纹特征向量组中剔除针对目标用户容易发生变化、不稳定的候选声纹特征向量组，得到针对目标用户区分度较高，且稳定性较好的目标声纹特征向量组，进而可以利用上述目标声纹特征向量组训练得到效果相对更好的目标判断模型。

在一些实施例中，在利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果之后，所述方法还包括：接收真的目标用户发起的针对目标处理结果的反馈数据；结合反馈数据和目标语音音频数据，对目标判断模型进行更新，以不断地提高改进目标判断模型，提高目标判断模型的模型精度。

在一些实施例中，在根据目标处理结果，确定用户身份是否验证通过之后，所述方法具体实施时，还可以包括以下内容：在确定用户身份验证通过的情况下，响应登录请求，登录目标用户的交易账户，以便目标用户可以使用该交易账户进行相应的交易数据处理；在确定用户身份验证未通过的情况下，确定发起登录请求并提供目标语音音频数据的用户不是真的目标用户，这时可以不响应登录请求，生成验证未通过的提示信息，并将该提示信息发送至用户终端，从而可以有效地保护目标用户的账户数据安全。

由上可见，基于本说明书实施例提供的用户身份的验证方法，可以先获取目标语音音频数据；其中，目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。从而可以获取并利用用户的语音音频数据高效、准确地进行用户的身份验证，有效地减少验证误差，提高验证效率。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。

为了能够更加准确地完成上述指令，参阅图7所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口701、处理器702以及存储器703，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口701，具体可以用于获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识。

所述处理器702，具体可以用于利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。

所述存储器703，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口701可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器702可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器703可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述用户身份的验证方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说明书实施例还提供了一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。

参阅图8所示，在软件层面上，本说明书实施例还提供了一种用户身份的验证装置，该装置具体可以包括以下的结构模块：

获取模块801，具体可以用于获取目标语音音频数据；其中，所述目标语音音频数据至少携带有目标用户的用户标识；

第一处理模块802，具体可以用于利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；

第一确定模块803，具体可以用于根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；

第二处理模块804，具体可以用于利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；

第二确定模块805，具体可以用于根据目标处理结果，确定用户身份是否验证通过。

在一些实施例中，上述第一确定模块803具体实施时，可以按照以下方式根据目标用户的用户标识，确定出与目标用户对应的目标判断模型：根据目标用户的用户标识，检索预设的模型库；其中，所述预设的模型库包含有多个预设的判断模型；所述预设的判断模型与一个用户标识对应；从预设的模型库中，确定出与目标用户的用户标识对应的预设的判断模型，作为目标判断模型。

在一些实施例中，所述目标判断模型至少可以包括分类网络层和推理网络层。

在一些实施例中，所述目标判断模型具体可以按照以下方式训练得到：采集目标用户的语音音频数据，作为样本语音音频数据；利用预设的声纹特征向量提取模型处理样本语音音频数据，得到多个样本声纹特征向量组；其中，每个样本声纹特征向量组对应一个声纹特征类型；每个样本声纹特征向量组包含有属于同一个声纹特征类型的多个样本声纹特征向量；标注出样本声纹特征向量组的声纹特征类型，得到标注后的样本声纹特征向量组；并利用标注后的样本声纹特征向量组训练初始模型中的分类网络层；从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组；并确定目标声纹特征向量所对应的声纹特征类型，作为目标声纹特征类型；利用目标声纹特征向量组训练初始模型中的推理网络层。

在一些实施例中，上述装置具体实施时，可以按照以下方式采集目标用户的语音音频数据，作为样本语音音频数据：生成关于采集目标用户的语音音频数据的授权请求；向目标用户展示所述授权请求；在确定在预设的有效时长内接收到目标用户针对所述授权请求的确认指令的情况下，采集目标用户的语音音频数据，作为样本语音音频数据。

在一些实施例中，上述装置具体实施时，可以按照以下方式从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组：计算多个样本声纹特征向量组中各个样本声纹特征向量组的声纹特征向量的平均值；从多个声纹特征向量的平均值中，筛选出与预设的人类声纹特征向量模板差异值大于预设的差异阈值的声纹特征向量的平均值，作为目标声纹特征向量的平均值；将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组。

在一些实施例中，上述第二处理模块804具体实施时，可以按照以下方式利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果：利用目标判断模型中的分类网络层从多个声纹特征向量中筛选出针对目标用户的目标声纹特征向量；利用目标判断模型中的推理网络层通过处理目标声纹特征向量，得到对应的目标处理结果。

在一些实施例中，上述获取定模块801具体实施时，可以按照以下方式采集目标用户的语音音频数据，作为样本语音音频数据：间隔预设的时间段，采集目标用户的语音音频数据，作为样本语音音频数据；其中，所述样本语音音频数据还携带有所对应的采集时间段的时间段标识。

在一些实施例中，上述第二处理模块804具体实施时，在将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组之后，可以将目标声纹特征向量组中所包含的声纹特征量，与所携带的时间段标识进行拼接，得到处理后的目标声纹特征向量组。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的用户身份的验证装置，可以先获取目标语音音频数据；其中，目标语音音频数据至少携带有目标用户的用户标识；利用预设的声纹特征向量提取模型处理目标语音音频数据，得到多个声纹特征向量；根据目标用户的用户标识，确定出与目标用户对应的目标判断模型；利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果；根据目标处理结果，确定用户身份是否验证通过。从而可以获取并利用用户的语音音频数据高效、准确地进行用户的身份验证，有效地减少验证误差，提高验证效率，进而可以较好地保护用户的账户数据安全。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种用户身份的验证方法，其特征在于，应用于云服务器，所述方法包括：

根据目标处理结果，确定用户身份是否验证通过。

2.根据权利要求1所述的方法，其特征在于，所述预设的声纹特征向量提取模型包括：基于CNN+Transformer结构的神经网络模型。

3.根据权利要求1所述的方法，其特征在于，所述声纹特征向量包括以下至少之一：基于声道发音特征的embedding向量、基于口腔发音特征的embedding向量、基于鼻腔发音特征的embedding向量。

4.根据权利要求1所述的方法，其特征在于，根据目标用户的用户标识，确定出与目标用户对应的目标判断模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标判断模型至少包括分类网络层和推理网络层。

6.根据权利要求5所述的方法，其特征在于，所述目标判断模型按照以下方式训练得到：

采集目标用户的语音音频数据，作为样本语音音频数据；

利用目标声纹特征向量组训练初始模型中的推理网络层。

7.根据权利要求6所述的方法，其特征在于，采集目标用户的语音音频数据，作为样本语音音频数据，包括：

生成关于采集目标用户的语音音频数据的授权请求；

向目标用户展示所述授权请求；

8.根据权利要求6所述的方法，其特征在于，从所述多个样本声纹特征向量组中，筛选出针对目标用户的声纹特征向量组，作为目标声纹特征向量组，包括：

9.根据权利要求6所述的方法，其特征在于，利用所述目标判断模型处理多个声纹特征向量，得到对应的目标处理结果，包括：

10.根据权利要求8所述的方法，其特征在于，采集目标用户的语音音频数据，作为样本语音音频数据，还包括：

11.根据权利要求10所述的方法，其特征在于，在将目标声纹特征向量的平均值所对应的声纹特征向量组，确定为目标声纹特征向量组之后，所述方法还包括：

12.一种用户身份的验证装置，其特征在于，应用于云服务器，所述装置包括：

13.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至11中任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被处理器执行时实现权利要求1至11中任一项所述方法的步骤。

15.一种计算机程序产品，其特征在于，包含有计算机程序，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。