CN116312557A

CN116312557A - 一种灵活离、在线声纹日志系统

Info

Publication number: CN116312557A
Application number: CN202310080086.2A
Authority: CN
Inventors: 王飞; 王欢良; 吴天昕
Original assignee: Suzhou Qimengzhe Technology Co ltd
Current assignee: Suzhou Qimengzhe Technology Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-23

Abstract

本发明公开了一种灵活离、在线声纹日志系统，包括在线分支，或在线分支和离线分支，在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹，通过离线分支能够获取精确至帧级别的说话人边界。本发明提供的灵活离、在线声纹日志系统，满足声纹日志在不同使用场景中对实时展示或者高精确度的需求；创新性采用EEND模型实时检测语音中的说话人重叠，避免提取重叠语音的声纹进行聚类；创新性采用Adaptive PLDA模型提升声纹的类内聚合度与类间区分度，在声纹系统的使用过程中不断地纠正PLDA模型参数，使得声纹模型越用越精准；创新性使用目标说话人VAD(TS‑VAD)检出语音中不同说话人的时间边界。

Description

一种灵活离、在线声纹日志系统

技术领域

本发明属于计算机技术领域，具体涉及一种灵活离、在线声纹日志系统。

背景技术

声纹日志技术是语音识别领域中的一个重要分支，它解决对话场景中何时谁在说话的标注问题，因此被广泛应用于会议、课堂教学、司法记录、执法取证等多个场景。声纹日志实质上就是以声纹模型提取对话中的说话人声纹，随后对声纹进行分割聚类，从而确定每个时刻的说话者。根据使用方式的不同，声纹日志可分为在线和离线两种方式，两者的区别在于，在线的方式通过在线聚类的方式实时展示当前的说话者，可部署于终端设备或者实时率要求较高的场景，但是聚类的精度较低，造成在线聚类精度较低的原因主要在于在线聚类无法检测出音频中的语音重叠，而利用重叠的语音提取声纹会造成聚类算法出现大量无法与说话人对应的簇，此外，聚类算法依赖声纹之间的距离测度，若距离测度无法保证足够大的类间距与足够小的类内距，同样造成在线聚类容易产生误分；离线声纹日志需要获取所有的对话片段，随后采用谱聚类或者贝叶斯隐马尔可夫聚类，离线聚类可以兼顾对话中时序或者距离矩阵中不同话者的拓扑关系，虽然准确率高，但是计算复杂度较高，终端设备部署困难，且传统的离线声纹日志系统无法解决语音的重叠部分，因此，对于重叠率较高的使用场景，精度急剧下降。

发明内容

为解决现有技术中存在的技术问题，本发明的目的在于提供一种灵活离、在线声纹日志系统。

为实现上述目的，达到上述技术效果，本发明采用的技术方案为：

一种灵活离、在线声纹日志系统，包括在线分支，或在线分支和离线分支，所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹，通过离线分支能够获取精确至帧级别的说话人边界。

在本发明提供的一种灵活离、在线声纹日志系统中，所述在线分支的处理步骤包括：

S1、获取音频序列；

S2、对音频序列进行分窗；

S3、采用EEND输出的说话人概率，确定每一帧是否有说话人以及是否有说话人重叠；

S4、根据步骤S3中各帧说话人概率切除静音段，切出重叠、非重叠段；其中，对于不包含重叠的语音片段，对其提取声纹并聚类；对于重叠语音，对重叠部分的说话人对应的声纹进行分离，随后对分离的声纹进行聚类，获取重叠段对应的说话人。

在本发明提供的一种灵活离、在线声纹日志系统中，对于不包含重叠的语音片段，对其提取声纹并聚类的步骤包括：

S9、提取非重叠段的声纹

声纹模型由Resnet和统计池化层构成，Resnet负责抽象非重叠段的帧级别说话人表示，随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ，将两者拼接之后作为该段语音的声纹：

E＝cat(μ,σ)

S10、对声纹进行白化

对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性：

E_ZCA＝U∧^-1/2U^TE

其中，E的协方差矩阵∑的特征值为∧、特征向量为U；

S11、计算声纹与簇中心的对数似然比；

S12、根据对数似然比聚类。

在本发明提供的一种灵活离、在线声纹日志系统中，步骤S11中，采用的聚类方式为K-means，每一个簇代表一个说话人，假设簇中心为

声纹E_p与簇中心

的对数似然比计算公式为：

其中，

T是PLDA的投影矩阵，Ψ为PLDA模型的协方差，n为簇中的声纹数量。

在本发明提供的一种灵活离、在线声纹日志系统中，当声纹u^p与簇中心

之间的距离大于阈值时，将u^p加入该簇并更新簇中心

否则人为声纹的纯净度不够，不将其加入簇，以免造成数据污染。

在本发明提供的一种灵活离、在线声纹日志系统中，当训练与测试的域不匹配时，在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型，使其更接近使用场景的声纹分布，从而使得声纹日志越用越精准，包括以下步骤：

S14：输入初始PLDA模型；

S15：采用Adaptive PLDA算法更新PLDA参数；

每收集满一定数量的声纹u^p后，采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新，使得PLDA的参数更加符合使用场景。

在本发明提供的一种灵活离、在线声纹日志系统中，对于重叠语音，对重叠部分的说话人对应的声纹进行分离，随后对分离的声纹进行聚类，获取重叠段对应的说话人的步骤包括：

S5、采用声纹模型提取每帧的说话人表征x_t；

S6、计算重叠语音中所有说话人的声纹E_i；

S7、对E_i进行ZCA白化，随后对白化后的声纹计算与簇中心的对数似然比；

S8、聚类，随后，整合重叠语音、非重叠语音聚类结果，得到完整音频中说话人的时间标注。

在本发明提供的一种灵活离、在线声纹日志系统中，步骤S6中，根据步骤S2中EEND模型获取的各帧说话人占比weight_t,i，分离出重叠语音中第i个说话人均值μ_i与方差σ_i：

其中，T为说话人表征x_t的帧数；

于是得到重叠语音中第i个说话人的声纹E_i＝cat(μ_i,σ_i)。

在本发明提供的一种灵活离、在线声纹日志系统中，所述离线分支的处理步骤包括：

S21、获取在线声纹日志的声纹；

S22、获取音频序列；

S23、提取音频序列的Fbank特征；

S24、将步骤S23中的Fbank特征与步骤S21在线声纹日志中各个说话人的声纹拼接作为TS-VAD模型的输入；

S25：获取在线聚类的结果。

与现有技术相比，本发明的有益效果为：

1)本发明公开了一种灵活离、在线声纹日志系统，满足声纹日志在不同使用场景中对实时展示或者高精确度的需求，若需要实时展示声纹日志的结果，只需进行本发明的在线分支，若用户需要后续更精细准确的标注，可在在线分支的基础上使用离线分支进行精细分割聚类；

2)本发明解决了在线声纹日志中语音重叠造成聚类产生异常簇的问题，创新性采用EEND模型实时检测语音中的说话人重叠，避免提取重叠语音的声纹进行聚类。与此同时，EEND不仅能够给出语音重叠，而且能够给出语音的VAD，在线分支无需采用VAD模型；

3)本发明解决了声纹距离测度区分度的问题，创新性采用Adaptive PLDA模型提升声纹的类内聚合度与类间区分度，在声纹系统的使用过程中不断地纠正PLDA模型参数，使得声纹模型越用越精准。在线分支聚类时不断调整簇类，保证聚类结果不会产生异常；

4)本发明解决了基于声纹聚类的离线声纹日志无法解决语音重叠的问题，创新性使用目标说话人VAD(TS-VAD)检出语音中不同说话人的时间边界，具体的，将在线分支中获取的说话人对应的声纹送入离线分支中的TS-VAD模型，TS-VAD能够给出声纹对应说话人的时间边界。由于本发明的在线分支排除了重叠语音对说话人声纹的影响，因此TS-VAD给出的说话人边界更加精确。

附图说明

图1为本发明的流程图；

图2为本发明的在线分支的流程图；

图3为本发明的离线分支的流程图。

具体实施方式

下面对本发明进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

如图1-3所示，一种灵活离、在线声纹日志系统，包括在线分支和离线分支，其中，在线分支的输出有：(1)每个说话人对应的时间边界；(2)每个说话人对应的声纹。在线分支结束之后，用户可选用离线分支获取精确至帧级别的说话人边界，离线分支需要使用在线分支中的各说话人的声纹。

如图2所示，在线分支的步骤包括：

S1、获取音频序列；

S2、对音频序列进行分窗；

S3、采用EEND模型获取各帧中，各个说话人的概率；

EEND模型假设步骤S2中截取的每一个片段中最多有N个说话人，则模型的输出节点数为N，分别代表每一帧中每个说话人的概率，根据概率分布可以确定每一帧是否有说话人以及是否有说话人重叠；

S4、根据步骤S3中各帧说话人概率切除静音段，切出重叠、非重叠段；

若EEND模型输出的N个节点均小于阈值，认为该段为静音段，对于静音段无需对其进行分割聚类，直接将其切除；

若N个节点中只有1个节点大于阈值，认为该段不包含重叠，对于不包含重叠的语音片段，我们可以直接对其提取声纹并聚类，见步骤S9～S12；

若N个节点有1个以上大于阈值，认为该段有说话人重叠，对于重叠语音，我们可以认为该段的声纹由重叠的说话人构成的，根据重叠的比例便可对重叠部分的说话对应的声纹进行分离，随后对分离的声纹进行聚类，便可得知重叠段对应的说话人，见步骤S5～S8：

S5、计算帧级别说话人表示

这一步使用与步骤S9相同的声纹模型提取每帧的说话人表征x_t；

S6、计算重叠语音中所有说话人的声纹

根据步骤S2中EEND模型获取的各帧说话人占比weight_t,i，我们可以分离出重叠语音中第i个说话人均值μ_i与方差σ_i：

其中，T为说话人表征x_t的帧数；

于是我们可以得到重叠语音中第i个说话人的声纹E_i＝cat(μ_i,σ_i)；

提取声纹并聚类的步骤包括：

S9、提取非重叠段的声纹

E＝cat(μ,σ)

S10、对声纹进行白化

对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性：

E_ZCA＝U∧^-1/2U^TE

其中E的协方差矩阵∑的特征值为∧、特征向量为U；

S11、计算声纹与簇中心的对数似然比

本发明使用的聚类方式为K-means，每一个簇代表一个说话人。为了对获取声纹所属的说话人，需要计算经过白化的声纹E_ZCA到簇中心的距离，距离的计算采用了对视似然比

具体的，假设簇中心为

声纹E_p与簇中心

的对数似然比计算公式为：

其中，

T是PLDA的投影矩阵，Ψ为PLDA模型的协方差，n为簇中的声纹数量；

S12、根据对数似然比聚类

与K-means类似，根据声纹u^p与簇中心的距离(对数似然比)对其聚类，从而确定每一段音频所属的说话人。为了使得聚类更加稳定，本发明在聚类的过程中不断对相似簇进行合并，具体的，计算各个簇中心之间的对数似然比，若似然比超过阈值，说明两簇属于同一个说话人并将两者合并。

此外，当声纹u^p与簇中心

距离大于阈值时将u^p加入该簇并更新簇中心

否则人为声纹的纯净度不够，不将其加入簇以免造成数据污染。

考虑到声纹模型使用环境复杂多变，不同的部署设备上存在信道传递函数的差异，在声纹模型的训练数据无法涵盖所有的使用场景以及信道失真，训练与测试的域不匹配无法避免，这就会造成声纹模型在部分场景的性能急剧下降。

针对上述域不匹配问题，本发明在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型，使其更接近使用场景的声纹分布，从而使得声纹日志越用越精准，具体步骤如下：

S14：输入初始PLDA模型

S15：采用Adaptive PLDA算法更新PLDA参数

具体的，每收集满一定数量的声纹u^p之后，采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新，使得PLDA的参数更加符合使用场景。

离线分支的步骤包括：

S21、获取在线声纹日志的声纹

具体的，将在线声纹日志中的聚类的所有簇中心作为每个说话人的声纹。TS-VAD模型结合音频的Fbank特征以及对应说话人的声纹，输出对应说话人的话者边界；

S22、获取音频序列；

S23、提取音频序列的Fbank特征；

目标说话人VAD的本质就是结合声纹的VAD模型，它能够给出声纹对应的说话人对应的VAD，本发明中采用Resnet作为TS-VAD的骨干网络。由于该VAD是帧级别的，因此离线分支的精度更高；

S25：获取在线聚类的结果。

实施例1

如图2所示，在线分支的步骤包括：

S1、获取音频序列；

S2、对音频序列进行分窗，将音频序列切分成窗长5秒、窗移0.5秒的片段；

S3、构建EEND模型

EEND模型假设步骤S2中截取的每一个片段中最多有4个说话人，则模型的输出节点数为4，分别代表每一帧中每个说话人的概率，根据概率分布可以确定每一帧是否有说话人以及是否有说话人重叠；

S4、根据步骤S3中各帧说话人概率切除静音段，切出重叠、非重叠段

若EEND模型输出的4个节点均小于阈值，认为该段为静音段，对于静音段无需对其进行分割聚类，直接将其切除；

若4个节点中只有1个节点大于阈值，认为该段不包含重叠，对于不包含重叠的语音片段，我们可以直接对其提取声纹并聚类，见步骤S9～S12；

若4个节点有1个以上大于阈值，认为该段有说话人重叠，对于重叠语音，我们可以认为该段的声纹由重叠的说话人构成的，根据重叠的比例便可对重叠部分的说话对应的声纹进行分离，随后对分离的声纹进行聚类，便可得知重叠段对应的说话人，见步骤S5～S8：

S5、计算帧级别说话人表示

这一步使用与步骤S9相同的声纹模型提取每帧的说话人表示x_t；

S6、计算重叠语音中所有说话人的声纹

其中T为x_t的帧数。

于是我们可以得到重叠语音中第i个说话人的声纹于是我们可以得到重叠语音中第i个说话人的声纹E_i＝cat(μ_i,σ_i)；

提取声纹并聚类的步骤包括：

S9、提取非重叠段的声纹

E＝cat(μ,σ)

S10、对声纹进行白化

对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性：

E_ZCA＝U∧^-1/2U^TE

其中E的协方差矩阵∑的特征值为∧、特征向量为U；

S11、计算声纹与簇中心的对数似然比

具体的，假设簇中心为

对数似然比的计算为：

其中，

S12、根据对数似然比聚类

此外，当声纹u^p与簇中心

距离大于阈值时将u^p加入该簇并更新簇中心

S14：输入初始PLDA模型

S15：采用Adaptive PLDA算法更新PLDA参数

离线分支的步骤包括：

S21、获取在线声纹日志的声纹

S22、获取音频序列；

S23、提取音频序列的Fbank特征；

S25：获取在线聚类的结果。

本发明未具体描述的部分或结构采用现有技术或现有产品即可，在此不做赘述。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种灵活离、在线声纹日志系统，其特征在于，包括在线分支，或在线分支和离线分支，所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹，通过离线分支能够获取精确至帧级别的说话人边界。

2.根据权利要求1所述的一种灵活离、在线声纹日志系统，其特征在于，所述在线分支的处理步骤包括：

S1、获取音频序列；

S2、对音频序列进行分窗；

3.根据权利要求2所述的一种灵活离、在线声纹日志系统，其特征在于，对于不包含重叠的语音片段，对其提取声纹并聚类的步骤包括：

S9、提取非重叠段的声纹

E＝cat(μ,σ)

S10、对声纹进行白化

对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性：

E_ZCA＝U∧^-1/2U^TE

其中，E的协方差矩阵∑的特征值为∧、特征向量为U；

S11、计算声纹与簇中心的对数似然比；

S12、根据对数似然比聚类。

4.根据权利要求3所述的一种灵活离、在线声纹日志系统，其特征在于，步骤S11中，采用的聚类方式为K-means，每一个簇代表一个说话人，假设簇中心为

声纹E_p与簇中心

的对数似然比计算公式为：

其中，

5.根据权利要求3所述的一种灵活离、在线声纹日志系统，其特征在于，当声纹u^p与簇中心

之间的距离大于阈值时，将u^p加入该簇并更新簇中心

6.根据权利要求3所述的一种灵活离、在线声纹日志系统，其特征在于，当训练与测试的域不匹配时，在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型，使其更接近使用场景的声纹分布，从而使得声纹日志越用越精准，包括以下步骤：

S14：输入初始PLDA模型；

S15：采用Adaptive PLDA算法更新PLDA参数；

7.根据权利要求2所述的一种灵活离、在线声纹日志系统，其特征在于，对于重叠语音，对重叠部分的说话人对应的声纹进行分离，随后对分离的声纹进行聚类，获取重叠段对应的说话人的步骤包括：

S5、采用声纹模型提取每帧的说话人表征x_t；

S6、计算重叠语音中所有说话人的声纹E_i；

8.根据权利要求7所述的一种灵活离、在线声纹日志系统，其特征在于，步骤S6中，根据步骤S2中EEND模型获取的各帧说话人占比weight_t,i，分离出重叠语音中第i个说话人均值μ_i与方差σ_i：

其中，T为说话人表征x_t的帧数；

于是得到重叠语音中第i个说话人的声纹E_i＝cat(μ_i,σ_i)。

9.根据权利要求1所述的一种灵活离、在线声纹日志系统，其特征在于，所述离线分支的处理步骤包括：

S21、获取在线声纹日志的声纹；

S22、获取音频序列；

S23、提取音频序列的Fbank特征；

S25：获取在线聚类的结果。