[go: up one dir, main page]

CN116312557A - 一种灵活离、在线声纹日志系统 - Google Patents

一种灵活离、在线声纹日志系统 Download PDF

Info

Publication number
CN116312557A
CN116312557A CN202310080086.2A CN202310080086A CN116312557A CN 116312557 A CN116312557 A CN 116312557A CN 202310080086 A CN202310080086 A CN 202310080086A CN 116312557 A CN116312557 A CN 116312557A
Authority
CN
China
Prior art keywords
voiceprint
speaker
line
voiceprints
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310080086.2A
Other languages
English (en)
Inventor
王飞
王欢良
吴天昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Qimengzhe Technology Co ltd
Original Assignee
Suzhou Qimengzhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Qimengzhe Technology Co ltd filed Critical Suzhou Qimengzhe Technology Co ltd
Priority to CN202310080086.2A priority Critical patent/CN116312557A/zh
Publication of CN116312557A publication Critical patent/CN116312557A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种灵活离、在线声纹日志系统,包括在线分支,或在线分支和离线分支,在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹,通过离线分支能够获取精确至帧级别的说话人边界。本发明提供的灵活离、在线声纹日志系统,满足声纹日志在不同使用场景中对实时展示或者高精确度的需求;创新性采用EEND模型实时检测语音中的说话人重叠,避免提取重叠语音的声纹进行聚类;创新性采用Adaptive PLDA模型提升声纹的类内聚合度与类间区分度,在声纹系统的使用过程中不断地纠正PLDA模型参数,使得声纹模型越用越精准;创新性使用目标说话人VAD(TS‑VAD)检出语音中不同说话人的时间边界。

Description

一种灵活离、在线声纹日志系统
技术领域
本发明属于计算机技术领域,具体涉及一种灵活离、在线声纹日志系统。
背景技术
声纹日志技术是语音识别领域中的一个重要分支,它解决对话场景中何时谁在说话的标注问题,因此被广泛应用于会议、课堂教学、司法记录、执法取证等多个场景。声纹日志实质上就是以声纹模型提取对话中的说话人声纹,随后对声纹进行分割聚类,从而确定每个时刻的说话者。根据使用方式的不同,声纹日志可分为在线和离线两种方式,两者的区别在于,在线的方式通过在线聚类的方式实时展示当前的说话者,可部署于终端设备或者实时率要求较高的场景,但是聚类的精度较低,造成在线聚类精度较低的原因主要在于在线聚类无法检测出音频中的语音重叠,而利用重叠的语音提取声纹会造成聚类算法出现大量无法与说话人对应的簇,此外,聚类算法依赖声纹之间的距离测度,若距离测度无法保证足够大的类间距与足够小的类内距,同样造成在线聚类容易产生误分;离线声纹日志需要获取所有的对话片段,随后采用谱聚类或者贝叶斯隐马尔可夫聚类,离线聚类可以兼顾对话中时序或者距离矩阵中不同话者的拓扑关系,虽然准确率高,但是计算复杂度较高,终端设备部署困难,且传统的离线声纹日志系统无法解决语音的重叠部分,因此,对于重叠率较高的使用场景,精度急剧下降。
发明内容
为解决现有技术中存在的技术问题,本发明的目的在于提供一种灵活离、在线声纹日志系统。
为实现上述目的,达到上述技术效果,本发明采用的技术方案为:
一种灵活离、在线声纹日志系统,包括在线分支,或在线分支和离线分支,所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹,通过离线分支能够获取精确至帧级别的说话人边界。
在本发明提供的一种灵活离、在线声纹日志系统中,所述在线分支的处理步骤包括:
S1、获取音频序列;
S2、对音频序列进行分窗;
S3、采用EEND输出的说话人概率,确定每一帧是否有说话人以及是否有说话人重叠;
S4、根据步骤S3中各帧说话人概率切除静音段,切出重叠、非重叠段;其中,对于不包含重叠的语音片段,对其提取声纹并聚类;对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人。
在本发明提供的一种灵活离、在线声纹日志系统中,对于不包含重叠的语音片段,对其提取声纹并聚类的步骤包括:
S9、提取非重叠段的声纹
声纹模型由Resnet和统计池化层构成,Resnet负责抽象非重叠段的帧级别说话人表示,随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ,将两者拼接之后作为该段语音的声纹:
E=cat(μ,σ)
S10、对声纹进行白化
对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性:
EZCA=U∧-1/2UTE
其中,E的协方差矩阵∑的特征值为∧、特征向量为U;
S11、计算声纹与簇中心的对数似然比;
S12、根据对数似然比聚类。
在本发明提供的一种灵活离、在线声纹日志系统中,步骤S11中,采用的聚类方式为K-means,每一个簇代表一个说话人,假设簇中心为
Figure BDA0004067233230000025
声纹Ep与簇中心
Figure BDA0004067233230000026
的对数似然比计算公式为:
Figure BDA0004067233230000021
其中,
Figure BDA0004067233230000022
T是PLDA的投影矩阵,Ψ为PLDA模型的协方差,n为簇中的声纹数量。
在本发明提供的一种灵活离、在线声纹日志系统中,当声纹up与簇中心
Figure BDA0004067233230000023
之间的距离大于阈值时,将up加入该簇并更新簇中心
Figure BDA0004067233230000024
否则人为声纹的纯净度不够,不将其加入簇,以免造成数据污染。
在本发明提供的一种灵活离、在线声纹日志系统中,当训练与测试的域不匹配时,在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型,使其更接近使用场景的声纹分布,从而使得声纹日志越用越精准,包括以下步骤:
S14:输入初始PLDA模型;
S15:采用Adaptive PLDA算法更新PLDA参数;
每收集满一定数量的声纹up后,采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新,使得PLDA的参数更加符合使用场景。
在本发明提供的一种灵活离、在线声纹日志系统中,对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人的步骤包括:
S5、采用声纹模型提取每帧的说话人表征xt
S6、计算重叠语音中所有说话人的声纹Ei
S7、对Ei进行ZCA白化,随后对白化后的声纹计算与簇中心的对数似然比;
S8、聚类,随后,整合重叠语音、非重叠语音聚类结果,得到完整音频中说话人的时间标注。
在本发明提供的一种灵活离、在线声纹日志系统中,步骤S6中,根据步骤S2中EEND模型获取的各帧说话人占比weightt,i,分离出重叠语音中第i个说话人均值μi与方差σi
Figure BDA0004067233230000031
Figure BDA0004067233230000032
其中,T为说话人表征xt的帧数;
于是得到重叠语音中第i个说话人的声纹Ei=cat(μii)。
在本发明提供的一种灵活离、在线声纹日志系统中,所述离线分支的处理步骤包括:
S21、获取在线声纹日志的声纹;
S22、获取音频序列;
S23、提取音频序列的Fbank特征;
S24、将步骤S23中的Fbank特征与步骤S21在线声纹日志中各个说话人的声纹拼接作为TS-VAD模型的输入;
S25:获取在线聚类的结果。
与现有技术相比,本发明的有益效果为:
1)本发明公开了一种灵活离、在线声纹日志系统,满足声纹日志在不同使用场景中对实时展示或者高精确度的需求,若需要实时展示声纹日志的结果,只需进行本发明的在线分支,若用户需要后续更精细准确的标注,可在在线分支的基础上使用离线分支进行精细分割聚类;
2)本发明解决了在线声纹日志中语音重叠造成聚类产生异常簇的问题,创新性采用EEND模型实时检测语音中的说话人重叠,避免提取重叠语音的声纹进行聚类。与此同时,EEND不仅能够给出语音重叠,而且能够给出语音的VAD,在线分支无需采用VAD模型;
3)本发明解决了声纹距离测度区分度的问题,创新性采用Adaptive PLDA模型提升声纹的类内聚合度与类间区分度,在声纹系统的使用过程中不断地纠正PLDA模型参数,使得声纹模型越用越精准。在线分支聚类时不断调整簇类,保证聚类结果不会产生异常;
4)本发明解决了基于声纹聚类的离线声纹日志无法解决语音重叠的问题,创新性使用目标说话人VAD(TS-VAD)检出语音中不同说话人的时间边界,具体的,将在线分支中获取的说话人对应的声纹送入离线分支中的TS-VAD模型,TS-VAD能够给出声纹对应说话人的时间边界。由于本发明的在线分支排除了重叠语音对说话人声纹的影响,因此TS-VAD给出的说话人边界更加精确。
附图说明
图1为本发明的流程图;
图2为本发明的在线分支的流程图;
图3为本发明的离线分支的流程图。
具体实施方式
下面对本发明进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
如图1-3所示,一种灵活离、在线声纹日志系统,包括在线分支和离线分支,其中,在线分支的输出有:(1)每个说话人对应的时间边界;(2)每个说话人对应的声纹。在线分支结束之后,用户可选用离线分支获取精确至帧级别的说话人边界,离线分支需要使用在线分支中的各说话人的声纹。
如图2所示,在线分支的步骤包括:
S1、获取音频序列;
S2、对音频序列进行分窗;
S3、采用EEND模型获取各帧中,各个说话人的概率;
EEND模型假设步骤S2中截取的每一个片段中最多有N个说话人,则模型的输出节点数为N,分别代表每一帧中每个说话人的概率,根据概率分布可以确定每一帧是否有说话人以及是否有说话人重叠;
S4、根据步骤S3中各帧说话人概率切除静音段,切出重叠、非重叠段;
若EEND模型输出的N个节点均小于阈值,认为该段为静音段,对于静音段无需对其进行分割聚类,直接将其切除;
若N个节点中只有1个节点大于阈值,认为该段不包含重叠,对于不包含重叠的语音片段,我们可以直接对其提取声纹并聚类,见步骤S9~S12;
若N个节点有1个以上大于阈值,认为该段有说话人重叠,对于重叠语音,我们可以认为该段的声纹由重叠的说话人构成的,根据重叠的比例便可对重叠部分的说话对应的声纹进行分离,随后对分离的声纹进行聚类,便可得知重叠段对应的说话人,见步骤S5~S8:
S5、计算帧级别说话人表示
这一步使用与步骤S9相同的声纹模型提取每帧的说话人表征xt
S6、计算重叠语音中所有说话人的声纹
根据步骤S2中EEND模型获取的各帧说话人占比weightt,i,我们可以分离出重叠语音中第i个说话人均值μi与方差σi
Figure BDA0004067233230000051
Figure BDA0004067233230000052
其中,T为说话人表征xt的帧数;
于是我们可以得到重叠语音中第i个说话人的声纹Ei=cat(μii);
S7、对Ei进行ZCA白化,随后对白化后的声纹计算与簇中心的对数似然比;
S8、聚类,随后,整合重叠语音、非重叠语音聚类结果,得到完整音频中说话人的时间标注。
提取声纹并聚类的步骤包括:
S9、提取非重叠段的声纹
声纹模型由Resnet和统计池化层构成,Resnet负责抽象非重叠段的帧级别说话人表示,随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ,将两者拼接之后作为该段语音的声纹:
E=cat(μ,σ)
S10、对声纹进行白化
对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性:
EZCA=U∧-1/2UTE
其中E的协方差矩阵∑的特征值为∧、特征向量为U;
S11、计算声纹与簇中心的对数似然比
本发明使用的聚类方式为K-means,每一个簇代表一个说话人。为了对获取声纹所属的说话人,需要计算经过白化的声纹EZCA到簇中心的距离,距离的计算采用了对视似然比
Figure BDA0004067233230000061
具体的,假设簇中心为
Figure BDA0004067233230000062
声纹Ep与簇中心
Figure BDA0004067233230000063
的对数似然比计算公式为:
Figure BDA0004067233230000064
其中,
Figure BDA0004067233230000065
T是PLDA的投影矩阵,Ψ为PLDA模型的协方差,n为簇中的声纹数量;
S12、根据对数似然比聚类
与K-means类似,根据声纹up与簇中心的距离(对数似然比)对其聚类,从而确定每一段音频所属的说话人。为了使得聚类更加稳定,本发明在聚类的过程中不断对相似簇进行合并,具体的,计算各个簇中心之间的对数似然比,若似然比超过阈值,说明两簇属于同一个说话人并将两者合并。
此外,当声纹up与簇中心
Figure BDA0004067233230000066
距离大于阈值时将up加入该簇并更新簇中心
Figure BDA0004067233230000067
否则人为声纹的纯净度不够,不将其加入簇以免造成数据污染。
考虑到声纹模型使用环境复杂多变,不同的部署设备上存在信道传递函数的差异,在声纹模型的训练数据无法涵盖所有的使用场景以及信道失真,训练与测试的域不匹配无法避免,这就会造成声纹模型在部分场景的性能急剧下降。
针对上述域不匹配问题,本发明在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型,使其更接近使用场景的声纹分布,从而使得声纹日志越用越精准,具体步骤如下:
S14:输入初始PLDA模型
S15:采用Adaptive PLDA算法更新PLDA参数
具体的,每收集满一定数量的声纹up之后,采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新,使得PLDA的参数更加符合使用场景。
离线分支的步骤包括:
S21、获取在线声纹日志的声纹
具体的,将在线声纹日志中的聚类的所有簇中心作为每个说话人的声纹。TS-VAD模型结合音频的Fbank特征以及对应说话人的声纹,输出对应说话人的话者边界;
S22、获取音频序列;
S23、提取音频序列的Fbank特征;
S24、将步骤S23中的Fbank特征与步骤S21在线声纹日志中各个说话人的声纹拼接作为TS-VAD模型的输入;
目标说话人VAD的本质就是结合声纹的VAD模型,它能够给出声纹对应的说话人对应的VAD,本发明中采用Resnet作为TS-VAD的骨干网络。由于该VAD是帧级别的,因此离线分支的精度更高;
S25:获取在线聚类的结果。
实施例1
如图1-3所示,一种灵活离、在线声纹日志系统,包括在线分支和离线分支,其中,在线分支的输出有:(1)每个说话人对应的时间边界;(2)每个说话人对应的声纹。在线分支结束之后,用户可选用离线分支获取精确至帧级别的说话人边界,离线分支需要使用在线分支中的各说话人的声纹。
如图2所示,在线分支的步骤包括:
S1、获取音频序列;
S2、对音频序列进行分窗,将音频序列切分成窗长5秒、窗移0.5秒的片段;
S3、构建EEND模型
EEND模型假设步骤S2中截取的每一个片段中最多有4个说话人,则模型的输出节点数为4,分别代表每一帧中每个说话人的概率,根据概率分布可以确定每一帧是否有说话人以及是否有说话人重叠;
S4、根据步骤S3中各帧说话人概率切除静音段,切出重叠、非重叠段
若EEND模型输出的4个节点均小于阈值,认为该段为静音段,对于静音段无需对其进行分割聚类,直接将其切除;
若4个节点中只有1个节点大于阈值,认为该段不包含重叠,对于不包含重叠的语音片段,我们可以直接对其提取声纹并聚类,见步骤S9~S12;
若4个节点有1个以上大于阈值,认为该段有说话人重叠,对于重叠语音,我们可以认为该段的声纹由重叠的说话人构成的,根据重叠的比例便可对重叠部分的说话对应的声纹进行分离,随后对分离的声纹进行聚类,便可得知重叠段对应的说话人,见步骤S5~S8:
S5、计算帧级别说话人表示
这一步使用与步骤S9相同的声纹模型提取每帧的说话人表示xt
S6、计算重叠语音中所有说话人的声纹
根据步骤S2中EEND模型获取的各帧说话人占比weightt,i,我们可以分离出重叠语音中第i个说话人均值μi与方差σi
Figure BDA0004067233230000081
Figure BDA0004067233230000082
其中T为xt的帧数。
于是我们可以得到重叠语音中第i个说话人的声纹于是我们可以得到重叠语音中第i个说话人的声纹Ei=cat(μii);
S7、对Ei进行ZCA白化,随后对白化后的声纹计算与簇中心的对数似然比;
S8、聚类,随后,整合重叠语音、非重叠语音聚类结果,得到完整音频中说话人的时间标注。
提取声纹并聚类的步骤包括:
S9、提取非重叠段的声纹
声纹模型由Resnet和统计池化层构成,Resnet负责抽象非重叠段的帧级别说话人表示,随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ,将两者拼接之后作为该段语音的声纹:
E=cat(μ,σ)
S10、对声纹进行白化
对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性:
EZCA=U∧-1/2UTE
其中E的协方差矩阵∑的特征值为∧、特征向量为U;
S11、计算声纹与簇中心的对数似然比
本发明使用的聚类方式为K-means,每一个簇代表一个说话人。为了对获取声纹所属的说话人,需要计算经过白化的声纹EZCA到簇中心的距离,距离的计算采用了对视似然比
Figure BDA0004067233230000091
具体的,假设簇中心为
Figure BDA0004067233230000092
对数似然比的计算为:
Figure BDA0004067233230000093
其中,
Figure BDA0004067233230000094
T是PLDA的投影矩阵,Ψ为PLDA模型的协方差,n为簇中的声纹数量。
S12、根据对数似然比聚类
与K-means类似,根据声纹up与簇中心的距离(对数似然比)对其聚类,从而确定每一段音频所属的说话人。为了使得聚类更加稳定,本发明在聚类的过程中不断对相似簇进行合并,具体的,计算各个簇中心之间的对数似然比,若似然比超过阈值,说明两簇属于同一个说话人并将两者合并。
此外,当声纹up与簇中心
Figure BDA0004067233230000095
距离大于阈值时将up加入该簇并更新簇中心
Figure BDA0004067233230000096
否则人为声纹的纯净度不够,不将其加入簇以免造成数据污染。
考虑到声纹模型使用环境复杂多变,不同的部署设备上存在信道传递函数的差异,在声纹模型的训练数据无法涵盖所有的使用场景以及信道失真,训练与测试的域不匹配无法避免,这就会造成声纹模型在部分场景的性能急剧下降。
针对上述域不匹配问题,本发明在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型,使其更接近使用场景的声纹分布,从而使得声纹日志越用越精准,具体步骤如下:
S14:输入初始PLDA模型
S15:采用Adaptive PLDA算法更新PLDA参数
具体的,每收集满一定数量的声纹up之后,采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新,使得PLDA的参数更加符合使用场景。
离线分支的步骤包括:
S21、获取在线声纹日志的声纹
具体的,将在线声纹日志中的聚类的所有簇中心作为每个说话人的声纹。TS-VAD模型结合音频的Fbank特征以及对应说话人的声纹,输出对应说话人的话者边界;
S22、获取音频序列;
S23、提取音频序列的Fbank特征;
S24、将步骤S23中的Fbank特征与步骤S21在线声纹日志中各个说话人的声纹拼接作为TS-VAD模型的输入;
目标说话人VAD的本质就是结合声纹的VAD模型,它能够给出声纹对应的说话人对应的VAD,本发明中采用Resnet作为TS-VAD的骨干网络。由于该VAD是帧级别的,因此离线分支的精度更高;
S25:获取在线聚类的结果。
本发明未具体描述的部分或结构采用现有技术或现有产品即可,在此不做赘述。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种灵活离、在线声纹日志系统,其特征在于,包括在线分支,或在线分支和离线分支,所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹,通过离线分支能够获取精确至帧级别的说话人边界。
2.根据权利要求1所述的一种灵活离、在线声纹日志系统,其特征在于,所述在线分支的处理步骤包括:
S1、获取音频序列;
S2、对音频序列进行分窗;
S3、采用EEND输出的说话人概率,确定每一帧是否有说话人以及是否有说话人重叠;
S4、根据步骤S3中各帧说话人概率切除静音段,切出重叠、非重叠段;其中,对于不包含重叠的语音片段,对其提取声纹并聚类;对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人。
3.根据权利要求2所述的一种灵活离、在线声纹日志系统,其特征在于,对于不包含重叠的语音片段,对其提取声纹并聚类的步骤包括:
S9、提取非重叠段的声纹
声纹模型由Resnet和统计池化层构成,Resnet负责抽象非重叠段的帧级别说话人表示,随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ,将两者拼接之后作为该段语音的声纹:
E=cat(μ,σ)
S10、对声纹进行白化
对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性:
EZCA=U∧-1/2UTE
其中,E的协方差矩阵∑的特征值为∧、特征向量为U;
S11、计算声纹与簇中心的对数似然比;
S12、根据对数似然比聚类。
4.根据权利要求3所述的一种灵活离、在线声纹日志系统,其特征在于,步骤S11中,采用的聚类方式为K-means,每一个簇代表一个说话人,假设簇中心为
Figure FDA0004067233220000011
声纹Ep与簇中心
Figure FDA0004067233220000012
的对数似然比计算公式为:
Figure FDA0004067233220000013
其中,
Figure FDA0004067233220000021
T是PLDA的投影矩阵,Ψ为PLDA模型的协方差,n为簇中的声纹数量。
5.根据权利要求3所述的一种灵活离、在线声纹日志系统,其特征在于,当声纹up与簇中心
Figure FDA0004067233220000022
之间的距离大于阈值时,将up加入该簇并更新簇中心
Figure FDA0004067233220000023
否则人为声纹的纯净度不够,不将其加入簇,以免造成数据污染。
6.根据权利要求3所述的一种灵活离、在线声纹日志系统,其特征在于,当训练与测试的域不匹配时,在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型,使其更接近使用场景的声纹分布,从而使得声纹日志越用越精准,包括以下步骤:
S14:输入初始PLDA模型;
S15:采用Adaptive PLDA算法更新PLDA参数;
每收集满一定数量的声纹up后,采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新,使得PLDA的参数更加符合使用场景。
7.根据权利要求2所述的一种灵活离、在线声纹日志系统,其特征在于,对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人的步骤包括:
S5、采用声纹模型提取每帧的说话人表征xt
S6、计算重叠语音中所有说话人的声纹Ei
S7、对Ei进行ZCA白化,随后对白化后的声纹计算与簇中心的对数似然比;
S8、聚类,随后,整合重叠语音、非重叠语音聚类结果,得到完整音频中说话人的时间标注。
8.根据权利要求7所述的一种灵活离、在线声纹日志系统,其特征在于,步骤S6中,根据步骤S2中EEND模型获取的各帧说话人占比weightt,i,分离出重叠语音中第i个说话人均值μi与方差σi
Figure FDA0004067233220000024
Figure FDA0004067233220000025
其中,T为说话人表征xt的帧数;
于是得到重叠语音中第i个说话人的声纹Ei=cat(μii)。
9.根据权利要求1所述的一种灵活离、在线声纹日志系统,其特征在于,所述离线分支的处理步骤包括:
S21、获取在线声纹日志的声纹;
S22、获取音频序列;
S23、提取音频序列的Fbank特征;
S24、将步骤S23中的Fbank特征与步骤S21在线声纹日志中各个说话人的声纹拼接作为TS-VAD模型的输入;
S25:获取在线聚类的结果。
CN202310080086.2A 2023-01-31 2023-01-31 一种灵活离、在线声纹日志系统 Pending CN116312557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310080086.2A CN116312557A (zh) 2023-01-31 2023-01-31 一种灵活离、在线声纹日志系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310080086.2A CN116312557A (zh) 2023-01-31 2023-01-31 一种灵活离、在线声纹日志系统

Publications (1)

Publication Number Publication Date
CN116312557A true CN116312557A (zh) 2023-06-23

Family

ID=86833280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310080086.2A Pending CN116312557A (zh) 2023-01-31 2023-01-31 一种灵活离、在线声纹日志系统

Country Status (1)

Country Link
CN (1) CN116312557A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
CN114299961A (zh) * 2021-09-27 2022-04-08 腾讯科技(深圳)有限公司 语音识别方法、装置、设备、存储介质及程序产品
CN114694659A (zh) * 2022-03-30 2022-07-01 联想(北京)有限公司 一种音频处理方法、装置、电子设备及存储介质
JP2022180258A (ja) * 2021-05-24 2022-12-06 株式会社日立製作所 話者ダイアライゼーション方法、話者ダイアライゼーションシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
JP2022180258A (ja) * 2021-05-24 2022-12-06 株式会社日立製作所 話者ダイアライゼーション方法、話者ダイアライゼーションシステム
CN114299961A (zh) * 2021-09-27 2022-04-08 腾讯科技(深圳)有限公司 语音识别方法、装置、设备、存储介质及程序产品
CN114694659A (zh) * 2022-03-30 2022-07-01 联想(北京)有限公司 一种音频处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马勇;鲍长春;: "说话人分割聚类研究进展", 信号处理, no. 09, 25 September 2013 (2013-09-25), pages 104 - 113 *

Similar Documents

Publication Publication Date Title
McLaren et al. Advances in deep neural network approaches to speaker recognition
CN106782507B (zh) 语音分割的方法及装置
US8543402B1 (en) Speaker segmentation in noisy conversational speech
Yella et al. Artificial neural network features for speaker diarization
WO2012075641A1 (en) Device and method for pass-phrase modeling for speaker verification, and verification system
CN113870893B (zh) 一种多通道双说话人分离方法及系统
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN106601258A (zh) 基于改进的lsda算法进行信道补偿的说话人识别方法
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
Wang et al. Cross-domain adaptation with discrepancy minimization for text-independent forensic speaker verification
Bovbjerg et al. Self-supervised pretraining for robust personalized voice activity detection in adverse conditions
Ghaemmaghami et al. Complete-linkage clustering for voice activity detection in audio and visual speech
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.
CN116312557A (zh) 一种灵活离、在线声纹日志系统
CN108629024A (zh) 一种基于声音识别的教学考勤方法
Naik et al. Evaluation of a high performance speaker verification system for access Control
EP1256934B1 (en) Method for adapting speaker-identification data using application speech
CN120071905A (zh) 一种基于mfcc算法和vq-hmm算法的语音识别与分析方法
Thienpondt et al. Speaker embeddings with weakly supervised voice activity detection for efficient speaker diarization
Castan et al. Segmentation-by-classification system based on factor analysis
Afshan et al. Attention-based conditioning methods using variable frame rate for style-robust speaker verification
Cohen et al. Unsupervised speaker segmentation in telephone conversations
Çetin et al. Cross-stream observation dependencies for multi-stream speech recognition.
Eliav et al. Concurrent speaker detection: A multi-microphone transformer-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination