CN115803808A

CN115803808A - 合成语音检测

Info

Publication number: CN115803808A
Application number: CN202180044082.8A
Authority: CN
Inventors: 王科; 何磊
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2023-03-14
Also published as: EP4327323A1; WO2022222056A1; EP4327323A4; US20240005947A1

Abstract

用于合成语音检测的系统和方法包括接收包括音频的输入样本并提取与该音频中的语音相对应的声学特征。使用多个神经网络来处理所提取的声学特征以输出经抽象特征，并使用池化来生成与该经抽象特征相对应的特征向量。对SSD任务、说话者分类任务和信道分类任务的训练在同一时间使用该特征向量来被执行。合成语音至少使用经训练的SSD任务来被检测。

Description

合成语音检测

背景技术

人工智能(AI)合成技术有许多不同的应用。例如，AI可被用于创造听起来高度逼真的、难以区分的和自然的声音。声音可能如此逼真以至于人类的耳朵和说话者识别/验证系统很难将声音标识为合成媒体(例如，深度伪造)。结果，个人或识别/验证系统可能错误地将合成媒体声音确认为人的真实声音，从而潜在地允许未经授权访问不同的系统。

因此，已知的系统可能无法令人满意地检测或标识逼真的合成声音，使得当这些合成声音被用于欺诈或其他不正当手段时，系统就无法得到充分的保护。例如，人工攻击和重放攻击(称为物理攻击(PA))以及文本到语音(TTS)和声音转换攻击(称为逻辑攻击(LA))正在增多。然而，已知的检测系统具有通常在针对特定任务的小数据集(例如，不超过50个说话者)上训练的模型，从而导致模型在实践中难以应用，并且通常不能在单个架构中充分地处理PA和LA两者。

发明内容

提供本发明内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征，亦非旨在用于帮助确定所要求保护的主题的范围。

用于合成语音检测(SSD)的计算机化方法包括接收包括音频的输入样本并提取与该音频中的语音相对应的声学特征。计算机化方法进一步包括使用多个神经网络来处理所提取的声学特征以输出经抽象特征，并使用池化来生成与该经抽象特征相对应的特征向量。计算机化方法还包括在同一时间使用所述特征向量来执行对SSD任务、说话者分类任务和信道分类任务的训练。计算机化方法进一步包括至少使用经训练的SSD任务来检测合成语音。

许多附带特征将变得更容易领会，因为这些附带特征通过参考结合附图考虑的以下详细描述而变得更好理解。

附图说明

根据附图阅读以下详细描述将更好地理解本说明书，在附图中：

图1是例示根据一示例的操作环境的框图；

图2是例示根据一示例的操作配置的框图；

图3是根据一示例的SSD系统的框图；

图4是例示根据一示例的多任务架构的框图；

图5是示出根据一示例的用于执行SSD的处理流程的框图；

图6是例示根据一示例的语音识别系统的框图；

图7是例示根据一示例的计算设备执行SSD的操作的流程图；以及

图8将根据一示例的计算装置例示为功能框图。

在整个附图中相应的附图标记指示相应的部件。在附图中，各系统被解说为示意图。附图可能没有按比例绘制。

具体实现

本文描述的计算设备和方法被配置成提供多任务合成语音检测(SSD)框架以检测合成媒体，特别是合成声音(例如，深度伪造)。例如，通过一个或多个声音剪辑示例，可以更可靠地将用AI合成的声音剪辑与人类说出的声音剪辑进行区分。SSD被配置成使用根据各种示例训练的文本到语音服务(例如，Microsoft TTS)来检测合成语音。SSD可以扩展为检测由其他TTS制作者合成的语音，以及检测合成语音的声音身份，例如检测声音是否由AI系统合成。例如，SSD可以被实现为说话者识别系统前端的一部分以增强安全性和/或可以被用作TTS的相对可信度的评估系统。

在一个示例中，SSD、说话者分类和信道分类训练任务被组合在一起，与单个任务框架相比，允许改进的学习和更鲁棒和有效的特征嵌入。此外，一些示例考虑了编译码器(译码器-编码器)对SSD的影响。某些任务，诸如分类任务，可以根据任务情况进行“删减”以进一步提高推理阶段的计算速度(例如，将多任务改为单任务)。结果，通常被视为两个不同的任务和两个不同模型的PA和LA通过本公开一起训练，在检测这两种攻击时不会有性能下降。各种示例还考虑了SSD的说话者信息，使检测更加鲁棒，同时不会降低对开始(outset)声音和系统的性能。以此方式，当处理器被编程为执行本文所描述的操作时，以非常规方式使用处理器，这允许更有效和可靠的合成声音检测，这导致了经改进的用户体验。

－2－

在各种示例中，使用不同的TTS声学模型和声码器构建了一个大型数据集(并且在训练集中包括数千名说话者)。如本文更详细地描述的，还提供了一个统一的框架，在使用大数据集和多任务框架时，TTS(LA攻击)和重放TTS(PA攻击)都被考虑在一个统一的模型中。在一些示例中，信道分类被添加到多任务框架中，并考虑了噪声和混响，这提高了检测例如编译码器攻击的鲁棒性。

本文描述的是用于训练神经网络(包括深度神经网络DNN)以改进在执行模式识别和数据分析(诸如语音识别、语音合成、回归分析或其他数据拟合、图像分类或面部识别)中的使用的增强技术。在例如为语音识别或其他应用而训练的DNN的各种示例中，DNN可以是上下文相关的DNN或上下文无关的DNN。DNN可以至少有两个隐藏层。使用本文中的技术训练的神经网络可以具有一个隐藏层、两个隐藏层或两个以上的隐藏层。在例如对语音识别系统有用的一个示例中，本文所描述的神经网络或DNN有五到七层。本文描述的与DNN相关的技术也适用于具有少于两个隐藏层的神经网络。在某些示例中，诸如用于语音识别，上下文相关的DNN可连同隐形马尔科夫模型(HMM)一起被使用。在此类示例中，上下文相关的DNN和HMM的组合被称为上下文相关的DNN-HMM(CD-DNN-HMM)。从而，本文所述的用于训练DNN的技术可被应用于训练CD-DNN-HMM。本文所描述的技术可以包括使用过程来跨多个任务和/或处理单元(例如，多核处理器或多个通用图形处理单元GPGPU的核)并行化对DNN的训练并使用多个分类器(如本文更详细描述的那样配置成前馈层)。因此，可以在多个处理单元上并行处理多个DNN层。

图1示出了DNN训练系统的示例可以在其中操作或者诸如DNN训练方法之类的方法可以在其中执行的环境100(特别是用于SSD)。在一些示例中，环境100的各个设备或组件包括计算设备102(1)-102(N)(在本文中单独地或统称为标记102)和计算设备104(1)-104(K)(在本文中单独地或统称为标记104)，它们可以经由一个或多个网络106彼此通信。在一些示例中，N＝K。在其他示例中，N>K或N<K。

在一些示例中，计算设备102和104可经由网络106与外部设备通信。例如，(诸)网络106可包括诸如因特网之类的公共网络、诸如机构或个人内联网的专用网络，或专用和公共网络的组合。(诸)网络106还可包括任何类型的有线或无线网络，包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、有线网络、Wi-Fi网络、WiMAX网络、移动通信网络(如3G、4G等等)或它们的任意组合。(诸)网络106可利用通信协议，包括基于分组的或基于数据报的协议，如网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、其它类型的协议、或它们的组合。而且，(诸)网络106还可包括便于网络通信或形成网络的硬件基础的若干设备，如交换机、路由器、网关、接入点、防火墙、基站、中继器、主干设备等等。(诸)网络106还可包括促成使用各种拓扑结构的总线协议(例如，交叉开关、或光纤通道开关或中枢)来在计算设备102、104之间进行通信的设备。

在一些示例中，网络106可进一步包括能够实现到无线网络的连接的设备，诸如无线接入点(WAP)。一个或多个示例支持通过WAP的连接性，WAP经由各个电磁频率(例如，无线电频率)来发送和接收数据，包括支持电气和电子工程师协会(IEEE)802.11标准(例如，802.11g、802.11n等)、其他标准(如蓝牙)或它们中的多者或组合的WAP。

在各示例中，计算设备102(1)-102(N)或104(1)-104(K)中的一些能在集群或编组的配置中操作，以例如共享资源、平衡负载、提高性能、或提供故障恢复支持或冗余性。(诸)计算设备102、104可以属于各种类型或类别的设备，诸如客户端类型或服务器类型设备、台式计算机类型设备、移动类型设备、专用类型设备、嵌入式类型设备或可穿戴类型设备。因此，尽管图示为例如台式计算机、膝上型计算机、平板计算机或蜂窝电话，但(诸)计算设备102、104可以包括各种设备类型，并且不限于特定类型的设备。(诸)计算设备102可以表示但不限于台式计算机、服务器计算机、web服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、车载计算机、启用网络的电视、瘦客户端、终端、个人数据助理(PDA)、游戏控制台、游戏设备、工作站、媒体播放器、个人视频记录器(PVR)、机顶盒、相机、用于包含在计算设备、应用、计算机导航类型的客户端计算设备、基于卫星的导航系统设备(包括全球定位系统GPS设备和其他基于卫星的导航系统设备)、电信设备(诸如移动电话、平板计算机、移动电话-平板计算机混合设备)、个人数据助理(PDA)，或被配置成参与本文所描述的DNN训练或操作的其他计算设备的集成组件。在至少一个示例中，(诸)计算设备102包括被配置成训练DNN的服务器或高性能计算机。在至少一个示例中，(诸)计算设备104包括膝上型计算机、平板计算机、智能电话、家用台式计算机或被配置成操作经训练的DNN(例如，为语音输入提供SSD)的其他计算设备。

(诸)计算设备102和/或104可包括各种组件，例如，具有诸如经由总线114可操作地连接到一个或多个计算机可读介质112的一个或多个处理单元110的任何计算设备，总线114在一些实例中可包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及任何各种本地、外围和/或独立总线中的一者或多者、或它们的组合。在至少一个示例中，多个处理单元110通过内部接口总线(如PCIe)(作为网络106的替换或补充)来交换数据。存储在计算机可读介质112上的可执行指令可包括例如操作系统116、DNN训练引擎118、DNN操作引擎120以及可由处理单元110加载并执行的其他模块、程序或应用。在未示出的示例中，计算设备102、104中的一者中的处理单元110中的一者或多者可例如经由通信接口122和网络106可操作地连接到计算设备102、104中的不同一者中的计算机可读介质112。例如，用于执行本文描述的DNN训练步骤或操作的程序代码可以例如经由网络106从服务器(例如，计算设备102(1))下载到客户端(例如，计算机设备104(K))，并由计算设备104(K)中的一个或多个处理单元110执行。在一个示例中，计算设备102(1)-102(N)包括DNN训练引擎118，并且计算设备104(1)-104(K)包括DNN操作引擎120。

处理单元110可以是或可包括一个或多个单核处理器、多核处理器、中央处理单元(CPU)、图形处理单元(GPU)、通用图形处理单元(GPGPU)或例如经由来自模块或API的编程来配置以执行本文描述的功能的硬件逻辑组件(诸如加速器)。作为示例而非限制，可被使用在处理单元110中或被用作处理单元126的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、以及数字信号处理器(DSP)。

处理单元110可被配置成执行安装在计算设备102上的操作系统116。在一些示例中，处理单元110可以是或可包括通用图形处理单元(GPGPU)。在又一些示例中，处理单元110可以是现场可编程门阵列(FPGA)或另一类型的可定制处理器。在各示例中，计算设备102(1)-102(N)中的至少一些可包括多种类型的多个处理单元110。例如，计算设备102(1)中的处理单元110可以是一个或多个GPGPU和一个或多个FPGA的组合。

计算设备102还可包括通过网络106启用计算设备102与DNN训练(或其他操作)中涉及的其他联网计算设备102或其他计算设备之间的有线或无线通信的一个或多个通信接口122。此类通信接口122可包括用于通过网络发送和接收通信的一个或多个收发机设备，例如网络接口控制器(NIC)，诸如以太网NIC。处理单元110可通过通信接口122来交换数据。在一个示例中，通信接口122可以是外围部件互连快速(PCIe)收发机，且网络106可以是PCIe总线。在一些示例中，通信接口122可包括但不限于，用于蜂窝、WI-FI、超宽带(UWB)、蓝牙或卫星传输的收发机。通信接口122可包括有线I/O接口，诸如以太网接口、串行接口、通用串行总线(USB)接口、或其他有线接口。为了简明起见，这些和其他组件从示出的计算设备102中省略。

尽管在各示例中处理单元110被描述为驻留在计算设备102上且由通信接口122连接，但在一些示例中处理单元110还可驻留在不同计算设备上。在一些示例中，处理单元110可驻留在对应的计算设备102上，且经由通信接口122通过网络106交换数据。在一些示例中，处理单元110中的至少两者驻留在不同的计算设备102上。在这些示例中，同一计算设备102上的多个处理单元110使用计算设备102的接口总线114来交换数据，而不同计算设备102上的处理单元110经由网络106来交换数据。

在一些示例中，计算机可读介质112存储能由(诸)处理单元110执行的指令，如上面所讨论的，(诸)处理单元112可表示被结合到计算设备102中的处理单元。计算机可读介质112还可存储可由外部处理单元(诸如由外部CPU或外部处理器或以上讨论的任何类型的加速器)执行的指令。在各示例中，至少一个处理单元110(例如，CPU、GPU或加速器)被结合在计算设备102中，而在一些示例中，至少一个处理单元110(例如，CPU、GPU或加速器中的一者或多者)在计算设备102的外部。

计算设备102的计算机可读介质112可存储操作系统116。在各个示例中，操作系统116可包括使计算设备102能够或引导计算设备102经由各种输入(例如，用户控件、网络或通信接口、或存储器设备)来接收数据并且能够使用(诸)处理单元110来处理数据以生成输出的组件。操作系统116还可包括呈现输出(例如，在电子显示器上显示图像、在存储器中存储数据、将数据发送给另一电子设备等)的一个或多个组件。操作系统116可使得用户能够使用用户接口(未示出)与训练引擎118的模块交互。附加地，操作系统116可包括执行通常与操作系统相关联的各种功能(例如，存储管理和设备内部管理)的组件。

图2是例示用于实现使用本公开的一个或多个方面来训练DNN 204(或多个DNN，并且贯穿全文同样如此)的训练引擎202(诸如训练引擎118)，以及用于实现数据分析引擎206(诸如DNN操作引擎120)来操作经训练的DNN208的示例操作配置200的框图。训练引擎202可以使用计算设备210来实现，在一些示例中，计算设备210包括计算设备102。数据分析引擎206可以使用诸如计算设备104之类的计算设备来实现。为了清楚起见，图2中未示出实现数据分析引擎206的单独计算设备。在至少一个示例中，计算设备210实现训练引擎202和数据分析引擎206两者。计算设备210可以包括一个或多个处理单元212(1)-212(N)，其可以表示如上参考图1所讨论的处理单元110(1)-110(N)。处理单元212(1)-212(N)在本文中被单独地或共同地称为标记212。在一些示例中，处理单元212可以是如上面参考图1所讨论的处理单元212，例如GPGPU。处理单元212可以通过总线114或网络106交换数据，两者都在图1中示出。处理单元212可以执行DNN训练块214的指令，包括DNN204、训练引擎202、训练数据216、以及训练数据216的各小批(minibatch)218。

DNN训练可以由多个节点以并行的方式进行以减少训练所需的时间，并且在一个示例中被配置成多任务解决方案，如本文更详细地描述的。在至少一个示例中，训练引擎202在多个计算设备210中的每个计算设备上执行，并且每个计算设备210具有单核处理单元212。在此示例中，每个此类计算设备210是一节点。在一些示例中，训练引擎202在具有多个多核处理单元212的单个计算设备210上执行。在此类示例中，多核处理单元212的每个核表示一节点。也可以使用其他组合以及这些极端之间的点。例如，单个加速器(例如，FPGA)可以包括一个或多个节点。在其他示例中，处理单元212的多个核可以被配置成作为单个节点一起操作。

在一个示例中，训练引擎202使用并行训练220来训练DNN 204以执行数据分析，诸如用于语音识别(例如，SSD)。。例如，如本文中更详细描述的，SSD、说话人识别和信道分类任务是同时学习的。

DNN 204可以是多层感知器(MLP)。如此，DNN 204可以包括底部输入层222(1)和顶部层222(L)(整数L＞1)，以及多个隐藏层，诸如多个层222(2)-222(3)。层222(1)-222(L)在本文中被单独地或共同地称为标记222。在一些示例中，使用上下文相关的DNN，DNN 204可以包括总共八个层(N＝8)。在各种示例中，DNN 204可以是上下文相关DNN或上下文无关DNN。训练数据216可以被并行训练220用作训练DNN 204的训练数据。训练数据216可以包括语音语料库，该语音语料库包括来自大量人类说话者的样本语音集合的音频数据。例如，语音语料库可包括从美国或加拿大的北美英语的说话者收集的北美英语语音样本。然而，在其他示例中，根据要识别的语音的期望语言，训练数据216可以包括其他相应语言(例如，汉语、日语、法语等)的样本语音，或者用于不同应用(如手写识别或图像分类)的其他类型的训练数据。训练数据216还可以包括关于语料库的正确识别或分类答案的信息。使用此信息，可以检测出DNN 204在处理语料库中的错误。此信息可以例如用于计算作为梯度反转层的一部分的一个或多个特征，如本文更详细描述的。

由并行训练220执行的计算可以跨处理单元212来被并行化。例如，在前馈处理期间，由处理单元212(1)执行的对输入数据的计算可以产生第一计算结果。第一计算结果可以被流水线传送到处理单元212(2)用于进一步计算以生成第二计算结果。在生成第二计算结果的同时，处理单元212(1)可以处理附加的输入数据以生成第三计算结果。在至少一些示例中，与第二计算结果的生成同时，处理单元212(1)可能正在将第一计算结果的至少一部分传送给另一处理单元212。处理单元212或节点的其他示例的这些并发计算可造成训练DNN 204的计算的流水线化，且因此造成由于所产生的计算并行化而造成的计算时间的减少。处理单元212或节点的其他示例的并发计算和通信可造成等待数据到达节点的减少的延迟时间且因此造成总体计算时间的减少。在各种示例中，可以使用一种或多种技术来增强由并行训练220执行的计算，诸如结合梯度反转层226的池化224。

此外，DNN 204中的层222(1)-222(L)可由于DNN 204的各层中的单元数的差异而具有不同大小。例如，DNN 204中的最大层可以具有比一个或多个最小层的大小大十倍的大小。因此，可能更有效的是将某一多核处理器专用于处理最大层，而在另一多核处理器上处理最小层中的两个或更多个。这样的编组可减少往返延迟并提高效率。

并行训练220的计算迭代可以执行以下步骤：对多个声学特征进行并行的DNN处理、特征池化(例如，注意(attention)池化)以生成抽象特征的矢量、以及在对应于SSD、说话者标识和信道分类的前馈层中使用三个模型(和一个矢量)进行并行的前馈处理。结果，随着这些相互关联的任务的训练同时进行，在一些示例中，通过反向传播(BP)算法学习更鲁棒的特征。

由此，通过使用并行算法220和训练数据216，训练引擎202可从DNN 204产生经训练的DNN 208。接着，数据分析引擎206可使用经训练的DNN 208来从输入数据236产生输出数据234。在一些示例中，数据分析引擎206可以是SSD引擎，它以经训练的上下文相关的DNN-HMM的形式使用经训练的DNN 208来以标识经分析的内容中的合成媒体声音的形式产生输出数据234。

数据分析引擎206可在计算设备210或类似于计算设备210的计算设备上执行。此外，数据分析引擎206可以从计算设备210的麦克风和音频处理组件接收实时输入数据236，计算设备210可以是例如图1所示的智能电话计算设备104(5)。在各种示例中，数据分析引擎206可以从媒体文件或流接收输入数据236，例如用于对媒体文件/流中的说出内容进行音频索引的目的。在一些示例中，数据分析引擎206还可以是语音验证引擎，其使用经训练的上下文相关DNN来认证接收到的语音音频。

在一些示例中，用本文描述的技术(例如，技术224和226)中的一者或多者来增强的并行训练220可被实现，以在展示类似特性的其他情形下产生经训练的上下文无关的DNN208。以此方式，可以使用适当的训练数据来训练DNN 204的上下文无关形式以用于各种数据分析目的。这些特征可以包括更大的训练数据集(例如，大于5000万、13亿等样本)，DNN结构，其中DNN的每个网络的输出超过阈值(例如，大于两千、四千等的DNN输出)等。数据分析的目的可以包括为不同的活动使用经训练的上下文无关DNN。

与传统SSD方法相反，说话者识别在本公开的范围内被调整为增加一个或多个模型的鲁棒性。在一些示例中，同一说话者的合成语音和真实人类记录被视为两个不同的说话者，即说话者记录和说话者TTS。通过应用一个或多个示例，本公开不仅能够区分输入样本是否来自TTS，而且能够区分TTS样本来自哪个声音。在一些示例中，提供了针对插入和开始说话者的自适应，使得在自适应之后，目标说话者的性能在不影响其他说话者的情况下得到改善。应该理解的是，此过程也适用于其他TTS制作人对看不见的TTS声音进行缩放。

在此框架内，在一些示例中，提供了统一的在线SSD服务。例如，LA攻击(包括编译码器攻击)、说话者识别任务和自适应由批量API提供。在一些示例中，还提供了重放的TTS。本文描述的过程不限于SSD，而是可以在不同应用中用不同类型的计算机任务来实现。通过本公开，使用更少的计算资源来执行改进的SSD。因此，可以保持检测精度，同时降低对不太复杂的优化问题执行的操作的“成本”(例如，计算和/或存储要求)。在一些示例中，增加了SSD的鲁棒性。

各种示例包括如图3所示的SSD系统300。在一个示例中，SSD系统300使用不同模型的并行处理来生成输出312，在一个示例中，输出312是在经处理的音频中的检测到的合成语音。更具体地，SSD系统300包括SSD处理器302，该SSD处理器302在一些示例中被配置成处理引擎，该处理引擎对包括一个或多个声音的语音数据304执行SSD的训练。应当注意，语音数据304可以包括以不同方式配置的不同类型的语音数据。还应注意，本公开可应用于不同类型的数据，包括非语音数据。

SSD处理器302可以访问输入数据，诸如语音数据304，其可以包括语音训练数据。例如，SSD处理器302访问语音训练数据(例如，使用不同TTS声学模型和声码器的大数据集，以及数千个说话者)作为用于SSD训练的输入数据。应当理解，SSD处理器302被配置成对SSD任务进行训练，对不同特征进行并行处理。

在所例示示例中，语音数据304包括声音数据，其中SSD处理器302首先用DNN 306处理语音数据304。例如，从语音数据304中提取的多个声学特征被传递通过一个或多个DNN306。在一个示例中，DNN 306被配置成包括以下中的一者或多者：

残余神经网络(ResNet)，诸如ResNet 18(除了最终前馈深度神经网络(FFDNN)层)、SEResNet、Res2Net和/或SERes2Net等；

光卷积神经网络(LCNN)，诸如STC2 LCNN(除了最终的FFDNN层)；

双向长短期存储器(BLSTM)，诸如每个方向具有128个单元的3层BLSTM；和/或

FFDNN，诸如每个分类器具有1024个单元的2层FFDNN。

如本文更详细描述的那样，一个或多个DNNs 306从语音数据304中标识多个特征320(例如，经抽象特征)。在一个示例中，语音数据304具有以下属性中的一者或多者：基于Mel/线性滤波器的谱图(例如，257dim对数功率谱图(LPS))、CMVN/CMN/NULL、随机干扰、SpecAugmetation(计量学原理)、噪声/混响增强和对抗性示例。

这些特征由被配置用于池化和梯度反转的一个或多个层(池化/梯度反转层308)处理。在一个示例中，池化/梯度反转层308被配置成具有执行时间平均池化(TAP)和多头部注意池化(MAP)中的一者或多者的池化层和独立于域/信道/编译码器的梯度反转层，如本文更详细描述的。例如，池化/梯度反转层308被配置成执行注意池化，该注意池化向多个特征向量中的每一者赋予权重并生成平均向量，其中该权重确定相应的精度。

在各种实现中，使用本文描述的神经网络和其他组件的不同方面可以被配置成单独操作或彼此组合或部分组合操作。例如，池化/梯度反转层308的一个或多个实现可以用于经由一个或多个神经网络的梯度下降和/或反向传播操作来实现神经网络训练。

池化/梯度反转层308的输出由分类器310处理，分类器310在一个示例中包括前馈层，该前馈层具有用于SSD、说话者识别和信道/域分类训练的单独模型，如本文更详细描述的。

作为一个示例，在该多任务解决方案中，输入特征和特征变换操作包括使用257dim对数功率谱图(LPS)作为输入声学特征，然后使用ResNet18进行序列到序列特征变换。在此示例中，池化/梯度反转层408的池化层是多头注意池化。在池化层处理之后，SSD、说话者识别和信道分类任务被同时学习。这些任务彼此相关并有助于学习更鲁棒的特征，例如，通过反向传播(BP)算法。

在训练阶段，所有三个任务(即SSD、说话人识别和信道分类)都是平行训练的，并相应地为每个任务计算损失函数(例如，L2约束的softmax损失函数和交叉熵(标签平滑))，如图4所示(显示多任务架构400)。然后使用BP算法更新每个前馈(分类器)层以及共享池化和特征转换层的参数。因此，各种示例中的共享DNN为所有任务学习了更鲁棒的功能。应该注意，在推断阶段，信道任务被忽略。如果需要说话者信息，则SSD和说话者分类任务两者都包括在推断阶段。然而，如果正在执行操作以区分输入样本是TTS还是真正的人工记录，则在一个示例中仅启用SSD任务。

特别参考图4，在一些示例中，多任务架构400由SSD处理器302实现。可以看出，从训练输入402(例如，声音/语音输入)中提取声学特征404。在一个示例中，使用特征提取技术中的一个或多个信号处理算法来执行特征提取。所提取的特征由DNN 406处理，DNN 406在一个示例中作为编码层操作并执行帧到帧变换，其输出(例如，具有更大或更高维度的抽象特征的特征序列)被提供给池化层408。因此，特征在由DNN 406处理之后更可区分(例如，合成特征和人类特征)。

在一个示例中，池化层408被配置成嵌入层，该嵌入层使用经抽象特征来为训练输入402的整个序列生成单个向量或单个标签(例如，为整个序列的多个经抽象特征而不是为每个单独帧生成单个向量，诸如为训练输入的整个序列生成一个标签)。在一个示例中，池化层408允许使用多个信道的池化训练数据(例如，共享训练数据)进行训练。在一些示例中，可以通过池化来自多个不同上下文和/或多个不同任务的数据来训练深度学习声学模型。

在一个示例中，池化层408组合局部特征向量以获得由池化层408表示的全局特征向量(例如，通过使用一个或多个加权函数对与来自DNN 406的抽象特征相对应的向量进行平均而得到的与训练输入相对应的抽象特征的单个向量)，其可以被配置成最大池化层。在一些示例中，池化层408被配置成在定义的时间段上执行最大池化操作，从而保留由DNN406产生的最有用的、部分不变的局部特征。在一个示例中，然后将表示池化层408的固定大小的全局特征向量(例如，与配置成分类模型的多个模型412共享的单个加权向量)馈送到前馈层410中。

前馈层410包括多个分类器，在所示示例中，多个分类器包括用于SSD、说话者识别和信道/域分类的单独模型。也就是说，这三个单独的任务被组合到由多任务架构400定义的单个框架中并并行执行。可以看出，前馈层410共享相同的DNN 406，其学习在前馈层410中执行的所有三个任务的特征。

因此，在一些示例中，DNN 406用于在诸如SSD、说话者识别和信道/域分类之类的任务上训练模型412。应当理解，可以实现不同的或附加的模型412。在一些示例中，使用梯度反转层或其他梯度下降通过反向传播来训练DNN 406或其他神经网络。例如，随机梯度下降是用于可缩放训练的变体。在随机梯度下降中，训练输入按随机顺序处理。可以一次处理一个输入，对每个输入执行后续步骤以更新模型权重(例如，模型412的权重)。应当理解，DNN 406的每一层可以具有不同类型的连接。例如，各个层可以包括卷积加权、非线性变换、响应归一化和/或池化。

应当注意，可以以不同的方式并且针对不同的应用来配置DNN 406。在一个示例中，不同类型的神经网络层的堆栈可以与模型412结合使用，以定义基于深度学习的声学模型，该声学模型可以用于表示不同的语音和/或声学因素，诸如语音和非语音声学因素，包括口音来源(如母语、非母语)、语音信道(如手机、蓝牙、桌面等)、语音应用场景(如声音搜索、短消息听写等)以及说话者的变化(如单个说话者或集群说话者)等。

再次参考图3，关于SSD处理器302，可以由操作方指定各种参数等。例如，操作方能够使用图形用户界面316指定神经网络拓扑结构的不同层的加权值，不同模型/注意的灵敏度等。例如，一旦操作方配置了一个或多个参数，SSD处理器302就被配置成执行本文所描述的SSD训练。应当注意，在一些示例中，一旦一个或多个神经网络的训练完成(例如，在训练数据耗尽之后)，经训练的SSD 318被存储并加载到一个或多个终端用户设备，诸如智能电话308、可穿戴增强现实计算设备312、膝上型计算机310或其他终端用户计算设备。终端用户计算设备能够使用经训练的SSD 318来执行一个或多个任务，诸如用于检测合成语音。

图5中例示了处理流程500的示例。在一些示例中，处理流程500包括使用本文更详细描述的一个或多个训练模型执行的SSD操作。在所示示例中，波形502被馈送通过滤波器504。例如，波形502(例如，音频)可以来自TTS服务器或互联网，并且在SSD处理之前被滤波。在一个示例中，滤波器504被配置成执行分段(例如，从波形502提取声学特征)并检查音频的质量。应当注意，如果波形502的音频质量不满足定义的阈值质量，则不处理波形502并生成错误信息506。例如，向用户提供错误指示符，其指示波形502不满足一个或多个音频质量检查或待处理的标准。如果滤波波形502满足阈值质量水平，则由根据本公开训练的SSD服务器508处理滤波波形502。

例如，在一个示例中，SSD服务器508被训练为使用不同的模型执行三种不同的分类，诸如执行SSD任务、说话者分类任务和信道分类任务。应当注意，在各种示例中，信道指的是一种类型的编译码器(例如，MP3、MP4等)。在一个示例中，SSD服务器508处理滤波波形502的一个或多个输入段以生成对数概率值或分数。即，使用训练模型，确定波形包括合成生成的语音的对数概率。一些示例中的分数指示波形502包括合成生成的语音的可能性。

在一个示例中，SSD服务器508的输出经历后处理510，其可以包括将分数转换为用户友好信息以显示SSD结果512和可选的说话者信息514。例如，生成图形用户界面或其他显示(例如，结果仪表板)并将其显示给标识处理结果以确定波形502是否包括合成语音的用户。SSD结果512可以以不同的形式和格式显示，诸如使用不同的图形、显示等。

因此，各种示例提供了用于检测何时合成生成语音的语音检测系统。在这些示例中，代替包括单任务架构的合成语音检测系统，本公开的一个或多个实现包括被配置成多任务学习架构的多任务架构400。多任务架构400被利用和配置成同时考虑合成语音检测、说话者标识和信道分类。在一些示例中，来自一个方面(分类)的信息被其他方面用于确定合成语音检测、标识说话者和分类信道，如本文更详细描述的。在一个示例中，检测处理被用于标识SSD、说话者和信道域分类中的至少两者(例如，学习架构，其中确定了SSD，但说话者或信道数据被视为输入/训练数据)。

在一些示例中，提供了如图6所示的系统600。例如，系统600被配置成执行自动语音识别(ASR)以检测合成的或合成地生成的音频，特别是经合成的或合成地生成的语音。系统600包括接收样本604的语音识别系统602。样本604可以是包括特定时间段上的单词或其他可听语音的音频(例如，在定义的时间段上记录的音频)。虽然本文所提供的示例是结合样本104是语音(例如，口语)来描述的，但是应当理解，系统100可以被配置成执行其他类型的识别操作，诸如在线手写识别和/或实时姿势识别。因此，在一些示例中，样本304可以是在线手写样本或描述诸如人之类的对象的运动的视频信号。

语音识别系统602包括深度结构化模型606。在一个示例中，深度结构化模型606可以是深度信任网络(DBN)，其中DBN是时间参数绑定的。一个示例中的DBN是概率生成模型，在代表数据向量的单一底层观察变量之上有多层随机隐藏单元。例如，DBN是密集连接的、定向的信念网络，具有许多隐藏层，对其学习是一个难题。深度结构化模型606可以接收关于输出单元的样本和输出状态后验概率，该输出单元可以是电话、senone或一些其他合适的输出单元。深度结构化模型606是通过预训练规程来生成的，并且此后深度结构化模型606的权重、深度结构化模型606中的过渡参数、语言模型分数等可以通过顺序学习或全序列学习共同优化。如本文中更详细描述的，深度结构化模型606与多个分类器(例如，用于多个任务的单独分类模型)组合操作。在一个示例中，并且还参考图4，SSD模型412a使用说话者分类模型412b和信道/域分类模型412c来优化。也就是说，使用说话者分类模型412b和信道/域分类模型412c的学习被SSD模型412a用来提供更鲁棒的训练。因此，用于检测语音何时是合成生成的语音检测操作是使用任务学习架构进行的，该架构考虑了合成语音检测、说话者标识(声音身份)和信道分类(例如编译码器分类)。也就是说，来自一个模型412的信息被其他模型412用来执行用于合成语音检测、标识说话者和分类信道的训练(例如，来自信道/域分类模型412c的信道的影响，诸如编译码器编码被SSD模型412a所考虑)。

语音识别系统602另外包括解码器608，解码器608可以解码深度结构化模型606的输出以生成输出610。在一个示例中，输出610可以包括作为包括合成语音的样本604接收的单词或单词序列的指示。

语音识别系统602可被部署在各种上下文中。例如，语音识别系统602可被部署在移动电话、汽车、工业自动化系统、银行系统和采用ASR技术的其他系统中。

因此，对于各种示例，可以训练和执行SSD操作，诸如检测不同类型的攻击(例如，编译码器攻击)。

应当理解，各种示例可以用于不同类型的神经网络的训练和操作以及不同类型的SSD。此外，各种示例可用于使用不同类型的数据执行SSD。图7例示了用于执行各种示例的SSD的方法700的流程图。在本文所描述的流程图中所解说的各操作可以以与所示顺序不同的顺序执行，可包括附加的或更少的步骤，并且可以根据需要或按需进行修改。附加地，一个或多个操作可以同时地、并发地或顺序地执行。在一些示例中，方法700在计算设备上执行，诸如具有有效执行操作的处理能力的服务器或计算机。

参考示出用于SSD的方法的方法700，计算设备在702处接收输入样本。例如，如本文所描述的，接收不同类型的声音或语音数据输入。在704，计算设备从输入样本中提取特征，特别是声学特征。例如，从音频输入中提取多个声学特征。

在706，计算设备使用一个或多个神经网络处理所提取的特征。例如，如本文所描述的，DNN集用于处理所提取的特征以生成经抽象特征。即，由DNN生成与所提取的特征相对应的多个经抽象特征。然后在708对多个经抽象特征执行池化以生成特征向量。在一些示例中，生成对应于所有经抽象特征的单个特征向量。可以使用不同的技术来生成特征向量，包括不同的加权方案、组合方案等。

在710使用单个特征向量来执行多个任务的训练。例如，如本文中更详细描述的，同时执行SSD任务训练、说话者分类任务训练和信道/域分类任务训练。因此，在一些示例中，同时执行SSD任务训练、说话者分类任务训练和信道/域分类任务训练。在其他示例中，SSD任务训练、说话者分类任务训练和信道/域分类任务训练基本上同时执行。也就是说，SSD任务训练、说话者分类任务训练和信道/域分类任务训练一起执行，但不是在完全相同的时间(例如，同时进行)。在一些示例中，SSD任务训练、说话者分类任务训练和信道/域分类任务训练在相同的时间区间内执行，但具有不同的处理开始和/或结束时间。

在一个示例中，不同的模型使用来自DNN的共享输出来为执行各种任务进行训练。在一些示例中，任务的训练是同时地或部分顺序地执行的。通过在710使用不同的注意模型训练不同的处理任务，从而训练和优化SSD操作。也就是说，使用共享DNN并同时或基本上同时训练多个任务允许优化一个或多个期望的SSD目标任务。

利用经训练的模型，可以执行SSD操作，诸如在712检测(例如，标识)合成语音。例如，在一些示例中，通过SSD操作，一个或多个攻击(例如，PA或LA)或潜在攻击可被标识或预测。

可以在不同的应用中使用一个或多个示例。例如，本公开可结合以下一个或多个来实现：

1.声音人才根据个人自己的声音创造出合成的声音，因为合成的声音可以被检测到，所以可以减少或减轻潜在的滥用。

2.声音认证的开发人员防止使用合成声音来攻击系统。

3.终端用户可以标识潜在的被错误地标识为来自原始说话者的欺骗性合成媒体，并且更有信心将合成声音构建为声音库以供将来使用。

4.检查潜在违反使用条款的行为并调查公众的滥用报告的能力。

5.在与文本到语音应用相关的终端用户接口(例如，网络浏览器、音频播放器、智能手机、智能扬声器)中。

示例性操作环境

本公开可以通过根据一示例的图8中的计算装置802的功能框图900来操作。在一个示例中，该计算装置802的各组件可被实现为根据本说明书中所描述的一个或多个实施例的电子设备的一部分。计算装置802包括一个或多个处理器804，这些处理器可以是微处理器、控制器或用于处理计算机可执行指令以控制电子设备的操作的任何其他合适类型的处理器。可以在装置802上提供包括操作系统806或任何其他合适的平台软件在内的平台软件以使得应用软件808能够在设备上被执行。根据一个示例，使用多个任务模型812训练的SSD810可以通过软件来实现。

可以使用计算装置802能够访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可包括例如诸如存储器814等计算机存储介质和通信介质。诸如存储器814之类的计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EPROM、EEPROM、闪存存储器或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可被用来储存信息以供计算装置访问的任何其他非传输介质。相比而言，通信介质可以以诸如载波或其他传输机制之类的已调数据信号来体现计算机可读指令、数据结构、程序模块等。如本文中所定义的，计算机存储介质不包括通信介质。因此，计算机存储介质本身不应当被理解成是传播信号。传播的信号本身不是计算机存储介质的示例。虽然计算机存储介质(存储器814)被示为在计算装置802内，但是本领域的技术人员应当领会，该存储可以是分布式的或位于远程并经由网络或其他通信链路(例如，使用通信接口816)来访问。

计算装置802可包括被配置成向可以与电子设备分开或集成在一起的一个或多个输入设备818和输出设备820(例如，显示器或扬声器)输出信息的输入/输出控制器822。输入/输出控制器818还可被配置成接收和处理来自一个或多个输入设备820(例如，键盘、话筒或触摸垫)的输入。在一个实施例中，输出设备822也可充当输入设备820。这样的设备的示例可以是触敏显示器。输入/输出控制器818还可以向除输出设备822之外的设备(例如，本地连接的打印设备)输出数据。在一些实施例中，用户可向(诸)输入设备820提供输入和/或从(诸)输出设备822接收输出。

在一些示例中，计算装置802检测语音输入、用户姿势或其他用户动作，并且提供自然用户界面(NUI)。此用户输入可用于创作电子墨迹、查看内容、选择墨迹控件、播放带有电子墨迹覆盖层的视频以及用于其他目的。在一些示例中，输入/输出控制器818向除显示设备之外的设备(例如，本地连接的打印设备)输出数据。

本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件来执行。根据一实施例，计算装置802由当被(诸)处理器804执行时执行所描述的操作和功能性的各示例和实现的程序代码进行配置。替换地或附加地，本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件来执行。例如而非限制，可被使用的硬件逻辑组件的说明性类型包括FPGA、ASIC、ASSP、SOC、CPLD和GPU。

附图中的各种元素的至少一部分功能可由附图中的其他元素或附图中未示出的实体(例如，处理器、web服务、服务器、应用程序、计算设备等)执行。

尽管结合一示例性计算系统环境进行了描述，但本公开的各示例能够用众多其它通用或专用计算系统环境、配置或设备实现。

可能适用于本公开的各方面的公知的计算系统、环境和/或配置的示例包括但不限于：移动或便携式计算设备(如智能手机)、个人计算机、服务器计算机、手持式设备(例如平板)或膝上型设备、多处理器系统、游戏控制台或控制器、基于微处理器的系统、机顶盒、可编程消费电子产品、移动电话、具有可穿戴或配件形状因子(例如，手表、眼镜、头戴式耳机或耳塞)的移动计算和/或通信设备、网络PC、小型计算机、大型计算机、包括上面的系统或设备中的任何一种的分布式计算环境等等。一般而言，本公开可通过具有处理能力使得其能够执行诸如本文所描述的指令的任何设备来操作。此类系统或设备可以以任何方式来接受来自用户的输入，包括来自诸如键盘或指点设备之类的输入设备、通过姿势输入、接近输入(诸如通过悬停)和/或通过语音输入。

本公开的各示例可在被软件、固件、硬件或其组合中的一个或多个计算机或其他设备执行的计算机可执行指令(诸如程序模块)的一般上下文中被描述。计算机可执行指令可以被组织成一个或多个计算机可执行的组件或模块。一般而言，程序模块包括但不限于，执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件，以及数据结构。可以利用任何数量的这样的组件或模块以及它们的任何组织来实现本公开的各方面。例如，本公开的各方面不限于附图中所举例说明并且在本文所描述的特定计算机可执行指令或特定组件或模块。本公开的其他示例可以包括具有比本文所示出和描述的功能更多或更少功能的不同的计算机可执行指令或组件。

在涉及通用计算机的示例中，在被配置成执行本文所描述的指令之时，本公开的各方面将通用计算机转化成专用计算设备。

其他示例包括：

一种用于合成语音检测的计算机化方法，所述计算机化方法包括：

接收包括音频的输入样本；

提取与所述音频中的语音相对应的声学特征；

使用多个神经网络来处理所提取的声学特征以输出经抽象特征；

使用池化来生成与所述经抽象特征相对应的特征向量；

在同一时间使用所述特征向量来执行对SSD任务、说话者分类任务和信道分类任务的训练；以及

至少使用经训练的SSD任务来检测合成语音。

其他示例包括：

一种用于合成语音检测的系统，所述系统包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使得所述至少一个处理器进行以下操作：

接收包括音频的输入样本；

提取与所述音频中的语音相对应的声学特征；

使用池化来生成与所述经抽象特征相对应的特征向量；

至少使用经训练的SSD任务来检测合成语音。

其他示例包括：

一个或多个具有用于合成语音检测的计算机可执行指令的计算机存储介质，所述计算机可执行指令在由处理器执行时使所述处理器至少进行以下操作：

接收包括音频的输入样本；

滤波所述音频；

使用深度结构化模型来处理经滤波音频，所述深度结构化模型在同一时间通过对SSD任务、说话者分类任务和信道分类任务的训练来开发；以及

使用经处理的音频来检测合成语音。

作为对上文描述的示例的替代或补充，示例包括以下各项的任意组合：

其中所述训练是使用前馈层来执行的，所述前馈层包括具有共享信息的SSD模型、说话者分类模型和信道分类模型。

其中所述特征向量仅是与所有所述经抽象特征相对应的一个向量。

其中所述多个神经网络是具有由用于执行所述训练的SSD模型、说话者分类模型和信道分类模型共享的输出的深度神经网络(DNN)。

进一步包括使用检测到的合成语音来标识物理攻击(PA)和逻辑攻击(LA)中的至少一者。

其中所述池化包括使用与所提取的声学特征相对应的多个权重的平均操作。

进一步包括结合所述池化使用梯度反转层来生成所述特征向量。

进一步包括生成所述输入样本中的所述音频的一个或多个输入段是合成语音的对数概率。

其中所述对数概率定义与所述一个或多个输入段是合成语音的可能性相对应的分数。

进一步包括将所述分数转换为显示与所述分数相对应的SSD结果和说话者信息的用户可显示信息。

如对本领域技术人员将显而易见的，本文中所给出的任何范围或设备值可以在不丢失所寻求的效果的情况下被扩展或被改变。

虽然用结构特征和/或方法动作专用的语言描述了本发明主题，但应当理解，所附权利要求书中定义的主题不必限于以上所描述的具体特征或动作。更确切而言，以上所描述的具体特征和动作是作为实现权利要求的示例形式公开的。

可以理解，上文所描述的益处及优点可涉及一个示例或者可涉及若干示例。各示例并不限于解决所阐述的问题中的任何或全部问题的那些实施例或者具有所阐述的益处和优点中的任何或全部益处和优点的那些实施例。将进一步理解，对一个憭项目的提及是指那些项目中的一个或多个。

本文所例示和描述的各示例以及本文未具体描述但是在各权利要求的各方面的范围内的各示例构成了用于训练神经网络的示例性装置。所解说的一个或多个处理器1004与存储在存储器1014中的计算机程序代码一起构成用于融合多模态数据的示例性处理装置。

术语“包括”在本说明书中被用来意指包括此后伴随的(一个或多个)特征或(一个或多个)动作，而不排除一个或多个附加特征或动作的存在。

在一些示例中，各附图中所例示的操作可以作为在计算机可读介质上编码的软件指令以被编程或设计为执行操作的硬件或这两者来实现。例如，本公开的各方面可以被实现为片上系统或包括多个互连的导电元件的其它电路。

本文所例示并描述的本公开的各示例中的操作的执行或完成的顺序不是必需的，除非另作指定。也就是说，除非另作指定，操作可以以任何顺序执行，本公开的各示例可以包括附加的或比本文所公开的操作更少的操作。例如，构想了在某一个操作之前、同时、或之后执行或完成另一个操作也在本公开的各方面的范围之内。

当介绍本公开的各方面的元素或其示例时，冠词“一”、“一个”、“该”、“所述”旨在意指一个或多个这样的元素。术语“包括”、“包含”、以及“具有”旨在是包含性的，并意指除所列出的元素以外可存在附加的元素。术语“示例性”旨在表示“……的一示例”。短语以下各项中的一个或多个：“A、B和C”意指“A中的至少一者和/或B中的至少一者和/或C中的至少一者”。

短语以下各项中的一个或多个：“A、B和C”意指“A中的至少一者和/或B中的至少一者和/或C中的至少一者”。如说明书和权利要求书中所使用的短语“和/或”应理解为意指如此联合的元素中的“任一者或两者”，即在某些情况下合取存在而在其他情况下析取存在的元素。以“和/或”列出的多个元素应以相同的方式解释，即如此联合的元素中的“一者或多者”。除“和/或”条款明确标识的元素外，其他元素也可以任选地存在，无论是否与明确标识的元素相关。因此，作为非限制性示例，当与开放式语言(诸如“包含”)结合使用时，对“A和/或B”的引用在一个实现中可以指仅A(可任选地包括B以外的元素)；在另一实现中，可以指仅B(可任选地包括A以外的元素)；在又一实现中，可以指A和B两者(可任选地包括其他元素)；等等。

如说明书和权利要求书中所使用的，“或”应理解为具有与上述定义的“和/或”相同的含义。例如，当分隔列表中的项目时，“或”或者“和/或”应解释为包含性的，即包含多个元素或一系列元素中的至少一者但也包括一个以上元素，以及可选地包括其他未列出的项目。”只有明确指出相反的术语，诸如“仅一者”或“恰好一者”，或在权利要求中使用时，“由……构成”将指包括多个或一系列元素中的恰好一个元素。一般而言，当前面有排他性术语时，诸如“任一个”、“之一”或“恰好一个”，则所使用的术语“或”仅应解释为表示排他性备选方案(即“一个或另一个而并非两者”)。当在权利要求中使用时，“主要由……构成”应具有在专利法领域中使用的一般含义。

如本说明书和权利要求书中所使用的，提及一个或多个元素的列表的短语“至少一者”应理解为指从元素列表中的任何一个或多个元素中选择的至少一个元素，但不一定包括元素列表中具体列出的每个元素中的至少一者，也不排除元素列表中的任何元素组合。该定义还允许元素可任选地存在于除短语“至少一者”所指的元素列表中具体标识的元素之外的其他元素，无论这些元素是否与那些具体标识的元素相关。因此，作为非限制性示例，“A和B中的至少一者”(或等效地，“A或B中的至少一者”，或等效地“A和/或B中的至少一者”)可以在一个实现中指至少一个A，可选地包括多个A，而不存在B(并且可任选地包括除B以外的元素)；在另一实现中，指至少一个B，可任选地包括多个B，而不存在A(可任选地包括除A以外的元素)；在又一实现中，指至少一个(可任选地包括多个)A和至少一个(可任选地包括多个)B(并且可任选地包括其他元素)；等等。

已经详细地描述了本公开的各方面，显然，在不偏离所附权利要求书所定义的本公开的各方面的范围的情况下，可以进行各种修改和变化。在不偏离本公开的各方面的范围的情况下，可以在上面的构造、产品以及方法中作出各种更改，意图是上面的描述中所包含的以及各附图中所示出的所有主题都应该解释为说明性的，而不是限制性的。

Claims

1.一种用于合成语音检测(SSD)的计算机化方法，所述计算机化方法包括：

接收包括音频的输入样本；

提取与所述音频中的语音相对应的声学特征；

使用池化来生成与所述经抽象特征相对应的特征向量；

在基本上同一时间使用所述特征向量来执行对SSD任务、说话者分类任务和信道分类任务的训练；以及

至少使用经训练的SSD任务来检测合成语音。

2.如权利要求1所述的计算机化方法，其特征在于，所述训练是使用前馈层来执行的，所述前馈层包括具有共享信息的SSD模型、说话者分类模型和信道分类模型。

3.如权利要求1所述的计算机化方法，其特征在于，所述特征向量仅是与所有所述经抽象特征相对应的一个向量。

4.如权利要求1所述的计算机化方法，其特征在于，所述多个神经网络是具有由用于执行所述训练的SSD模型、说话者分类模型和信道分类模型共享的输出的深度神经网络(DNN)。

5.如权利要求1所述的计算机化方法，其特征在于，进一步包括使用检测到的合成语音来标识物理攻击(PA)和逻辑攻击(LA)中的至少一者。

6.如权利要求1所述的计算机化方法，其特征在于，所述池化包括使用与所提取的声学特征相对应的多个权重的平均操作。

7.如权利要求1所述的计算机化方法，其特征在于，进一步包括结合所述池化使用梯度反转层来生成所述特征向量。

8.一种用于合成语音检测(SSD)的系统，所述系统包括：

至少一个处理器；以及

接收包括音频的输入样本；

提取与所述音频中的语音相对应的声学特征；

使用池化来生成与所述经抽象特征相对应的特征向量；

至少使用经训练的SSD任务来检测合成语音。

9.如权利要求8所述的系统，其特征在于，所述训练是使用前馈层来执行的，所述前馈层包括具有共享信息的SSD模型、说话者分类模型和信道分类模型。

10.如权利要求8所述的系统，其特征在于，所述特征向量仅是与所有所述经抽象特征相对应的一个向量。

11.如权利要求8所述的系统，其特征在于，所述多个神经网络是具有由用于执行所述训练的SSD模型、说话者分类模型和信道分类模型共享的输出的深度神经网络(DNN)。

12.如权利要求8所述的系统，其特征在于，进一步包括使用检测到的合成语音来标识物理攻击(PA)和逻辑攻击(LA)中的至少一者。

13.如权利要求8所述的系统，其特征在于，所述池化包括使用与所提取的声学特征相对应的多个权重的平均操作。

14.如权利要求8所述的系统，其特征在于，进一步包括结合所述池化使用梯度反转层来生成所述特征向量。

15.一个或多个具有用于合成语音检测(SSD)的计算机可执行指令的计算机存储介质，所述计算机可执行指令在由处理器执行时使所述处理器至少进行以下操作：

接收包括音频的输入样本；

滤波所述音频；

使用深度结构化模型来处理经滤波音频，所述深度结构化模型在基本上同一时间通过对SSD任务、说话者分类任务和信道分类任务的训练来开发；以及

使用经处理的音频来检测合成语音。