CN116705004A

CN116705004A - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN116705004A
Application number: CN202310499910.8A
Authority: CN
Inventors: 赵翔宇
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-09-05
Also published as: US20240363117A1

Abstract

本申请实施例提供了一种语音识别方法、装置、电子设备和存储介质，该语音识别方法包括：采集待识别语音片段；在采集所述待识别语音片段时并行对已采集到的语音数据进行编码，获得所述待识别语音片段的编码结果；对所述待识别语音片段的编码结果进行解码，获得所述待识别语音片段对应的文本数据。本方案能够在算力资源受限的语音识别设备中降低语音识别的时延。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及机器学习技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)是一种将语音转换为文本的技术，被广泛应用于智能对话机器人、智能音箱、广告机、会议翻译机等具有语音识别需求的设备中。自动语音识别通过语音识别模型实现，将语音数据输入语音识别模型后，语音识别模型将语音数据识别为文本数据并输入，常见的语音识别模型包括编码器和解码器，编码器对语音数据进行编码获得特征向量，解码器对特征向量进行解码获得文本数据。

目前，编码器和解码器均为非流式结构，即需要采集一整句话输入语音识别模型，编码器对这一整句话进行编码获得特征向量，解码器对特征向量进行解码获得文本数据。

然而，在算力资源受限的语音识别设备中，编码器的编码过程和解码器的解码过程都需要耗费较长的时间，导致语音识别的时延较高。

发明内容

有鉴于此，本申请实施例提供一种语音识别方法、装置、电子设备和存储介质，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种语音识别方法，包括：采集待识别语音片段；在采集所述待识别语音片段时并行对已采集到的语音数据进行编码，获得所述待识别语音片段的编码结果；对所述待识别语音片段的编码结果进行解码，获得所述待识别语音片段对应的文本数据。

根据本申请实施例的第二方面，提供了一种语音交互方法，应用于智能音箱，所述方法包括：采集用户发出的语音交互指令；在采集所述语音交互指令时并行对已采集到的语音数据进行编码，获得所述语音交互指令的编码结果；对所述语音交互指令的编码结果进行解码，获得所述语音交互指令对应的文本数据；根据所述语音交互指令对应的文本数据，发出语音反馈信息或执行交互动作。

根据本申请实施例的第三方面，提供了一种语音交互方法，应用于广告机，所述方法包括：采集用户发出的语音交互指令；在采集所述语音交互指令时并行对已采集到的语音数据进行编码，获得所述语音交互指令的编码结果；对所述语音交互指令的编码结果进行解码，获得所述语音交互指令对应的文本数据；根据所述语音交互指令对应的文本数据，发出语音反馈信息或播放反馈画面。

根据本申请实施例的第四方面，提供了一种语音识别装置，包括：采集单元，用于采集待识别语音片段；编码单元，用于在所述采集单元采集所述待识别语音片段时并行对已采集到的语音数据进行编码，获得所述待识别语音片段的编码结果；解码单元，用于对所述待识别语音片段的编码结果进行解码，获得所述待识别语音片段对应的文本数据。

根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行上述第一方面、第二方面或第三方面所述方法对应的操作。

根据本申请实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面、第二方面或第三方面所述的方法。

根据本申请实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行上述第一方面、第二方面或第三方面所述的方法。

由上述技术方案可知，在采集待识别语音片段时，并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果，然后对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据，即采用流式结构的编码器和非流式结构的解码器进行语音识别，实现编码器部分实时解析音频流，使算力资源在语音采集阶段和解码阶段均得到充分利用，语音数据采集的时间和对语音数据进行编码的过程重合，节省了语音识别过程中编码阶段所耗费的时间，从而在算力资源受限的语音识别设备中可以降低语音识别的时延。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例所应用示例性系统的示意图；

图2是本申请一个实施例的语音识别方法的流程图；

图3是本申请一个实施例的语音识别过程的示意图；

图4是本申请另一个实施例的语音识别过程的示意图；

图5是本申请一个实施例的编码方法的流程图；

图6是本申请一个实施例的编码过程的示意图；

图7是本申请另一个实施例的编码方法的流程图；

图8是本申请一个实施例的语音交互方法的流程图；

图9是本申请另一个实施例的语音交互方法的流程图；

图10是本申请一个实施例的语音识别装置的示意图；

图11是本申请一个实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

首先，对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释。

自动语音识别：自动语音识别(Automatic Speech Recognition，ASR)是一种将语音转换为文本的技术。

流式结构：可以对输入数据流实时处理的数据处理结构，流式结构的编码器可以对输入的语音数据流进行实时编码处理。

非流式结构：需要在输入数据流累积一定量后才能对数据流进行处理的数据处理结构。非流式结构的编码器需要对一整句话对应的语音数据进行编码处理，而在对一整句话中的部分内容对应的语音数据进行编码处理后，将导致语音识别处理错误。

矩阵运算：以矩阵为操作对象所进行的各类运算操作，包括矩阵加法、矩阵减法、矩阵乘法、矩阵转置、逆矩阵、对称矩阵等中的任意一个或多个的任意组合。

示例性系统

图1示出了一种适用于本申请实施例的语音识别方法的示例性系统。如图1所示，该系统可以包括云服务端102、通信网络104和至少一个用户设备106，图1中示例为多个用户设备106。需要说明的是，本申请实施例的方案既可应用于云服务端102，也可应用于用户设备106。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，在一些实施例中，云服务端102可以用于语音识别。作为可选的示例，在一些实施例中，云服务端102可以接收待识别语音片段，并在接收待识别语音片段时并行对已接收到的语音数据进行编码，获得待识别语音片段的编码结果，进而对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据。

通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(Wide AreaNetwork，WAN)、局域网(Local Area Network，LAN)、无线网络、数字订户线路(DigitalSubscriber Line，DSL)网络、帧中继网络、异步转移模式(Asynchronous Transfer Mode，ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如通信链路114)被链接到云服务端102。通信链路可以是适合于在云服务端102与用户设备106之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于进行交互的任何一个或多个用户设备。在一些实施例中，当由云服务端102进行语音识别时，用户设备106可以采集待识别语音片段，并通过通信网络104实时将采集到的语音数据发送给云服务端102，云服务端102在获得待识别语音片段对应的文本数据后，可以通过通信网络104将待识别语音片段对应的文本数据发送给相应的用户设备106。在另一些实施例中，用户设备106可以在本地进行语音识别，用户设备106采集待识别语音片段，并在采集待识别语音片段时并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果，进而对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据。在一些实施例中，用户设备106通过解码获得待识别语音片段对应的文本数据后，用户设备106还可以通过通信网络104将待识别语音片段对应的文本数据发送云服务端102。用户设备106可以包括任何合适类型的设备，例如，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、车辆系统、智能音箱、广告机、包括微控制单元(Microcontroller Unit，MCU)的各类物联网(Internet ofThings，IoT)设备和/或任何其他合适类型的用户设备。

本申请实施例主要着眼于云服务端102或用户设备106进行语音识别的过程，在后文中会对语音识别的过程进行详细描述。

语音识别方法

基于上述系统，本申请实施例提供了一种语音识别方法，该语音识别方法可由上述云服务端102或用户设备106执行。以下通过多个实施例对该语音识别方法进行详细说明。

图2是本申请一个实施例的语音识别方法的流程图。如图2所示，该语音识别方法包括如下步骤：

步骤201、采集待识别语音片段。

待识别语音片段是进行语音识别的单位输入数据。在进行语音识别时，由于语音内容的上下文存在关联，为了保证识别结果的准确性，需要以包括上下文关系的待识别语音片段为单位进行语音识别。待识别语音片段可以是一整句话。

步骤202、在采集待识别语音片段时并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果。

由于采集待识别语音片段需要持续一段时间，所以在采集待识别语音片段的过程中，可以并行对已采集到的语音数据进行编码，即待识别语音片段的采集过程与待识别语音片段的编码过程同步进行，在待识别语音片段采集完毕后，即刻完成待识别语音片段的编码，获得待识别语音片段的编码结果。

待识别语音片段以语音帧为单位，待识别语音片段包括多个语音帧，在采集待识别语音片段中后序语音帧的同时，可以对待识别语音片段中的前序语音帧进行编码。比如，待识别语音帧包括300个语音帧，在采集第i语音帧的同时，并行对第i-1个语音帧进行编码，i为大于或等于2且小于或等于300的正整数。

步骤203、对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据。

在获取到待识别语音片段的编码结果后，可以对编码结果进行解码，获得待识别语音片段对应的文本数据，文本数据即为对待识别语音片段进行语音识别的结果，即待识别语音片段为用户所表达内容的音频表示，而文本数据为用户所表达内容的文本表示。

应理解，对待识别语音片段进行编码可以通过语音识别模型包括的编码器(Encoder)实现，而对待识别语音片段的编码结果进行解码可以通过语音识别模型包括的解码器(Decoder)实现。

相关技术中，编码器和解码器均采用非流式结构，在采集到完整的待识别语音片段后，编码器开始对待识别语音片段进行编码，在编码器生成待识别语音片段的编码结果后，解码器对编码结果进行解码，获得待识别语音片段对应的文本数据。

图3是相关技术中语音识别过程的示意图。如图3所示，时间t0-t1为语音采集过程，时间t1-t2为编码过程，时间t2-t3为解码过程，语音识别的时延为(t3-t1)。在语音采集的过程中，CPU占用率较低，在语音采集结束的t1时刻CPU开始满负荷运行。在算力资源较为充足的语音识别设备，比如手机、个人电脑、服务器等，语音识别的时延可以控制的较低，比如(t1-t0)/(t3-t1)>5，即识别5s时长的语音片段需要1s。但是语音识别算法在算力资源受限的MCU级别芯片中部署时，1<(t1-t0)/(t3-t1)<1.5，即识别5s时长的语音片段至少需要3.3s，当(t3-t1)>1.5s时，用户能够感受到明显的停顿感。

图4是本申请实施例中语音识别过程的示意图。如图4所示，时间t0-t1采集语音数据的同时，同步对已采集到的语音数据进行编码，即编码器可以实时解析音频流，时间t1-t2为解码过程，语音识别的时延为(t2-t1)。在语音采集和解码过程中CPU占用率均较高。

在本申请实施例中，在采集待识别语音片段时，并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果，然后对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据，即采用流式结构的编码器和非流式结构的解码器进行语音识别，实现编码器部分实时解析音频流，使算力资源在语音采集阶段和解码阶段均得到充分利用，语音数据采集的时间和对语音数据进行编码的过程重合，节省了语音识别过程中编码阶段所耗费的时间，从而在算力资源受限的语音识别设备中可以降低语音识别的时延。

在一种可能的实现方式中，在对已采集到的语音数据进行编码时，可以对已采集到的当前语音帧进行特征提取，获得第一特征矩阵，然后对第一特征矩阵进行降采样，获得第二特征矩阵，然后根据第二特征矩阵计算当前语音帧的编码结果。其中，待识别语音片段的编码结果，基于待识别语音片段包括的多个语音帧的编码结果获得。

待识别语音片段包括多个语音帧，在对待识别语音片段进行编码时，可以针对一个语音帧进行编码，也可以针对相邻的多个语音帧进行编码，所以当前语音帧可以已经采集到的一个语音帧，也可以是已经采集到的多个相邻语音帧。比如，单个语音帧的时长为20ms，当前语音帧包括4个相邻语音帧，则当前语音帧的时长为80ms。

通过对当前语音帧进行特征提取，可以将音频数据转换为便于矩阵运算的矩阵，获得第一特征矩阵。在对当前语音帧进行特征提取时，可以将高维的语音数据映射到低维流形，低维流形的表征向量即为第一特征矩阵。在当前语音帧包括多个相邻语音帧时，可以对当前语音帧包括的多个语音帧分别进行特征提取，进而获得包括多个语音帧的特征提取结果的第一特征矩阵。

在对第一特征矩阵进行降采样时，可以按照预设步长对第一特征矩阵进行卷积，获得相对于第一特征矩阵数据量更少的第二特征矩阵。比如，以2为步长对第一特征矩阵进行卷积，将使第一特征矩阵的数据量减小至卷积前的1/4，如果单个语音帧的特征提取结果为1×20的向量，前语音帧包括4个相邻语音帧，则第一特征矩阵为1×80的向量，以2为步长对第一特征矩阵进行卷积后所获得第二特征矩阵为1×20的向量。

通过对第一特征矩阵进行降采样获得第二特征矩阵后，可以根据第二特征矩阵计算当前语音帧的编码结果，即可以将第二特征矩阵作为编码器的输入，通过编码器对第二特征矩阵进行编码，获得当前语音帧的编码结果。由于第二特征矩阵通过对第一特征矩阵进行降采样获得，所以在编码器对第二特征矩阵进行编码后，可以在输出层进行一次数据归一化和维度扩充，使得编码器输出的编码结果与第一特征矩阵具有相同的维度。

在对待识别语音片段包括的多个语音帧分别进行编码后，可以对多个语音帧的编码结果进行顺序拼接，获得待识别语音片段的编码结果。

在本申请实施例中，由于第二特征矩阵通过对第一特征矩阵进行降采样获得，所以第二特征矩阵相对于第一特征矩阵包括更少的数据量，进而将第二特征矩阵作为编码器的输入对当前语音帧进行编码时，可以减少计算量，减小编码过程对于算力资源的资源，使得本实施例提供的语音识别方法可以适用于算力资源受限的语音识别设备。由于减少了编码过程的计算量，所以可以缩短待识别语音片段中末尾语音帧的编码耗时，从而缩短语音识别的耗时，提高语音识别的效率。

在一种可能的实现方式中，在根据第二特征矩阵计算当前语音帧的编码结果时，可以根据第二特征矩阵和历史语音帧的编码结果，来计算当前语音帧的编码结果，以保证编码结果的准确性，实现编码器的流式结构。

图5是本申请一个实施例的编码方法的流程图。如图5所示，该编码方法包括如下步骤：

步骤501、将第二特征矩阵分别与权值矩阵W^K、权值矩阵W^Q和权值矩阵W^V相乘，获得第三特征矩阵K、第三特征矩阵Q和第三特征矩阵V。

权值矩阵W^K、权值矩阵W^Q和权值矩阵W^V是预先确定的三个权值矩阵，比如权值矩阵W^K、权值矩阵W^Q和权值矩阵W^V可以是在训练语音识别模型过程中形成的模型参数。计算第二特征矩阵与权值矩阵W^K的乘积，可以获得第三特征矩阵K。计算第二特征矩阵与权值矩阵W^Q的乘积，可以获得第三特征矩阵Q。计算第二特征矩阵与权值矩阵W^V的乘积，可以获得第三特征矩阵V。

步骤502、对第三特征矩阵K进行全连接层运算，获得当前语音帧对应的第四特征矩阵K。

通过对第三特征矩阵K进行全连接层运算，所获得的第四特征矩阵K与第三特征矩阵K具有相同的维度。比如，第三特征矩阵K的维度为8×176，全连接矩阵的维度为176×176，则第四特征矩阵K的维度仍为8×176。本申请实施例对全连接层运算的具体方式不作具体限定，相关技术中各类型的全连接层运算方法均适用于对第三特征矩阵K进行全连接层运算。

步骤503、对第三特征矩阵V进行全连接层运算，获得当前语音帧对应的第四特征矩阵V。

通过对第三特征矩阵V进行全连接层运算，所获得的第四特征矩阵V与第三特征矩阵K具有相同的维度。比如，第三特征矩阵V的维度为8×176，全连接矩阵的维度为176×176，则第四特征矩阵V的维度仍为8×176。本申请实施例对全连接层运算的具体方式不作具体限定，相关技术中各类型的全连接层运算方法均适用于对第三特征矩阵V进行全连接层运算。

图6是本申请一个实施例的编码过程的示意图。如图6所示，将全连接层运算定义为矩阵运算1，在获得第三特征矩阵K、第三特征矩阵Q和第三特征矩阵V后，分别针对第三特征矩阵K和第三特征矩阵V执行矩阵运算1，对第三特征矩阵K执行矩阵运算1获得第四特征矩阵K，对第三特征矩阵V执行矩阵运算1获得第四特征矩阵V。

步骤504、根据第三特征矩阵Q、当前语音帧对应的第四特征矩阵K和第四特征矩阵V、及历史语音帧对应的第四特征矩阵K和第四特征矩阵V，确定当前语音帧的编码结果。

在获取到当前语音帧对应的第四特征矩阵K和第四特征矩阵V后，根据第三特征矩阵Q、当前语音帧对应的第四特征矩阵K和第四特征矩阵V、即历史语音帧对应的第四特征矩阵K和第四特征矩阵V，确定当前语音帧的编码结果。

历史语音帧相当于当前语音帧而言，历史语音帧是在当前语音帧之前采集的语音帧，对语音帧进行编码按照语音帧的采集顺序依次进行，所以在对当前语音帧进行编码时，已经获得历史语音帧的编码结果。历史语音帧可以包括依次相邻的多个语音帧，比如历史语音帧包括依次相邻的语音帧1、语音帧2、语音帧3和语音帧4，语音帧4与当前语音帧相邻。历史语音帧对应的第四特征矩阵K和第四特帧矩阵V，与当前语音帧对应的第四特征矩阵K和第四特征矩阵V，具有相同的列数，比如，当前语音帧对应的第四特征矩阵K和第四特征矩阵V的维度均为8×176，历史语音帧包括依次相邻的4个语音帧，则历史语音帧对应的第四特征矩阵K和第四特征矩阵V的维度均为32×176，第三特征矩阵Q的维度为8×176。

在本申请实施例中，编码器可以使用注意力(Attention)结构作为骨干网络(backbone)，Attention结构网络当前时刻的输出不仅与当前时刻的输入有关，还与过去时刻的输入有关，所以根据第三特征矩阵Q、当前语音帧对应的第四特征矩阵K和第四特征矩阵V、及历史语音帧对应的第四特征矩阵K和第四特征矩阵V，确定当前语音帧的编码结果，实现结合上下文信息对语音帧进行编码，在降低语音识别时延的同时，保证语音识别结果的准确性。

在一种可能的实现方式中，在根据第三特征矩阵Q、当前语音帧对应的第四特征矩阵K和第四特征矩阵V、及历史语音帧对应的第四特征矩阵K和第四特征矩阵V，确定当前语音帧的编码结果时，可以将当前语音帧对应的第四特征矩阵K与历史语音帧对应的第四特征矩阵K进行拼接，获得第五特征矩阵K，并将当前语音帧对应的第四特征矩阵V与历史语音帧对应的第四特征矩阵V进行拼接，获得第五特征矩阵V，进而根据第三特征矩阵Q、第五特征矩阵K和第五特征矩阵V，确定当前语音帧的编码结果。

在一个例子中，第三特征矩阵Q的维度为8×176，当前语音帧对应的第四特征矩阵K和第四特征矩阵V的维度均为8×176，历史语音帧对应的第四特征矩阵K和第四特征矩阵V的维度均为32×176，则第五特征矩阵K和第五特征矩阵V的维度均为(32+8)×176。

在本申请实施例中，将当前语音帧对应的第四特征矩阵K与历史语音帧对应的第四特征矩阵K进行拼接获得第五特征矩阵K，将当前语音帧对应的第四特征矩阵V与历史语音帧对应的第四特征矩阵V进行拼接获得第五特征矩阵V，进而根据第三特征矩阵Q、第五特征矩阵K和第五特征矩阵V，确定当前语音帧的编码结果，通过拼接当前语音帧对应的第四特征矩阵与历史语音帧对应的第四特征矩阵，基于拼接获得的第五特征矩阵确定当前语音帧的编码结果，在保证语音识别结果准确性的前提下，可以使矩阵运算更加速快，提高语音识别的效率。

在一种可能的实现方式中，如图6所示，对当前语音帧对应的第四特征矩阵K与历史语音帧对应的第四特征矩阵K进行拼接获得第五特征矩阵K，对当前语音帧对应的第四特征矩阵V与历史语音帧对应的第四特征矩阵V进行拼接获得第五特征矩阵V，然后针对第三特征矩阵Q、第五特征矩阵K和第五特征矩阵V执行矩阵运算2，获得Attention结构网络的输出，进而可以根据Attention结构网络的输出确定当前语音帧的编码结果。下面对矩阵运算2的具体实现进行说明。

图7是本申请另一个实施例的编码方法的流程图。如图7所示，该编码方法包括如下步骤：

步骤701、计算第三特征矩阵Q与第五特征矩阵K的转置矩阵的乘积，获得第六特征矩阵。

计算第五特征矩阵K的转置矩阵后，计算第三特征矩阵Q与所获得转置矩阵的乘积，获得第六特征矩阵。在一个例子中，第三特征矩阵Q的维度为8×176，第五特征矩阵K的维度为40×176，则第五特征矩阵K的转置矩阵的维度为176×40，第六特征矩阵的维度为8×40。

步骤702、对第六特征矩阵进行归一化处理，获得第七特征矩阵。

通过预先设定的归一化参数，对第六特征矩阵进行归一化处理，获得第七特征矩阵。在对第六特征矩阵进行归一化处理时，将第六特征矩阵除以获得第七特征矩阵，d_k为归一化参数。在三特征矩阵Q的维度为8×176，第五特征矩阵K的维度为40×176时，归一化参数d_k可以等于176。

步骤703、通过激活函数对第七特征矩阵进行处理，获得第八特征矩阵。

用于对第七特征矩阵进行处理的激活函数可以是归一化指数函数(softmax)。

步骤704、计算第八特征矩阵与第五特征矩阵V的乘积，获得第九特征矩阵。

在第三特征矩阵Q的维度为8×176，第五特征矩阵K的维度为40×176时，六特征矩阵的维度为8×40，第七特征矩阵的维度为8×40，第八特征矩阵的维度为8×40，第九特征矩阵的维度为8×176，即第九特征矩阵与第三特征矩阵具有相同的维度。

步骤705、根据第九特征矩阵确定当前语音帧的编码结果。

编码器可以包括相叠加的多个Attention结构网络，前序Attention结构网络的输出作为后序Attention结构网络的输入。如果当前Attention结构网络是末位Attention结构网络，则对第九特征矩阵进行全连接层运算，获得当前语音帧的编码结果。如果当前前Attention结构网络不是末位Attention结构网络，则根据第九特征矩阵作为下一Attention结构网络的第二特征矩阵。

在本申请实施例中，根据第三特征矩阵Q、第五特征矩阵K和第五特征矩阵V，经矩阵乘法、归一化处理、施以激活函数等一系列处理，充分提取当前语音帧和历史语音帧的语音特征，获得当前语音帧的编码结果，保证当前语音帧的编码结果与用户表达的内容相匹配，从而提高语音识别的准确性。

在一种可能的实现方式中，由于在确定当前语音帧的编码结果时，需要使用历史语音帧对应的第四特征矩阵K和第四特征矩阵V，所以在确定当前语音帧的编码结果时，可以从第一缓存器中读取历史语音帧对应的第四特征矩阵K，并从第二缓存器中读取历史语音帧对应的第四特征矩阵V。

第一缓存器中缓存有至少一个语音帧对应的第四特征矩阵K，第二缓存器中缓存有至少一个语音帧对应的第四特征矩阵V，且同一语音帧对应的第四特征矩阵K和第四特征矩阵V分别被缓存在第一缓存器和第二缓存器中。

在一个例子中，在当前语音帧之前采集的一个或多个语音帧对应的第四特征矩阵K和第四特征矩阵V被分别缓存在第一缓存器和第二缓存器中。当一个语音帧对应的第四特征矩阵被缓存时，在待识别语音片段中该语音帧与当前语音帧相邻。当多个语音帧对应的第四特征矩阵被缓存时，在待识别语音片段中这多个语音帧依次相邻，且末位语音帧与当前语音帧相邻。

在读取历史语音帧对应的第四特征矩阵K时，可以读取第一缓存器中所存储的各语音帧对应的第四特征矩阵K，进而将所读取到的多个第四特征矩阵K进行顺序拼接，作为历史语音帧对应的第四特征矩阵K。在读取历史语音帧对应的第四特征矩阵V时，可以读取第二缓存器中所存储的各语音帧对应的第四特征矩阵V，进而将所读取到的多个第四特征矩阵V进行顺序拼接，作为历史语音帧对应的第四特征矩阵V。

在本申请实施例中，编码器中设置有第一缓存器和第二缓存器，第一缓存器用于缓存历史语音帧对应的第四特征矩阵K，第二缓存器用于缓存历史语音帧对应的第四特征矩阵V，使得编码器可以是流式结构，以实时解析音频流。

在一种可能的实现方式中，在获得当前语音帧对应的第四特征矩阵K和第四特征矩阵V后，将当前语音帧对应的第四特征矩阵K缓存到第一缓存器中，将当前语音帧对应的第四特征矩阵V缓存到第二缓存器中。

第一缓存器和第二缓存器具有容量上限，当第一缓存器被填满后，新的第四特征矩阵K将覆盖在第一缓存器中缓存时间最长的第四特征矩阵K，当第二缓存器被填满后，新的第四特征矩阵V将覆盖在第二缓存器中缓存时间最长的第四特征矩阵V。由于按照语音帧的采集顺序将语音帧对应的第四特征矩阵K/V缓存到第一缓存器/第二缓存器，所以第一缓存器中缓存着当前语音帧之前若干语音帧对应的第四特征矩阵K，第二缓存器中缓存着当前语音帧之前若干语音帧对应的第四特征矩阵V。

在本申请实施例中，在获得当前语音帧对应的第四特征矩阵K和第四特征矩阵V后，将当前语音帧对应的第四特征矩阵K缓存到第一缓存器中，将当前语音帧对应的第四特征矩阵V缓存到第二缓存器中，从而在对待识别语音片段中的后序语音片段进行编码时，可以从第一缓存器中读取当前语音帧对应的第四特征矩阵K，作为历史语音帧对应的第四特征矩阵K，并从第二缓存器中读取当前语音帧对应的第四特征矩阵V，作为历史语音帧对应的第四特征矩阵V，实现流式结构的编码器，在保证语音识别准确性的前提下，降低语音识别的时延。

需要说明的是，在上述各个实施例中，矩阵运算可以使用第五代精简指令集(RISC-V)、进阶精简指令集(Advanced RISC Machine，ARM)等带有vector指令集的CPU内核进行加速。

应用场景

图8是本申请一个实施例的语音交互方法的流程图，该语音交互方法应用于智能音箱。

如图8所示，该语音交互方法包括如下步骤：

步骤801、采集用户发送的语音交互指令。

步骤802、在采集语音交互指令时并行对已采集到的语音数据进行编码，获得语音交互指令的编码结果。

步骤803、对语音交互指令的编码结果进行解码，获得语音交互指令对应的文本数据。

步骤804、根据语音交互指令对应的文本数据，发出语音反馈信息或执行交互动作。

根据语音交互指令的不同，智能音箱可以发出语音反馈信息，比如回答用户的提问、播放音乐等，智能音箱还可以执行交互动作，比如控制灯的亮度、控制窗帘的开合、控制空调的温度和风速等。

在本申请实施例中，在采集语音交互指令时，并行对已采集到的语音数据进行编码，在采集语音交互指令完成后即可获得语音交互指令的编码结果，然后对语音交互指令的编码结果进行解码，获得语音交互指令对应的文本数据，进而根据语音交互指令对应的文本数据发出语音反馈信息或执行交互动作。采用流式结构的编码器和非流式结构的解码器进行语音识别，实现编码器部分实时解析音频流，使智能音箱的算力资源在语音采集阶段和解码阶段均得到充分利用，对语音数据进行采集的过程和对语音数据进行编码的过程重合，节省了语音识别过程中编码阶段所耗费的时间，从而可以降低智能音箱进行语音识别的时延，提升用户体验。

图9是本申请另一个实施例的语音交互方法的流程图，该语音交互方法应用于广告机。

如图9所示，该语音交互方法包括如下步骤：

步骤901、采集用户发出的语音交互指令。

步骤902、在采集语音交互指令时并行对已采集到的语音数据进行编码，获得语音交互指令的编码结果。

步骤903、对语音交互指令的编码结果进行解码，获得语音交互指令对应的文本数据。

步骤904、根据语音交互指令对应的文本数据，发出语音反馈信息或播放反馈画面。

根据语音交互指令的不同，广告机可以发出语音反馈信息，比如播放相关产品的广告音频、播放提示用户进行试用的提示语音等，广告机还可以播放反馈画面，比如通过显示屏播放广告图片或广告视频等。

在本申请实施例中，在采集语音交互指令时，并行对已采集到的语音数据进行编码，在采集语音交互指令完成后即可获得语音交互指令的编码结果，然后对语音交互指令的编码结果进行解码，获得语音交互指令对应的文本数据，进而根据语音交互指令对应的文本数据发出语音反馈信息或播放反馈画面。采用流式结构的编码器和非流式结构的解码器进行语音识别，实现编码器部分实时解析音频流，使广告机的算力资源在语音采集阶段和解码阶段均得到充分利用，对语音数据进行采集的过程和对语音数据进行编码的过程重合，节省了语音识别过程中编码阶段所耗费的时间，从而可以降低广告机进行语音识别的时延，提升用户体验。

需要说明的是，本申请实施例中的语音交互方法基于前述实施例中的语音识别方法实现，所以本申请实施例中的语音交互方法是前述实施例中语音识别方法的具体应用，语音交互方法不仅适用于智能音箱和广告机，还适用于其他算力资源受限的语音识别设备，语音交互方法中关于语音识别的具体过程，可参见前述语音识别方法实施例中的描述，在此不再进行赘述。

语音识别装置

对应于上述语音识别方法实施例，图10示出了本申请一个实施例的语音识别装置的示意图。如图10所示，该语音识别装置100包括：

采集单元110，用于采集待识别语音片段；

编码单元120，用于在采集单元110采集待识别语音片段时并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果；

解码单元130，用于对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据。

在本申请实施例中，在采集单元110采集待识别语音片段时，编码单元120并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果，然后解码单元130对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据，即采用流式结构的编码器和非流式结构的解码器进行语音识别，实现编码器部分实时解析音频流，使算力资源在语音采集阶段和解码阶段均得到充分利用，语音数据采集的时间和对语音数据进行编码的过程重合，节省了语音识别过程中编码阶段所耗费的时间，从而在算力资源受限的语音识别设备中可以降低语音识别的时延。

需要说明的是，本实施例的语音识别装置用于实现前述方法实施例中的语音识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

电子设备

图11是本申请实施例提供的一种电子设备的示意性框图，本申请具体实施例并不对电子设备的具体实现做限定。如图11所示，该电子设备可以包括：处理器(processor)1102、通信接口(Communications Interface)1104、存储器(memory)1106、以及通信总线1108。其中：

处理器1102、通信接口1104、以及存储器1106通过通信总线1108完成相互间的通信。

通信接口1104，用于与其它电子设备或服务器进行通信。

处理器1102，用于执行程序1110，具体可以执行前述任一语音识别方法实施例或语音交互方法实施例中的相关步骤。

具体地，程序1110可以包括程序代码，该程序代码包括计算机操作指令。

处理器1102可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

RISC-V是一种基于精简指令集(RISC)原则的开源指令集架构，其可以应用于单片机和FPGA芯片等各个方面，具体可应用在物联网安全、工业控制、手机、个人计算机等领域，且由于其在设计时考虑了小型、快速、低功耗的现实情况，使得其尤其适用于仓库规模云计算机、高端移动电话和微小嵌入式系统等现代计算设备。随着人工智能物联网AIoT的兴起，RISC-V指令集架构也受到越来越多的关注和支持，并有望成为下一代广泛应用的CPU架构。

本申请实施例中的计算机操作指令可以是基于RISC-V指令集架构的计算机操作指令，对应地，处理器1102可以基于RISC-V的指令集设计。具体地，本申请实施例提供的电子设备中的处理器的芯片可以为采用RISC-V指令集设计的芯片，该芯片可基于所配置的指令执行可执行代码，进而实现上述实施例中的语音识别方法或语音交互方法。

存储器1106，用于存放程序1110。存储器1106可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序1110具体可以用于使得处理器1102执行前述任一实施例中的语音识别方法或语音交互方法。

程序1110中各步骤的具体实现可以参见前述任一语音识别方法实施例或语音交互方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本申请实施例的电子设备，在采集待识别语音片段时，并行对已采集到的语音数据进行编码，获得待识别语音片段的编码结果，然后对待识别语音片段的编码结果进行解码，获得待识别语音片段对应的文本数据，即采用流式结构的编码器和非流式结构的解码器进行语音识别，实现编码器部分实时解析音频流，使算力资源在语音采集阶段和解码阶段均得到充分利用，语音数据采集的时间和对语音数据进行编码的过程重合，节省了语音识别过程中编码阶段所耗费的时间，从而在算力资源受限的语音识别设备中可以降低语音识别的时延。

计算机存储介质

本申请还提供了一种计算机可读存储介质，存储用于使一机器执行如本文所述的语音识别方法或语音交互方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本申请的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

计算机程序产品

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

需要说明的是，本公开实施例所涉及到的与用户有关的信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于对模型进行训练的样本数据、用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音识别方法，其特征在于，包括：

采集待识别语音片段；

在采集所述待识别语音片段时并行对已采集到的语音数据进行编码，获得所述待识别语音片段的编码结果；

对所述待识别语音片段的编码结果进行解码，获得所述待识别语音片段对应的文本数据。

2.根据权利要求1所述的方法，其中，所述对已采集到的语音数据进行编码，包括：

对已采集到的当前语音帧进行特征提取，获得第一特征矩阵；

对所述第一特征矩阵进行降采样，获得第二特征矩阵；

根据所述第二特征矩阵，计算所述当前语音帧的编码结果，其中，所述待识别语音片段的编码结果，基于所述待识别语音片段包括的多个语音帧的编码结果获得。

3.根据权利要求2所述的方法，其中，所述根据所述第二特征矩阵，计算所述当前语音帧的编码结果，包括：

将所述第二特征矩阵分别与权值矩阵W^K、权值矩阵W^Q和权值矩阵W^V相乘，获得第三特征矩阵K、第三特征矩阵Q和第三特征矩阵V；

对所述第三特征矩阵K进行全连接层运算，获得所述当前语音帧对应的第四特征矩阵K；

对所述第三特征矩阵V进行全连接层运算，获得所述当前语音帧对应的第四特征矩阵V；

根据所述第三特征矩阵Q、所述当前语音帧对应的第四特征矩阵K和第四特征矩阵V、及历史语音帧对应的第四特征矩阵K和第四特征矩阵V，确定所述当前语音帧的编码结果。

4.根据权利要求3所述的方法，其中，所述根据所述第三特征矩阵Q、所述当前语音帧对应的第四特征矩阵K和第四特征矩阵V、及历史语音帧对应的第四特征矩阵K和第四特征矩阵V，确定所述当前语音帧的编码结果，包括：

将所述当前语音帧对应的第四特征矩阵K与历史语音帧对应的第四特征矩阵K进行拼接，获得第五特征矩阵K；

将所述当前语音帧对应的第四特征矩阵V与历史语音帧对应的第四特征矩阵V进行拼接，获得第五特征矩阵V；

根据所述第三特征矩阵Q、所述第五特征矩阵K和所述第五特征矩阵V，确定所述当前语音帧的编码结果。

5.根据权利要求4所述的方法，其中，所述根据所述第三特征矩阵Q、所述第五特征矩阵K和所述第五特征矩阵V，确定所述当前语音帧的编码结果，包括：

计算所述第三特征矩阵Q与所述第五特征矩阵K的转置矩阵的乘积，获得第六特征矩阵；

对所述第六特征矩阵进行归一化处理，获得第七特征矩阵；

通过激活函数对所述第七特征矩阵进行处理，获得第八特征矩阵；

计算所述第八特征矩阵与所述第五特征矩阵V的乘积，获得第九特征矩阵；

根据所述第九特征矩阵确定所述当前语音帧的编码结果。

6.根据权利要求3-5中任一所述的方法，所述方法还包括：

从第一缓存器中读取历史语音帧对应的第四特征矩阵K，其中，所述第一缓存器中缓存有至少一个语音帧对应的第四特征矩阵K；

从第二缓存器中读取历史语音帧对应的第四特征矩阵V，其中，所述第二缓存器中缓存有至少一个语音帧对应的第四特征矩阵V。

7.根据权利要求6所述的方法，所述方法还包括：

将所述当前语音帧对应的第四特征矩阵K缓存至所述第一缓存器中；

将所述当前语音帧对应的第四特征矩阵V缓存至所述第二缓存器中。

8.一种语音交互方法，应用于智能音箱，其特征在于，所述方法包括：

采集用户发出的语音交互指令；

在采集所述语音交互指令时并行对已采集到的语音数据进行编码，获得所述语音交互指令的编码结果；

对所述语音交互指令的编码结果进行解码，获得所述语音交互指令对应的文本数据；

根据所述语音交互指令对应的文本数据，发出语音反馈信息或执行交互动作。

9.一种语音交互方法，应用于广告机，其特征在于，所述方法包括：

采集用户发出的语音交互指令；

根据所述语音交互指令对应的文本数据，发出语音反馈信息或播放反馈画面。

10.一种语音识别装置，其特征在于，包括：

采集单元，用于采集待识别语音片段；

编码单元，用于在所述采集单元采集所述待识别语音片段时并行对已采集到的语音数据进行编码，获得所述待识别语音片段的编码结果；

解码单元，用于对所述待识别语音片段的编码结果进行解码，获得所述待识别语音片段对应的文本数据。

11.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如权利要求1-9中任一项方法对应的操作。

12.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一项的方法。

13.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-9中任一项的方法。