CN116403573A

CN116403573A - 一种语音识别方法

Info

Publication number: CN116403573A
Application number: CN202310064142.3A
Authority: CN
Inventors: 李林峰; 牛坤; 黄海荣
Original assignee: Hubei Xingji Meizu Technology Co Ltd
Current assignee: Hubei Xingji Meizu Technology Co Ltd
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-07-07
Anticipated expiration: 2043-01-11
Also published as: CN116403573B

Abstract

本申请提供一种语音识别方法，该方法包括：获取待识别音频的特征数据；将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵；通过第一语言模型对所述时序标签矩阵进行解码，得到多个解码路径及其对应的概率得分，将概率得分前N的解码路径确定为N个第一解码结果，其中，N为正整数；基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域；基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果；基于所述第二解码结果确定所述待识别音频的语音识别结果。本申请在保证语音识别准确率的前提下也提高了识别效率。

Description

一种语音识别方法

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法。

背景技术

在现有的语音交互场景中，如汽车语音交互场景，其中的导航和音乐是两种应用比较广的垂域，由于导航的兴趣点、音乐多媒体的歌名以及歌手名的数量相当庞大，需要采用语言模型对用户语音进行识别，进而为用户提供相应的语音服务。

然而，现有语言模型在进行语音识别时，对于场景中的不同的新语音内容(如新地点名称和新音乐名称等)，仍然使用相同的语言模型进行解码和处理，导致语言模型的识别针对性不强，计算量大，使得效率和识别准确率仍存在不足，需要得到进一步提升。

发明内容

针对现有技术存在的问题，本申请提供一种语音识别方法。

第一方面，本申请实施例提供一种语音识别方法，包括：

获取待识别音频的特征数据；

将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵；

通过第一语言模型对所述时序标签矩阵进行解码，得到多个解码路径及其对应的概率得分，将概率得分前N的解码路径确定为N个第一解码结果，其中，N为正整数；

基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域；

基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果；

基于所述第二解码结果确定所述待识别音频的语音识别结果。

在一些实施例中，所述第一语言模型是一元语言模型或二元语言模型，所述第二语言模型是二元语言模型或多元语言模型，且所述第二语言模型的阶数大于所述第一语言模型。

在一些实施例中，所述声学模型是通过标记有字符标签的样本特征数据，对神经网络进行训练得到的，其中，所述样本特征数据为滤波器组特征；

所述将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵，包括：

将所述待识别音频的特征数据输入到所述声学模型中，得到每一帧的特征数据对应的字符以及字符概率；

基于所述待识别音频每一帧音频的时序关系，通过所述字符和所述字符概率，构建得到所述特征数据对应的时序标签矩阵。

在一些实施例中，所述第一语言模型中的算法是贪心算法、束搜索算法、前缀束搜索算法和带权重的前缀束搜索算法中的任意一种。

在一些实施例中，所述基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域，包括：

基于所述待识别音频的获取途径，获取当前场景领域和上一轮语音交互场景领域；

基于所述N个第一解码结果获取N个候选意图领域，包括将所述N个第一解码结果输入到训练好的意图识别模型中，得到所述待识别音频对应的N个候选意图领域，以及各个候选意图领域的概率得分；

根据所述当前场景领域、所述上一轮语音交互场景领域以及所述N个候选意图领域之间的关系，确定目标意图领域。

在一些实施例中，所述根据所述当前场景领域、所述上一轮语音交互场景领域以及所述N个候选意图领域之间的关系，确定目标意图领域，包括：

按照所述N个第一解码结果的概率得分，依次将所述N个候选意图领域，与所述当前场景领域和所述上一轮语音交互场景领域进行比对后，确定目标意图领域，具体包括：

将，所述N个候选意图领域中，第一个与所述上一轮语音交互场景领域和所述当前场景领域的领域类型相同的领域，或第一个与所述当前场景领域的领域类型相同的领域，或第一个与所述上一轮语音交互场景领域的领域类型相同的领域，确定为目标意图领域。

在一些实施例中，所述目标意图领域是导航，所述基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果和基于所述第二解码结果确定所述待识别音频的语音识别结果，还包括：

确定语音和上下文中包含一个或多个城市；

在所述一个或多个城市的语言模型上重打分，获得分高的作为重打分结果。

在一些实施例中，所述基于所述第二解码结果确定所述待识别音频的语音识别结果，还包括：

对所述第一解码结果设置第一权重值，对所述第二解码结果设置第二权重值；

基于所述第一解码结果、所述第一权重值、所述第二解码结果和所述第二权重值，确定所述待识别音频的语音识别结果。

第二方面，本申请实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面任一种所述语音识别方法。

第三方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面任一种所述语音识别方法。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的终端设备手机的硬件结构示意图；

图2为本申请一个实施例提供的终端设备手机的软件结构框图；

图3为本申请一个实施例提供的语音识别方法的流程示意图；

图4为本申请一个实施例提供的音频特征数据的提取过程示意图；

图5为本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在目前车载语音交互和移动终端(如手机)交互的场景中，导航应用和音乐应用是较为广泛的垂域，由于导航的兴趣点、音乐多媒体的歌名和歌手名的数量较为庞大，而且新地点和新歌层出不穷，需要经常对语音识别过程中的语言模型进行更新，以提高语言模型在解码过程的效率和准确性。然而，现有语言模型存在如下问题：模型尺寸对于计算效率和准确度的影响，即结构尺寸较大的语言模型，对于语音识别的准确度较高，但是计算量大且内存空间占用大；而结构尺寸较小的语言模型，虽然计算量小，但准确度相对也会降低，即便分割语言模型，进行二次解码，还是存在模型大小、计算量和准确度之间的矛盾。

在目前车载语音交互和移动终端(如手机)语音交互的场景中，大部分语音交互场景都带有上下文相关信息，也就是说用户大部分交互是在一个可知的子场景中，例如，用户导航交互中，一般是选择目的地、规划路线和查周边信息；或者，用户订火车票，要经过好几轮语音交互，需要咨询出发地、目的地、出发时间和车次车型等，此时也会有相应的界面展示给用户，从而可确定用户当前所处的业务场景中。因此，本申请实施例提供了一种语音识别方法，把二次解码过程中的重打分语言模型(即第二语言模型)，根据垂域(如导航领域、天气领域、音乐领域和车牌领域等)分成多个子模型，根据语义上下文确定当前垂域需要用到的重打分语言模型，相比现有技术中仅采用一个重打分语言模型，使用多种重打分语言模型，每种重打分语言模型只需对自身垂域下的语音进行识别，在保证语音识别准确率的前提下也提高了识别效率，减少了计算量。需要注意的是，本申请的实施例中的重打分语言模型(即第二语言模型)不限于只有根据垂域分成的子模型。在一些实施例中，在一个具体的应用领域，重打分语言模型(即第二语言模型)还可以是根据这个应用领域的一些特征来细分的子模型。比如在导航场景中，重打分语言模型可以是根据城市建立的子模型。如果语音和上下文中包含城市名(甲城市和/或乙城市)，重打分语言模型可以是基于城市的语言模型(甲城市和/或乙城市)。因此，在一个导航场景中，如果语音和上下文中包含一个或多个城市时，本申请的一个实施例可以在这一个或多个城市的语言模型上重打分，并取得分高的作为重打分结果。

本申请一个实施例提供的语音识别方法，可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality，简称AR)/虚拟现实(Virtual Reality，简称VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，简称UMPC)、上网本、个人数字助理(Personal Digital Assistant，简称PDA)等终端设备上，还可以应用于数据库、服务器以及基于终端人工智能的服务响应系统，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，简称SIP)电话、无线本地环路(WirelessLocal Loop，简称WLL)站、个人数字处理(Personal Digital Assistant，简称PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network，简称PLMN)中的移动终端或者未来演进的非地面网络(Non-terrestrial Network，简称NTN)中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如配置有近场通信模块的手套、手表等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备，通过附着与用户身上，通过预先绑定的电子卡，执行支付、认证等操作。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行具有显示屏的智能手表、智能手环等。

在本实施例中，上述终端设备可以是具备如图1所示的硬件结构的手机100，如图1所示，手机100具体可以包括：射频(Radio Frequency，简称RF)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、短距离无线通信模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的手机100的结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，简称LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，所述无线通信可以包括全球移动通讯系统(Global System for Mobile communications，简称GSM)，通用分组无线服务(General Packet Radio Service，简称GPRS)，码分多址接入(Code Division multipleAccess，简称CDMA)，宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)，时分码分多址(Time-Division Code Division Multiple Access，简称TD-SCDMA)，长期演进(Long Term Evolution，简称LTE)，新空口(New Radio，简称NR)，GNSS，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System，简称GPS)，全球导航卫星系统(Global Navigation Satellite System，简称GLONASS)，北斗卫星导航系统(BeiDou navigation satellite system，简称BDS)，准天顶卫星系统(Quasi-Zenithsatellite System，简称QZSS)和/或星基增强系统(Satellite BasedAugmentation Systems，简称SBAS)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。具体地，该存储器120可以存储有应用程序。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机100的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(LiquidCrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。可选地，手机可以通过学习算法，获取得到的用户执行刷卡动作时，各个传感器的测量值，从而在手机接近刷卡设备之前，提前确定用户是否需要执行刷卡操作，并采集当前的场景信息，确定场景类型，从而进一步提高了电子卡的选取效率。

音频电路160、扬声器161，传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。

Wi-Fi、蓝牙以及近距离无线通信(Near Field Communication，简称NFC)等通信技术属于短距离无线传输技术，手机通过短距离无线模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。上述短距离无线模块170可以包括Wi-Fi芯片、蓝牙芯片以及NFC芯片，通过该Wi-Fi芯片可以实现手机100与其他终端设备进行Wi-Fi Direct连接的功能，也可以使手机100工作在能够提供无线接入服务，允许其它无线设备接入的AP模式(Access Point模式)或工作在可以连接到AP不接受无线设备接入的STA模式(Station模式)，从而建立手机100与其他Wi-Fi设备的点对点通信。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；可选地，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

手机100还包括给各个部件供电的电源190(比如电池)，可选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

手机100还可以包括摄像头。可选地，摄像头在手机上的位置可以为前置的，也可以为后置的，本申请实施例对此不作限定。

手机100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明手机100的软件结构。

图2是本申请一个实施例的手机100的软件结构框图。将Android系统分为四层，分别为应用程序层、应用程序框架层(Framework，简称FWK)、系统层以及硬件抽象层，层与层之间通过软件接口通信。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(Applicationprogramming Interface，简称API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。在一些实施例中，上述内核层还包含PCIE驱动。

在本申请实施例中，以车载终端作为执行主体为例对本申请提供的语音识别方法进行说明。需要说明的是，上述执行主体并不构成对本申请的限制。

图3为本申请一个实施例提供的语音识别方法的流程示意图，如图3所示，本申请实施例提供了一种语音识别方法，该方法流程步骤仅仅作为本申请一个可能的实现方式，包括：

步骤301，获取待识别音频的特征数据。

在本申请实施例中，可通过车载语音系统，获取到用户的待识别音频，需要说明的是，在不同的场景下，用户根据自身应用需求开启相应的应用程序(Application，简称APP)，如导航程序和音乐播放程序，进而通过这些应用程序获取到对应的待识别音频，例如，用户开启导航程序后，询问导航目的地的路线，使得车载语音系统获取到该询问语句，进而生成对应的回答语句与用户进行语音交互。在本申请中，待识别音频可以是脉冲编码调制(Pulse Code Modulation，简称PCM)音频或者WAV数据，音频采样率一般为16000hz，位宽为16bit，单声道。

进一步地，在一实施例中，对待识别音频进行特征提取，本实施例从待识别音频中计算出(Filterbank，简称FBANK)语音特征数据，以作为后续语音识别声学模型的输入。该FBANK语音特征数据是通过梅尔滤波器的功率谱的幅度平方求和后再取对数得到的，相比梅尔倒谱特征(Mel Frequency Cepstral Coefficents，简称MFCC)少了一步离散余弦变换，可提高特征提取效率。

步骤302，将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵。

在本申请实施例中，通过将上述实施例中得到FBANK特征输入到声学模型中，通过声学模型实现FBANK特征到字符的映射，从而得到由声学模型输出的每一帧FBANK特征对应的字符，以及每一帧FBANK特征对应字符的概率，以构建时序标签矩阵，例如，16帧FBANK特征数据，声学模型共5000个字符，则声学模型输出矩阵为[16，5000]。需要说明的是，在本申请实施例中，声学模型是基于标记有字符标签的样本FBANK特征，对神经网络(例如基于Transformer网络)进行训练得到的。

步骤303，通过第一语言模型对所述时序标签矩阵进行解码，得到多个解码路径及其对应的概率得分，将概率得分前N的解码路径确定为N个第一解码结果，其中，N为正整数。

在本申请实施例中，将上述实施例得到的时序标签矩阵输入到第一语言模型中，通过第一语言模型进行解码，从而得到n个解码路径结果N-best list，即得到n个最优解码路径词图，需要通过后续对应的第二语言模型进行重打分后，确定最终的解码路径词图。

在本申请实施例中，语言模型的准确度和结构尺寸大小，主要是由Grammar模型决定的，其中，Grammar模型是由若干句子生成的，具有字词间的前后依赖关系。在实际场景中的语音识别系统中，语言模型HCLG(其中，H表示声学模型到状态的映射；C表示上下文相关，状态到三音子的映射；L表示lexicon词典映射；G表示grammar模型，一句话中连续字之间的依赖映射)包括第一语言模型和多个第二语言模型，第一语言模型中的Grammar模型的结构尺寸比较小，其计算量较小，虽然语音识别准确度不高，但是可较快完成解码过程，例如，ngram-1(又称为1-gram或一元语言模型)；第二语言模型重打分过程使用的语言模型G2模型则是完整的大语言模型，例如，ngram-2(又称为2-gram或二元语言模型)或ngram-3(又称为3-gram或多元语言模型)，语音识别准确度高。需要说明的是，ngram-1模型统计每一个字的概率得分，不考虑前后关系；ngram-2模型考虑前一个字的概率得分；ngram-3模型则考虑前两个字的概率得分，可参考表1所示：

表1

	ngram-1	ngram-2	ngram-3
				模型尺寸空间	小	中	大
模型计算量	小	中	大
				识别准确度	低	中	高

进一步地，本申请实施例在采用一元语言模型对时序标签矩阵进行解码时，第二语言模型可以是二元语言模型或三元语言模型；而当第一语言模型采用二元模型时，则第二语言模型为三元语言模型或阶数更高的语言模型，即需要保证第二语言模型对应的模型阶数大于第一语言模型。其中，解码方式可采用贪心算法(greedy search)、束搜索算法(beam search)和前缀束搜索算法(prefix beam search)。

步骤304，基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域；

步骤305，基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果；

步骤306，基于所述第二解码结果确定所述待识别音频的语音识别结果。

在本申请实施例中，通过一个训练好的意图识别模型，对上述实施例中得到的多个解码路径结果进行意图识别，从而获取待识别音频对应的所有相关的意图领域，包括意图类型、词槽和状态等信息。进而再结合待识别音频的当前场景领域(即该音频生成时的场景领域，例如，通过导航APP获取，或通过音乐APP获取得到)和上下文场景领域(基于上一轮用户与语音识别系统之间的交互过程确定，例如，上一轮交互过程，用户询问天气，则上一轮场景领域为天气查询领域)，从而准确判定待识别音频所对应的目标意图领域，以根据目标意图领域确定后续的重打分模型。

进一步地，在确定了目标意图领域之后，进而可选取该目标意图领域对应的第二语言模型，在本申请实施例中，第二语言模型是根据不同的意图领域，在前期预先训练好的，例如，导航领域的第二语言模型，音乐领域的第二语言模型等，并且，每个第二语言模型均是通过多元语言模型，ngram-2模型或ngram-3模型构建得到的，由于在训练过程中，不同的第二语言模型只需针对各自领域的样本数据进行训练，将以往二次解码过程中结构巨大的二次解码重打分语言模型切分成多个子业务的语言模型，并根据上下文语义理解的结果，选择不同的重打分语言模型，使得模型在训练好之后，只需对本意图领域的解码路径结果进行重打分，从而在减少计算量的同时，也保证了语言识别准确度。

本申请实施例提供了一种语音识别方法，将二次解码过程中的重打分语言模型，根据不同的意图领域分成多个第二语言模型，从而通过语义上下文确定目标重打分语言模型，使得每种重打分语言模型只需对自身垂域下的语音进行识别，在保证语音识别准确率的前提下也提高了识别效率。

需要说明的是，本申请每一个实施方式可以自由组合、调换顺序或者单独执行，并不需要依靠或依赖固定的执行顺序。

在一些实施例中，所述获取待识别音频的特征数据，包括：

对所述待识别音频进行预处理，得到预处理后的待识别音频，其中，所述预处理包括信号增强处理、分帧处理和加窗处理；

对所述预处理后的待识别音频进行傅里叶变换，得到频谱信息；

通过梅尔滤波器，按照预设维度，对所述频谱信息进行提取，得到所述待识别音频的特征数据。

图4为本申请一个实施例提供的音频特征数据的提取过程示意图，可参考图4所示，在本申请实施例中，通过步骤401，对音频文件(即待识别音频)进行预加重处理，从而对高频信号增强；然后，通过步骤402和步骤403，对增强后的音频信号分帧和加窗处理，其中，分帧处理把音频信号按照10ms一帧分开，以防止2帧之间丢失信息，每次使用25ms的信号计算特征，也就是每次移动10ms，实际使用25ms的信号；再通过步骤404，经过傅里叶变换从时域信号得到频域信号，也就是频谱；进一步地，通过步骤405取功率谱、步骤406幅度平方、步骤407梅尔滤波器组映射和步骤408取对数等操作，从而在累加某一时间的频域得到语谱后，再经过梅尔滤波器组把频率映射到梅尔频率标度，最后取对数得到FBANK特征，即得到待识别音频的特征数据。需要说明的是，在本实施例中，一般梅尔滤波器组取80个，也就是每帧音频对应80个输出。在实际的语音识别中，可使用多帧音频一起作为一次识别输入，通过流式识别，使得解码过程不必等到全部录音结束，从而在用户讲话过程中持续进行语音识别。

在本申请实施例中，通过神经网络来构建声学模型，例如，基于Transformer网络，以标记有字符标签的样本语音特征数据进行训练，从而得到训练好的声学模型。在本申请一实施例中，采用端到端的语音识别，声学建模单元是基于样本FBANK特征，输出标签为对应的字符。在另一实施例中，还可基于音素建模得到声学模型，比如Kaldi，声学建模单元为MFCC特征(该特征是在Mel标度频率域提取出来的倒谱参数，是一种在自动语音和说话人识别中广泛使用的特征)，输出标签为高斯混合模型的状态。

在本申请实施例中，可根据实际需求，采用不同的解码方式应用于第一语言模型，具体可参考表2所示：

表2

在本申请实施例中，采用第三种具有加权有限状态转换器(weighted finitestate transducer，简称WFST)的维特比静态解码方式，分别在第一语言模型和第二语言模型中进行解码，实现两次解码过程，也就是把语言模型分成小模型HCLG_small和大模型G_big，先在小模型HCLG_small上找出N条最优解码路径，再在对应的大模型G_big上选择目标解码路径(即通过当前意图领域的第二语言模型进行重打分)。

进一步地，在本申请实施例中，语言模型可通过多种算法实现解码，优选地，在一实施例中，采用具有加权有限状态转换器的前缀束搜索算法(WFST prefix beam search)，即带权重的前缀束搜索算法实现解码过程。

可选地，在本申请实施例中，当采用贪心算法进行解码时，每一个步骤保留最大概率的字符，虽然该算法简单，但准确度降低。在一实施例中，可参考表3中不同帧对应的概率：

表3

	T1	T2	T3
				blank	0.5	0.4	0.6
A	0.2	0.3	0.3
				B	0.3	0.3	0.1

在表3中，T1、T2和T3分别对应3个不同帧的字符标签的概率，其中，标签分别为blank空白标签、A标签和B标签。当三个时刻全部选择blank空白标签时，3个帧都是blank，整个解码路径的概率，即所有标签概率的乘积为0.5×0.4×0.6＝0.12。

如果选择A标签，则可以有“A--”、“--A”和“-A-”三种组合路径，其中，“-”表示blank空白标签。此时，A标签的概率为这3种路径概率的和，即0.09+0.048+0.06＝0.198，大于全部为blank空白标签的概率0.12，同理算出B标签的概率，最后确定A标签的概率最大，也就是说greedy search解码结果为A。

在另一实施例中，当采用束搜索算法时，选择每个时刻的最大概率，但基于神经网络的时序类分类(Connectionist Temporal Classification，简称CTC)解码的目的是选择概率最大的路线，二者有时并不是一致的。束搜索算法就是为了应对这种不一致，每次保持N个最优的路线，而不仅仅是使用当前时刻概率最大字符，这里N是一个超参，采用束搜索算法解码计算量更大，但是结果更准确。

在一个实施例中，当采用前缀束搜索算法时，通过前缀束搜索每一步骤保留N个概率最大的分支，如果发现前面已经处理过的时间节点有相同的线路，则合并它们，等于增加了多样性。相比束搜索算法解码，前缀束搜索算法的解码准确度更高。

优选地，在本申请一实施例中，采用具有加权有限状态转换器的前缀束搜索算法进行解码，在解码过程中，除了满足上述实施例中前缀束搜索算法的特征外，每一次跳转还考虑了权重，这个权重是在创建语言模型时生成的，例如，连续的3个字：“我”、“想”、“吃”组成一句话的概率，就比“想”、“吃”、“我”的概率要大，这是因为“吃”这个字，跟在“我”和“想”后面的概率更大，也就是跳转权重更大，解码路径更优。

在本申请实施例中，基于第一语言模型获取到的多个解码路径结果，可通过一个训练好的意图训练模型，得到对应多个的意图识别结果，这个模型在训练过程中，在标记有意图领域标签的样本解码路径图的基础上，还在训练集中添加相关的样本上下文信息和上一轮语音交互过程中的场景领域信息，使得训练好的意图识别模型可更为准确的识别解码路径对应的意图。在一实施例中，意图识别模型对多个解码路径结果进行意图识别，得到多个对应的意图领域，例如，意图领域“火车票”(购票意图)、导航意图和天气查询意图等。

进一步地，根据待识别音频的获取途径，例如，通过车载语音系统中导航APP获取得到的，可判断获知当前场景领域为导航场景领域；或者，通过手机终端的天气查询APP获取待识别音频，则判断获知当前场景领域为天气查询场景领域。另外，基于不同的获取途径，再根据用户在进行语音交互过程中的上下文信息，获取得到在获取当前待识别音频前，上一轮语音交互场景领域，例如，用户上一轮说的是天气，则上一轮语音交互场景领域为天气查询场景领域。

进一步地，由于第一语言模型解码得到的多种解码路径结果，都可能对应用户当前所需的意图领域，不能直接将得分概率最高的解码路径结果所对应的意图作为目标意图领域，需要结合当前场景领域和上一轮语音交互场景领域，从多个候选意图领域中确定目标意图领域，从而获取到更能符合当前语音交互场景的第二语言模型。

在本申请一个实施例中，首先预先设置不同意图领域对应的不同语言模型，可参考表4所示：

表4

根据第一语言模型输出的解码路径结果对应的语义，以及上下文相关的场景领域，从上述多个第二语言模型中选择相应的语言模型，从而得到一个最符合当前语音交互场景的G_big语言模型(即目标语言模型)。具体地，在一实施例中，按照概率得分从高到低的顺序，依次将各个候选意图领域进行排序，在当前场景领域以及上一轮语音交互场景领域一致的情况下，若得分概率最高的候选意图领域，与当前场景领域以及上一轮语音交互场景领域也一致，即候选意图领域、当前场景领域以及上一轮语音交互场景领域，均为同一场景领域，则可将这个概率得分最高的候选意图领域作为目标意图领域，进而从多个第二语言模型中选取对应的G_big语言模型；当得分概率最高的候选意图领域，与当前场景领域以及上一轮语音交互场景领域不一致时，再将概率得分第二高的候选意图领域，与当前场景领域以及上一轮语音交互场景领域进行匹配，若仍不相同，则按照排序进行选取下一个候选意图领域，直至满足三种意图领域都一致的情况，确定得到目标意图领域。需要说明的是，可设置一个预设选取阈值，当选取的候选意图领域的数量超过该预设选取阈值时，判断此时无法确定待识别音频的意图领域，可能是用户语音不清楚导致，需要进行再次语音询问。

在一实施例中，在当前场景领域和上一轮语音交互场景领域不一致的情况下，仅需候选意图领域与其中一种场景领域匹配成功，即可判定该候选意图领域为目标意图领域，例如，上一轮语音交互场景领域为天气查询，当前场景领域为导航，而概率得分最高的候选意图领域也是导航，则判断用户上一轮关于天气查询的交互场景已结束，此时用户发出的待识别音频是关于导航领域的。

在本申请实施例中，在确定了目标语音模型后，再对第一语言模型解码输出的n条解码路径，重新计算n条解码路径的得分，重打分的解码同样可采取具有加权有限状态转换器的前缀束搜索算法实现。进而评估2次解码的n条路径得分，确定目标解码路径词图。在一实施例中，通常第二次解码得分比第一次更准确，所以可以直接使用第二次解码结果，也就是将第二次解码得分最高的解码路径作为目标解码路径，从而输出对应的语音识别结果。

优选地，在另一实施例中，所述基于所述第二解码结果确定所述待识别音频的语音识别结果，还包括：

在本申请实施例中，还可以把第一次解码的得分乘以权重w1，加上第二次解码的得分乘以权重w2，比较最终结果，再确定最终的解码路径，以使得语音识别结果更准确性，其中，w2>w1，例如，w2＝0.7，w1＝0.3。

确定语音和上下文中包含一个或多个城市；

在这一个或多个城市的语言模型上重打分，取得分高的作为重打分结果。针对现有导航兴趣点具有地域局限性，大部分地点名在特定的城市或者区域。因此，本申请实施例将不同地点(城市)的二次解码重打分语言模型，根据位置信息再次细分，在模型训练过程中，结合了该位置信息中相关的样本数据进行训练，例如，结合不同地点(城市)的方言、景观和标志性建筑等信息，使得第二语言模型会根据当前的地理坐标选择不同地方对应的目标语言模型，以提高用户语音交互过程的体验度。

在本申请实施例中，通过位置信息将第二语言模型做了进一步划分，当语音交互过程中存在多个地址语句时，例如，导航出发地和目的地，或，火车票查询是两个城市火车站名时，在此类语音交互场景中，会通过两种城市对应的第二语言模型对第一语音模型输出的解码路径结果进行重打分，最终将概率得分高的作为重打分结果，从而更为准确的识别用户语音。

下面对本申请提供的语音识别系统进行描述，下文描述的语音识别系统与上文描述的语音识别方法可相互对应参照。

本申请实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本申请一个实施例提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(Processor)501、通信接口(Communications Interface)502、存储器(Memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行语音识别方法，该方法包括：获取待识别音频的特征数据；将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵；通过第一语言模型对所述时序标签矩阵进行解码，得到多个解码路径及其对应的概率得分，将概率得分前N的解码路径确定为N个第一解码结果，其中，N为正整数；基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域；基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果；基于所述第二解码结果确定所述待识别音频的语音识别结果。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音识别方法，该方法包括：获取待识别音频的特征数据；将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵；通过第一语言模型对所述时序标签矩阵进行解码，得到多个解码路径及其对应的概率得分，将概率得分前N的解码路径确定为N个第一解码结果，其中，N为正整数；基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域；基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果；基于所述第二解码结果确定所述待识别音频的语音识别结果。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音识别方法，该方法包括：获取待识别音频的特征数据；将所述特征数据输入到声学模型中，得到所述特征数据对应的时序标签矩阵；通过第一语言模型对所述时序标签矩阵进行解码，得到多个解码路径及其对应的概率得分，将概率得分前N的解码路径确定为N个第一解码结果，其中，N为正整数；基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域；基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果；基于所述第二解码结果确定所述待识别音频的语音识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别音频的特征数据；

2.根据权利要求1所述的语音识别方法，其特征在于，所述第一语言模型是一元语言模型或二元语言模型，所述第二语言模型是二元语言模型或多元语言模型，且所述第二语言模型的阶数大于所述第一语言模型。

3.根据权利要求1所述的语音识别方法，其特征在于，所述声学模型是通过标记有字符标签的样本特征数据，对神经网络进行训练得到的，其中，所述样本特征数据为滤波器组特征；

4.根据权利要求1所述的语音识别方法，其特征在于，所述第一语言模型中的算法是贪心算法、束搜索算法、前缀束搜索算法和带权重的前缀束搜索算法中的任意一种。

5.根据权利要求1或2所述的语音识别方法，其特征在于，所述基于所述N个第一解码结果、上一轮语音交互领域和当前场景领域确定对应的目标意图领域，包括：

6.根据权利要求5所述的语音识别方法，其特征在于，所述根据所述当前场景领域、所述上一轮语音交互场景领域以及所述N个候选意图领域之间的关系，确定目标意图领域，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述目标意图领域是导航，所述基于所述目标意图领域确定相对应的第二语言模型，通过所述第二语言模型，对所述概率得分前N的解码路径重新计算概率值，生成第二解码结果和基于所述第二解码结果确定所述待识别音频的语音识别结果，还包括：

确定语音和上下文中包含一个或多个城市；

在所述一个或多个城市的语言模型上重打分，取得分高的作为重打分结果。

8.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述第二解码结果确定所述待识别音频的语音识别结果，还包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述语音识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述语音识别方法。