CN105845135A

CN105845135A - 一种机器人系统的声音识别系统及方法

Info

Publication number: CN105845135A
Application number: CN201510015421.6A
Authority: CN
Inventors: 蔡鹏�; 高鹏; 江涛; 程堂; 程一堂; 向文杰
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2015-01-12
Filing date: 2015-01-12
Publication date: 2016-08-10
Also published as: CA2973512A1; NZ734339A; JP2018507434A; HK1222254A1; EP3246915A1; TWI576825B; TW201626363A; WO2016112634A1; SG11201705705SA; KR20170103925A; JP6572314B2; EP3246915A4; US20160343376A1; ZA201705424B

Abstract

本发明公开了一种机器人系统的声音识别系统，包括：麦克风，用于接收语音指令；本地语音检测器，对语音指令进行检测并进行输出；本地语音识别模块，接收语音检测器输出的人声语音信号并选择进行甄别选择进行输出；本地语音编码模块，用于对人声语音信号进行编码后输出；远程语音解码模块，用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出；远程语音识别模块和远程语言处理模块，远程语音识别模块接收远程语音解码模块输出的经解码过的人声语音信号，在进行转换后输出到远程语言处理模块，远程语言处理模块根据转换后的人声语音信号生成相应的操作指令；执行模块，用于执行远程语言处理模块的操作指令。

Description

一种机器人系统的声音识别系统及方法

技术领域

本发明涉及智能语音领域，具体涉及一种机器人系统的声音识别系统及方法。

背景技术

机器人系统的声音识别系统主要涉及两大主要技术：语音识别技术及自然语言处理技术。

语音识别技术，也被称为自动语音识别(Automatic SpeechRecognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

自然语言处理技术(Natural Language Processing，简称NLP)，是人工智能和语言学的分支科学，它的主要目的是为了实现人与计算机之间用自然语言进行有效通信。

现有主流机器人系统的声音识别系统都运用了这两大技术。

机器人系统的声音识别过程可分为四个阶段：接收语音，语音识别，自然语言处理和动作执行。

现有机器人系统对语音的接收方式不一，主要可概括为以下三种：1、非实时输入：机器人只有在额外触发动作执行，确认触发之后再开始接收语音输入。2、实时输入：机器人一直接收外界的语音输入，对所有判断为人声输入的。3、实时输入：机器人一直接收外界的语音输入，每次语音输入需要使用固定语句来进行触发。

无论用哪种语音接收方式，当机器人接收到语音信号之后，首先通过语音识别技术将语音转换成计算机可读输入，通常为字符序列，即文字；然后通过自然语言处理技术将语音识别的结果进行自然语言分析及处理，以得到该语音信号的真正意思；最后根据自然语言处理的结果做出相应的反应，执行命令及动作。

现有机器人系统的声音识别系统主要有以下三个问题：

1、需要额外触发动作触发才能开始进行语音交流：在最自然的交互方式中增加了多余的交互，降低了用户体验。

2、并非真正的可以让人使用自然语言与机器人进行交谈，多为固定的语句或句式，涉及的使用范围非常有限，当一个人不知道这些固定的语句或句式的时候，他将不知道如何去与机器人交流。

3、要么不能做到实时反馈，要么能耗太高并且有大量的误触发，使得人与机器人之间的交互不流畅，与机器人的交流会变得小心翼翼。

发明内容

针对现有技术中存在的问题，本发明提供了一种机器人系统的声音识别系统，其中，包括：

麦克风，以实时接收外部的语音信号；

本地语音检测器，对所述语音信号进行检测，并判断当前的语音信号是否包含人声，若包含人声则进行输出；

本地语音识别模块，接收所述语音检测器输出的人声语音信号并进行甄别，以判断当前的人声语音信号是否包含唤醒指令，若包含唤醒指令则进行输出；

本地语音编码模块，用于对人声语音信号进行编码后输出；

远程语音解码模块，所述远程语音解码模块用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出；

远程语音识别模块和远程语言处理模块，所述远程语音识别模块接收所述远程语音解码模块输出的经解码过的人声语音信号，在进行转换后输出到所述远程语言处理模块，所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令；

执行模块，用于执行所述远程语言处理模块的操作指令。

上述的声音识别系统，其中，所述麦克风位于始终开启的状态，以不间断的实时接收外部语音信号。

上述的声音识别系统，其中，所述系统还包括一多媒体模块，通过所述多媒体模块来执行所述操作指令。

上述的声音识别系统，其中，所述本地语音识别模块通过数据流的方式将人声语音信号输出到所述远程语音识别模块。

上述的声音识别系统，其中，所述系统还包括一唤醒指令编辑模块，以对所述唤醒指令进行编辑。

上述的声音识别系统，其中，所述本地语音检测器为基于神经网络算法的语音检测器。

上述的声音识别系统，其中，所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令的处理时间在10～20ms之间。

同时本发明还公开了一种采用上述识别系统的识别方法，其中，包括如下步骤：

利用所述麦克风实时接收外部的语音信号；

利用所述本地语音检测器来判断当前的语音信号是否包含人声，若包含人声则输出至所述本地语音识别模块；

利用所述本地语音识别模块对人声语音信号进行甄别，以判断当前的人声语音信号是否包含唤醒指令，若包含唤醒指令则将所述人声语音信号进一步进行输出至所述本地语音编码模块；

所述本地语音编码模块对人声语音信号进行编码后传输到所述远程语音编码模块；

所述远程语音解码模块对收到的人声语音信号进行解码后传输到所述远程语音识别模块；

利用所述远程语音识别模块对所述远程语音解码模块输出的人声语音信号进行转换，并输出到所述远程语言处理模块；

所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令；

所述执行模块通过操控所述多媒体模块来执行所述操作指令。

上述的方法，其中，在所述本地语音识别模块甄别到当前的人声语音信号包含有唤醒指令时，本地语音识别模块关闭，人声语音信号经过所述本地语音编码模块的编码之后，直接传输到所述远程语音解码模块进行解码后传输到利用所述远程语音识别模块。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图，重点在于示出本发明的主旨。

图1为本发明声音识别系统结构和运行案例。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

为了彻底理解本发明，将在下列的描述中提出详细的步骤以及详细的结构，以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

本发明作为机器人系统的耳朵，是机器人理解人的语言以及最自然的人机交互体验的重要部分，因此需要解决以下三个方面的问题：1、完全使用语音来进行交流，不需要任何额外的触发动作。2、可以让人真正的使用自然语言与机器人进行交流，不需要固定的语句或句式就可以在工作、生活的各个领域进行交流。3、在做到实时反馈、极少误触发的情况下保持可观的能耗。

为了解决上述技术问题，本发明提供了一种机器人系统的声音识别系统，包括：

1、麦克风，以实时接收外部的语音信号。在本发明一可选但非限制的实施例中，麦克风位于始终开启的状态，以不间断的实时接收外部语音信号。其作用是收集外界的语音数据，作为机器人系统的耳朵。

2、本地语音检测器，对语音信号进行检测，并判断当前的语音信号是否包含人声，若包含人声则进行输出。由于本发明中的机器人系统麦克风始终处于开启状态，但环境中会有各种各样的声音，其中很大一部分是噪声，对机器人系统的声音识别是无意义的，为了避免无意义的性能损耗及大量的误触发，机器人系统需要对收集到的声音进行分析和判断，只有认为收集到的声音主要来自人声(即人说话的声音)才会将该声音数据传到识别系统。

在本发明一可选但非限制的实施例中，本地语音检测器为基于神经网络算法的语音检测器，能够准确、快速地对输入的语音数据进行人声判断，这是避免环境噪声造成误触发，降低网络及服务请求开销的关键部分。

3、本地语音识别模块，接收语音检测器输出的人声语音信号并进行甄别，以判断当前的人声语音信号是否包含唤醒指令，若包含唤醒指令则进行输出。在本发明的机器人系统中，即使由语音检测器判断出收集到的声音是来自人声，这段人声也未必是有意义的。通俗而言即这段话并非是对机器人而讲，如果将这段语音也上传到服务端进行分析，则会浪费大量的时间和性能。因此，就需要首先在本地快速判断这段声音是否是对机器人而讲，就像人与人说话一样，人会先判断是否在对自己说话，然后才做出回应。

在本发明中，采用特殊调优过的本地语音识别模块可以快速的识别出所输入的自然语言是否是说给机器人听的，并且可以随时地任意地更新、修改激活的词汇或短语(在本发明的机器人系统中定义为机器人的名字，就如同一个人或一只宠物的名字)，其判断准确率可达90％。在本发明一可选但非限制的实施例中，假设机器人的名字即唤醒指令，那么可以通过一唤醒指令编辑模块，以对唤醒指令进行编辑，人们可根据自己的喜好任意的设定机器人的名称，方便快捷。

4、远程语音解码模块，远程语音解码模块用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出。

5、远程语音识别模块和远程语言处理模块，远程语音识别模块接收远程语音解码模块输出的经解码过的人声语音信号，在进行转换后输出到远程语言处理模块，远程语言处理模块根据转换后的人声语音信号生成相应的操作指令。

其中，远程语音识别模块拥有更完整的语言模型和声学模型，能够覆盖日常生活中的90％以上的常用语言，能够支持多种语言，如英文，中文及日文等；并可以支持中文的多种方言，如广东话，四川话，河南话等。对本发明中的机器人系统所涉及的特定领域亦有更强优化，其语音识别的准确率可达95％以上。另外，在本发明一可选但非限制的实施例中，本发明中的本地语音识别模块是通过数据流的方式将人声语音信号输出到远程语音识别模块，语音识别模块从收到的第一帧数据开始就已经开始进行实时识别了，因此当语音结束后，整句话的识别结果已经产生，真正做到了实时性，从语音数据发送结束到最终识别结果的形成不超过100ms。远程自然语言处理服务可覆盖日常生活中80％的使用场景，能够快速的命中所输入的自然语言涉及到的所有领域，处理时间通常在10-20ms之间。因此，在网络稳定的情况下，本发明中的整个声音识别过程不会超过500ms。

6、执行模块，用于执行远程语言处理模块操作指令。在本发明一可选但非限制的实施例中，该执行模块通过操控一多媒体模块来执行远程语言处理模块下发的操作指令，例如打开音乐、导航、发短信、控制灯光等等操作。

用户体验：只需要使用最符合人的交互方式—语音、自然语言。以上模块共同保证了本发明中机器人系统真正能够完全使用自然语言来进行实时输入和实时反馈，并保证了系统的性能功耗的平衡及整个系统的稳定。

同时本发明还提供了一种上述识别系统的识别方法，包括如下步骤：

步骤S1：利用麦克风实时接收外部的语音信号；

步骤S2：利用本地语音检测器来判断当前的语音信号是否包含人声，若包含人声则输出至本地语音识别模块；

步骤S3：利用本地语音识别模块对人声语音信号进行甄别，以判断当前的人声语音信号是否包含唤醒指令，若包含唤醒指令则将人声语音信号进一步进行输出至本地语音编码模块；

步骤S4：本地语音编码模块对人声语音信号进行编码后传输到远程语音解码模块；

步骤S5：远程语音解码模块对经编码过的人声语音信号进行解码后传输到远程语音识别模块；

步骤S6：利用远程语音识别模块对远程语音解码模块输出的人声语音信号进行转换，并输出到远程语言处理模块；

步骤S7：远程语言处理模块根据转换后的人声语音信号生成相应的操作指令；

步骤S8：执行模块，通过操控多媒体模块来执行操作指令。

可选但非限制，在本地语音识别模块甄别到当前的人声语音信号包含有唤醒指令时，本地语音识别模块关闭，人声语音信号经过本地语音编码模块的编码之后，直接传输到所述远程语音解码模块进行解码后传输到利用远程语音识别模块.

请参照图1所示，假设机器人叫做“R2”，主人对机器人说：“R2，我现在心情不好，来点音乐吧”，这时处于一直收听状态的麦克风收到的数据经过本地语音检测器，本地语音检测器检测到这时候已经不是环境噪声了，而是有人在说话了，但机器人需要知道是不是在跟自己说话，于是这段语音就会被送到本地语音检测器进行识别，这时候本地语音识别服务发现是在叫自己(因为叫了它的名字“R2”)，所以后面的话都是跟自己说的，为了理解这句话的意思，这段语音先通过本地语音编码模块的编码后，之后再通过网络发送到远程语音解码模块进行解码后输出到远程语音识别服务进行识别，进而进行自然语言的分析，经过分析，发现这句话要表达的意思是主人“心情不好，需要点音乐”，于是将这个结果发给机器人行为决策系统(相当于思考怎么回应)，经过一番思考，机器人决定为主人放一些“治愈系的音乐”，并将这个决策发回到本地系统，最后本地系统会根据这个结果找到一些“治愈系的音乐”并开始播放。

综上所述，由于本发明采用了如上技术方案，可以完全使用语音来进行交流，不需要任何额外的触发动作；同时可以让人真正的使用自然语言与机器人进行交流，不需要固定的语句或句式就可以在工作、生活的各个领域进行交流；在做到实时反馈、极少误触发的情况下保持可观的能耗。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种机器人系统的声音识别系统，其特征在于，包括：

麦克风，以实时接收外部的语音信号；

本地语音编码模块，用于对人声语音信号进行编码后输出；

执行模块，用于执行所述远程语言处理模块的操作指令。

2.如权利要求1所述的声音识别系统，其特征在于，所述麦克风位于始终开启的状态，以不间断的实时接收外部语音信号。

3.如权利要求1所述的声音识别系统，其特征在于，所述系统还包括一多媒体模块，通过所述多媒体模块来执行所述操作指令。

4.如权利要求1所述的声音识别系统，其特征在于，所述本地语音识别模块通过数据流的方式将人声语音信号输出到所述远程语音识别模块。

5.如权利要求1所述的声音识别系统，其特征在于，所述系统还包括一唤醒指令编辑模块，以对所述唤醒指令进行编辑。

6.如权利要求1所述的声音识别系统，其特征在于，所述本地语音检测器为基于神经网络算法的语音检测器。

7.如权利要求1所述的声音识别系统，其特征在于，所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令的处理时间在10～20ms之间。

8.一种采用如权利要求1-7任意一项所述识别系统的识别方法，其特征在于，包括如下步骤：

利用所述麦克风实时接收外部的语音信号；

9.如权利要求8所述的方法，其特征在于，在所述本地语音识别模块甄别到当前的人声语音信号包含有唤醒指令时，本地语音识别模块关闭，人声语音信号经过所述本地语音编码模块的编码之后，直接传输到所述远程语音解码模块进行解码后传输到利用所述远程语音识别模块。