[go: up one dir, main page]

CN105845135A - 一种机器人系统的声音识别系统及方法 - Google Patents

一种机器人系统的声音识别系统及方法 Download PDF

Info

Publication number
CN105845135A
CN105845135A CN201510015421.6A CN201510015421A CN105845135A CN 105845135 A CN105845135 A CN 105845135A CN 201510015421 A CN201510015421 A CN 201510015421A CN 105845135 A CN105845135 A CN 105845135A
Authority
CN
China
Prior art keywords
voice
module
voice signal
local
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510015421.6A
Other languages
English (en)
Inventor
蔡鹏�
高鹏
江涛
程堂
程一堂
向文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yutou Technology Hangzhou Co Ltd
Original Assignee
Yutou Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yutou Technology Hangzhou Co Ltd filed Critical Yutou Technology Hangzhou Co Ltd
Priority to CN201510015421.6A priority Critical patent/CN105845135A/zh
Priority to SG11201705705SA priority patent/SG11201705705SA/en
Priority to PCT/CN2015/081409 priority patent/WO2016112634A1/zh
Priority to EP15877550.2A priority patent/EP3246915A4/en
Priority to NZ734339A priority patent/NZ734339A/en
Priority to CA2973512A priority patent/CA2973512A1/en
Priority to KR1020177022361A priority patent/KR20170103925A/ko
Priority to JP2017537986A priority patent/JP6572314B2/ja
Priority to US14/764,268 priority patent/US20160343376A1/en
Priority to TW104144159A priority patent/TWI576825B/zh
Publication of CN105845135A publication Critical patent/CN105845135A/zh
Priority to HK16110421.0A priority patent/HK1222254A1/zh
Priority to AU2017101077A priority patent/AU2017101077A4/en
Priority to ZA2017/05424A priority patent/ZA201705424B/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种机器人系统的声音识别系统,包括:麦克风,用于接收语音指令;本地语音检测器,对语音指令进行检测并进行输出;本地语音识别模块,接收语音检测器输出的人声语音信号并选择进行甄别选择进行输出;本地语音编码模块,用于对人声语音信号进行编码后输出;远程语音解码模块,用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出;远程语音识别模块和远程语言处理模块,远程语音识别模块接收远程语音解码模块输出的经解码过的人声语音信号,在进行转换后输出到远程语言处理模块,远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;执行模块,用于执行远程语言处理模块的操作指令。

Description

一种机器人系统的声音识别系统及方法
技术领域
本发明涉及智能语音领域,具体涉及一种机器人系统的声音识别系统及方法。
背景技术
机器人系统的声音识别系统主要涉及两大主要技术:语音识别技术及自然语言处理技术。
语音识别技术,也被称为自动语音识别(Automatic SpeechRecognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
自然语言处理技术(Natural Language Processing,简称NLP),是人工智能和语言学的分支科学,它的主要目的是为了实现人与计算机之间用自然语言进行有效通信。
现有主流机器人系统的声音识别系统都运用了这两大技术。
机器人系统的声音识别过程可分为四个阶段:接收语音,语音识别,自然语言处理和动作执行。
现有机器人系统对语音的接收方式不一,主要可概括为以下三种:1、非实时输入:机器人只有在额外触发动作执行,确认触发之后再开始接收语音输入。2、实时输入:机器人一直接收外界的语音输入,对所有判断为人声输入的。3、实时输入:机器人一直接收外界的语音输入,每次语音输入需要使用固定语句来进行触发。
无论用哪种语音接收方式,当机器人接收到语音信号之后,首先通过语音识别技术将语音转换成计算机可读输入,通常为字符序列,即文字;然后通过自然语言处理技术将语音识别的结果进行自然语言分析及处理,以得到该语音信号的真正意思;最后根据自然语言处理的结果做出相应的反应,执行命令及动作。
现有机器人系统的声音识别系统主要有以下三个问题:
1、需要额外触发动作触发才能开始进行语音交流:在最自然的交互方式中增加了多余的交互,降低了用户体验。
2、并非真正的可以让人使用自然语言与机器人进行交谈,多为固定的语句或句式,涉及的使用范围非常有限,当一个人不知道这些固定的语句或句式的时候,他将不知道如何去与机器人交流。
3、要么不能做到实时反馈,要么能耗太高并且有大量的误触发,使得人与机器人之间的交互不流畅,与机器人的交流会变得小心翼翼。
发明内容
针对现有技术中存在的问题,本发明提供了一种机器人系统的声音识别系统,其中,包括:
麦克风,以实时接收外部的语音信号;
本地语音检测器,对所述语音信号进行检测,并判断当前的语音信号是否包含人声,若包含人声则进行输出;
本地语音识别模块,接收所述语音检测器输出的人声语音信号并进行甄别,以判断当前的人声语音信号是否包含唤醒指令,若包含唤醒指令则进行输出;
本地语音编码模块,用于对人声语音信号进行编码后输出;
远程语音解码模块,所述远程语音解码模块用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出;
远程语音识别模块和远程语言处理模块,所述远程语音识别模块接收所述远程语音解码模块输出的经解码过的人声语音信号,在进行转换后输出到所述远程语言处理模块,所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;
执行模块,用于执行所述远程语言处理模块的操作指令。
上述的声音识别系统,其中,所述麦克风位于始终开启的状态,以不间断的实时接收外部语音信号。
上述的声音识别系统,其中,所述系统还包括一多媒体模块,通过所述多媒体模块来执行所述操作指令。
上述的声音识别系统,其中,所述本地语音识别模块通过数据流的方式将人声语音信号输出到所述远程语音识别模块。
上述的声音识别系统,其中,所述系统还包括一唤醒指令编辑模块,以对所述唤醒指令进行编辑。
上述的声音识别系统,其中,所述本地语音检测器为基于神经网络算法的语音检测器。
上述的声音识别系统,其中,所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令的处理时间在10~20ms之间。
同时本发明还公开了一种采用上述识别系统的识别方法,其中,包括如下步骤:
利用所述麦克风实时接收外部的语音信号;
利用所述本地语音检测器来判断当前的语音信号是否包含人声,若包含人声则输出至所述本地语音识别模块;
利用所述本地语音识别模块对人声语音信号进行甄别,以判断当前的人声语音信号是否包含唤醒指令,若包含唤醒指令则将所述人声语音信号进一步进行输出至所述本地语音编码模块;
所述本地语音编码模块对人声语音信号进行编码后传输到所述远程语音编码模块;
所述远程语音解码模块对收到的人声语音信号进行解码后传输到所述远程语音识别模块;
利用所述远程语音识别模块对所述远程语音解码模块输出的人声语音信号进行转换,并输出到所述远程语言处理模块;
所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;
所述执行模块通过操控所述多媒体模块来执行所述操作指令。
上述的方法,其中,在所述本地语音识别模块甄别到当前的人声语音信号包含有唤醒指令时,本地语音识别模块关闭,人声语音信号经过所述本地语音编码模块的编码之后,直接传输到所述远程语音解码模块进行解码后传输到利用所述远程语音识别模块。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图,重点在于示出本发明的主旨。
图1为本发明声音识别系统结构和运行案例。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
为了彻底理解本发明,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
本发明作为机器人系统的耳朵,是机器人理解人的语言以及最自然的人机交互体验的重要部分,因此需要解决以下三个方面的问题:1、完全使用语音来进行交流,不需要任何额外的触发动作。2、可以让人真正的使用自然语言与机器人进行交流,不需要固定的语句或句式就可以在工作、生活的各个领域进行交流。3、在做到实时反馈、极少误触发的情况下保持可观的能耗。
为了解决上述技术问题,本发明提供了一种机器人系统的声音识别系统,包括:
1、麦克风,以实时接收外部的语音信号。在本发明一可选但非限制的实施例中,麦克风位于始终开启的状态,以不间断的实时接收外部语音信号。其作用是收集外界的语音数据,作为机器人系统的耳朵。
2、本地语音检测器,对语音信号进行检测,并判断当前的语音信号是否包含人声,若包含人声则进行输出。由于本发明中的机器人系统麦克风始终处于开启状态,但环境中会有各种各样的声音,其中很大一部分是噪声,对机器人系统的声音识别是无意义的,为了避免无意义的性能损耗及大量的误触发,机器人系统需要对收集到的声音进行分析和判断,只有认为收集到的声音主要来自人声(即人说话的声音)才会将该声音数据传到识别系统。
在本发明一可选但非限制的实施例中,本地语音检测器为基于神经网络算法的语音检测器,能够准确、快速地对输入的语音数据进行人声判断,这是避免环境噪声造成误触发,降低网络及服务请求开销的关键部分。
3、本地语音识别模块,接收语音检测器输出的人声语音信号并进行甄别,以判断当前的人声语音信号是否包含唤醒指令,若包含唤醒指令则进行输出。在本发明的机器人系统中,即使由语音检测器判断出收集到的声音是来自人声,这段人声也未必是有意义的。通俗而言即这段话并非是对机器人而讲,如果将这段语音也上传到服务端进行分析,则会浪费大量的时间和性能。因此,就需要首先在本地快速判断这段声音是否是对机器人而讲,就像人与人说话一样,人会先判断是否在对自己说话,然后才做出回应。
在本发明中,采用特殊调优过的本地语音识别模块可以快速的识别出所输入的自然语言是否是说给机器人听的,并且可以随时地任意地更新、修改激活的词汇或短语(在本发明的机器人系统中定义为机器人的名字,就如同一个人或一只宠物的名字),其判断准确率可达90%。在本发明一可选但非限制的实施例中,假设机器人的名字即唤醒指令,那么可以通过一唤醒指令编辑模块,以对唤醒指令进行编辑,人们可根据自己的喜好任意的设定机器人的名称,方便快捷。
4、远程语音解码模块,远程语音解码模块用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出。
5、远程语音识别模块和远程语言处理模块,远程语音识别模块接收远程语音解码模块输出的经解码过的人声语音信号,在进行转换后输出到远程语言处理模块,远程语言处理模块根据转换后的人声语音信号生成相应的操作指令。
其中,远程语音识别模块拥有更完整的语言模型和声学模型,能够覆盖日常生活中的90%以上的常用语言,能够支持多种语言,如英文,中文及日文等;并可以支持中文的多种方言,如广东话,四川话,河南话等。对本发明中的机器人系统所涉及的特定领域亦有更强优化,其语音识别的准确率可达95%以上。另外,在本发明一可选但非限制的实施例中,本发明中的本地语音识别模块是通过数据流的方式将人声语音信号输出到远程语音识别模块,语音识别模块从收到的第一帧数据开始就已经开始进行实时识别了,因此当语音结束后,整句话的识别结果已经产生,真正做到了实时性,从语音数据发送结束到最终识别结果的形成不超过100ms。远程自然语言处理服务可覆盖日常生活中80%的使用场景,能够快速的命中所输入的自然语言涉及到的所有领域,处理时间通常在10-20ms之间。因此,在网络稳定的情况下,本发明中的整个声音识别过程不会超过500ms。
6、执行模块,用于执行远程语言处理模块操作指令。在本发明一可选但非限制的实施例中,该执行模块通过操控一多媒体模块来执行远程语言处理模块下发的操作指令,例如打开音乐、导航、发短信、控制灯光等等操作。
用户体验:只需要使用最符合人的交互方式—语音、自然语言。以上模块共同保证了本发明中机器人系统真正能够完全使用自然语言来进行实时输入和实时反馈,并保证了系统的性能功耗的平衡及整个系统的稳定。
同时本发明还提供了一种上述识别系统的识别方法,包括如下步骤:
步骤S1:利用麦克风实时接收外部的语音信号;
步骤S2:利用本地语音检测器来判断当前的语音信号是否包含人声,若包含人声则输出至本地语音识别模块;
步骤S3:利用本地语音识别模块对人声语音信号进行甄别,以判断当前的人声语音信号是否包含唤醒指令,若包含唤醒指令则将人声语音信号进一步进行输出至本地语音编码模块;
步骤S4:本地语音编码模块对人声语音信号进行编码后传输到远程语音解码模块;
步骤S5:远程语音解码模块对经编码过的人声语音信号进行解码后传输到远程语音识别模块;
步骤S6:利用远程语音识别模块对远程语音解码模块输出的人声语音信号进行转换,并输出到远程语言处理模块;
步骤S7:远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;
步骤S8:执行模块,通过操控多媒体模块来执行操作指令。
可选但非限制,在本地语音识别模块甄别到当前的人声语音信号包含有唤醒指令时,本地语音识别模块关闭,人声语音信号经过本地语音编码模块的编码之后,直接传输到所述远程语音解码模块进行解码后传输到利用远程语音识别模块.
请参照图1所示,假设机器人叫做“R2”,主人对机器人说:“R2,我现在心情不好,来点音乐吧”,这时处于一直收听状态的麦克风收到的数据经过本地语音检测器,本地语音检测器检测到这时候已经不是环境噪声了,而是有人在说话了,但机器人需要知道是不是在跟自己说话,于是这段语音就会被送到本地语音检测器进行识别,这时候本地语音识别服务发现是在叫自己(因为叫了它的名字“R2”),所以后面的话都是跟自己说的,为了理解这句话的意思,这段语音先通过本地语音编码模块的编码后,之后再通过网络发送到远程语音解码模块进行解码后输出到远程语音识别服务进行识别,进而进行自然语言的分析,经过分析,发现这句话要表达的意思是主人“心情不好,需要点音乐”,于是将这个结果发给机器人行为决策系统(相当于思考怎么回应),经过一番思考,机器人决定为主人放一些“治愈系的音乐”,并将这个决策发回到本地系统,最后本地系统会根据这个结果找到一些“治愈系的音乐”并开始播放。
综上所述,由于本发明采用了如上技术方案,可以完全使用语音来进行交流,不需要任何额外的触发动作;同时可以让人真正的使用自然语言与机器人进行交流,不需要固定的语句或句式就可以在工作、生活的各个领域进行交流;在做到实时反馈、极少误触发的情况下保持可观的能耗。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

1.一种机器人系统的声音识别系统,其特征在于,包括:
麦克风,以实时接收外部的语音信号;
本地语音检测器,对所述语音信号进行检测,并判断当前的语音信号是否包含人声,若包含人声则进行输出;
本地语音识别模块,接收所述语音检测器输出的人声语音信号并进行甄别,以判断当前的人声语音信号是否包含唤醒指令,若包含唤醒指令则进行输出;
本地语音编码模块,用于对人声语音信号进行编码后输出;
远程语音解码模块,所述远程语音解码模块用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出;
远程语音识别模块和远程语言处理模块,所述远程语音识别模块接收所述远程语音解码模块输出的经解码过的人声语音信号,在进行转换后输出到所述远程语言处理模块,所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;
执行模块,用于执行所述远程语言处理模块的操作指令。
2.如权利要求1所述的声音识别系统,其特征在于,所述麦克风位于始终开启的状态,以不间断的实时接收外部语音信号。
3.如权利要求1所述的声音识别系统,其特征在于,所述系统还包括一多媒体模块,通过所述多媒体模块来执行所述操作指令。
4.如权利要求1所述的声音识别系统,其特征在于,所述本地语音识别模块通过数据流的方式将人声语音信号输出到所述远程语音识别模块。
5.如权利要求1所述的声音识别系统,其特征在于,所述系统还包括一唤醒指令编辑模块,以对所述唤醒指令进行编辑。
6.如权利要求1所述的声音识别系统,其特征在于,所述本地语音检测器为基于神经网络算法的语音检测器。
7.如权利要求1所述的声音识别系统,其特征在于,所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令的处理时间在10~20ms之间。
8.一种采用如权利要求1-7任意一项所述识别系统的识别方法,其特征在于,包括如下步骤:
利用所述麦克风实时接收外部的语音信号;
利用所述本地语音检测器来判断当前的语音信号是否包含人声,若包含人声则输出至所述本地语音识别模块;
利用所述本地语音识别模块对人声语音信号进行甄别,以判断当前的人声语音信号是否包含唤醒指令,若包含唤醒指令则将所述人声语音信号进一步进行输出至所述本地语音编码模块;
所述本地语音编码模块对人声语音信号进行编码后传输到所述远程语音编码模块;
所述远程语音解码模块对收到的人声语音信号进行解码后传输到所述远程语音识别模块;
利用所述远程语音识别模块对所述远程语音解码模块输出的人声语音信号进行转换,并输出到所述远程语言处理模块;
所述远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;
所述执行模块通过操控所述多媒体模块来执行所述操作指令。
9.如权利要求8所述的方法,其特征在于,在所述本地语音识别模块甄别到当前的人声语音信号包含有唤醒指令时,本地语音识别模块关闭,人声语音信号经过所述本地语音编码模块的编码之后,直接传输到所述远程语音解码模块进行解码后传输到利用所述远程语音识别模块。
CN201510015421.6A 2015-01-12 2015-01-12 一种机器人系统的声音识别系统及方法 Pending CN105845135A (zh)

Priority Applications (13)

Application Number Priority Date Filing Date Title
CN201510015421.6A CN105845135A (zh) 2015-01-12 2015-01-12 一种机器人系统的声音识别系统及方法
JP2017537986A JP6572314B2 (ja) 2015-01-12 2015-06-12 ロボットシステムの音声識別システム及び方法
US14/764,268 US20160343376A1 (en) 2015-01-12 2015-06-12 Voice Recognition System of a Robot System and Method Thereof
EP15877550.2A EP3246915A4 (en) 2015-01-12 2015-06-12 LANGUAGE RECOGNITION SYSTEM AND METHOD OF A ROBOT SYSTEM
NZ734339A NZ734339A (en) 2015-01-12 2015-06-12 Voice recognition system and method of robot system
CA2973512A CA2973512A1 (en) 2015-01-12 2015-06-12 Voice recognition system and method of robot system
KR1020177022361A KR20170103925A (ko) 2015-01-12 2015-06-12 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법
SG11201705705SA SG11201705705SA (en) 2015-01-12 2015-06-12 Voice recognition system and method of robot system
PCT/CN2015/081409 WO2016112634A1 (zh) 2015-01-12 2015-06-12 一种机器人系统的声音识别系统及方法
TW104144159A TWI576825B (zh) 2015-01-12 2015-12-29 一種機器人系統的聲音識別系統及方法
HK16110421.0A HK1222254A1 (zh) 2015-01-12 2016-09-01 一种机器人系统的声音识别系统及方法
AU2017101077A AU2017101077A4 (en) 2015-01-12 2017-08-08 A voice recognition system of a robot system and method thereof
ZA2017/05424A ZA201705424B (en) 2015-01-12 2017-08-10 Voice recognition system and method of robot system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510015421.6A CN105845135A (zh) 2015-01-12 2015-01-12 一种机器人系统的声音识别系统及方法

Publications (1)

Publication Number Publication Date
CN105845135A true CN105845135A (zh) 2016-08-10

Family

ID=56405179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510015421.6A Pending CN105845135A (zh) 2015-01-12 2015-01-12 一种机器人系统的声音识别系统及方法

Country Status (12)

Country Link
US (1) US20160343376A1 (zh)
EP (1) EP3246915A4 (zh)
JP (1) JP6572314B2 (zh)
KR (1) KR20170103925A (zh)
CN (1) CN105845135A (zh)
CA (1) CA2973512A1 (zh)
HK (1) HK1222254A1 (zh)
NZ (1) NZ734339A (zh)
SG (1) SG11201705705SA (zh)
TW (1) TWI576825B (zh)
WO (1) WO2016112634A1 (zh)
ZA (1) ZA201705424B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328138A (zh) * 2016-08-22 2017-01-11 黄广明 一种具有人机对话功能的机器人系统
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106409306A (zh) * 2016-09-19 2017-02-15 宁波高新区敦和科技有限公司 一种获取人声的智能系统及基于该系统的获取方法
CN106971719A (zh) * 2017-05-16 2017-07-21 上海智觅智能科技有限公司 一种离线可切换唤醒词的非特定音语音识别唤醒方法
CN107276777A (zh) * 2017-07-27 2017-10-20 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
CN107767880A (zh) * 2016-08-16 2018-03-06 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN107885441A (zh) * 2017-12-06 2018-04-06 子歌教育机器人(深圳)有限公司 智能机器人的新闻播报方法、系统和智能机器人
CN108154880A (zh) * 2016-12-05 2018-06-12 广东大仓机器人科技有限公司 能实时分辨环境噪音进行语音识别的机器人
WO2019079974A1 (en) * 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION
CN110021294A (zh) * 2018-01-09 2019-07-16 深圳市优必选科技有限公司 机器人的控制方法、装置以及存储装置
CN111788043A (zh) * 2018-03-30 2020-10-16 索尼公司 信息处理装置、信息处理方法和程序
CN111976924A (zh) * 2020-08-12 2020-11-24 厦门大学 一种用于潜水全面罩的实时信息交流装置
CN115297406A (zh) * 2022-07-28 2022-11-04 湖南芯海聆半导体有限公司 基于双模音频三维码的声音接收设备控制方法及装置
CN117086871A (zh) * 2023-08-30 2023-11-21 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106272481A (zh) * 2016-08-15 2017-01-04 北京光年无限科技有限公司 一种机器人服务的唤醒方法及装置
CN106445455A (zh) * 2016-09-29 2017-02-22 深圳前海弘稼科技有限公司 种植设备和种植设备的控制方法
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN109093627A (zh) * 2017-06-21 2018-12-28 富泰华工业(深圳)有限公司 智能机器人
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
DE102017216571B4 (de) 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
CN108228191B (zh) * 2018-02-06 2022-01-25 威盛电子股份有限公司 语法编译系统以及语法编译方法
CN108986823A (zh) * 2018-09-27 2018-12-11 深圳市易控迪智能家居科技有限公司 一种语音识别解码器及语音操作系统
CN109308900B (zh) * 2018-10-29 2022-04-05 恒玄科技(上海)股份有限公司 耳机装置、语音处理系统和语音处理方法
CN109543578B (zh) 2018-11-13 2020-12-22 北京猎户星空科技有限公司 智能设备控制方法、装置和存储介质
TWI689826B (zh) * 2019-01-24 2020-04-01 林佩君 音樂視覺化系統
US11810575B2 (en) 2019-06-12 2023-11-07 Lg Electronics Inc. Artificial intelligence robot for providing voice recognition function and method of operating the same
WO2021015308A1 (ko) * 2019-07-19 2021-01-28 엘지전자 주식회사 로봇 및 그의 기동어 인식 방법
EP4607508A1 (en) * 2024-02-23 2025-08-27 Tata Consultancy Services Limited Method and system for expressing telepresence robot internal states using combination of multiple modalities

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095911A (zh) * 2012-12-18 2013-05-08 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
CN103729193A (zh) * 2014-01-11 2014-04-16 苏州思必驰信息科技有限公司 一种人机交互方法及装置
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
CN104252860A (zh) * 2013-06-26 2014-12-31 沃福森微电子股份有限公司 语音识别

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
US20070150104A1 (en) * 2005-12-08 2007-06-28 Jang Choul S Apparatus and method for controlling network-based robot
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
WO2007138503A1 (en) * 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
JP5163202B2 (ja) * 2008-03-18 2013-03-13 株式会社国際電気通信基礎技術研究所 物品推定システム
CN102013254A (zh) * 2010-11-17 2011-04-13 广东中大讯通信息有限公司 一种数字电视语音识别人机交互系统及方法
US10032127B2 (en) * 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
CN202446811U (zh) * 2011-12-20 2012-09-26 安徽科大讯飞信息科技股份有限公司 一种用于玩具的智能语音操控装置
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
EP2946383B1 (en) * 2013-03-12 2020-02-26 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9316400B2 (en) * 2013-09-03 2016-04-19 Panasonic Intellctual Property Corporation of America Appliance control method, speech-based appliance control system, and cooking appliance
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
CN104253902A (zh) * 2014-07-21 2014-12-31 宋婉毓 与智能语音设备进行语音交互的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
CN103095911A (zh) * 2012-12-18 2013-05-08 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
CN104252860A (zh) * 2013-06-26 2014-12-31 沃福森微电子股份有限公司 语音识别
CN103729193A (zh) * 2014-01-11 2014-04-16 苏州思必驰信息科技有限公司 一种人机交互方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767880A (zh) * 2016-08-16 2018-03-06 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106328138A (zh) * 2016-08-22 2017-01-11 黄广明 一种具有人机对话功能的机器人系统
CN106409306A (zh) * 2016-09-19 2017-02-15 宁波高新区敦和科技有限公司 一种获取人声的智能系统及基于该系统的获取方法
CN108154880A (zh) * 2016-12-05 2018-06-12 广东大仓机器人科技有限公司 能实时分辨环境噪音进行语音识别的机器人
CN106971719A (zh) * 2017-05-16 2017-07-21 上海智觅智能科技有限公司 一种离线可切换唤醒词的非特定音语音识别唤醒方法
CN107276777A (zh) * 2017-07-27 2017-10-20 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
CN107276777B (zh) * 2017-07-27 2020-05-29 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
WO2019079974A1 (en) * 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION
CN107885441A (zh) * 2017-12-06 2018-04-06 子歌教育机器人(深圳)有限公司 智能机器人的新闻播报方法、系统和智能机器人
CN110021294A (zh) * 2018-01-09 2019-07-16 深圳市优必选科技有限公司 机器人的控制方法、装置以及存储装置
CN111788043A (zh) * 2018-03-30 2020-10-16 索尼公司 信息处理装置、信息处理方法和程序
US12230265B2 (en) 2018-03-30 2025-02-18 Sony Group Corporation Information processor, information processing method, and program
CN111976924A (zh) * 2020-08-12 2020-11-24 厦门大学 一种用于潜水全面罩的实时信息交流装置
CN115297406A (zh) * 2022-07-28 2022-11-04 湖南芯海聆半导体有限公司 基于双模音频三维码的声音接收设备控制方法及装置
CN117086871A (zh) * 2023-08-30 2023-11-21 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统
CN117086871B (zh) * 2023-08-30 2024-02-06 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统

Also Published As

Publication number Publication date
CA2973512A1 (en) 2016-07-21
NZ734339A (en) 2020-08-28
JP2018507434A (ja) 2018-03-15
HK1222254A1 (zh) 2017-06-23
EP3246915A1 (en) 2017-11-22
TWI576825B (zh) 2017-04-01
TW201626363A (zh) 2016-07-16
WO2016112634A1 (zh) 2016-07-21
SG11201705705SA (en) 2017-08-30
KR20170103925A (ko) 2017-09-13
JP6572314B2 (ja) 2019-09-04
EP3246915A4 (en) 2019-01-09
US20160343376A1 (en) 2016-11-24
ZA201705424B (en) 2019-09-25

Similar Documents

Publication Publication Date Title
CN105845135A (zh) 一种机器人系统的声音识别系统及方法
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
CN114360485B (zh) 语音处理方法、系统、装置及介质
CN109754790A (zh) 一种基于混合声学模型的语音识别系统及方法
CN105788596A (zh) 一种语音识别电视控制方法及系统
CN113763924A (zh) 声学深度学习模型训练方法、语音生成方法及设备
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN119479705A (zh) 一种在线辅助语音对话场景的多模态情感提示方法及系统
KR102608344B1 (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
CN117316139A (zh) 训练语音合成模型及语音合成的方法和装置
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质
CN114171002B (zh) 语音识别方法、装置、电子设备和存储介质
CN121012896A (zh) 基于语音外呼的机器人对话智能预警系统
CN119380712A (zh) 基于大模型知识增强的家居控制方法、装置以及电子设备
WO2024255262A1 (zh) 一种自定义唤醒词的语音唤醒方法及装置
CN118366454A (zh) 音频数据的处理方法、装置、电子设备及存储介质
CN113889112A (zh) 一种基于kaldi的在线语音识别的方法
CN113490011A (zh) 一种基于asr直播间气氛烘托系统及方法
CN119763551B (zh) 语音转换模型的训练方法、装置、电子设备、存储介质及程序产品
CN118197277B (zh) 语音合成方法、装置、电子设备和存储介质
CN121034283B (zh) 语音合成方法、装置、电子设备及存储介质
Zhang et al. Chinese speech synthesis system based on end to end

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1222254

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1222254

Country of ref document: HK