CN103871401B - 一种语音识别的方法及电子设备 - Google Patents
一种语音识别的方法及电子设备 Download PDFInfo
- Publication number
- CN103871401B CN103871401B CN201210529658.2A CN201210529658A CN103871401B CN 103871401 B CN103871401 B CN 103871401B CN 201210529658 A CN201210529658 A CN 201210529658A CN 103871401 B CN103871401 B CN 103871401B
- Authority
- CN
- China
- Prior art keywords
- analysis result
- information
- voice
- sub
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 description 45
- 230000000694 effects Effects 0.000 description 21
- 238000010894 electron beam technology Methods 0.000 description 10
- 238000005265 energy consumption Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 241000272201 Columbiformes Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音识别的方法及电子设备,所述语音识别的方法应用在一电子设备中,所述方法包括:当所述电子设备检测到一用户在T0时刻开始进行说话时,取i=1,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数;对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
Description
技术领域
本发明涉及多媒体技术领域,特别涉及一种语音识别的方法及电子设备。
背景技术
随着全球信息化技术的发展,电子设备产品已经完全渗入人们的生活。很多电子设备产品,比如笔记本电脑、手机、PAD等,由于其具有便携式特点,所以成为广为普及的工具,给用户带来了越来越多的便利。
而随着电子设备的发展,产生了越来越多的输入方式,其中,语音输入方式由于输入方式迅速而方便,受到了越来越多用户的欢迎。在现有技术中,通常情况下,语音识别系统在检测到有语音输入信息时,通常会先确定所述语音输入信息是否输入完毕或者是否会有是否会有较长时间的停顿时,才对获取的语音信息进行识别,并获取其中的识别结果。
本申请发明人在实现本申请实施例技术方案的过程中,至少发现现有技术中存在如下技术问题:
由于在现有技术中,语音识别系统在确定语音输入信息输入完毕或者有较长时间停顿时,才对语音输入信息进行分析,进而获得语音识别结果,故而,现有技术中存在着语音识别系统对语音信息的识别不够及时的技术问题。
发明内容
本发明实施例提供一种图像采集的方法、图像处理的方法及电子设备,用于解决现有技术中语音识别系统对语音信息的识别不够及时的技术问题。
一方面,本申请通过一实施例提供如下技术方案:
一种语音识别的方法,所述方法应用在一电子设备中,所述方法包括:
当所述电子设备检测到一用户在T0时刻开始进行说话时,取i=1,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数;
对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
可选的,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体为:
对所述第i个语音子信息进行分析,以获得M个关键词文本信息,所述M个关键词文本信息即为所述M个分析结果。
可选的,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体包括:
对所述第i个语音子信息进行分析,以获得N个关键词文本信息,其中,N为大于等于1的整数;
基于所述N个关键词文本信息,获得与所述N个关键词文本信息中的任一关键词文本信息匹配度大于第一预设阈值的M个匹配结果,所述M个匹配即为所述M个分析结果。
可选的,在所述对所述第i个语音子信息进行分析,以获得M个分析结果之后,所述方法还包括:
将所述M个分析结果中的M1个分析结果显示于一显示界面,以接收所述用户的选择指令,其中,M1为大于等于1的整数。
可选的,在所述对所述第i个语音子信息进行分析,以获得M个分析结果之后,所述方法还包括:
判断是否存在停止检测所述用户是否在说话的第一控制指令;
在存在时,停止检测所述用户是否在说话;
在不存在时,取i=i+1,执行步骤:检测在Ti时刻所对应的第i个语音子信息。
可选的,所述判断是否存在停止检测所述用户是否在说话的第一控制指令,具体包括:
判断是否存在选择所述M1个分析结果中的第一分析结果的选择操作,获得一判断结果;
其中,在所述判断结果表明存在所述选择操作时,生成所述第一控制指令。
可选的,所述选择操作,具体为:通过第一输入方式所进行的操作,其中,所述第一输入方式为与语音输入方式不同的输入方式。
可选的,在所述将所述M个分析结果中的M1个分析结果显示于一显示界面之前,所述方法还包括:
将所述M个分析结果按照匹配度进行评分,以获得M个第一分值;或
将所述M个分析结果按照历史选择信息进行评分,以获得M个第二分值;或
将所述M个分析结果按照匹配度和历史选择信息进行评分,以获得M个第三分值。
可选的,所述将所述M个分析结果中的M1个分析结果显示于一显示界面,具体包括:
从所述M个分析结果中获取第一分值、第二分值或第三分值中分值最高的M1个分析结果;
将所述M1个分析结果显示于所述显示界面。
可选的,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体为:
对所述第i个语音子信息进行声纹分析,以获得所述M个分析结果。
另一方面,本申请通过另一实施例提供如下技术方案:
一种电子设备,所述电子设备包括:
检测芯片,用于当所述电子设备检测到一用户在T0时刻开始进行说话时,取i=1,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数;
分析芯片,用于对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
可选的,所述分析芯片,具体用于:
对所述第i个语音子信息进行分析,以获得M个关键词文本信息,所述M个关键词文本信息即为所述M个分析结果。
可选的,所述分析芯片,具体包括:
分析子芯片,用于对所述第i个语音子信息进行分析,以获得N个关键词文本信息,其中,N为大于等于1的整数;
匹配子芯片,基于所述N个关键词文本信息,获得与所述N个关键词文本信息中的任一关键词文本信息匹配度大于第一预设阈值的M个匹配结果,所述M个匹配即为所述M个分析结果。
可选的,所述电子设备还包括:
显示芯片,用于在对所述第i个语音子信息进行分析,以获得M个分析结果之后,将所述M个分析结果中的M1个分析结果显示于一显示界面,以接收所述用户的选择指令,其中,M1为大于等于1的整数。
可选的,所述电子设备还包括:
判断芯片,用于在对所述第i个语音子信息进行分析,以获得M个分析结果之后,判断是否存在停止检测所述用户是否在说话的第一控制指令;
停止芯片,用于在存在时,停止检测所述用户是否在说话;
返回芯片,用于在不存在时,取i=i+1,执行步骤:检测在Ti时刻所对应的第i个语音子信息。
可选的,所述判断芯片,具体包括:
判断子芯片,用于判断是否存在选择所述M1个分析结果中的第一分析结果的选择操作,获得一判断结果;
生成子芯片,用于在所述判断结果表明存在所述选择操作时,生成所述第一控制指令。
可选的,所述选择操作,具体为:通过第一输入方式所进行的操作,其中,所述第一输入方式为与语音输入方式不同的输入方式。
可选的,所述电子设备还包括:
评分芯片,用于在将所述M个分析结果中的M1个分析结果显示于一显示界面之前,将所述M个分析结果按照匹配度进行评分,以获得M个第一分值;或
将所述M个分析结果按照历史选择信息进行评分,以获得M个第二分值;或
将所述M个分析结果按照匹配度和历史选择信息进行评分,以获得M个第三分值。
可选的,所述显示芯片,具体包括:
获取子芯片,用于从所述M个分析结果中获取第一分值、第二分值或第三分值中分值最高的M1个分析结果;
显示子芯片,将所述M1个分析结果显示于所述显示界面。
可选的,所述分析芯片,具体用于:
对所述第i个语音子信息进行声纹分析,以获得所述M个分析结果。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
(1)由于在本申请实施例中,采用了当电子设备检测到用户开始进行说话时,检测对应所述用户的一完整语义的语音信息中的一部分语音信息,并对所述一部分语音信息进行分析以获得M个分析结果的技术方案,由于不用获取完整语音的语音信息,就能够对语音信息进行分析,故而解决了现有技术中对语音信息的识别不够及时的技术问题,达到了能够及时对语音信息进行识别的技术效果。
(2)由于在本申请实施例中,当存在停止检测用户是否说话的第一控制指令,则停止检测用户的语音信息,故而达到了节省对语音信息进行检测和分析的能耗的技术效果。
(3)由于在本申请实施例中,通过判断是否存在用户选择M个处理对象中的第一处理对象的选择操作,来确定是否生成所述第一控制指令,而通常情况下,在用户选择第一处理对象之后,就说明电子设备已经识别出用户所需要的控制指令,故而,在这种情况下停止检测语音信息,达到了节省能耗的同时也能够精确的对语音信息进行识别的技术效果。
(4)由于在本申请实施例中,采用了对M个分析结果进行评分,并且显示分值最高的M1个分析结果的技术方案,其中,一般情况下分值比较高则说明匹配度比较大,故而达到了提高语音识别精度的技术效果。
(5)由于在本申请实施例中,采用了通过与语音输入方式不同的第一输入方式进行选择操作的技术方案,故而达到了提高选择操作的精确度以及速度的技术效果。
附图说明
图1为本申请实施例一中语音识别的方法的流程图;
图2为本申请实施例一方法中判断是否存在停止检测所述用户是否在说话的第一控制指令的流程图;
图3为本申请实施例三中电子设备的结构图。
具体实施方式
本发明实施例提供一种语音识别的方法及电子设备,用于解决现有技术中语音识别系统对语音信息的识别不够及时的技术问题。
本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
当电子设备检测到用户在T0时刻开始说话时,检测电子设备在Ti时刻所对应的第i个语音子信息,其中,第i个语音子信息为所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息;然后对所述第i个语音信息进行分析,获得M个分析结果,该分析结果可能是对应的语音控制指令,然后将M个分析结果提供给用户进行选择,如果用户选中了其中的第一分析结果,就停止进行语音识别;而如果用户并未选择其中的任一分析结果,则继续检测语音信息进行分析。
由于,采用上述方案进行语音识别时,不用获取完整语音的语音信息,就能够对语音信息进行分析,达到了能够及时对语音信息进行识别的技术效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
本申请实施例一提供一种语音识别的方法,所述方法应用在一电子设备中,所述电子设备例如为:笔记本电脑、手机、平板电脑等等。
请参考图1,所述信息处理的方法包括如下步骤:
步骤S101:当所述电子设备检测到一用户在T0时刻开始进行说话时,取i=1,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数;
步骤S102:对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
其中,步骤S101中,所述电子设备麦克风处于开启状态,以检测是否有用户在说话,以进行语音输入操作,其中,所述语音操作所对应的内容可以为多种内容,比如:
①输入语音指令,所述语音指令例如为:打开WORD文档、开启飞鸽应用程序等等;
②输入搜索关键词,所述搜索关键词例如为:天线系统、电子设备等等;
③输入一段文字,比如:“星期天陪XXX逛街”、“随着社会信息化的发展……等等”。
当然,在具体实施过程中,所述语音操作所对应的内容可以为多种内容,不限于以上三种,对此本申请实施例不再详细列举并且不作限制。
其中,所述T0时刻为电子设备检测到用户开始输入一段语音信息的时间,而Tj时间则为用户结束输入所述语音信息的时间,Ti则为T0至Tj中的任意时间。
在具体实施过程中,可以每隔预设时间间隔,就检测所述第i个语音子信息,所述预设时间间隔例如为:2s、3s、5s等等,然后每检测到语音子信息,就基于步骤S102对其进行识别;又或者设置多个时间,每到了设置的时间点就开始检测语音子信息,所述多个时间点,可以以T0时间为0时刻起算,当然,也可以采用其它计数方式,对此本申请实施不作限制。
其中,步骤S102中,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体为:
对所述第i个语音子信息进行声纹分析,以获得所述M个分析结果。
通常情况下,在对第i个语音子信息进行声纹分析,首先需要从第i个语音子信息提取其对应的特征信息,例如:声学特征、词法特征、韵律特征等等;然后将这些特征信息与预先建立的声学模型进行匹配,从中获取相似度大于一预设阈值的多个匹配项,从而通过所述多个匹配项获取所述M个分析结果。
其中,基于所述M个分析结果的不同,步骤S102中对所述第i个语音子信息进行分析,以获得M个分析结果的过程也不同,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,对所述第i个语音子信息进行分析,以获得M个关键词文本信息,所述M个关键词文本信息即为所述M个分析结果。
在具体实施过程中,在对所述第i个语音子信息进行声纹识别之后,按照其匹配度,就会获得多个关键词文本信息,假设对所述第i个语音子信息进行分析,获得如下关键词文本信息:
| 相关词 | 相似度(%) |
| 电子书 | 99% |
| 电子束 | 90% |
| 电子锁 | 70% |
| 点子书 | 60% |
那么,所获得的这多个关键词文本信息即为所述M个分析结果。
第二种,具体包括如下步骤:
对所述第i个语音子信息进行分析,以获得N个关键词文本信息,其中,N为大于等于1的整数;
基于所述N个关键词文本信息,获得与所述N个关键词文本信息中的任一关键词文本信息匹配度大于第一预设阈值的M个匹配结果,所述M个匹配即为所述M个分析结果。
在具体实施过程中,第二种方法中对第i个语音子信息进行分析,以获得N个关键词文本信息的过程与方法一中类似,故而在此不再详细介绍,假设获得一个关键词文本信息:郭XX,当然,也可以为其它关键词信息,比如:2012、龙门飞甲等等。
然后,也就是从与关键词为“郭XX”的多个热点信息中获取匹配度最高的M个匹配结果,其中,匹配度可以用点击率、影响度等表示,当然也可以采用其它方式表示,其中,其点击率越高,就表明匹配度越高,假设以关键词为“郭XX”进行匹配,获得如下表所示的匹配结果:
上述多个匹配结果即为所述M个分析结果。
另外,在具体实施过程中,在获得M个分析结果之后,还可以对所述M个分析结果进行评分,其中,可以采用多种方式对其进行评分,下面列举其中的三种方式进行介绍,当然,在具体实施过程中,并不限于以下三种方式。
第一种,将所述M个分析结果按照匹配度进行评分,以获得M个第一分值;
以所述M个分析结果为M个关键词文本信息为例,在具体实施过程中,可以给相似度和匹配度设置一对应关系,比如:匹配度=相似度/10,当然,也可以为其它对应关系,然后就可以基于前面对应的相似度值获得对应的匹配度,具体如下:
| 相关词 | 匹配度 |
| 电子书 | 9.9 |
| 电子束 | 9 |
| 电子锁 | 7 |
| 点子书 | 6 |
第二种,将所述M个分析结果按照历史选择信息进行评分,以获得M个第二分值;
以所述M个分析结果为M个关键词信息为例,在具体实施过程中,所有分析结果的历史选择信息可以都设置为0,当然,也可以为其它值,比如:10、100等等,然后,在每次语音识别之后,如果用户对其进行选择,则其分值加1,当然也可以为其它值,比如:0.5、1、3等等。而如果用户连续n次都没有对其进行选择,其中n为任意值,比如:3、5、10等等,那么,将其分值减1,当然,也可以为其它值,比如:1、3、10等等。
假设,n为5,在6次选择中,“电子束”被选择次数为:3次,“电子锁”被选择次数为2次,“点子书”被选择次数为1次,而“电子书”被选择次数为0次,故而其对应的分值分别如下:
| 相关词 | 历史选择分值 |
| 电子书 | 8.9 |
| 电子束 | 12 |
| 电子锁 | 9 |
| 点子书 | 6 |
第三种,将所述M个分析结果按照匹配度和历史选择信息进行评分,以获得M个第三分值。
在具体实施过程中,可以直接将匹配度和历史选择分值按照一定比例相加获得所述第三分值,也可以为相乘或者采用其它方式获得所述第三分值,对于如何获得所述第三分值,本申请实施例不作限制。
还是以匹配度为前面获得的匹配度、历史选择分值为前面获得的历史选择分值为例,其中,匹配度和历史选择分值之比为:1:1,那么可以获得如下第三分值表:
| 相关词 | 历史选择分值 |
| 电子书 | -1 |
| 电子束 | 3 |
| 电子锁 | 2 |
| 点子书 | 0 |
在获得M个分析结果之后,还可以进行如下操作:
将所述M个分析结果中的M1个分析结果显示于一显示界面,以接收所述用户的选择指令,其中,M1为大于等于1的整数。
在具体实施过程中,可以将所述M个分析结果全部显示于显示界面,在这种情况下,M就等于M1;但是在有些情况下,由于显示界面的大小有限,故而其有可能并不能够完全显示所述M个分析结果,在这种情况下,M1就小于M。
在具体实施过程中,可以采用多种方式获得所述M1个分析结果,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,从所述M个分析结果中按照获取的先后顺序获取M1个分析结果,比如:所述四个分析结果“电子书”、“电子束”、“电子锁”、“点子书”获取的先后顺序为:“点子书”、“电子锁”、“电子束”、“电子书”,而M1等于2,当然也可以为其它值,比如:1、3、5等等,故而将获取时间最早的两个相关词“点子书”、“电子锁”显示于所述显示界面。
第二种,从所述M个分析结果中获取分值最高的M1个显示结果,然后将其显示与所述显示界面。
在具体实施过程中,所述分值可以为第一分值、第二分值或第三分值,当然,也可以为其它分值,对此,本申请实施例不作限制。
以所述分值为第一分值,M1为2为例,那么,显示于所述显示界面两个相关词应该为:“电子书”、“电子束”;
而如果所述分值为第二分值,M1为2,那么,显示与所述显示界面的相关词应该为:“电子束”、“电子锁”;
而如果所述分值为第三分值,M1为2,那么,显示与所述显示界面的相关词应该为:“电子束”、“电子锁”。
当然,基于不同的应用环境,所述显示界面所显示的M1个分析结果还可以为其它分析结果,对此本申请实施例不再详细介绍,并且不作限制。
由以上描述可知,由于在本申请实施例中,采用了对M个分析结果进行评分,并且显示分值最高的M1个分析结果的技术方案,其中,一般情况下分值比较高则说明匹配度比较大,故而达到了提高语音识别精度的技术效果。
在将所述M1个分析结果显示至显示界面之后,就可以提供给用户进行选择操作。
在具体实施过程中,在基于步骤S102对第i个语音子信息进行分析,以获得M个分析结果之后,如图2所述,还可以进行如下操作:
步骤S201:判断是否存在停止检测所述用户是否在说话的第一控制指令;
步骤S202:在存在时,停止检测所述用户是否在说话;
步骤S203:在不存在时,取i=i+1,执行步骤:检测在Ti时刻所对应的第i个语音子信息。
其中步骤S201中,可以采用多种方式判断是否存在停止检测所述用户是否在说话的第一控制指令,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,判断是否存在选择所述M1个分析结果中的第一分析结果的选择操作,获得一判断结果;
基于所述判断结果,生成或不生成所述第一控制指令,其中,在所述判断结果表明存在所述选择操作时,生成所述第一控制指令;在所述判断结果表明不存在所述选择操作时,不生成所述第一控制指令。
在具体实施过程中,当所述用户输入语音信息的目的在于输入语音指令或者输入搜索关键词时,当用户选择第一分析结果之后,就说明已经达到用户进行语音输入的目的,故而不再需要继续对语音信息进行检测,因而产生所述第一控制指令;而如果用户并未选择任何分析结果,则说明所述M个分析结果都不是用户所想要的,故而继续语音信息进行检测分析,也就是返回步骤S101以及步骤S102。
由以上描述可知,由于在本申请实施例中,通过判断是否存在用户选择M个处理对象中的第一处理对象的选择操作,来确定是否生成所述第一控制指令,而通常情况下,在用户选择第一处理对象之后,就说明电子设备已经识别出用户所需要的控制指令,故而,在这种情况下停止检测语音信息,达到了节省能耗的同时也能够精确的对语音信息进行识别的技术效果。
在具体实施过程中,所述选择操作可以为采用任意输入方式所进行的操作,所述输入方式例如为:语音输入方式、键盘输入方式、触控板输入方式等等,对此本申请实施例不作限制。
其中,作为一个优选实施例,所述选择操作,具体为:通过第一输入方式所进行的操作,其中,所述第一输入方式为与语音输入方式不同的输入方式。
在具体实施过程中,由于用户正在进行语音输入数据,如果采用语音输入的方式进行选择操作的话,首先容易导致语音输入系统导致错误的判断,不知道接下来的语音输入信息为选择操作还是仅仅简单的语音输入;并且语音输入的精确度相对于别的输入方式而言也较低;另外,如果采用语音输入的方式进行选择操作,又需要重新识别语音指令,故而导致延时。
由以上描述可知,由于在本申请实施例中采用了通过与语音输入方式不同的第一输入方式进行选择操作的技术方案,故而达到了提高选择操作的精确度以及速度的技术效果。
第二种,判断所述用户是否停止说话,获得另一判断结果;
其中,当所述另一判断结果表明所述用户停止说话时,生成所述第一控制指令;而用户并未停止说话,不生成所述第一控制指令。
在具体实施过程中,当用户已经停止说话时,不管用户是否选择出第一分析结果,由于语音输入过程已经结果,故而生成所述第一控制指令,停止检测所述语音信息。
由以上描述可知,由于在本申请实施例中,当存在停止检测用户是否说话的第一控制指令,则停止检测用户的语音信息,故而达到了节省对语音信息进行检测和分析的能耗的技术效果。
实施例二
为了使本领域所属技术人员能够连接本申请实施例一中所介绍的信息处理的方法的具体实现过程,在本实施例中,将站在用户侧详解介绍实施例一中的语音识别的方法的具体实现过程。其中,以所述电子设备为平板电脑为例。
在t1时刻,用户A打开所述平板电脑进行一些操作。
在t2时刻,用户A打开平板电脑的浏览器,搜索电子设备阅读软件,其中,用户A的目的在于获取带免费小说的电子书阅读软件。
用户A打开平板电脑的麦克风,并开始进行语音输入,然后所述平板电脑检测到用户的语音输入操作之后,将计时器的时间设置为0,表示T0时刻。
然后3s之后,到达T1时刻,所述平板电脑检测到用户A输入如下语音信息“daimianfeixiaoshuo”,然后对其进行分析获得如下分析结果“免费小说”、“免费小硕”,然后将其显示至平板电脑的显示屏。
然而,用户并未对其进行任何选择操作,故而所述平板电脑继续对下一个语音信息进行分析。
在3s之后,到达T2时刻,所述平板电脑检测到用户A输入如下语音信息“daimianfeixiaoshuodedianzishu”,然后平板电脑对其进行分析获得如下分析结果:“电子书”、“电子书阅读软件”、“免费小说”,并将这三个分析结果显示在平板电脑的显示界面,然后用户A选择了其中的“电子书阅读软件”,所述平板电脑检测到用户A的的选择操作,停止检测语音信息,并采用“电子书阅读软件”作为关键词进行搜索。
实施例三
基于同一发明构思,本申请实施例三提供一种电子设备,所述电子设备例如为:笔记本电脑、手机、平板电脑等等。
请参考图3,所述电子设备包括如下结构:
检测芯片301,用于当所述电子设备检测到一用户在T0时刻开始进行说话时,取i=1,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数;
分析芯片302,用于对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
在具体实施过程中,所述T0时刻为电子设备检测到用户开始输入一段语音信息的时间,而Tj时间则为用户结束输入所述语音信息的时间,Ti则为T0至Tj中的任意时间。
所述检测芯片301可以每隔预设时间间隔,就检测所述第i个语音子信息;又或者设置多个时间点,到了每隔时间点就检测所述第i个语音子信息。对于何时检测所述第i个语音子信息,本申请实施例不作限制。
在具体实施过程中,所述分析芯片302,具体用于:
对所述第i个语音子信息进行声纹分析,以获得所述M个分析结果。
在具体实施过程中,所述分析芯片302,具体用于:
对所述第i个语音子信息进行分析,以获得M个关键词文本信息,所述M个关键词文本信息即为所述M个分析结果。
在具体实施过程中,所述分析芯片,具体包括:
分析子芯片,用于对所述第i个语音子信息进行分析,以获得N个关键词文本信息,其中,N为大于等于1的整数;
匹配子芯片,用于基于所述N个关键词文本信息,获得与所述N个关键词文本信息中的任一关键词文本信息匹配度大于第一预设阈值的M个匹配结果,所述M个匹配即为所述M个分析结果。
在具体实施过程中,所述电子设备还包括:
评分芯片,用于在将所述M个分析结果中的M1个分析结果显示于一显示界面之前,将所述M个分析结果按照匹配度进行评分,以获得M个第一分值;或
将所述M个分析结果按照历史选择信息进行评分,以获得M个第二分值;或
将所述M个分析结果按照匹配度和历史选择信息进行评分,以获得M个第三分值。
在具体实施过程中,所述电子设备还包括:
显示芯片,用于在对所述第i个语音子信息进行分析,以获得M个分析结果之后,将所述M个分析结果中的M1个分析结果显示于一显示界面,以接收所述用户的选择指令,其中,M1为大于等于1的整数。
在具体实施过程中,所述显示芯片可以采用多种方式将所述M1个分析结果显示于一显示界面,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,第一种,从所述M个分析结果中按照获取的先后顺序获取M1个分析结果。
第二种,所述显示芯片,具体包括:
获取子芯片,用于从所述M个分析结果中获取第一分值、第二分值或第三分值中分值最高的M1个分析结果;
显示子芯片,将所述M1个分析结果显示于所述显示界面。
具体来讲,也就是按照分值的从高到低获取M1个分析结果,然后将所述M1个分析结果显示于所述显示界面。
由以上描述可知,由于在本申请实施例中,采用了对M个分析结果进行评分,并且显示分值最高的M1个分析结果的技术方案,其中,一般情况下分值比较高则说明匹配度比较大,故而达到了提高语音识别精度的技术效果。
在具体实施过程中,所述电子设备还包括:
判断芯片,用于在对所述第i个语音子信息进行分析,以获得M个分析结果之后,判断是否存在停止检测所述用户是否在说话的第一控制指令;
停止芯片,用于在存在时,停止检测所述用户是否在说话;
返回芯片,用于在不存在时,取i=i+1,执行步骤:检测在Ti时刻所对应的第i个语音子信息。
在具体实施过程中,所述判断芯片可以采用多种方式判断是否存在停止检测所述用户是否在说话的第一控制指令,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,所述判断芯片,具体包括:
判断子芯片,用于判断是否存在选择所述M1个分析结果中的第一分析结果的选择操作,获得一判断结果;
生成子芯片,用于基于所述判断结果,生成或不生成所述第一控制指令,其中,在所述判断结果表明存在所述选择操作时,生成所述第一控制指令;在所述判断结果表明不存在所述选择操作时,不生成所述第一控制指令。
在具体实施过程中,当所述用户输入语音信息的目的在于输入语音指令或者输入搜索关键词时,当用户选择第一分析结果之后,就说明已经达到用户进行语音输入的目的,故而不再需要继续对语音信息进行检测,因而产生所述第一控制指令;而如果用户并未选择任何分析结果,则说明所述M个分析结果都不是用户所想要的,故而继续语音信息进行检测分析。
由以上描述可知,由于在本申请实施例中,通过判断是否存在用户选择M个处理对象中的第一处理对象的选择操作,来确定是否生成所述第一控制指令,而通常情况下,在用户选择第一处理对象之后,就说明电子设备已经识别出用户所需要的控制指令,故而,在这种情况下停止检测语音信息,达到了节省能耗的同时也能够精确的对语音信息进行识别的技术效果。
在具体实施过程中,所述选择操作,具体为:通过第一输入方式所进行的操作,其中,所述第一输入方式为与语音输入方式不同的输入方式。
由以上描述可知,由于在本申请实施例中,采用了通过与语音输入方式不同的第一输入方式进行选择操作的技术方案,故而达到了提高选择操作的精确度以及速度的技术效果。
第二种,所述判断模块,具体用于:
判断所述用户是否停止说话,获得另一判断结果;
其中,当所述另一判断结果表明所述用户停止说话时,生成所述第一控制指令;而用户并未停止说话,不生成所述第一控制指令。
在具体实施过程中,当用户已经停止说话时,不管用户是否选择出第一分析结果,由于语音输入过程已经结果,故而生成所述第一控制指令,停止检测所述语音信息。
由以上描述可知,由于在本申请实施例中,当存在停止检测用户是否说话的第一控制指令,则停止检测用户的语音信息,故而达到了节省对语音信息进行检测和分析的能耗的技术效果。
由于本申请实施例三所介绍的电子设备,为实施本申请实施例一中的语音识别的方法所采用的电子设备,故而基于本申请实施例一中所介绍的语音识别的方法,本领域所属技术人员能够了解本实施例三中的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备不再详细介绍。只要本领域所属技术人员实施本申请实施例一中语音识别的方法所采用的电子设备,都属于本申请所欲保护的范围。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
(1)由于在本申请实施例中,采用了当电子设备检测到用户开始进行说话时,检测对应所述用户的一完整语义的语音信息中的一部分语音信息,并对所述一部分语音信息进行分析以获得M个分析结果的技术方案,由于不用获取完整语音的语音信息,就能够对语音信息进行分析,故而解决了现有技术中对语音信息的识别不够及时的技术问题,达到了能够及时对语音信息进行识别的技术效果。
(2)由于在本申请实施例中,当存在停止检测用户是否说话的第一控制指令,则停止检测用户的语音信息,故而达到了节省对语音信息进行检测和分析的能耗的技术效果。
(3)由于在本申请实施例中,通过判断是否存在用户选择M个处理对象中的第一处理对象的选择操作,来确定是否生成所述第一控制指令,而通常情况下,在用户选择第一处理对象之后,就说明电子设备已经识别出用户所需要的控制指令,故而,在这种情况下停止检测语音信息,达到了节省能耗的同时也能够精确的对语音信息进行识别的技术效果。
(4)由于在本申请实施例中,采用了对M个分析结果进行评分,并且显示分值最高的M1个分析结果的技术方案,其中,一般情况下分值比较高则说明匹配度比较大,故而达到了提高语音识别精度的技术效果。
(5)由于在本申请实施例中,采用了通过与语音输入方式不同的第一输入方式进行选择操作的技术方案,故而达到了提高选择操作的精确度以及速度的技术效果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (20)
1.一种语音识别的方法,所述方法应用在一电子设备中,其特征在于,所述方法包括:
当所述电子设备检测到一用户在T0时刻开始进行说话时,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数,j为大于等于1的整数,所述Tj时刻为所述用户结束输入所述为一完整语义的语音信息的时刻,所述Ti时刻为所述T0时刻至所述Tj时刻之间的任意时刻;
对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
2.如权利要求1所述的方法,其特征在于,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体为:
对所述第i个语音子信息进行分析,以获得M个关键词文本信息,所述M个关键词文本信息即为所述M个分析结果。
3.如权利要求1所述的方法,其特征在于,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体包括:
对所述第i个语音子信息进行分析,以获得N个关键词文本信息,其中,N为大于等于1的整数;
基于所述N个关键词文本信息,获得与所述N个关键词文本信息中的任一关键词文本信息匹配度大于第一预设阈值的M个匹配结果,所述M个匹配即为所述M个分析结果。
4.如权利要求1-3任一权项所述的方法,其特征在于,在所述对所述第i个语音子信息进行分析,以获得M个分析结果之后,所述方法还包括:
将所述M个分析结果中的M1个分析结果显示于一显示界面,以接收所述用户的选择指令,其中,M1为大于等于1的整数。
5.如权利要求4所述的方法,其特征在于,在所述对所述第i个语音子信息进行分析,以获得M个分析结果之后,所述方法还包括:
判断是否存在停止检测所述用户是否在说话的第一控制指令;
在存在时,停止检测所述用户是否在说话;
在不存在时,取i=i+1,执行步骤:检测在Ti时刻所对应的第i个语音子信息。
6.如权利要求5所述的方法,其特征在于,所述判断是否存在停止检测所述用户是否在说话的第一控制指令,具体包括:
判断是否存在选择所述M1个分析结果中的第一分析结果的选择操作,获得一判断结果;
其中,在所述判断结果表明存在所述选择操作时,生成所述第一控制指令。
7.如权利要求6所述的方法,其特征在于,所述选择操作,具体为:通过第一输入方式所进行的操作,其中,所述第一输入方式为与语音输入方式不同的输入方式。
8.如权利要求4所述的方法,其特征在于,在所述将所述M个分析结果中的M1个分析结果显示于一显示界面之前,所述方法还包括:
将所述M个分析结果按照匹配度进行评分,以获得M个第一分值;或
将所述M个分析结果按照历史选择信息进行评分,以获得M个第二分值;或
将所述M个分析结果按照匹配度和历史选择信息进行评分,以获得M个第三分值。
9.如权利要求8所述的方法,其特征在于,所述将所述M个分析结果中的M1个分析结果显示于一显示界面,具体包括:
从所述M个分析结果中获取第一分值、第二分值或第三分值中分值最高的M1个分析结果;
将所述M1个分析结果显示于所述显示界面。
10.如权利要求1所述的方法,其特征在于,所述对所述第i个语音子信息进行分析,以获得M个分析结果,具体为:
对所述第i个语音子信息进行声纹分析,以获得所述M个分析结果。
11.一种电子设备,其特征在于,所述电子设备包括:
检测芯片,用于当所述电子设备检测到一用户在T0时刻开始进行说话时,检测在Ti时刻所对应的第i个语音子信息,其中,所述第i个语音子信息为在所述T0时刻至Ti时刻所对应的语音信息,所述第i个语音子信息为在所述T0时刻至所述Ti时刻之后的Tj时刻所对应的为一完整语义的语音信息的一部分语音信息,i为大于等于1的整数,j为大于等于1的整数,所述Tj时刻为所述用户结束输入所述为一完整语义的语音信息的时刻,所述Ti时刻为所述T0时刻至所述Tj时刻之间的任意时刻;
分析芯片,用于对所述第i个语音子信息进行分析,以获得M个分析结果,M为大于等于1的整数。
12.如权利要求11所述的电子设备,其特征在于,所述分析芯片,具体用于:
对所述第i个语音子信息进行分析,以获得M个关键词文本信息,所述M个关键词文本信息即为所述M个分析结果。
13.如权利要求11所述的电子设备,其特征在于,所述分析芯片,具体包括:
分析子芯片,用于对所述第i个语音子信息进行分析,以获得N个关键词文本信息,其中,N为大于等于1的整数;
匹配子芯片,用于基于所述N个关键词文本信息,获得与所述N个关键词文本信息中的任一关键词文本信息匹配度大于第一预设阈值的M个匹配结果,所述M个匹配即为所述M个分析结果。
14.如权利要求11-13任一权项所述的电子设备,其特征在于,所述电子设备还包括:
显示芯片,用于在对所述第i个语音子信息进行分析,以获得M个分析结果之后,将所述M个分析结果中的M1个分析结果显示于一显示界面,以接收所述用户的选择指令,其中,M1为大于等于1的整数。
15.如权利要求14所述的电子设备,其特征在于,所述电子设备还包括:
判断芯片,用于在对所述第i个语音子信息进行分析,以获得M个分析结果之后,判断是否存在停止检测所述用户是否在说话的第一控制指令;
停止芯片,用于在存在时,停止检测所述用户是否在说话;
返回芯片,用于在不存在时,取i=i+1,执行步骤:检测在Ti时刻所对应的第i个语音子信息。
16.如权利要求15所述的电子设备,其特征在于,所述判断芯片,具体包括:
判断子芯片,用于判断是否存在选择所述M1个分析结果中的第一分析结果的选择操作,获得一判断结果;
生成子芯片,用于在所述判断结果表明存在所述选择操作时,生成所述第一控制指令。
17.如权利要求16所述的电子设备,其特征在于,所述选择操作,具体为:通过第一输入方式所进行的操作,其中,所述第一输入方式为与语音输入方式不同的输入方式。
18.如权利要求14所述的电子设备,其特征在于,所述电子设备还包括:
评分芯片,用于在将所述M个分析结果中的M1个分析结果显示于一显示界面之前,将所述M个分析结果按照匹配度进行评分,以获得M个第一分值;或
将所述M个分析结果按照历史选择信息进行评分,以获得M个第二分值;或
将所述M个分析结果按照匹配度和历史选择信息进行评分,以获得M个第三分值。
19.如权利要求18所述的电子设备,其特征在于,所述显示芯片,具体包括:
获取子芯片,用于从所述M个分析结果中获取第一分值、第二分值或第三分值中分值最高的M1个分析结果;
显示子芯片,将所述M1个分析结果显示于所述显示界面。
20.如权利要求11所述的电子设备,其特征在于,所述分析芯片,具体用于:
对所述第i个语音子信息进行声纹分析,以获得所述M个分析结果。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201210529658.2A CN103871401B (zh) | 2012-12-10 | 2012-12-10 | 一种语音识别的方法及电子设备 |
| US14/101,961 US10068570B2 (en) | 2012-12-10 | 2013-12-10 | Method of voice recognition and electronic apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201210529658.2A CN103871401B (zh) | 2012-12-10 | 2012-12-10 | 一种语音识别的方法及电子设备 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN103871401A CN103871401A (zh) | 2014-06-18 |
| CN103871401B true CN103871401B (zh) | 2016-12-28 |
Family
ID=50881903
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201210529658.2A Active CN103871401B (zh) | 2012-12-10 | 2012-12-10 | 一种语音识别的方法及电子设备 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US10068570B2 (zh) |
| CN (1) | CN103871401B (zh) |
Families Citing this family (49)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
| CN105139849B (zh) * | 2015-07-22 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
| US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| CN105336324B (zh) * | 2015-11-17 | 2018-04-03 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
| CN105592226B (zh) * | 2016-01-20 | 2020-04-10 | Oppo广东移动通信有限公司 | 一种通话过程中数据的处理方法及装置 |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
| CN107547728B (zh) * | 2016-06-28 | 2020-09-22 | 中兴通讯股份有限公司 | 通话关键内容提取方法及装置 |
| US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
| US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
| US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
| CN108172242B (zh) * | 2018-01-08 | 2021-06-01 | 深圳市芯中芯科技有限公司 | 一种改进的蓝牙智能云音箱语音交互端点检测方法 |
| US11188706B2 (en) * | 2018-01-18 | 2021-11-30 | Christopher Anthony Silva | System and method for regionalized resolution of a network path |
| US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
| US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
| CN110503943B (zh) * | 2018-05-17 | 2023-09-19 | 蔚来(安徽)控股有限公司 | 一种语音交互方法以及语音交互系统 |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
| CN108847216B (zh) * | 2018-06-26 | 2021-07-16 | 联想(北京)有限公司 | 语音处理方法及电子设备、存储介质 |
| US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
| CN109493849A (zh) * | 2018-12-29 | 2019-03-19 | 联想(北京)有限公司 | 语音唤醒方法、装置及电子设备 |
| US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
| US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
| DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
| US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
| CN112449050A (zh) * | 2019-08-29 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 语音交互方法、语音交互设备、计算设备和存储介质 |
| CN110958419B (zh) * | 2019-11-07 | 2022-02-18 | 视联动力信息技术股份有限公司 | 视联网会议处理方法、装置、电子设备及存储介质 |
| CN111275858B (zh) * | 2020-01-22 | 2022-07-01 | 广东快车科技股份有限公司 | 一种声纹识别的授信方法及系统 |
| US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
| US12301635B2 (en) | 2020-05-11 | 2025-05-13 | Apple Inc. | Digital assistant hardware abstraction |
| US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
| US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
| CN111897601B (zh) * | 2020-08-03 | 2023-11-24 | Oppo广东移动通信有限公司 | 应用启动方法、装置、终端设备以及存储介质 |
| CN115910052B (zh) * | 2021-09-30 | 2026-01-30 | 华为技术有限公司 | 智能语音交互处理方法以及移动终端 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101464896A (zh) * | 2009-01-23 | 2009-06-24 | 安徽科大讯飞信息科技股份有限公司 | 语音模糊检索方法及装置 |
| CN103366742A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入方法及系统 |
Family Cites Families (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
| JP3672800B2 (ja) * | 2000-06-20 | 2005-07-20 | シャープ株式会社 | 音声入力通信システム |
| US7953447B2 (en) * | 2001-09-05 | 2011-05-31 | Vocera Communications, Inc. | Voice-controlled communications system and method using a badge application |
| US7203652B1 (en) * | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
| US7444285B2 (en) * | 2002-12-06 | 2008-10-28 | 3M Innovative Properties Company | Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services |
| KR100606060B1 (ko) * | 2004-02-21 | 2006-07-26 | 삼성전자주식회사 | 휴대단말기의 데이터를 외부장치로 출력하는 장치 및 방법 |
| US20050187767A1 (en) * | 2004-02-24 | 2005-08-25 | Godden Kurt S. | Dynamic N-best algorithm to reduce speech recognition errors |
| JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
| US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
| JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
| KR100654183B1 (ko) * | 2005-11-07 | 2006-12-08 | 한국전자통신연구원 | 음성 인식을 이용한 문자 입력 시스템 및 그 방법 |
| US7761293B2 (en) * | 2006-03-06 | 2010-07-20 | Tran Bao Q | Spoken mobile engine |
| US20080114603A1 (en) * | 2006-11-15 | 2008-05-15 | Adacel, Inc. | Confirmation system for command or speech recognition using activation means |
| JP4791984B2 (ja) * | 2007-02-27 | 2011-10-12 | 株式会社東芝 | 入力された音声を処理する装置、方法およびプログラム |
| TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
| US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
| US20090228273A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Handwriting-based user interface for correction of speech recognition errors |
| KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
| JP5322208B2 (ja) * | 2008-06-30 | 2013-10-23 | 株式会社東芝 | 音声認識装置及びその方法 |
| WO2010000322A1 (en) * | 2008-07-03 | 2010-01-07 | Mobiter Dicta Oy | Method and device for converting speech |
| US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
| JP5709980B2 (ja) * | 2011-04-08 | 2015-04-30 | 三菱電機株式会社 | 音声認識装置およびナビゲーション装置 |
| US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
| US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
| US20130246041A1 (en) * | 2012-03-19 | 2013-09-19 | Marc Alexander Costa | Systems and methods for event and incident reporting and management |
| JP2014109889A (ja) * | 2012-11-30 | 2014-06-12 | Toshiba Corp | コンテンツ検索装置、コンテンツ検索方法及び制御プログラム |
-
2012
- 2012-12-10 CN CN201210529658.2A patent/CN103871401B/zh active Active
-
2013
- 2013-12-10 US US14/101,961 patent/US10068570B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101464896A (zh) * | 2009-01-23 | 2009-06-24 | 安徽科大讯飞信息科技股份有限公司 | 语音模糊检索方法及装置 |
| CN103366742A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103871401A (zh) | 2014-06-18 |
| US10068570B2 (en) | 2018-09-04 |
| US20140163984A1 (en) | 2014-06-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103871401B (zh) | 一种语音识别的方法及电子设备 | |
| CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
| Li et al. | InfoXtract location normalization: a hybrid approach to geographic references in information extraction | |
| US9020805B2 (en) | Context-based disambiguation of acronyms and abbreviations | |
| Akhtiamov et al. | Speech and Text Analysis for Multimodal Addressee Detection in Human-Human-Computer Interaction. | |
| CN102968987A (zh) | 一种语音识别方法及系统 | |
| i Orts | Multilingual detection of hate speech against immigrants and women in Twitter at SemEval-2019 task 5: Frequency analysis interpolation for hate in speech detection | |
| US10347243B2 (en) | Apparatus and method for analyzing utterance meaning | |
| CN102081602A (zh) | 确定未登录词的类别的方法和设备 | |
| Bi et al. | A keyword-based method for measuring sentence similarity | |
| Wu et al. | Leveraging social Q&A collections for improving complex question answering | |
| CN104572617A (zh) | 一种口语考试偏题检测方法及装置 | |
| US11610356B2 (en) | Method and electronic device for providing sign language | |
| Gidhe et al. | Sarcasm detection of non# tagged statements using MLP-BP | |
| Iftene et al. | Named Entity Relation Mining using Wikipedia. | |
| Morgan et al. | Automatically detecting action items in audio meeting recordings | |
| Schönhofen | Annotating documents by Wikipedia concepts | |
| Rakun et al. | A heuristic Hidden Markov Model to recognize inflectional words in sign system for Indonesian language known as SIBI (Sistem Isyarat Bahasa Indonesia) | |
| Wang et al. | Detecting levels of interest from spoken dialog with multistream prediction feedback and similarity based hierarchical fusion learning | |
| Oco et al. | Measuring language similarity using trigrams: Limitations of language identification | |
| Prabhakaran et al. | Power of confidence: How poll scores impact topic dynamics in political debates | |
| Zhang et al. | DeHate: A Holistic Hateful Video Dataset for Explicit and Implicit Hate Detection | |
| Agarwal et al. | LangResearchLab NC at SemEval-2021 Task 1: Linguistic feature based modelling for lexical complexity | |
| Purver et al. | Cascaded lexicalised classifiers for second-person reference resolution | |
| Pandey et al. | An improved NLP approach for detection of plagiarism in scientific paper |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant |