[go: up one dir, main page]

CN1692407A - 改善移动设备的语音识别 - Google Patents

改善移动设备的语音识别 Download PDF

Info

Publication number
CN1692407A
CN1692407A CNA038141922A CN03814192A CN1692407A CN 1692407 A CN1692407 A CN 1692407A CN A038141922 A CNA038141922 A CN A038141922A CN 03814192 A CN03814192 A CN 03814192A CN 1692407 A CN1692407 A CN 1692407A
Authority
CN
China
Prior art keywords
information
carry out
processor
obtaining
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038141922A
Other languages
English (en)
Other versions
CN1692407B (zh
Inventor
M·戴谢尔
R·克瑙尔哈斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN1692407A publication Critical patent/CN1692407A/zh
Application granted granted Critical
Publication of CN1692407B publication Critical patent/CN1692407B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72457User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)

Abstract

通过使用位置信息可改善基于处理器的移动设备(14)中的语音识别。可以从插件板上的硬件(26)或者远程提供的信息中得到位置信息。位置信息以各种方式辅助改善语音识别。例如,通过位置信息可增强适应于包括回响和噪声特征的本地周围环境条件的能力。在某些实施例中,可从远程服务器(12)为给定位置提供预先开发的模型或环境信息。

Description

改善移动设备的语音识别
技术领域
本发明通常涉及基于处理器的具备语音识别能力的移动系统。
背景技术
提及到若干实例,基于处理器的移动系统包括诸如手持设备、个人数字助理、数码相机、膝上型电脑、数据输入设备、数据采集设备、远程控制单元、声音记录设备、以及蜂窝电话等等的设备。这些设备中的许多设备可具备语音识别能力。
利用语音识别,用户所说的话可被转换为文本。作为另一个实例,可将所说的话作为指令接收,该指令能够选择和操作基于处理器的系统的能力。
在大量的例子中,给定设备识别语音或标识一个说话者的能力是相对有限的。各种周围环境条件可能负面地影响语音识别或说话者识别的质量。由于周围条件可能会不可预测地发生变化,因此消除周围环境对移动语音识别平台的影响更加困难。
因而,需要一种更好的方式来实现基于处理器的移动系统的语音识别。
附图说明
图1示意性描述了本发明的一个实施例;
图2为根据本发明一个实施例的在图1所示实施例中有利使用的流程图;以及
图3为根据本发明一个实施例的在图1所示实施例中有利使用的流程图。
具体实施方式
参考图1,具备语音功能的基于处理器的移动系统14可以为任何一种通常利用电池供电的基于处理器的移动系统。这些设备的一些实例包括膝上型电脑、个人数字助理、蜂窝电话、数码相机、数据输入设备、数据采集设备、器具以及声音记录设备等等,以提及若干的实例。
通过在设备14内包含位置检测能力,在各种环境或周围条件下可改善识别所说话语的能力。因此,设备14可包括一个位置检测器或基于定位的服务(LBS)的客户机26。使用各种技术、诸如全球定位卫星、热点检测、小区检测、无线电三角测量或其他技术等可实现位置检测。
位置的各个方面可用于改善语音识别。系统14的物理位置可提供有关周围空间的声学特征的信息。这些特征可以包括房间的大小、诸如通风道或外部窗户之类的噪声源,以及回响特征。
在网络基础设施、诸如基于位置的服务(LBS)的服务器12中能够存储该数据。对于被频繁访问的位置,可将这些特征存储在系统14的数据存储器28自身中。在本发明的一个实施例中,服务器12可通过无线网络18耦合到系统14。
位置的其他方面包括在附近使用可比拟系统14的说话者的物理位置,这些方面可产生改善语音识别的杠杆作用。所述说话者可能为潜在的干扰源,并且能够基于其与系统14的用户的接近程度识别这些说话者。另外,可通过预订他们的存在信息或尤其通过发现同等层推断出附近携带可比拟系统14的人的身份。而且,可以确定系统14的方位,这可能为改善语音识别提供有用的信息。
系统14包括耦合到位置检测器/基于位置的服务的客户机26的语音环境(context)管理器24、语音识别器22、和噪声减少语音预处理器20。
根据本发明的一个实施例,当系统14试图进行语音识别时,语音环境管理器24从服务器12检索当前的环境。根据周围空间的大小,环境管理器24调整识别器22的声学模型以计算回响。
可以用包括使用诸如已知目标的最大似然线性回归等模型自适应方法的各种方式完成这种调整。该目标转换可能已经在该位置上在先前遇到时被估计,或可以从与该空间相关的回响时间推断得出。也可以通过从一组先前训练的声学模型中选择来完成该调整,该声学模型匹配用户所典型遇到的各种声学空间。
作为另一种替换,环境管理器24可选自特征提取和噪声降低算法,这些算法抑制基于声学空间大小的回响。还可以修改该声学模型以匹配所选择的前端噪声降低和特征提取。模型还可以根据附近人的身份进行调整,如果存在模型的话,则检索并载入用于每个人的依赖于说话者的声学模型。在本发明的一个实施例中,这些模型还用于走廊讨论的自动录音。
如果先前已经遇到了该声学空间,则另一种可完成调整的方式是通过初始化并调整一个新的声学模型。一旦对该位置充分地进行模拟,系统14就可以发送信息到服务器12并将其存储在远程数据存储器16中,以用于将来的访问者访问相同的位置。
作为另一个根据附近说话者的身份进行调整的实例,系统14可辅助用户将他们识别为录音源。录音源为应该录音其语音的人。用户周围的潜在源列表可提供给该用户。在一个实施例中,用户可从列表中选择想要的录音源。
作为另一个基于系统10的方位、邻近的人们的位置和将其指定为录音源的实例,预处理器20所控制的麦克风阵列可配置成在不是录音源的最近的人的方向上置零。由于该方向可能不是特别精确并易遭受突然的变化,因此这种方法不可能通过麦克风阵列代替干扰者跟踪。但是,它可提供一种当干扰者不说话时置零的机制,借此显著地改善了当干扰者讲话人开始说话时的性能。
参考图2,根据本发明的一个实施例,语音环境管理器24可为基于处理器的设备,包括处理器和存储将在处理器上执行的指令的存储器。因此,语音环境管理器24可以为软件或者是硬件。一开始,如方框30所示,语音环境管理器24从服务器12检索当前的环境。然后,如方框32所示,环境管理器24可以确定接近于设备14的周围空间的大小。如方框34所示,设备14可调整识别器的声学模型以计算本地回响。
然后,如方框36所示,可根据对本地环境的认识选择特征提取和噪声减少算法。另外,如方框38所示,可检索和载入用于附近说话者的依赖于说话者的声学模型。在一个实施例中,可从服务器12检索这些模型。
如方框40所示,根据如位置检测器/LBS客户机26检测到的系统14的位置可开发新的声学模型。如方框42所示,与位置坐标链接的新模型可通过无线网络18发送到服务器12,以用于潜在的未来使用。在某些实施例中,可从服务器12获取该模型,以及在其他情况下,可通过系统14独立地或与服务器12合作来开发这些模型以用于即时动态使用。
如方框44所示,可以识别其语音应该被识别的任何说话者。如方框46所示,可配置麦克风阵列预处理器20。然后,如方框48所示,实现已获得位置信息的好处的语音识别。
参考图3,根据本发明的一个实施例,LBS服务器12可通过软件50来实现。软件50可存储在服务器12上的合适的存储器中。一开始,如方框52所确定,服务器12从系统14接收一个环境信息的请求。如方框54所示,一旦接收了请求,服务器12则从系统14获取该位置信息。然后,如方框56所示,可将该位置信息与数据存储器16中可用的模型相关联。如方框58所示,一旦识别了合适的模型,可通过无线网络将环境发送到设备14。
尽管已经参考有限数量的实施例描述了本发明,但是本领域的普通技术人员将会理解可以对本发明作出各种修改和变型。意图在于所附的权利要求覆盖落入本发明实质精神和范围内的全部的这些修改和变型。

Claims (30)

1、一种方法,包括:
获取有关移动设备位置的信息;以及
使用所述位置信息提供语音识别。
2、根据权利要求1所述的方法,包括获取链接到特定位置的声学模型,以便用于改善语音识别。
3、根据权利要求2所述的方法,包括通过无线网络从远程服务器接收所述模型。
4、根据权利要求2所述的方法,包括根据本地特征设计(tailor)声学模型。
5、根据权利要求4所述的方法,包括将所述模型和位置坐标一起发送到远程服务器。
6、根据权利要求1所述的方法,其中,获取信息包括获取有关周围空间大小的信息。
7、根据权利要求1所述的方法,其中,获取信息包括调整声学模型以考虑回响。
8、根据权利要求1所述的方法,其中,获取信息包括选择特征提取或噪声降低算法。
9、根据权利要求1所述的方法,其中,获取信息包括获取有关附近说话者的信息。
10、根据权利要求1所述的方法,其中,获取信息包括获取有关周围空间大小的信息,获取有关回响的信息,选择噪声降低算法,以及获取有关附近说话者的信息,以便开发出用于当前位置的新声学模型。
11、根据权利要求1所述的方法,包括根据不必识别其语音的附近说话者的位置配置一个麦克风阵列。
12、一种包括存储指令的介质的产品,如果执行该指令,则使基于处理器的系统能够执行以下步骤:
获取有关移动设备位置的信息;以及
使用所述位置信息提供语音识别。
13、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行以下步骤,即获取链接到特定位置的声学模型以便用于改善语音识别。
14、根据权利要求13的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行通过无线网络从远程服务器接收所述模型的步骤。
15、根据权利要求13的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行根据本地特征设计声学模型的步骤。
16、根据权利要求15的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行将所述模型与位置坐标一起发送到远程服务器的步骤。
17、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关周围空间大小的信息。
18、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括调整声学模型以考虑回响。
19、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括选择特征提取或噪声降低算法。
20、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关附近说话者的信息。
21、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关周围空间大小的信息,获取有关回响的信息,选择噪声降低算法,以及获取有关附近说话者的信息,以便开发出用于当前位置的新声学模型。
22、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行根据不必识别其语音的附近说话者的位置而配置一个麦克风阵列的步骤。
23、一种系统,包括:
处理器;
耦合到所述处理器的位置确定设备;以及
耦合到所述处理器的存储器,该存储器存储有使处理器能够使用位置信息来提供语音识别的指令。
24、根据权利要求23所述的系统,其中,所述位置确定设备为全球定位卫星设备。
25、根据权利要求23所述的系统,其中,所述存储器存储有使处理器能够获取链接到特定位置的声学模型以便用于改善语音识别的指令。
26、根据权利要求25所述的系统,其中,所述存储器存储用于通过无线网络从远程服务器接收模型的指令。
27、根据权利要求24所述的系统,其中,所述系统自动地为特定位置设计一种声学模型并将该模型与位置坐标一起发送到远程服务器。
28、根据权利要求23所述的系统,其中,所述系统自动获取有关所述系统周围空间大小的信息。
29、根据权利要求23所述的系统,其中,所述系统自动获取有关附近说话者的信息。
30、根据权利要求29所述的系统,其中,所述系统包括一个麦克风阵列,并根据附近说话者的位置来自动地配置所述麦克风阵列。
CN038141922A 2002-06-20 2003-06-10 改善移动设备的语音识别 Expired - Fee Related CN1692407B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/176,326 2002-06-20
US10/176,326 US7224981B2 (en) 2002-06-20 2002-06-20 Speech recognition of mobile devices
PCT/US2003/018408 WO2004001719A1 (en) 2002-06-20 2003-06-10 Improving speech recognition of mobile devices

Publications (2)

Publication Number Publication Date
CN1692407A true CN1692407A (zh) 2005-11-02
CN1692407B CN1692407B (zh) 2012-04-04

Family

ID=29734126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN038141922A Expired - Fee Related CN1692407B (zh) 2002-06-20 2003-06-10 改善移动设备的语音识别

Country Status (9)

Country Link
US (1) US7224981B2 (zh)
EP (1) EP1514259B1 (zh)
KR (2) KR20070065893A (zh)
CN (1) CN1692407B (zh)
AT (1) ATE465485T1 (zh)
AU (1) AU2003245443A1 (zh)
DE (1) DE60332236D1 (zh)
TW (1) TWI229984B (zh)
WO (1) WO2004001719A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456141A (zh) * 2010-10-27 2012-05-16 三星Sds株式会社 用于识别用户背景的用户装置和方法
CN102737096A (zh) * 2011-03-31 2012-10-17 微软公司 基于位置的会话理解
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN103282957A (zh) * 2010-08-06 2013-09-04 谷歌公司 基于上下文自动监测话音输入
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN104025188A (zh) * 2011-12-29 2014-09-03 英特尔公司 声学信号修改
WO2014180263A1 (zh) * 2013-10-31 2014-11-13 中兴通讯股份有限公司 一种噪音处理方法、装置及系统、存储介质
CN104575494A (zh) * 2013-10-16 2015-04-29 中兴通讯股份有限公司 一种语音处理的方法和终端
CN104575493A (zh) * 2010-05-26 2015-04-29 谷歌公司 使用地理信息的声学模型适配
CN104575516A (zh) * 2013-10-07 2015-04-29 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US10049667B2 (en) 2011-03-31 2018-08-14 Microsoft Technology Licensing, Llc Location-based conversational understanding
US10061843B2 (en) 2011-05-12 2018-08-28 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003279994A1 (en) * 2002-10-21 2004-05-13 John P. Sinisi System and method for mobile data collection
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060074660A1 (en) 2004-09-29 2006-04-06 France Telecom Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words
US7522065B2 (en) * 2004-10-15 2009-04-21 Microsoft Corporation Method and apparatus for proximity sensing in a portable electronic device
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US20070041589A1 (en) * 2005-08-17 2007-02-22 Gennum Corporation System and method for providing environmental specific noise reduction algorithms
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
US8345832B2 (en) * 2009-01-09 2013-01-01 Microsoft Corporation Enhanced voicemail usage through automatic voicemail preview
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US9112989B2 (en) 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9053096B2 (en) 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US8811638B2 (en) * 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
WO2014003748A1 (en) * 2012-06-28 2014-01-03 Nuance Communications, Inc. Meta-data inputs to front end processing for automatic speech recognition
US8831957B2 (en) 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9401749B2 (en) 2013-03-08 2016-07-26 Google Technology Holdings LLC Method for codebook enhancement for multi-user multiple-input multiple-output systems
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9185199B2 (en) * 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
KR102257910B1 (ko) 2014-05-02 2021-05-27 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9801219B2 (en) 2015-06-15 2017-10-24 Microsoft Technology Licensing, Llc Pairing of nearby devices using a synchronized cue signal
US10484484B2 (en) 2016-02-05 2019-11-19 International Business Machines Corporation Context-aware task processing for multiple devices
US10044798B2 (en) 2016-02-05 2018-08-07 International Business Machines Corporation Context-aware task offloading among multiple devices
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
KR102565274B1 (ko) 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10181321B2 (en) * 2016-09-27 2019-01-15 Vocollect, Inc. Utilization of location and environment to improve recognition
US10429817B2 (en) 2016-12-19 2019-10-01 Honeywell International Inc. Voice control of components of a facility
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
EP4293661A3 (en) 2017-04-20 2024-02-21 Google LLC Multi-user authentication on a device
KR102424514B1 (ko) 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
TWI698857B (zh) 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
WO2021258240A1 (en) * 2020-06-22 2021-12-30 Qualcomm Incorporated Voice or speech recognition in noisy environments

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263019A (en) * 1991-01-04 1993-11-16 Picturetel Corporation Method and apparatus for estimating the level of acoustic feedback between a loudspeaker and microphone
US5384856A (en) * 1991-01-21 1995-01-24 Mitsubishi Denki Kabushiki Kaisha Acoustic system
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
JP2602158B2 (ja) * 1992-12-04 1997-04-23 株式会社エクォス・リサーチ 音声出力装置
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US6978159B2 (en) * 1996-06-19 2005-12-20 Board Of Trustees Of The University Of Illinois Binaural signal processing using multiple acoustic sensors and digital filtering
EP0907895A4 (en) * 1996-06-27 2001-01-17 Motorola Inc DETERMINATION OF POSITIONS IN A TELECOMMUNICATIONS SYSTEM
US6072881A (en) * 1996-07-08 2000-06-06 Chiefs Voice Incorporated Microphone noise rejection system
US6236365B1 (en) * 1996-09-09 2001-05-22 Tracbeam, Llc Location of a mobile station using a plurality of commercial wireless infrastructures
US6272457B1 (en) * 1996-09-16 2001-08-07 Datria Systems, Inc. Spatial asset management system that time-tags and combines captured speech data and captured location data using a predifed reference grammar with a semantic relationship structure
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5991385A (en) * 1997-07-16 1999-11-23 International Business Machines Corporation Enhanced audio teleconferencing with sound field effect
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JP4154015B2 (ja) * 1997-12-10 2008-09-24 キヤノン株式会社 情報処理装置およびその方法
US6125115A (en) * 1998-02-12 2000-09-26 Qsound Labs, Inc. Teleconferencing method and apparatus with three-dimensional sound positioning
JP3722335B2 (ja) * 1998-02-17 2005-11-30 ヤマハ株式会社 残響付加装置
US6223156B1 (en) * 1998-04-07 2001-04-24 At&T Corp. Speech recognition of caller identifiers using location information
US6184829B1 (en) 1999-01-08 2001-02-06 Trueposition, Inc. Calibration for wireless location system
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US20030060211A1 (en) * 1999-01-26 2003-03-27 Vincent Chern Location-based information retrieval system for wireless communication device
WO2001008384A1 (en) * 1999-07-28 2001-02-01 Mitsubishi Denki Kabushiki Kaisha Cellular phone
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
JP4415432B2 (ja) * 1999-10-08 2010-02-17 トヨタ自動車株式会社 手動バルブ
JP3376487B2 (ja) * 1999-10-27 2003-02-10 独立行政法人産業技術総合研究所 言い淀み検出方法及び装置
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US6850766B2 (en) * 2000-04-26 2005-02-01 Wirenix, Inc. Voice activated wireless locator service
KR20010106799A (ko) * 2000-05-23 2001-12-07 류정열 자동차용 음성 인식 장치
US6624922B1 (en) * 2000-06-02 2003-09-23 Northrop Grumman Corporation Electro-optic device for adding/subtracting optical signals
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
KR20020006357A (ko) 2000-07-12 2002-01-19 유영욱 구역별 정보 제공 서비스 방법 및 시스템
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法
US20020072917A1 (en) * 2000-12-11 2002-06-13 Irvin David Rand Method and apparatus for speech recognition incorporating location information
US20020097884A1 (en) * 2001-01-25 2002-07-25 Cairns Douglas A. Variable noise reduction algorithm based on vehicle conditions
US6810380B1 (en) * 2001-03-28 2004-10-26 Bellsouth Intellectual Property Corporation Personal safety enhancement for communication devices
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US6853907B2 (en) * 2002-03-21 2005-02-08 General Motors Corporation Method and system for communicating vehicle location information
US20050182558A1 (en) * 2002-04-12 2005-08-18 Mitsubishi Denki Kabushiki Kaisha Car navigation system and speech recognizing device therefor

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575493A (zh) * 2010-05-26 2015-04-29 谷歌公司 使用地理信息的声学模型适配
CN104575493B (zh) * 2010-05-26 2019-03-26 谷歌有限责任公司 使用地理信息的声学模型适配
CN106126178B (zh) * 2010-08-06 2019-09-06 谷歌有限责任公司 基于上下文自动监测话音输入
CN103282957A (zh) * 2010-08-06 2013-09-04 谷歌公司 基于上下文自动监测话音输入
CN106126178A (zh) * 2010-08-06 2016-11-16 谷歌公司 基于上下文自动监测话音输入
CN103282957B (zh) * 2010-08-06 2016-07-13 谷歌公司 基于上下文自动监测话音输入
CN102456141A (zh) * 2010-10-27 2012-05-16 三星Sds株式会社 用于识别用户背景的用户装置和方法
CN102456141B (zh) * 2010-10-27 2015-11-25 三星Sds株式会社 用于识别用户背景的用户装置和方法
US10049667B2 (en) 2011-03-31 2018-08-14 Microsoft Technology Licensing, Llc Location-based conversational understanding
CN102737096B (zh) * 2011-03-31 2017-08-25 微软技术许可有限责任公司 基于位置的会话理解
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US10296587B2 (en) 2011-03-31 2019-05-21 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10585957B2 (en) 2011-03-31 2020-03-10 Microsoft Technology Licensing, Llc Task driven user intents
CN102737096A (zh) * 2011-03-31 2012-10-17 微软公司 基于位置的会话理解
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10061843B2 (en) 2011-05-12 2018-08-28 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
CN104025188A (zh) * 2011-12-29 2014-09-03 英特尔公司 声学信号修改
CN104025188B (zh) * 2011-12-29 2016-09-07 英特尔公司 声学信号修改
CN103258533B (zh) * 2013-05-27 2015-05-13 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN104575516B (zh) * 2013-10-07 2020-02-28 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104575516A (zh) * 2013-10-07 2015-04-29 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104575494A (zh) * 2013-10-16 2015-04-29 中兴通讯股份有限公司 一种语音处理的方法和终端
WO2014180263A1 (zh) * 2013-10-31 2014-11-13 中兴通讯股份有限公司 一种噪音处理方法、装置及系统、存储介质
CN104601764A (zh) * 2013-10-31 2015-05-06 中兴通讯股份有限公司 移动终端的噪音处理方法、装置及系统
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US9870771B2 (en) 2013-11-14 2018-01-16 Huawei Technologies Co., Ltd. Environment adaptive speech recognition method and device
CN103632666B (zh) * 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US9928831B2 (en) 2013-12-19 2018-03-27 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器

Also Published As

Publication number Publication date
KR20050007429A (ko) 2005-01-17
EP1514259B1 (en) 2010-04-21
AU2003245443A1 (en) 2004-01-06
WO2004001719A1 (en) 2003-12-31
KR100830251B1 (ko) 2008-05-16
US7224981B2 (en) 2007-05-29
KR20070065893A (ko) 2007-06-25
TWI229984B (en) 2005-03-21
EP1514259A1 (en) 2005-03-16
TW200412730A (en) 2004-07-16
ATE465485T1 (de) 2010-05-15
US20030236099A1 (en) 2003-12-25
CN1692407B (zh) 2012-04-04
DE60332236D1 (de) 2010-06-02

Similar Documents

Publication Publication Date Title
CN1692407A (zh) 改善移动设备的语音识别
US12374367B2 (en) Enhancing audio using multiple recording devices
Tarzia et al. Indoor localization without infrastructure using the acoustic background spectrum
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
US20180096683A1 (en) Processing Voice Commands Based on Device Topology
US9626962B2 (en) Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model
WO2022206602A1 (zh) 语音唤醒方法、装置、存储介质及系统
TW202143750A (zh) 使用自我調整網路來對全景聲係數進行變換
EP4074066A1 (en) Methods for reducing error in environmental noise compensation systems
CN113808578B (zh) 音频信号处理方法、装置、设备及存储介质
US12279100B2 (en) Estimating user location in a system including smart audio devices
US12114075B1 (en) Object selection in computer vision
US7392183B2 (en) Schedule event context for speech recognition
US11425412B1 (en) Motion cues for video encoding
US11460927B2 (en) Auto-framing through speech and video localizations
CN114299978A (zh) 音频信号的处理方法、装置、设备及存储介质
US12075233B2 (en) Sound field control apparatus and method for the same
US10811011B2 (en) Correcting for impulse noise in speech recognition systems
CN118447868B (zh) 语音处理方法、装置、设备及存储介质
US20250210040A1 (en) Multi-device, multi-channel attention for speech and audio analytics applications
GB2567067A (en) Processing voice commands based on device topology
Kellner Room Recognition Using Audio Signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120404

Termination date: 20170610