[go: up one dir, main page]

CN109155130A - 处理来自分布式麦克风的语音 - Google Patents

处理来自分布式麦克风的语音 Download PDF

Info

Publication number
CN109155130A
CN109155130A CN201780029399.8A CN201780029399A CN109155130A CN 109155130 A CN109155130 A CN 109155130A CN 201780029399 A CN201780029399 A CN 201780029399A CN 109155130 A CN109155130 A CN 109155130A
Authority
CN
China
Prior art keywords
audio signal
microphone
response
equipment
confidence score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780029399.8A
Other languages
English (en)
Inventor
M·J·戴利
D·R·克里斯特
W·贝拉迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of CN109155130A publication Critical patent/CN109155130A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/007Monitoring arrangements; Testing arrangements for public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了定位在不同位置处的多个麦克风。与所述麦克风通信的调度系统从所述多个麦克风导出多个音频信号,计算每个导出的音频信号的置信度得分,比较所述计算的置信度得分。基于所述比较,所述调度系统选择所述导出的音频信号中的至少一个,以用于进一步处理,接收对所述进一步处理的响应,并且使用输出设备输出所述响应。所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。

Description

处理来自分布式麦克风的语音
要求相关申请的优先权并交叉引用相关申请
本申请要求2016年5月13日提交的临时美国专利申请62/335,981和2016年8月16日提交的临时美国专利申请62/375,543的优先权,这些临时美国专利申请的全部内容以引用方式并入本文。本申请涉及2016年12月9日提交的美国专利申请15/373,541,该美国专利申请的全部内容以引用方式并入本文。
技术背景
本公开涉及处理来自分布式麦克风的语音。
当前语音识别系统假定一个麦克风或麦克风阵列正在侦听用户说话并且基于语音采取动作。该动作可包括本地语音识别和响应、基于云的识别和响应或这些的组合。在一些情况下,本地识别“唤醒字词”,并且基于该唤醒字词远程地提供进一步的处理。
分布式扬声器系统可协调定位在家庭周围的多个扬声器处的音频回放,使得声音回放在各位置之间同步。
发明内容
一般来讲,在一个方面,系统包括定位在不同位置处的多个麦克风以及与麦克风通信的调度系统。调度系统从多个麦克风导出多个音频信号,计算每个导出的音频信号的置信度得分,并且比较计算的置信度得分。基于该比较,调度系统选择导出的音频信号中的至少一个,以用于进一步处理。
具体实施可以任何组合包括以下各项中的一者或多者。调度系统可包括多个本地处理器,该多个本地处理器各自连接到麦克风中的至少一个。调度系统可包括至少第一本地处理器以及在网络上可用于第一处理器的至少第二处理器。计算每个导出的音频信号的置信度得分可包括计算信号是否可包括语音、信号中是否可包括唤醒字词、信号中可包括哪种唤醒字词、包括在信号中的语音的质量、其声音可被记录在信号中的用户的身份以及用户相对于麦克风位置的位置中的一者或多者中的置信度。计算每个导出的音频信号的置信度得分可包括确定音频信号表现为包括话语以及该话语是否包括唤醒字词。计算每个导出的音频信号的置信度得分可还包括识别语音中包括多个唤醒字词中的哪个唤醒词。计算每个导出的音频信号的置信度得分还可包括确定语音包括唤醒字词的置信度的程度。
计算每个导出的音频信号的置信度得分可包括比较麦克风检测到与每个音频信号对应的声音、导出的音频信号的信号强度、导出的音频信号的信噪比、导出的音频信号的频谱内容以及导出的音频信号内的回响的时间之间的时序中的一个或多个。计算每个导出的音频信号的置信度得分可包括针对每个音频信号,计算音频信号的表观源与麦克风中的至少一个之间的距离。计算每个导出的音频信号的置信度得分可包括计算每个音频信号源相对于麦克风位置的位置。计算每个音频信号源的位置可包括基于计算的每个源与麦克风中的至少两个之间的距离来对该位置进行三角测量。
调度系统可将所选的一个或多个信号中的至少一部分传输到语音处理系统,以提供进一步处理。传输所选的一个或多个音频信号可包括从多个语音处理系统中选择至少一个语音处理系统。多个语音处理系统中的至少一个语音处理系统可包括在广域网上提供的语音识别服务。多个语音处理系统中的至少一个语音处理系统可包括语音识别方法,所述语音识别方法在执行调度系统的相同处理器上执行。语音处理系统的选择可基于与用户相关联的偏好、计算的置信度得分或导出音频信号所处的情景中的一者或多者。情景可包括对可能正在讲话的用户的识别、多个麦克风中哪个麦克风产生了所选的导出音频信号、用户相对于麦克风位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。语音处理系统的选择可基于可用于语音处理系统的资源。
比较计算的置信度得分可包括确定至少两个所选的音频信号表现为包括来自至少两个不同用户的话语。确定所选音频信号表现为包括来自至少两个不同用户的话语可基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。调度系统可还将与两个不同用户对应的所选音频信号发送到两个不同的所选的语音处理系统。可基于用户的偏好、语音处理系统的负载平衡、所选音频信号的情景以及两个所选音频信号中不同唤醒字词的使用中的一者或多者将所选的音频信号分配到所选的语音处理系统。调度系统可还将与两个不同用户对应的所选音频信号作为两个单独的处理请求发送到相同的语音处理系统。
比较计算的置信度得分可包括确定至少两个所接收的音频信号表现为表示相同的话语。确定所选音频信号表示相同的话语可基于声音识别、音频信号源相对于麦克风位置的位置、麦克风中哪一个产生了每个所选的音频信号、音频信号的到达时间、音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及个人讲话的视觉识别中的一者或多者。调度系统可还将表现为表示相同的话语的音频信号中的仅一者发送到语音处理系统。调度系统可还将表现为表示相同的话语的音频信号中的两者均发送到语音处理系统。调度系统可还将至少一个所选音频信号传输到至少两个语音处理系统中的每一个,接收来自语音处理系统中每一个的响应,以及确定要输出响应的顺序。
调度系统可还将至少两个所选音频信号传输到至少一个语音处理系统,接收来自与每个传输信号对应的语音处理系统的响应,以及确定要输出响应的顺序。调度系统可被进一步配置为接收对进一步处理的响应,以及使用输出设备输出响应。输出设备可不与捕获了音频的麦克风对应。输出设备可不定位在麦克风所定位的任何位置处。输出设备可包括扩音器、耳机、可穿戴音频设备、显示器、视频屏幕或家用电器中的一者或多者。在接收到对进一步处理的多个响应之后,调度系统可通过将响应组合成单个输出来确定要输出响应的顺序。在接收到对进一步处理的多个响应之后,调度系统可通过选择输出少于所有响应的响应或将不同响应发送到不同输出设备来确定要输出响应的顺序。导出的音频信号的数量可不等于麦克风的数量。麦克风中的至少一个可包括麦克风阵列。该系统可还包括非音频输入设备。非音频输入设备可包括加速度计、存在检测器、相机、可穿戴传感器或用户界面设备中的一者或多者。
一般来讲,在一个方面,系统包括定位在不同位置处的多个设备;以及与设备通信的调度系统,该调度系统响应于先前传送的请求接收来自语音处理系统的响应、确定响应与每个设备的相关性、以及基于该确定将响应转发到设备中的至少一个。
具体实施可以任何组合包括以下各项中的一者或多者。设备中的至少一个可包括音频输出设备,并且转发响应可使得该设备输出与响应对应的音频信号。音频输出设备可包括扩音器、耳机或可穿戴音频设备中的一者或多者。设备中的至少一个可包括显示器、视频屏幕或家用电器。先前传送的请求可从不与设备的多个位置中任一个相关联的第三位置处传送。响应可为第一响应,并且调度系统可还接收来自第二语音处理系统的响应。调度系统可还将第一响应转发到设备中的第一个,并且将第二响应转发到设备中的第二个。调度系统可还将第一响应和第二响应两者均转发到设备中的第一个。调度系统可还将第一响应和第二响应中的仅一者转发到设备中的任一个。
确定响应的相关性可包括确定设备中哪一个与先前传送的请求相关联。确定响应的相关性可包括确定设备中哪一个可最接近与先前传送的请求相关联的用户。确定响应的相关性可基于与所要求系统的用户相关联的偏好。确定响应的相关性可包括确定先前传送请求的情景。情景可包括对可能已经与请求相关联的用户的识别、多个麦克风中哪个麦克风可能与请求相关联、用户相对于设备位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。确定响应的相关性可包括确定设备的能力或资源可用性。
多个输出设备可定位在不同的输出设备位置处,并且调度系统可响应于传输的请求接收来自语音处理系统的响应、确定响应与每个输出设备的相关性,以及基于该确定将响应转发到输出设备中的至少一个。输出设备中的至少一个可包括音频输出设备,并且转发响应使得该设备输出与响应对应的音频信号。音频输出设备可包括扩音器、耳机或可穿戴音频设备中的一者或多者。输出设备中的至少一个可包括显示器、视频屏幕或家用电器。确定响应的相关性可包括确定输出设备和与所选音频信号相关联的麦克风之间的关系。确定响应的相关性可包括确定输出设备中哪一个可最接近所选音频信号源。确定响应的相关性可包括确定导出音频信号所处的情景。情景可包括对可能正在讲话的用户的识别、多个麦克风中哪个麦克风产生了所选的导出音频信号、用户相对于麦克风位置和设备位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。确定响应的相关性可包括确定输出设备的能力或资源可用性。
一般来讲,在一个方面,系统包括定位在不同麦克风位置处的多个麦克风、定位在不同扩音器位置处的多个扩音器以及与麦克风和扩音器通信的调度系统。调度系统从多个麦克风导出多个声音信号;计算关于每个导出的声音信号包括唤醒字词的置信度得分;比较计算的置信度得分;以及基于该比较,选择导出的声音信号中的至少一个并且将所选的一个或多个信号中的至少一部分传输到语音处理系统。调度系统响应于该传输而接收来自语音处理系统的响应、确定响应与每个扩音器的相关性,以及基于该确定将响应转发到扩音器中的至少一个以用于输出。
优点包括检测多个位置处的口头命令以及提供对该命令的单个响应。优点还包括提供对相比检测到命令的位置与用户更相关的位置处的口头命令的响应。
可以任何技术上可能的方式组合上文所提及的所有示例和特征。其他特征和优点在具体实施方式和权利要求书中将是显而易见的。
附图说明
图1示出了麦克风和可响应麦克风所接收到的声音命令的设备的系统布局。
具体实施方式
随着越来越多的设备实现声音控制用户界面(VUI),出现多个设备可检测到相同口头命令并试图处理该命令的问题,这导致出现从冗余响应到在不同动作点处采取相互矛盾的动作等问题。类似地,如果口头命令可导致多个设备的输出或动作,则该由哪个设备采取动作可能是模糊的。在一些VUI中,被称为“唤醒字词”、“唤醒词”或“关键词”的特殊短语用于激活VUI的语音识别特征-实现VUI的设备总是侦听唤醒字词,并且当该设备侦听到唤醒字词时,该设备解析其之后的任何口头命令。这是为了通过不解析所检测到的每个声音来节约处理资源,并且这可有助于消除关于哪个系统是命令的目标的歧义,但如果多个系统正在侦听相同的唤醒字词,诸如由于该唤醒词与服务提供方而不是单独的硬件相关联,则问题仍然是确定哪个设备应该处理该命令。
图1示出了潜在的环境,其中独立麦克风阵列102、智能电话104、扩音器106和一组耳机108各自均具有检测用户语音的麦克风(为了避免混淆,我们将个人讲话称为“用户”并且将设备106称为“扩音器”;“用户所讲的离散的内容”是“话语”)。检测话语110的每个设备将其所侦听到的内容作为音频信号传输到调度系统112。在设备具有多个麦克风的情况下,那些设备可组合由单独的麦克风呈现的信号以呈现单个组合音频信号,或者其可传输由每个麦克风呈现的信号。
本公开涉及各种不同类型的音频和相关信号。为了清楚起见,使用以下约定。“声学信号”是指物理信号,即物理声压波,其被解释为人类发出的声音,诸如上文所提及的话语。“音频信号”是指表示声音的电信号。音频信号可由麦克风响应声音音频而生成,或者其可接收自其他电子源,诸如录音、计算机生成的信号或流式数据。“音频输出”是指扩音器基于对扬声器的音频信号输入而生成的声音信号。
调度系统112可为其中每个设备均单独地连接到其上的基于云的服务、在一个相同设备或相关联的设备上运行的本地服务、在这些设备本身中的一些或全部上协同运行的分布式服务或者这些架构或类似架构的任何组合。由于其不同的麦克风设计以及其与用户的不同接近度,每个设备可不同地侦听话语110(如果有的话)。例如,独立的麦克风阵列102可具有高质量波束形成能力,这允许无论用户位于何处该独立的麦克风阵列均可清晰地侦听到话语,而耳机108和智能电话104具有高度定向的近场麦克风,如果用户佩戴着耳机并且将电话保持为面向他们的面部,则该近场麦克风仅仅清晰地获取用户的声音。同时,扩音器106可具有简单的全向麦克风,该全向麦克风在用户靠近并面向扩音器时良好地检测语音,但在其他情况下则产生低质量信号。
基于这些因素以及类似因素,调度系统112计算每个音频信号的置信度得分(这可包括设备本身在发送其所侦听到的内容之前对其自身的检测进行评分,并且连同其相应的音频信号一起发送该得分)。基于置信度得分彼此之间的比较、置信度得分和基线之间的比较或者这两者,调度系统112选择一个或多个音频信号以用于进一步处理。这可包括本地执行语音识别和采取直接的动作,或者通过网络114(诸如,互联网或任何专用网络)将音频信号传输到另一个服务提供方。例如,如果一个设备产生对以下事件具有高置信度的音频信号:信号包括唤醒字词“好的,谷歌”,则可将该音频信号发送到谷歌基于云的语音识别系统以用于处理。在将音频信号传输到远程服务的情况下,唤醒字词可连同其之后的任何话语一起被包括在内,或者可仅发送话语。
置信度评分可基于大量因素,并且还可指示多于一个参数中的置信度。例如,得分可指示关于使用了何种唤醒字词(包括是否使用了唤醒字词)或者用户相对于麦克风的位置的置信度的程度。得分可还指示音频信号是否具有高质量的置信度的程度。在一个示例中,调度系统可对来自两个设备的音频信号进行评分,评分结果:二者针对使用特殊唤醒字词这一事件具有高置信度得分,但其中一者在音频信号质量方面具有低置信度,而另一者则在音频信号质量方面具有高置信度。将选择具有用于信号质量的高置信度得分的音频信号用于进一步处理。
当多于一个设备传输音频信号时,确定置信度的关键因素之一就是音频信号是表示相同的话语还是表示两个(或更多个)不同的话语。评分本身可基于因素诸如信号电平、信噪比(SNR)、信号中的回响量、信号的频谱内容、用户识别、关于用户相对于麦克风的位置的了解或两个或更多个设备处的音频信号的相对时序。位置相关评分和用户身份相关评分可基于音频信号本身,并且可基于外部数据,诸如视觉系统、用户佩戴的可佩戴追踪器和提供信号的设备的身份。例如,如果智能电话是音频信号源,则该智能电话的所有者是其声音被侦听的用户这一事件的置信度得分将很高。可基于在多个位置处或者在单个位置处的阵列中的多个麦克风处接收的声音信号的强度和时序来确定用户位置。
除确定使用了哪个唤醒字词以及哪个信号最佳之外,评分还可提供用于告知应该如何处理音频信号的附加情景。例如,如果置信度得分指示用户正面向扩音器,则可能应该通过与智能电话相关联的一个VUI,使用与扩音器相关联的VUI。情景可包括内容诸如哪个用户正在讲话、该用户相对于设备的位置和面向、该用户正在进行何种活动(例如,锻炼、烹饪、看电视)、当天的时刻或正在使用哪些其他设备(包括除提供音频信号的那些设备之外的设备)。
在一些情况下,该评分指示侦听到多于一个的命令。例如,两个设备可各自针对以下事件具有高置信度:其侦听到不同的唤醒字词,或其侦听到不同的用户正在讲话。在这种情况下,调度系统可发送两个请求-将一个请求发送到唤醒字词所用于的每个系统,或者将两个不同的请求发送到两个用户均调用的单个系统。在其他情况下,可发送多于一个的音频信号-例如,以便获得多于一个的响应、以便让远程系统来决定使用哪一个信号、或者通过组合信号来改善声音识别。除选择用于进一步处理的音频信号之外,评分还可导致其他用户反馈。例如,光可在所选的任何设备上闪烁,使得用户知道已接收命令。
当从调度系统将音频信号发送到其上以用于处理的任何服务或系统接收响应时,也会出现类似的考虑。在许多情况下,关于话语的情景还将告知响应的处理。例如,响应可发送到所选音频信号从其接收的设备。在其他情况下,响应可发送到不同的设备。例如,如果选择了来自独立麦克风阵列102的音频信号,但从VUI返回的响应是开始播放音频文件,则该响应该由耳机108或扩音器106处理。如果响应是显示信息,则智能电话104或具有屏幕的一些其他设备将用于递送响应。如果由于评分指示麦克风阵列音频信号具有最佳信号质量而选择麦克风阵列音频信号,则附加评分可能已经指示用户未正在使用耳机108而是在相同房间中使用扩音器106,因此扩音器是响应的可能目标。也将考虑设备的其他能力-例如,尽管仅示出了音频设备,但声音命令可处理其他系统,诸如照明或家庭自动化系统。因此,如果对话语的响应是熄灯,则调度系统可得出结论:它指的是检测到最强音频信号的房间中的灯。其他可能的输出设备包括显示器、屏幕(例如,智能电话上的屏幕或电视监视器)、家用电器、门锁等。在一些示例中,将情景提供给远程系统,并且远程系统具体地基于话语和情景的组合来靶向特定的输出设备。
如上文所述,调度系统可为单个计算机或分布式系统。所提供的语音处理可类似地由单个计算机或分布式系统提供,与调度系统共延或者与调度系统分开。它们各自可完全本地地定位到设备、完全地定位在云中或者分配在两者之间。它们可被集成到设备中的一个或所有。所述的各种任务-对信号进行评分、检测唤醒字词、将信号发送到另一系统以用于处理、解析命令的信号、处理命令、生成响应、确定哪个设备应处理响应等-可组合在一起或者拆分为多个子任务。任务和子任务中的每一个均可由不同的设备或设备的组合以本地方式或者以基于云的系统或其他远程系统来执行。
当我们提及麦克风时,我们包括麦克风阵列,而不旨在对特定的麦克风技术、拓扑或信号处理进行任何限制。类似地,对扩音器和耳机的引用应当理解为包括任何音频输出设备-电视、家庭影院系统、门铃、可穿戴扬声器等。
上述系统和方法的实施方案包括计算机部件和计算机实现的步骤,其对于本领域技术人员将是显而易见的。例如,本领域技术人员应当理解,执行计算机实现的步骤的指令可存储为计算机可读介质(诸如,软盘、硬盘、光盘、闪存ROM、非易失性ROM和RAM)上的计算机可执行指令。此外,本领域技术人员应当理解,可在各种处理器(诸如,例如,微处理器、数字信号处理器、栅极阵列等)上执行计算机可执行指令。为了便于阐述,并非本文所述的系统和方法中的每一个步骤或元件在本文中均被描述为计算机系统的一部分,但本领域技术人员将认识到,每个步骤或元件均可具有对应的计算机系统或软件部件。此类计算机系统和/或软件部件通过描述其对应的步骤或元件(即,其功能)来启用,并且其在本公开的范围内。
已描述了多个具体实施。然而,应当理解,在不脱离本文所述发明构思的范围的情况下,可进行附加修改,并且因此,其他实施方案在以下权利要求书的范围内。

Claims (70)

1.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;以及
比较所述计算的置信度得分;以及基于所述比较,选择所述导出的音频信号中的至少一个,以用于进一步处理。
2.根据权利要求1所述的系统,其中所述调度系统包括多个本地处理器,所述多个本地处理器各自连接到所述麦克风中的至少一个。
3.根据权利要求1所述的系统,其中所述调度系统包括至少第一本地处理器以及在网络上能够用于所述第一处理器的至少第二处理器。
4.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括计算所述信号是否包括语音、所述信号中是否包括唤醒字词、所述信号中包括哪种唤醒字词、包括在所述信号中的语音的质量、其语音被记录在所述信号中的用户的身份或所述用户相对于所述麦克风位置的位置中的一者或多者中的置信度。
5.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括确定所述音频信号表现为包括话语以及所述话语是否包括唤醒字词。
6.根据权利要求5所述的系统,其中计算每个导出的音频信号的所述置信度得分还包括识别所述语音中包括多个唤醒字词中的哪个唤醒词。
7.根据权利要求5所述的系统,其中计算每个导出的音频信号的所述置信度得分还包括确定所述话语包括所述唤醒字词的置信度的程度。
8.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括比较所述麦克风检测到与每个所述音频信号对应的声音、所述导出的音频信号的信号强度、所述导出的音频信号的信噪比、所述导出的音频信号的频谱内容以及所述导出的音频信号内的回响的时间之间的时序中的一个或多个。
9.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括针对每个音频信号,计算所述音频信号的表观源与所述麦克风中的至少一个之间的距离。
10.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括计算每个音频信号的所述源相对于所述麦克风的所述位置的位置。
11.根据权利要求10所述的系统,其中计算每个音频信号的所述源的所述位置包括基于计算的每个源与所述麦克风中的至少两个之间的距离来对所述位置进行三角测量。
12.根据权利要求1所述的系统,其中所述调度系统被进一步配置为将所述所选的一个或多个信号中的至少一部分传输到语音处理系统,以提供所述进一步处理。
13.根据权利要求12所述的系统,其中传输所述所选的一个或多个音频信号包括从多个语音处理系统中选择至少一个语音处理系统。
14.根据权利要求13所述的系统,其中所述多个语音处理系统中的至少一个语音处理系统包括在广域网上提供的语音识别服务。
15.根据权利要求13所述的系统,其中所述多个语音处理系统中的至少一个语音处理系统包括语音识别方法,所述语音识别方法在执行所述调度系统的所述相同处理器上执行。
16.根据权利要求13所述的系统,其中所述语音处理系统的所述选择基于与所述要求系统的用户相关联的偏好、所述计算的置信度得分或导出所述音频信号所处的情景中的一者或多者。
17.根据权利要求16所述的系统,其中所述情景包括对正在讲话的用户的识别、所述多个麦克风中哪个麦克风产生了所述所选的导出音频信号、所述用户相对于所述麦克风位置的位置、所述系统中的其他设备的操作状态以及当天时刻中的一者或多者。
18.根据权利要求13所述的系统,其中所述语音处理系统的所述选择基于能够用于所述语音处理系统的资源。
19.根据权利要求1所述的系统,其中所述导出音频信号的数量不等于所述麦克风的数量。
20.根据权利要求1所述的系统,其中所述麦克风中的至少一个包括麦克风阵列。
21.根据权利要求1所述的系统,还包括非音频输入设备。
22.根据权利要求21所述的系统,其中所述非音频输入设备包括加速度计、存在检测器、相机、可穿戴传感器或用户界面设备中的一者或多者。
23.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;以及
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少一个,以用于进一步处理。
24.根据权利要求23所述的方法,其中计算每个导出的音频信号的所述置信度得分包括计算所述信号是否包括语音、所述信号中是否包括唤醒字词、所述信号中包括哪种唤醒字词、包括在所述信号中的语音的质量、其语音被记录在所述信号中的用户的身份或所述用户相对于所述麦克风位置的位置中的一者或多者中的置信度。
25.根据权利要求23所述的系统,其中计算每个导出的音频信号的所述置信度得分包括确定所述音频信号表现为包括话语以及所述话语是否包括唤醒字词。
26.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;以及
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选的音频信号表现为包括来自至少两个不同用户的话语。
27.根据权利要求26所述的系统,其中对于所述所选音频信号表现为包括来自至少两个不同用户的话语的所述确定基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。
28.根据权利要求26所述的系统,其中所述调度系统被进一步配置为将与所述两个不同用户对应的所述所选的音频信号发送到两个不同的所选的语音处理系统。
29.根据权利要求28所述的系统,其中基于所述用户的偏好、所述语音处理系统的负载平衡、所述所选音频信号的情景以及所述两个所选音频信号中不同唤醒字词的使用中的一者或多者,将所述所选的音频信号分配到所述所选的语音处理系统。
30.根据权利要求26所述的系统,其中所述调度系统被进一步配置为将与所述两个不同用户对应的所述所选的音频信号作为两个单独的处理请求发送到相同的语音处理系统。
31.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选音频信号表现为表示所述相同的话语。
32.根据权利要求31所述的系统,其中对于所述所选音频信号表示所述相同的话语的所述确定基于声音识别、所述音频信号的所述源相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述音频信号的到达时间、所述音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及所述个人讲话的视觉识别中的一者或多者。
33.根据权利要求31所述的系统,其中所述调度系统被进一步配置为将表现为表示所述相同的话语的所述音频信号中的仅一者发送到所述语音处理系统。
34.根据权利要求31所述的系统,其中所述调度系统被进一步配置为将表现为表示所述相同的话语的所述音频信号中的两者均发送到所述语音处理系统。
35.根据权利要求31所述的系统,其中所述调度系统被进一步配置为:
将至少一个所选的音频信号传输到至少两个语音处理系统中的每一个;
接收来自所述语音处理系统中每一个的响应;以及
确定要输出所述响应的顺序。
36.根据权利要求31所述的系统,其中所述调度系统被进一步配置为:
将至少两个所选的音频信号传输到至少一个语音处理系统;
接收来自与每个所述传输信号对应的所述语音处理系统的响应;以及
确定要输出所述响应的顺序。
37.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;以及
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及,基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选的音频信号表现为包括来自至少两个不同用户的话语。
38.根据权利要求37所述的方法,其中确定所述所选音频信号表现为包括来自至少两个不同用户的话语基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。
39.根据权利要求37所述的方法,还包括将与所述两个不同用户对应的所述所选的音频信号发送到两个不同的所选的语音处理系统。
40.根据权利要求39所述的方法,还包括基于所述用户的偏好、所述语音处理系统的负载平衡、所述所选音频信号的情景以及所述两个所选音频信号中不同唤醒字词的使用中的一者或多者,将所述所选的音频信号分配到所述所选的语音处理系统。
41.根据权利要求37所述的方法,还包括将与所述两个不同用户对应的所述所选的音频信号作为两个单独的处理请求发送到相同的语音处理系统。
42.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;以及
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选音频信号表现为表示所述相同的话语。
43.根据权利要求42所述的方法,其中确定所述所选音频信号表示所述相同的话语基于声音识别、所述音频信号的所述源相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述音频信号的到达时间、所述音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及所述个人讲话的视觉识别中的一者或多者。
44.根据权利要求42所述的方法,还包括将表现为表示所述相同的话语的所述音频信号中的仅一者发送到所述语音处理系统。
45.根据权利要求42所述的方法,还包括将表现为表示所述相同的话语的所述音频信号中的两者均发送到所述语音处理系统。
46.根据权利要求42所述的方法,还包括:
将至少一个所选的音频信号传输到至少两个语音处理系统中的每一个;
接收来自所述语音处理系统中每一个的响应;以及
确定要输出所述响应的顺序。
47.根据权利要求42所述的方法,还包括:
将至少两个所选的音频信号传输到至少一个语音处理系统;
接收来自与每个所述传输信号对应的所述语音处理系统的响应;以及
确定要输出所述响应的顺序。
48.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;
输出设备;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;
基于所述比较,选择所述导出的音频信号中的至少一个,
以用于进一步处理;
接收对所述进一步处理的响应;以及
使用所述输出设备输出所述响应;
其中所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。
49.根据权利要求48所述的系统,其中所述输出设备包括扩音器、耳机、可穿戴音频设备、显示器、视频屏幕或家用电器中的一者或多者。
50.根据权利要求48所述的系统,其中在接收到对所述进一步处理的多个响应之后,所述调度系统通过将所述响应组合成单个输出来确定输出所述响应的顺序。
51.根据权利要求48所述的系统,其中在接收到对所述进一步处理的多个响应之后,所述调度系统通过选择输出少于所有所述响应的响应来确定输出所述响应的顺序。
52.根据权利要求48所述的系统,其中在接收到对所述进一步处理的多个响应之后,所述调度系统将不同响应发送到不同输出设备。
53.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;
基于所述比较,选择所述导出的音频信号中的至少一个,
以用于进一步处理;
接收对所述进一步处理的响应;以及
使用输出设备输出所述响应;
其中所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。
54.根据权利要求53所述的方法,其中所述输出设备未定位在所述麦克风所定位的任何所述位置处。
55.一种系统,包括:
多个设备,所述多个设备定位在不同位置处;和
调度系统,所述调度系统与所述设备通信,所述调度系统被配置为:
响应于先前传送的请求接收来自语音处理系统的响应;
确定所述响应与每个所述设备的相关性;以及
基于所述确定将所述响应转发到所述设备中的至少一个。
56.根据权利要求55所述的系统,其中所述设备中的所述至少一个包括音频输出设备,并且转发所述响应使得所述设备输出与所述响应对应的音频信号。
57.根据权利要求55所述的系统,其中所述设备中的所述至少一个包括显示器、视频屏幕或家用电器。
58.根据权利要求55所述的系统,其中所述响应为第一响应,并且所述调度系统被进一步配置为接收来自第二语音处理系统的响应。
59.根据权利要求58所述的系统,其中所述调度系统被进一步配置为将所述第一响应转发到所述设备中的第一个,并且将所述第二响应转发到所述设备中的第二个。
60.根据权利要求58所述的系统,其中所述调度系统被进一步配置为将所述第一响应和所述第二响应两者均转发到所述设备中的第一个。
61.根据权利要求58所述的系统,其中所述调度系统被进一步配置为将所述第一响应和所述第二响应中的仅一者转发到所述设备中的任一个。
62.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述设备中哪一个与所述先前传送的请求相关联。
63.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述设备中哪一个最接近与所述先前传送的请求相关联的用户。
64.根据权利要求55所述的系统,其中确定所述响应的所述相关性基于与所述要求系统的用户相关联的偏好。
65.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述先前传送的请求的情景。
66.根据权利要求65所述的系统,其中所述情景包括对与所述请求相关联的用户的识别、多个麦克风中哪个麦克风与所述请求相关联、所述用户相对于所述设备位置的位置、所述系统中其他设备的操作状态以及当天时刻中的一者或多者。
67.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述设备的能力或资源可用性。
68.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述输出设备和与所述所选音频信号相关联的所述麦克风之间的关系。
69.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述输出设备中哪一个最接近所述所选音频信号源。
70.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同麦克风位置处;
多个扩音器,所述多个扩音器定位在不同扩音器位置处;和
调度系统,所述调度系统与所述麦克风和所述扩音器通信,所述调度系统被配置为:
从所述多个麦克风导出多个声音信号;
计算关于每个导出的声音信号包括唤醒字词的置信度得分;
比较所述计算的置信度得分;
基于所述比较,选择所述导出的声音信号中的至少一个并且将所述所选的一个或多个信号中的至少一部分传输到语音处理系统;
响应于所述传输接收来自语音处理系统的响应;
确定所述响应与每个所述扩音器的相关性;以及
基于所述确定将所述响应转发到所述扩音器中的至少一个以用于输出。
CN201780029399.8A 2016-05-13 2017-05-12 处理来自分布式麦克风的语音 Pending CN109155130A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662335981P 2016-05-13 2016-05-13
US62/335,981 2016-05-13
US201662375543P 2016-08-16 2016-08-16
US62/375,543 2016-08-16
PCT/US2017/032488 WO2017197312A2 (en) 2016-05-13 2017-05-12 Processing speech from distributed microphones

Publications (1)

Publication Number Publication Date
CN109155130A true CN109155130A (zh) 2019-01-04

Family

ID=58765986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780029399.8A Pending CN109155130A (zh) 2016-05-13 2017-05-12 处理来自分布式麦克风的语音

Country Status (5)

Country Link
US (4) US20170330563A1 (zh)
EP (1) EP3455853A2 (zh)
JP (1) JP2019518985A (zh)
CN (1) CN109155130A (zh)
WO (2) WO2017197309A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048067A (zh) * 2019-11-11 2020-04-21 云知声智能科技股份有限公司 一种麦克风响应方法及装置
WO2021000876A1 (zh) * 2019-07-01 2021-01-07 华为技术有限公司 一种语音控制方法、电子设备及系统
US11272307B2 (en) 2020-03-10 2022-03-08 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for controlling recording volume, and storage medium
CN114207715A (zh) * 2019-07-30 2022-03-18 杜比实验室特许公司 用于分布式音频设备的声学回声消除控制
CN114360546A (zh) * 2020-09-30 2022-04-15 华为技术有限公司 电子设备及其唤醒方法
WO2022105392A1 (zh) * 2020-11-17 2022-05-27 Oppo广东移动通信有限公司 电子设备中执行语音处理的方法、装置、电子设备及芯片
CN115731933A (zh) * 2021-09-01 2023-03-03 苹果公司 基于声学空间的语音触发

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9521497B2 (en) 2014-08-21 2016-12-13 Google Technology Holdings LLC Systems and methods for equalizing audio for playback on an electronic device
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
WO2017197309A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Distributed volume control for speech recognition
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
US10558421B2 (en) * 2017-05-22 2020-02-11 International Business Machines Corporation Context based identification of non-relevant verbal communications
US10564928B2 (en) 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
CN107564532A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 电子设备的唤醒方法、装置、设备及计算机可读存储介质
WO2019014425A1 (en) 2017-07-13 2019-01-17 Pindrop Security, Inc. SAFE PARTY WITH SEVERAL PARTIES KNOWING NO VOICE IMPRESSIONS
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10475454B2 (en) * 2017-09-18 2019-11-12 Motorola Mobility Llc Directional display and audio broadcast
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
KR102469753B1 (ko) 2017-11-30 2022-11-22 삼성전자주식회사 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
CN108039172A (zh) * 2017-12-01 2018-05-15 Tcl通力电子(惠州)有限公司 智能蓝牙音箱语音交互方法、智能蓝牙音箱及存储介质
US10958467B2 (en) 2017-12-06 2021-03-23 Google Llc Ducking and erasing audio from nearby devices
EP3683673B1 (en) * 2017-12-08 2024-09-11 Google LLC Isolating a device, from multiple devices in an environment, for being responsive to spoken assistant invocation(s)
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US20190179611A1 (en) * 2017-12-11 2019-06-13 Sonos, Inc. Systems and Methods of Receiving Voice Input
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
CN107871507A (zh) * 2017-12-26 2018-04-03 安徽声讯信息技术有限公司 一种语音控制ppt翻页方法及系统
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10665244B1 (en) 2018-03-22 2020-05-26 Pindrop Security, Inc. Leveraging multiple audio channels for authentication
US10623403B1 (en) 2018-03-22 2020-04-14 Pindrop Security, Inc. Leveraging multiple audio channels for authentication
WO2019190486A1 (en) * 2018-03-27 2019-10-03 Rovi Guides, Inc. Systems and methods for selecting network-connected devices to provide device functions for an event
KR20210002722A (ko) * 2018-05-04 2021-01-08 구글 엘엘씨 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응
CN108694946A (zh) * 2018-05-09 2018-10-23 四川斐讯信息技术有限公司 一种音箱控制方法及系统
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN108922524A (zh) * 2018-06-06 2018-11-30 西安Tcl软件开发有限公司 智能语音设备的控制方法、系统、装置、云服务器及介质
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11514917B2 (en) * 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
KR102606789B1 (ko) 2018-10-01 2023-11-28 삼성전자주식회사 복수의 음성 인식 장치들을 제어하는 방법 및 그 방법을 지원하는 전자 장치
KR102811235B1 (ko) 2018-10-18 2025-05-26 삼성전자주식회사 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
KR102831245B1 (ko) 2018-10-23 2025-07-08 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
WO2020085794A1 (en) * 2018-10-23 2020-04-30 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR102792944B1 (ko) * 2018-12-17 2025-04-11 삼성전자주식회사 단말 장치 및 이의 제어 방법
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11482210B2 (en) 2019-05-29 2022-10-25 Lg Electronics Inc. Artificial intelligence device capable of controlling other devices based on device information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110718227A (zh) * 2019-10-17 2020-01-21 深圳市华创技术有限公司 一种基于多模态交互的分布式物联网设备协同方法及其系统
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US12387716B2 (en) 2020-06-08 2025-08-12 Sonos, Inc. Wakewordless voice quickstarts
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
KR20220037846A (ko) * 2020-09-18 2022-03-25 삼성전자주식회사 음성 인식을 수행하기 위한 전자 장치를 식별하기 위한 전자 장치 및 그 동작 방법
US12283269B2 (en) 2020-10-16 2025-04-22 Sonos, Inc. Intent inference in audiovisual communication sessions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11893985B2 (en) * 2021-01-15 2024-02-06 Harman International Industries, Incorporated Systems and methods for voice exchange beacon devices
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US12462799B2 (en) * 2021-02-25 2025-11-04 Panasonic Intellectual Property Management Co., Ltd. Voice control method, server apparatus, and utterance object
CN118303040A (zh) 2021-09-30 2024-07-05 搜诺思公司 启用和禁用麦克风和语音助手
US12327549B2 (en) 2022-02-09 2025-06-10 Sonos, Inc. Gatekeeping for voice intent processing

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN101354569A (zh) * 2007-07-25 2009-01-28 索尼株式会社 信息处理装置、信息处理方法和计算机程序
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
US20110182481A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Voice-body identity correlation
CN102281425A (zh) * 2010-06-11 2011-12-14 华为终端有限公司 一种播放远端与会人员音频的方法、装置及远程视频会议系统
CN102520391A (zh) * 2010-11-09 2012-06-27 微软公司 认知负荷减少
US8843372B1 (en) * 2010-03-19 2014-09-23 Herbert M. Isenberg Natural conversational technology system and method
CN104254818A (zh) * 2012-05-11 2014-12-31 高通股份有限公司 音频用户交互辨识和应用程序接口
CN105280195A (zh) * 2015-11-04 2016-01-27 腾讯科技(深圳)有限公司 语音信号的处理方法及装置

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6987992B2 (en) * 2003-01-08 2006-01-17 Vtech Telecommunications, Limited Multiple wireless microphone speakerphone system and method
JP4595364B2 (ja) * 2004-03-23 2010-12-08 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US8078463B2 (en) * 2004-11-23 2011-12-13 Nice Systems, Ltd. Method and apparatus for speaker spotting
JP4867804B2 (ja) * 2007-06-12 2012-02-01 ヤマハ株式会社 音声認識装置及び会議システム
US8243902B2 (en) * 2007-09-27 2012-08-14 Siemens Enterprise Communications, Inc. Method and apparatus for mapping of conference call participants using positional presence
US20090304205A1 (en) * 2008-06-10 2009-12-10 Sony Corporation Of Japan Techniques for personalizing audio levels
US8373739B2 (en) * 2008-10-06 2013-02-12 Wright State University Systems and methods for remotely communicating with a patient
GB0900929D0 (en) * 2009-01-20 2009-03-04 Sonitor Technologies As Acoustic position-determination system
FR2945696B1 (fr) * 2009-05-14 2012-02-24 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
EP2485212A4 (en) * 2009-10-02 2016-12-07 Nat Inst Inf & Comm Tech LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV
US8639516B2 (en) * 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US20120029912A1 (en) * 2010-07-27 2012-02-02 Voice Muffler Corporation Hands-free Active Noise Canceling Device
US9377941B2 (en) * 2010-11-09 2016-06-28 Sony Corporation Audio speaker selection for optimization of sound origin
EP2721609A1 (en) * 2011-06-20 2014-04-23 Agnitio S.L. Identification of a local speaker
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9966067B2 (en) * 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
US8930005B2 (en) * 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
WO2014055076A1 (en) * 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置
US20140270260A1 (en) * 2013-03-13 2014-09-18 Aliphcom Speech detection using low power microelectrical mechanical systems sensor
US20140278418A1 (en) * 2013-03-15 2014-09-18 Broadcom Corporation Speaker-identification-assisted downlink speech processing systems and methods
KR20140135349A (ko) * 2013-05-16 2014-11-26 한국전자통신연구원 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US10255930B2 (en) * 2013-06-28 2019-04-09 Harman International Industries, Incorporated Wireless control of linked devices
WO2015030474A1 (ko) * 2013-08-26 2015-03-05 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 방법
GB2519117A (en) * 2013-10-10 2015-04-15 Nokia Corp Speech processing
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US9443516B2 (en) * 2014-01-09 2016-09-13 Honeywell International Inc. Far-field speech recognition systems and methods
US9318112B2 (en) * 2014-02-14 2016-04-19 Google Inc. Recognizing speech in the presence of additional audio
WO2015130283A1 (en) * 2014-02-27 2015-09-03 Nuance Communications, Inc. Methods and apparatus for adaptive gain control in a communication system
US9293141B2 (en) * 2014-03-27 2016-03-22 Storz Endoskop Produktions Gmbh Multi-user voice control system for medical devices
US9817634B2 (en) * 2014-07-21 2017-11-14 Intel Corporation Distinguishing speech from multiple users in a computer interaction
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
US20160306024A1 (en) * 2015-04-16 2016-10-20 Bi Incorporated Systems and Methods for Sound Event Target Monitor Correlation
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US9883294B2 (en) * 2015-10-01 2018-01-30 Bernafon A/G Configurable hearing system
WO2017197309A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Distributed volume control for speech recognition
US10149049B2 (en) * 2016-05-13 2018-12-04 Bose Corporation Processing speech from distributed microphones
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10204623B2 (en) * 2017-01-20 2019-02-12 Essential Products, Inc. Privacy control in a connected environment

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN101354569A (zh) * 2007-07-25 2009-01-28 索尼株式会社 信息处理装置、信息处理方法和计算机程序
US20110182481A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Voice-body identity correlation
US8843372B1 (en) * 2010-03-19 2014-09-23 Herbert M. Isenberg Natural conversational technology system and method
CN102281425A (zh) * 2010-06-11 2011-12-14 华为终端有限公司 一种播放远端与会人员音频的方法、装置及远程视频会议系统
CN102520391A (zh) * 2010-11-09 2012-06-27 微软公司 认知负荷减少
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN104254818A (zh) * 2012-05-11 2014-12-31 高通股份有限公司 音频用户交互辨识和应用程序接口
CN105280195A (zh) * 2015-11-04 2016-01-27 腾讯科技(深圳)有限公司 语音信号的处理方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000876A1 (zh) * 2019-07-01 2021-01-07 华为技术有限公司 一种语音控制方法、电子设备及系统
CN114207715A (zh) * 2019-07-30 2022-03-18 杜比实验室特许公司 用于分布式音频设备的声学回声消除控制
CN111048067A (zh) * 2019-11-11 2020-04-21 云知声智能科技股份有限公司 一种麦克风响应方法及装置
US11272307B2 (en) 2020-03-10 2022-03-08 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for controlling recording volume, and storage medium
CN114360546A (zh) * 2020-09-30 2022-04-15 华为技术有限公司 电子设备及其唤醒方法
WO2022105392A1 (zh) * 2020-11-17 2022-05-27 Oppo广东移动通信有限公司 电子设备中执行语音处理的方法、装置、电子设备及芯片
CN115731933A (zh) * 2021-09-01 2023-03-03 苹果公司 基于声学空间的语音触发

Also Published As

Publication number Publication date
US20170330566A1 (en) 2017-11-16
US20170330563A1 (en) 2017-11-16
WO2017197312A3 (en) 2017-12-21
WO2017197309A1 (en) 2017-11-16
US20170330565A1 (en) 2017-11-16
US20170330564A1 (en) 2017-11-16
WO2017197312A2 (en) 2017-11-16
JP2019518985A (ja) 2019-07-04
EP3455853A2 (en) 2019-03-20

Similar Documents

Publication Publication Date Title
CN109155130A (zh) 处理来自分布式麦克风的语音
US10149049B2 (en) Processing speech from distributed microphones
AU2022246448B2 (en) Systems and methods for playback device management
US11764885B2 (en) Systems and methods for state detection via wireless radios
US20210050013A1 (en) Information processing device, information processing method, and program
US9431014B2 (en) Intelligent placement of appliance response to voice command
JP2019207710A (ja) スマート音声機器間のインタラクション方法、装置、機器及び記憶媒体
EP4409571B1 (en) Conflict management for wake-word detection processes
US12482460B2 (en) Method and system of environment-sensitive wake-on-voice initiation using ultrasound
US20250008023A1 (en) Systems and methods for providing headset voice control to employees in quick-service restaurants
US12389330B2 (en) Power management techniques for waking-up processors in media playback systems
US12543015B2 (en) Spatial audio head tracker
WO2023056280A1 (en) Noise reduction using synthetic audio
CN114999489A (zh) 可穿戴式设备的控制方法、装置、终端设备及存储介质
WO2019183894A1 (zh) 一种设备间的数据迁移的方法和设备
WO2019059939A1 (en) SPEECH TREATMENT FROM DISTRIBUTED MICROPHONES
CN115966207A (zh) 控制方法、装置、局域网、电子设备和存储介质
US11882415B1 (en) System to select audio from multiple connected devices
JP7293863B2 (ja) 音声処理装置、音声処理方法およびプログラム
WO2025029609A1 (en) Personalization techniques for media playback systems
CN108322852A (zh) 一种智能音箱的语音播放方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190104

WD01 Invention patent application deemed withdrawn after publication