CN109155130A - 处理来自分布式麦克风的语音 - Google Patents
处理来自分布式麦克风的语音 Download PDFInfo
- Publication number
- CN109155130A CN109155130A CN201780029399.8A CN201780029399A CN109155130A CN 109155130 A CN109155130 A CN 109155130A CN 201780029399 A CN201780029399 A CN 201780029399A CN 109155130 A CN109155130 A CN 109155130A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- microphone
- response
- equipment
- confidence score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/005—Audio distribution systems for home, i.e. multi-room use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/009—Signal processing in [PA] systems to enhance the speech intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/007—Monitoring arrangements; Testing arrangements for public address systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了定位在不同位置处的多个麦克风。与所述麦克风通信的调度系统从所述多个麦克风导出多个音频信号,计算每个导出的音频信号的置信度得分,比较所述计算的置信度得分。基于所述比较,所述调度系统选择所述导出的音频信号中的至少一个,以用于进一步处理,接收对所述进一步处理的响应,并且使用输出设备输出所述响应。所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。
Description
要求相关申请的优先权并交叉引用相关申请
本申请要求2016年5月13日提交的临时美国专利申请62/335,981和2016年8月16日提交的临时美国专利申请62/375,543的优先权,这些临时美国专利申请的全部内容以引用方式并入本文。本申请涉及2016年12月9日提交的美国专利申请15/373,541,该美国专利申请的全部内容以引用方式并入本文。
技术背景
本公开涉及处理来自分布式麦克风的语音。
当前语音识别系统假定一个麦克风或麦克风阵列正在侦听用户说话并且基于语音采取动作。该动作可包括本地语音识别和响应、基于云的识别和响应或这些的组合。在一些情况下,本地识别“唤醒字词”,并且基于该唤醒字词远程地提供进一步的处理。
分布式扬声器系统可协调定位在家庭周围的多个扬声器处的音频回放,使得声音回放在各位置之间同步。
发明内容
一般来讲,在一个方面,系统包括定位在不同位置处的多个麦克风以及与麦克风通信的调度系统。调度系统从多个麦克风导出多个音频信号,计算每个导出的音频信号的置信度得分,并且比较计算的置信度得分。基于该比较,调度系统选择导出的音频信号中的至少一个,以用于进一步处理。
具体实施可以任何组合包括以下各项中的一者或多者。调度系统可包括多个本地处理器,该多个本地处理器各自连接到麦克风中的至少一个。调度系统可包括至少第一本地处理器以及在网络上可用于第一处理器的至少第二处理器。计算每个导出的音频信号的置信度得分可包括计算信号是否可包括语音、信号中是否可包括唤醒字词、信号中可包括哪种唤醒字词、包括在信号中的语音的质量、其声音可被记录在信号中的用户的身份以及用户相对于麦克风位置的位置中的一者或多者中的置信度。计算每个导出的音频信号的置信度得分可包括确定音频信号表现为包括话语以及该话语是否包括唤醒字词。计算每个导出的音频信号的置信度得分可还包括识别语音中包括多个唤醒字词中的哪个唤醒词。计算每个导出的音频信号的置信度得分还可包括确定语音包括唤醒字词的置信度的程度。
计算每个导出的音频信号的置信度得分可包括比较麦克风检测到与每个音频信号对应的声音、导出的音频信号的信号强度、导出的音频信号的信噪比、导出的音频信号的频谱内容以及导出的音频信号内的回响的时间之间的时序中的一个或多个。计算每个导出的音频信号的置信度得分可包括针对每个音频信号,计算音频信号的表观源与麦克风中的至少一个之间的距离。计算每个导出的音频信号的置信度得分可包括计算每个音频信号源相对于麦克风位置的位置。计算每个音频信号源的位置可包括基于计算的每个源与麦克风中的至少两个之间的距离来对该位置进行三角测量。
调度系统可将所选的一个或多个信号中的至少一部分传输到语音处理系统,以提供进一步处理。传输所选的一个或多个音频信号可包括从多个语音处理系统中选择至少一个语音处理系统。多个语音处理系统中的至少一个语音处理系统可包括在广域网上提供的语音识别服务。多个语音处理系统中的至少一个语音处理系统可包括语音识别方法,所述语音识别方法在执行调度系统的相同处理器上执行。语音处理系统的选择可基于与用户相关联的偏好、计算的置信度得分或导出音频信号所处的情景中的一者或多者。情景可包括对可能正在讲话的用户的识别、多个麦克风中哪个麦克风产生了所选的导出音频信号、用户相对于麦克风位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。语音处理系统的选择可基于可用于语音处理系统的资源。
比较计算的置信度得分可包括确定至少两个所选的音频信号表现为包括来自至少两个不同用户的话语。确定所选音频信号表现为包括来自至少两个不同用户的话语可基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。调度系统可还将与两个不同用户对应的所选音频信号发送到两个不同的所选的语音处理系统。可基于用户的偏好、语音处理系统的负载平衡、所选音频信号的情景以及两个所选音频信号中不同唤醒字词的使用中的一者或多者将所选的音频信号分配到所选的语音处理系统。调度系统可还将与两个不同用户对应的所选音频信号作为两个单独的处理请求发送到相同的语音处理系统。
比较计算的置信度得分可包括确定至少两个所接收的音频信号表现为表示相同的话语。确定所选音频信号表示相同的话语可基于声音识别、音频信号源相对于麦克风位置的位置、麦克风中哪一个产生了每个所选的音频信号、音频信号的到达时间、音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及个人讲话的视觉识别中的一者或多者。调度系统可还将表现为表示相同的话语的音频信号中的仅一者发送到语音处理系统。调度系统可还将表现为表示相同的话语的音频信号中的两者均发送到语音处理系统。调度系统可还将至少一个所选音频信号传输到至少两个语音处理系统中的每一个,接收来自语音处理系统中每一个的响应,以及确定要输出响应的顺序。
调度系统可还将至少两个所选音频信号传输到至少一个语音处理系统,接收来自与每个传输信号对应的语音处理系统的响应,以及确定要输出响应的顺序。调度系统可被进一步配置为接收对进一步处理的响应,以及使用输出设备输出响应。输出设备可不与捕获了音频的麦克风对应。输出设备可不定位在麦克风所定位的任何位置处。输出设备可包括扩音器、耳机、可穿戴音频设备、显示器、视频屏幕或家用电器中的一者或多者。在接收到对进一步处理的多个响应之后,调度系统可通过将响应组合成单个输出来确定要输出响应的顺序。在接收到对进一步处理的多个响应之后,调度系统可通过选择输出少于所有响应的响应或将不同响应发送到不同输出设备来确定要输出响应的顺序。导出的音频信号的数量可不等于麦克风的数量。麦克风中的至少一个可包括麦克风阵列。该系统可还包括非音频输入设备。非音频输入设备可包括加速度计、存在检测器、相机、可穿戴传感器或用户界面设备中的一者或多者。
一般来讲,在一个方面,系统包括定位在不同位置处的多个设备;以及与设备通信的调度系统,该调度系统响应于先前传送的请求接收来自语音处理系统的响应、确定响应与每个设备的相关性、以及基于该确定将响应转发到设备中的至少一个。
具体实施可以任何组合包括以下各项中的一者或多者。设备中的至少一个可包括音频输出设备,并且转发响应可使得该设备输出与响应对应的音频信号。音频输出设备可包括扩音器、耳机或可穿戴音频设备中的一者或多者。设备中的至少一个可包括显示器、视频屏幕或家用电器。先前传送的请求可从不与设备的多个位置中任一个相关联的第三位置处传送。响应可为第一响应,并且调度系统可还接收来自第二语音处理系统的响应。调度系统可还将第一响应转发到设备中的第一个,并且将第二响应转发到设备中的第二个。调度系统可还将第一响应和第二响应两者均转发到设备中的第一个。调度系统可还将第一响应和第二响应中的仅一者转发到设备中的任一个。
确定响应的相关性可包括确定设备中哪一个与先前传送的请求相关联。确定响应的相关性可包括确定设备中哪一个可最接近与先前传送的请求相关联的用户。确定响应的相关性可基于与所要求系统的用户相关联的偏好。确定响应的相关性可包括确定先前传送请求的情景。情景可包括对可能已经与请求相关联的用户的识别、多个麦克风中哪个麦克风可能与请求相关联、用户相对于设备位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。确定响应的相关性可包括确定设备的能力或资源可用性。
多个输出设备可定位在不同的输出设备位置处,并且调度系统可响应于传输的请求接收来自语音处理系统的响应、确定响应与每个输出设备的相关性,以及基于该确定将响应转发到输出设备中的至少一个。输出设备中的至少一个可包括音频输出设备,并且转发响应使得该设备输出与响应对应的音频信号。音频输出设备可包括扩音器、耳机或可穿戴音频设备中的一者或多者。输出设备中的至少一个可包括显示器、视频屏幕或家用电器。确定响应的相关性可包括确定输出设备和与所选音频信号相关联的麦克风之间的关系。确定响应的相关性可包括确定输出设备中哪一个可最接近所选音频信号源。确定响应的相关性可包括确定导出音频信号所处的情景。情景可包括对可能正在讲话的用户的识别、多个麦克风中哪个麦克风产生了所选的导出音频信号、用户相对于麦克风位置和设备位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。确定响应的相关性可包括确定输出设备的能力或资源可用性。
一般来讲,在一个方面,系统包括定位在不同麦克风位置处的多个麦克风、定位在不同扩音器位置处的多个扩音器以及与麦克风和扩音器通信的调度系统。调度系统从多个麦克风导出多个声音信号;计算关于每个导出的声音信号包括唤醒字词的置信度得分;比较计算的置信度得分;以及基于该比较,选择导出的声音信号中的至少一个并且将所选的一个或多个信号中的至少一部分传输到语音处理系统。调度系统响应于该传输而接收来自语音处理系统的响应、确定响应与每个扩音器的相关性,以及基于该确定将响应转发到扩音器中的至少一个以用于输出。
优点包括检测多个位置处的口头命令以及提供对该命令的单个响应。优点还包括提供对相比检测到命令的位置与用户更相关的位置处的口头命令的响应。
可以任何技术上可能的方式组合上文所提及的所有示例和特征。其他特征和优点在具体实施方式和权利要求书中将是显而易见的。
附图说明
图1示出了麦克风和可响应麦克风所接收到的声音命令的设备的系统布局。
具体实施方式
随着越来越多的设备实现声音控制用户界面(VUI),出现多个设备可检测到相同口头命令并试图处理该命令的问题,这导致出现从冗余响应到在不同动作点处采取相互矛盾的动作等问题。类似地,如果口头命令可导致多个设备的输出或动作,则该由哪个设备采取动作可能是模糊的。在一些VUI中,被称为“唤醒字词”、“唤醒词”或“关键词”的特殊短语用于激活VUI的语音识别特征-实现VUI的设备总是侦听唤醒字词,并且当该设备侦听到唤醒字词时,该设备解析其之后的任何口头命令。这是为了通过不解析所检测到的每个声音来节约处理资源,并且这可有助于消除关于哪个系统是命令的目标的歧义,但如果多个系统正在侦听相同的唤醒字词,诸如由于该唤醒词与服务提供方而不是单独的硬件相关联,则问题仍然是确定哪个设备应该处理该命令。
图1示出了潜在的环境,其中独立麦克风阵列102、智能电话104、扩音器106和一组耳机108各自均具有检测用户语音的麦克风(为了避免混淆,我们将个人讲话称为“用户”并且将设备106称为“扩音器”;“用户所讲的离散的内容”是“话语”)。检测话语110的每个设备将其所侦听到的内容作为音频信号传输到调度系统112。在设备具有多个麦克风的情况下,那些设备可组合由单独的麦克风呈现的信号以呈现单个组合音频信号,或者其可传输由每个麦克风呈现的信号。
本公开涉及各种不同类型的音频和相关信号。为了清楚起见,使用以下约定。“声学信号”是指物理信号,即物理声压波,其被解释为人类发出的声音,诸如上文所提及的话语。“音频信号”是指表示声音的电信号。音频信号可由麦克风响应声音音频而生成,或者其可接收自其他电子源,诸如录音、计算机生成的信号或流式数据。“音频输出”是指扩音器基于对扬声器的音频信号输入而生成的声音信号。
调度系统112可为其中每个设备均单独地连接到其上的基于云的服务、在一个相同设备或相关联的设备上运行的本地服务、在这些设备本身中的一些或全部上协同运行的分布式服务或者这些架构或类似架构的任何组合。由于其不同的麦克风设计以及其与用户的不同接近度,每个设备可不同地侦听话语110(如果有的话)。例如,独立的麦克风阵列102可具有高质量波束形成能力,这允许无论用户位于何处该独立的麦克风阵列均可清晰地侦听到话语,而耳机108和智能电话104具有高度定向的近场麦克风,如果用户佩戴着耳机并且将电话保持为面向他们的面部,则该近场麦克风仅仅清晰地获取用户的声音。同时,扩音器106可具有简单的全向麦克风,该全向麦克风在用户靠近并面向扩音器时良好地检测语音,但在其他情况下则产生低质量信号。
基于这些因素以及类似因素,调度系统112计算每个音频信号的置信度得分(这可包括设备本身在发送其所侦听到的内容之前对其自身的检测进行评分,并且连同其相应的音频信号一起发送该得分)。基于置信度得分彼此之间的比较、置信度得分和基线之间的比较或者这两者,调度系统112选择一个或多个音频信号以用于进一步处理。这可包括本地执行语音识别和采取直接的动作,或者通过网络114(诸如,互联网或任何专用网络)将音频信号传输到另一个服务提供方。例如,如果一个设备产生对以下事件具有高置信度的音频信号:信号包括唤醒字词“好的,谷歌”,则可将该音频信号发送到谷歌基于云的语音识别系统以用于处理。在将音频信号传输到远程服务的情况下,唤醒字词可连同其之后的任何话语一起被包括在内,或者可仅发送话语。
置信度评分可基于大量因素,并且还可指示多于一个参数中的置信度。例如,得分可指示关于使用了何种唤醒字词(包括是否使用了唤醒字词)或者用户相对于麦克风的位置的置信度的程度。得分可还指示音频信号是否具有高质量的置信度的程度。在一个示例中,调度系统可对来自两个设备的音频信号进行评分,评分结果:二者针对使用特殊唤醒字词这一事件具有高置信度得分,但其中一者在音频信号质量方面具有低置信度,而另一者则在音频信号质量方面具有高置信度。将选择具有用于信号质量的高置信度得分的音频信号用于进一步处理。
当多于一个设备传输音频信号时,确定置信度的关键因素之一就是音频信号是表示相同的话语还是表示两个(或更多个)不同的话语。评分本身可基于因素诸如信号电平、信噪比(SNR)、信号中的回响量、信号的频谱内容、用户识别、关于用户相对于麦克风的位置的了解或两个或更多个设备处的音频信号的相对时序。位置相关评分和用户身份相关评分可基于音频信号本身,并且可基于外部数据,诸如视觉系统、用户佩戴的可佩戴追踪器和提供信号的设备的身份。例如,如果智能电话是音频信号源,则该智能电话的所有者是其声音被侦听的用户这一事件的置信度得分将很高。可基于在多个位置处或者在单个位置处的阵列中的多个麦克风处接收的声音信号的强度和时序来确定用户位置。
除确定使用了哪个唤醒字词以及哪个信号最佳之外,评分还可提供用于告知应该如何处理音频信号的附加情景。例如,如果置信度得分指示用户正面向扩音器,则可能应该通过与智能电话相关联的一个VUI,使用与扩音器相关联的VUI。情景可包括内容诸如哪个用户正在讲话、该用户相对于设备的位置和面向、该用户正在进行何种活动(例如,锻炼、烹饪、看电视)、当天的时刻或正在使用哪些其他设备(包括除提供音频信号的那些设备之外的设备)。
在一些情况下,该评分指示侦听到多于一个的命令。例如,两个设备可各自针对以下事件具有高置信度:其侦听到不同的唤醒字词,或其侦听到不同的用户正在讲话。在这种情况下,调度系统可发送两个请求-将一个请求发送到唤醒字词所用于的每个系统,或者将两个不同的请求发送到两个用户均调用的单个系统。在其他情况下,可发送多于一个的音频信号-例如,以便获得多于一个的响应、以便让远程系统来决定使用哪一个信号、或者通过组合信号来改善声音识别。除选择用于进一步处理的音频信号之外,评分还可导致其他用户反馈。例如,光可在所选的任何设备上闪烁,使得用户知道已接收命令。
当从调度系统将音频信号发送到其上以用于处理的任何服务或系统接收响应时,也会出现类似的考虑。在许多情况下,关于话语的情景还将告知响应的处理。例如,响应可发送到所选音频信号从其接收的设备。在其他情况下,响应可发送到不同的设备。例如,如果选择了来自独立麦克风阵列102的音频信号,但从VUI返回的响应是开始播放音频文件,则该响应该由耳机108或扩音器106处理。如果响应是显示信息,则智能电话104或具有屏幕的一些其他设备将用于递送响应。如果由于评分指示麦克风阵列音频信号具有最佳信号质量而选择麦克风阵列音频信号,则附加评分可能已经指示用户未正在使用耳机108而是在相同房间中使用扩音器106,因此扩音器是响应的可能目标。也将考虑设备的其他能力-例如,尽管仅示出了音频设备,但声音命令可处理其他系统,诸如照明或家庭自动化系统。因此,如果对话语的响应是熄灯,则调度系统可得出结论:它指的是检测到最强音频信号的房间中的灯。其他可能的输出设备包括显示器、屏幕(例如,智能电话上的屏幕或电视监视器)、家用电器、门锁等。在一些示例中,将情景提供给远程系统,并且远程系统具体地基于话语和情景的组合来靶向特定的输出设备。
如上文所述,调度系统可为单个计算机或分布式系统。所提供的语音处理可类似地由单个计算机或分布式系统提供,与调度系统共延或者与调度系统分开。它们各自可完全本地地定位到设备、完全地定位在云中或者分配在两者之间。它们可被集成到设备中的一个或所有。所述的各种任务-对信号进行评分、检测唤醒字词、将信号发送到另一系统以用于处理、解析命令的信号、处理命令、生成响应、确定哪个设备应处理响应等-可组合在一起或者拆分为多个子任务。任务和子任务中的每一个均可由不同的设备或设备的组合以本地方式或者以基于云的系统或其他远程系统来执行。
当我们提及麦克风时,我们包括麦克风阵列,而不旨在对特定的麦克风技术、拓扑或信号处理进行任何限制。类似地,对扩音器和耳机的引用应当理解为包括任何音频输出设备-电视、家庭影院系统、门铃、可穿戴扬声器等。
上述系统和方法的实施方案包括计算机部件和计算机实现的步骤,其对于本领域技术人员将是显而易见的。例如,本领域技术人员应当理解,执行计算机实现的步骤的指令可存储为计算机可读介质(诸如,软盘、硬盘、光盘、闪存ROM、非易失性ROM和RAM)上的计算机可执行指令。此外,本领域技术人员应当理解,可在各种处理器(诸如,例如,微处理器、数字信号处理器、栅极阵列等)上执行计算机可执行指令。为了便于阐述,并非本文所述的系统和方法中的每一个步骤或元件在本文中均被描述为计算机系统的一部分,但本领域技术人员将认识到,每个步骤或元件均可具有对应的计算机系统或软件部件。此类计算机系统和/或软件部件通过描述其对应的步骤或元件(即,其功能)来启用,并且其在本公开的范围内。
已描述了多个具体实施。然而,应当理解,在不脱离本文所述发明构思的范围的情况下,可进行附加修改,并且因此,其他实施方案在以下权利要求书的范围内。
Claims (70)
1.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;以及
比较所述计算的置信度得分;以及基于所述比较,选择所述导出的音频信号中的至少一个,以用于进一步处理。
2.根据权利要求1所述的系统,其中所述调度系统包括多个本地处理器,所述多个本地处理器各自连接到所述麦克风中的至少一个。
3.根据权利要求1所述的系统,其中所述调度系统包括至少第一本地处理器以及在网络上能够用于所述第一处理器的至少第二处理器。
4.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括计算所述信号是否包括语音、所述信号中是否包括唤醒字词、所述信号中包括哪种唤醒字词、包括在所述信号中的语音的质量、其语音被记录在所述信号中的用户的身份或所述用户相对于所述麦克风位置的位置中的一者或多者中的置信度。
5.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括确定所述音频信号表现为包括话语以及所述话语是否包括唤醒字词。
6.根据权利要求5所述的系统,其中计算每个导出的音频信号的所述置信度得分还包括识别所述语音中包括多个唤醒字词中的哪个唤醒词。
7.根据权利要求5所述的系统,其中计算每个导出的音频信号的所述置信度得分还包括确定所述话语包括所述唤醒字词的置信度的程度。
8.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括比较所述麦克风检测到与每个所述音频信号对应的声音、所述导出的音频信号的信号强度、所述导出的音频信号的信噪比、所述导出的音频信号的频谱内容以及所述导出的音频信号内的回响的时间之间的时序中的一个或多个。
9.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括针对每个音频信号,计算所述音频信号的表观源与所述麦克风中的至少一个之间的距离。
10.根据权利要求1所述的系统,其中计算每个导出的音频信号的所述置信度得分包括计算每个音频信号的所述源相对于所述麦克风的所述位置的位置。
11.根据权利要求10所述的系统,其中计算每个音频信号的所述源的所述位置包括基于计算的每个源与所述麦克风中的至少两个之间的距离来对所述位置进行三角测量。
12.根据权利要求1所述的系统,其中所述调度系统被进一步配置为将所述所选的一个或多个信号中的至少一部分传输到语音处理系统,以提供所述进一步处理。
13.根据权利要求12所述的系统,其中传输所述所选的一个或多个音频信号包括从多个语音处理系统中选择至少一个语音处理系统。
14.根据权利要求13所述的系统,其中所述多个语音处理系统中的至少一个语音处理系统包括在广域网上提供的语音识别服务。
15.根据权利要求13所述的系统,其中所述多个语音处理系统中的至少一个语音处理系统包括语音识别方法,所述语音识别方法在执行所述调度系统的所述相同处理器上执行。
16.根据权利要求13所述的系统,其中所述语音处理系统的所述选择基于与所述要求系统的用户相关联的偏好、所述计算的置信度得分或导出所述音频信号所处的情景中的一者或多者。
17.根据权利要求16所述的系统,其中所述情景包括对正在讲话的用户的识别、所述多个麦克风中哪个麦克风产生了所述所选的导出音频信号、所述用户相对于所述麦克风位置的位置、所述系统中的其他设备的操作状态以及当天时刻中的一者或多者。
18.根据权利要求13所述的系统,其中所述语音处理系统的所述选择基于能够用于所述语音处理系统的资源。
19.根据权利要求1所述的系统,其中所述导出音频信号的数量不等于所述麦克风的数量。
20.根据权利要求1所述的系统,其中所述麦克风中的至少一个包括麦克风阵列。
21.根据权利要求1所述的系统,还包括非音频输入设备。
22.根据权利要求21所述的系统,其中所述非音频输入设备包括加速度计、存在检测器、相机、可穿戴传感器或用户界面设备中的一者或多者。
23.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;以及
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少一个,以用于进一步处理。
24.根据权利要求23所述的方法,其中计算每个导出的音频信号的所述置信度得分包括计算所述信号是否包括语音、所述信号中是否包括唤醒字词、所述信号中包括哪种唤醒字词、包括在所述信号中的语音的质量、其语音被记录在所述信号中的用户的身份或所述用户相对于所述麦克风位置的位置中的一者或多者中的置信度。
25.根据权利要求23所述的系统,其中计算每个导出的音频信号的所述置信度得分包括确定所述音频信号表现为包括话语以及所述话语是否包括唤醒字词。
26.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;以及
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选的音频信号表现为包括来自至少两个不同用户的话语。
27.根据权利要求26所述的系统,其中对于所述所选音频信号表现为包括来自至少两个不同用户的话语的所述确定基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。
28.根据权利要求26所述的系统,其中所述调度系统被进一步配置为将与所述两个不同用户对应的所述所选的音频信号发送到两个不同的所选的语音处理系统。
29.根据权利要求28所述的系统,其中基于所述用户的偏好、所述语音处理系统的负载平衡、所述所选音频信号的情景以及所述两个所选音频信号中不同唤醒字词的使用中的一者或多者,将所述所选的音频信号分配到所述所选的语音处理系统。
30.根据权利要求26所述的系统,其中所述调度系统被进一步配置为将与所述两个不同用户对应的所述所选的音频信号作为两个单独的处理请求发送到相同的语音处理系统。
31.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选音频信号表现为表示所述相同的话语。
32.根据权利要求31所述的系统,其中对于所述所选音频信号表示所述相同的话语的所述确定基于声音识别、所述音频信号的所述源相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述音频信号的到达时间、所述音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及所述个人讲话的视觉识别中的一者或多者。
33.根据权利要求31所述的系统,其中所述调度系统被进一步配置为将表现为表示所述相同的话语的所述音频信号中的仅一者发送到所述语音处理系统。
34.根据权利要求31所述的系统,其中所述调度系统被进一步配置为将表现为表示所述相同的话语的所述音频信号中的两者均发送到所述语音处理系统。
35.根据权利要求31所述的系统,其中所述调度系统被进一步配置为:
将至少一个所选的音频信号传输到至少两个语音处理系统中的每一个;
接收来自所述语音处理系统中每一个的响应;以及
确定要输出所述响应的顺序。
36.根据权利要求31所述的系统,其中所述调度系统被进一步配置为:
将至少两个所选的音频信号传输到至少一个语音处理系统;
接收来自与每个所述传输信号对应的所述语音处理系统的响应;以及
确定要输出所述响应的顺序。
37.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;以及
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及,基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选的音频信号表现为包括来自至少两个不同用户的话语。
38.根据权利要求37所述的方法,其中确定所述所选音频信号表现为包括来自至少两个不同用户的话语基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。
39.根据权利要求37所述的方法,还包括将与所述两个不同用户对应的所述所选的音频信号发送到两个不同的所选的语音处理系统。
40.根据权利要求39所述的方法,还包括基于所述用户的偏好、所述语音处理系统的负载平衡、所述所选音频信号的情景以及所述两个所选音频信号中不同唤醒字词的使用中的一者或多者,将所述所选的音频信号分配到所述所选的语音处理系统。
41.根据权利要求37所述的方法,还包括将与所述两个不同用户对应的所述所选的音频信号作为两个单独的处理请求发送到相同的语音处理系统。
42.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;以及
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;以及基于所述比较,
选择所述导出的音频信号中的至少两个,以用于进一步处理;
其中比较所述计算的置信度得分包括确定至少所述两个所选音频信号表现为表示所述相同的话语。
43.根据权利要求42所述的方法,其中确定所述所选音频信号表示所述相同的话语基于声音识别、所述音频信号的所述源相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述音频信号的到达时间、所述音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及所述个人讲话的视觉识别中的一者或多者。
44.根据权利要求42所述的方法,还包括将表现为表示所述相同的话语的所述音频信号中的仅一者发送到所述语音处理系统。
45.根据权利要求42所述的方法,还包括将表现为表示所述相同的话语的所述音频信号中的两者均发送到所述语音处理系统。
46.根据权利要求42所述的方法,还包括:
将至少一个所选的音频信号传输到至少两个语音处理系统中的每一个;
接收来自所述语音处理系统中每一个的响应;以及
确定要输出所述响应的顺序。
47.根据权利要求42所述的方法,还包括:
将至少两个所选的音频信号传输到至少一个语音处理系统;
接收来自与每个所述传输信号对应的所述语音处理系统的响应;以及
确定要输出所述响应的顺序。
48.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同位置处;
输出设备;和
调度系统,所述调度系统与所述麦克风通信,所述调度系统被配置为:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;
基于所述比较,选择所述导出的音频信号中的至少一个,
以用于进一步处理;
接收对所述进一步处理的响应;以及
使用所述输出设备输出所述响应;
其中所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。
49.根据权利要求48所述的系统,其中所述输出设备包括扩音器、耳机、可穿戴音频设备、显示器、视频屏幕或家用电器中的一者或多者。
50.根据权利要求48所述的系统,其中在接收到对所述进一步处理的多个响应之后,所述调度系统通过将所述响应组合成单个输出来确定输出所述响应的顺序。
51.根据权利要求48所述的系统,其中在接收到对所述进一步处理的多个响应之后,所述调度系统通过选择输出少于所有所述响应的响应来确定输出所述响应的顺序。
52.根据权利要求48所述的系统,其中在接收到对所述进一步处理的多个响应之后,所述调度系统将不同响应发送到不同输出设备。
53.一种处理音频信号的方法,包括:
接收来自多个麦克风的音频信号,所述多个麦克风定位在不同位置处;
在与所述麦克风通信的调度系统中:
从所述多个麦克风导出多个音频信号;
计算每个导出的音频信号的置信度得分;
比较所述计算的置信度得分;
基于所述比较,选择所述导出的音频信号中的至少一个,
以用于进一步处理;
接收对所述进一步处理的响应;以及
使用输出设备输出所述响应;
其中所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。
54.根据权利要求53所述的方法,其中所述输出设备未定位在所述麦克风所定位的任何所述位置处。
55.一种系统,包括:
多个设备,所述多个设备定位在不同位置处;和
调度系统,所述调度系统与所述设备通信,所述调度系统被配置为:
响应于先前传送的请求接收来自语音处理系统的响应;
确定所述响应与每个所述设备的相关性;以及
基于所述确定将所述响应转发到所述设备中的至少一个。
56.根据权利要求55所述的系统,其中所述设备中的所述至少一个包括音频输出设备,并且转发所述响应使得所述设备输出与所述响应对应的音频信号。
57.根据权利要求55所述的系统,其中所述设备中的所述至少一个包括显示器、视频屏幕或家用电器。
58.根据权利要求55所述的系统,其中所述响应为第一响应,并且所述调度系统被进一步配置为接收来自第二语音处理系统的响应。
59.根据权利要求58所述的系统,其中所述调度系统被进一步配置为将所述第一响应转发到所述设备中的第一个,并且将所述第二响应转发到所述设备中的第二个。
60.根据权利要求58所述的系统,其中所述调度系统被进一步配置为将所述第一响应和所述第二响应两者均转发到所述设备中的第一个。
61.根据权利要求58所述的系统,其中所述调度系统被进一步配置为将所述第一响应和所述第二响应中的仅一者转发到所述设备中的任一个。
62.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述设备中哪一个与所述先前传送的请求相关联。
63.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述设备中哪一个最接近与所述先前传送的请求相关联的用户。
64.根据权利要求55所述的系统,其中确定所述响应的所述相关性基于与所述要求系统的用户相关联的偏好。
65.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述先前传送的请求的情景。
66.根据权利要求65所述的系统,其中所述情景包括对与所述请求相关联的用户的识别、多个麦克风中哪个麦克风与所述请求相关联、所述用户相对于所述设备位置的位置、所述系统中其他设备的操作状态以及当天时刻中的一者或多者。
67.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述设备的能力或资源可用性。
68.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述输出设备和与所述所选音频信号相关联的所述麦克风之间的关系。
69.根据权利要求55所述的系统,其中确定所述响应的所述相关性包括确定所述输出设备中哪一个最接近所述所选音频信号源。
70.一种系统,包括:
多个麦克风,所述多个麦克风定位在不同麦克风位置处;
多个扩音器,所述多个扩音器定位在不同扩音器位置处;和
调度系统,所述调度系统与所述麦克风和所述扩音器通信,所述调度系统被配置为:
从所述多个麦克风导出多个声音信号;
计算关于每个导出的声音信号包括唤醒字词的置信度得分;
比较所述计算的置信度得分;
基于所述比较,选择所述导出的声音信号中的至少一个并且将所述所选的一个或多个信号中的至少一部分传输到语音处理系统;
响应于所述传输接收来自语音处理系统的响应;
确定所述响应与每个所述扩音器的相关性;以及
基于所述确定将所述响应转发到所述扩音器中的至少一个以用于输出。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201662335981P | 2016-05-13 | 2016-05-13 | |
| US62/335,981 | 2016-05-13 | ||
| US201662375543P | 2016-08-16 | 2016-08-16 | |
| US62/375,543 | 2016-08-16 | ||
| PCT/US2017/032488 WO2017197312A2 (en) | 2016-05-13 | 2017-05-12 | Processing speech from distributed microphones |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN109155130A true CN109155130A (zh) | 2019-01-04 |
Family
ID=58765986
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201780029399.8A Pending CN109155130A (zh) | 2016-05-13 | 2017-05-12 | 处理来自分布式麦克风的语音 |
Country Status (5)
| Country | Link |
|---|---|
| US (4) | US20170330563A1 (zh) |
| EP (1) | EP3455853A2 (zh) |
| JP (1) | JP2019518985A (zh) |
| CN (1) | CN109155130A (zh) |
| WO (2) | WO2017197309A1 (zh) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111048067A (zh) * | 2019-11-11 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种麦克风响应方法及装置 |
| WO2021000876A1 (zh) * | 2019-07-01 | 2021-01-07 | 华为技术有限公司 | 一种语音控制方法、电子设备及系统 |
| US11272307B2 (en) | 2020-03-10 | 2022-03-08 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method and device for controlling recording volume, and storage medium |
| CN114207715A (zh) * | 2019-07-30 | 2022-03-18 | 杜比实验室特许公司 | 用于分布式音频设备的声学回声消除控制 |
| CN114360546A (zh) * | 2020-09-30 | 2022-04-15 | 华为技术有限公司 | 电子设备及其唤醒方法 |
| WO2022105392A1 (zh) * | 2020-11-17 | 2022-05-27 | Oppo广东移动通信有限公司 | 电子设备中执行语音处理的方法、装置、电子设备及芯片 |
| CN115731933A (zh) * | 2021-09-01 | 2023-03-03 | 苹果公司 | 基于声学空间的语音触发 |
Families Citing this family (101)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9521497B2 (en) | 2014-08-21 | 2016-12-13 | Google Technology Holdings LLC | Systems and methods for equalizing audio for playback on an electronic device |
| US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
| US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
| US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
| US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
| US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
| US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
| WO2017197309A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed volume control for speech recognition |
| US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
| US10091545B1 (en) * | 2016-06-27 | 2018-10-02 | Amazon Technologies, Inc. | Methods and systems for detecting audio output of associated device |
| US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
| US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
| US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
| US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
| US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
| US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
| US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
| CN107135443B (zh) * | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
| US10558421B2 (en) * | 2017-05-22 | 2020-02-11 | International Business Machines Corporation | Context based identification of non-relevant verbal communications |
| US10564928B2 (en) | 2017-06-02 | 2020-02-18 | Rovi Guides, Inc. | Systems and methods for generating a volume- based response for multiple voice-operated user devices |
| CN107564532A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 电子设备的唤醒方法、装置、设备及计算机可读存储介质 |
| WO2019014425A1 (en) | 2017-07-13 | 2019-01-17 | Pindrop Security, Inc. | SAFE PARTY WITH SEVERAL PARTIES KNOWING NO VOICE IMPRESSIONS |
| US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
| US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
| US10475454B2 (en) * | 2017-09-18 | 2019-11-12 | Motorola Mobility Llc | Directional display and audio broadcast |
| US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
| US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
| US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
| US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
| US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
| US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
| US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
| KR102469753B1 (ko) | 2017-11-30 | 2022-11-22 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
| CN108039172A (zh) * | 2017-12-01 | 2018-05-15 | Tcl通力电子(惠州)有限公司 | 智能蓝牙音箱语音交互方法、智能蓝牙音箱及存储介质 |
| US10958467B2 (en) | 2017-12-06 | 2021-03-23 | Google Llc | Ducking and erasing audio from nearby devices |
| EP3683673B1 (en) * | 2017-12-08 | 2024-09-11 | Google LLC | Isolating a device, from multiple devices in an environment, for being responsive to spoken assistant invocation(s) |
| US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
| US20190179611A1 (en) * | 2017-12-11 | 2019-06-13 | Sonos, Inc. | Systems and Methods of Receiving Voice Input |
| US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
| CN107871507A (zh) * | 2017-12-26 | 2018-04-03 | 安徽声讯信息技术有限公司 | 一种语音控制ppt翻页方法及系统 |
| US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
| US10665244B1 (en) | 2018-03-22 | 2020-05-26 | Pindrop Security, Inc. | Leveraging multiple audio channels for authentication |
| US10623403B1 (en) | 2018-03-22 | 2020-04-14 | Pindrop Security, Inc. | Leveraging multiple audio channels for authentication |
| WO2019190486A1 (en) * | 2018-03-27 | 2019-10-03 | Rovi Guides, Inc. | Systems and methods for selecting network-connected devices to provide device functions for an event |
| KR20210002722A (ko) * | 2018-05-04 | 2021-01-08 | 구글 엘엘씨 | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
| CN108694946A (zh) * | 2018-05-09 | 2018-10-23 | 四川斐讯信息技术有限公司 | 一种音箱控制方法及系统 |
| US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
| US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
| US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
| CN108922524A (zh) * | 2018-06-06 | 2018-11-30 | 西安Tcl软件开发有限公司 | 智能语音设备的控制方法、系统、装置、云服务器及介质 |
| US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
| US11514917B2 (en) * | 2018-08-27 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method, device, and system of selectively using multiple voice data receiving devices for intelligent service |
| US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
| US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
| US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
| US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
| US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
| US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
| US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
| KR102606789B1 (ko) | 2018-10-01 | 2023-11-28 | 삼성전자주식회사 | 복수의 음성 인식 장치들을 제어하는 방법 및 그 방법을 지원하는 전자 장치 |
| KR102811235B1 (ko) | 2018-10-18 | 2025-05-26 | 삼성전자주식회사 | 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법 |
| KR102831245B1 (ko) | 2018-10-23 | 2025-07-08 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
| US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
| WO2020085794A1 (en) * | 2018-10-23 | 2020-04-30 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
| EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
| US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
| US11393478B2 (en) * | 2018-12-12 | 2022-07-19 | Sonos, Inc. | User specific context switching |
| US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
| KR102792944B1 (ko) * | 2018-12-17 | 2025-04-11 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
| KR20200074690A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
| US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
| US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
| US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
| US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
| US11482210B2 (en) | 2019-05-29 | 2022-10-25 | Lg Electronics Inc. | Artificial intelligence device capable of controlling other devices based on device information |
| US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
| US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
| US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
| US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
| US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
| US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
| CN110718227A (zh) * | 2019-10-17 | 2020-01-21 | 深圳市华创技术有限公司 | 一种基于多模态交互的分布式物联网设备协同方法及其系统 |
| US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
| JP7248564B2 (ja) * | 2019-12-05 | 2023-03-29 | Tvs Regza株式会社 | 情報処理装置及びプログラム |
| US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
| US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
| US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
| US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
| US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
| US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
| US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
| US12387716B2 (en) | 2020-06-08 | 2025-08-12 | Sonos, Inc. | Wakewordless voice quickstarts |
| US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
| KR20220037846A (ko) * | 2020-09-18 | 2022-03-25 | 삼성전자주식회사 | 음성 인식을 수행하기 위한 전자 장치를 식별하기 위한 전자 장치 및 그 동작 방법 |
| US12283269B2 (en) | 2020-10-16 | 2025-04-22 | Sonos, Inc. | Intent inference in audiovisual communication sessions |
| US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
| US11893985B2 (en) * | 2021-01-15 | 2024-02-06 | Harman International Industries, Incorporated | Systems and methods for voice exchange beacon devices |
| US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
| US12462799B2 (en) * | 2021-02-25 | 2025-11-04 | Panasonic Intellectual Property Management Co., Ltd. | Voice control method, server apparatus, and utterance object |
| CN118303040A (zh) | 2021-09-30 | 2024-07-05 | 搜诺思公司 | 启用和禁用麦克风和语音助手 |
| US12327549B2 (en) | 2022-02-09 | 2025-06-10 | Sonos, Inc. | Gatekeeping for voice intent processing |
Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
| CN101354569A (zh) * | 2007-07-25 | 2009-01-28 | 索尼株式会社 | 信息处理装置、信息处理方法和计算机程序 |
| CN102056053A (zh) * | 2010-12-17 | 2011-05-11 | 中兴通讯股份有限公司 | 一种多话筒混音方法及装置 |
| CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
| US20110182481A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Voice-body identity correlation |
| CN102281425A (zh) * | 2010-06-11 | 2011-12-14 | 华为终端有限公司 | 一种播放远端与会人员音频的方法、装置及远程视频会议系统 |
| CN102520391A (zh) * | 2010-11-09 | 2012-06-27 | 微软公司 | 认知负荷减少 |
| US8843372B1 (en) * | 2010-03-19 | 2014-09-23 | Herbert M. Isenberg | Natural conversational technology system and method |
| CN104254818A (zh) * | 2012-05-11 | 2014-12-31 | 高通股份有限公司 | 音频用户交互辨识和应用程序接口 |
| CN105280195A (zh) * | 2015-11-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
Family Cites Families (49)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
| US6987992B2 (en) * | 2003-01-08 | 2006-01-17 | Vtech Telecommunications, Limited | Multiple wireless microphone speakerphone system and method |
| JP4595364B2 (ja) * | 2004-03-23 | 2010-12-08 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
| US8078463B2 (en) * | 2004-11-23 | 2011-12-13 | Nice Systems, Ltd. | Method and apparatus for speaker spotting |
| JP4867804B2 (ja) * | 2007-06-12 | 2012-02-01 | ヤマハ株式会社 | 音声認識装置及び会議システム |
| US8243902B2 (en) * | 2007-09-27 | 2012-08-14 | Siemens Enterprise Communications, Inc. | Method and apparatus for mapping of conference call participants using positional presence |
| US20090304205A1 (en) * | 2008-06-10 | 2009-12-10 | Sony Corporation Of Japan | Techniques for personalizing audio levels |
| US8373739B2 (en) * | 2008-10-06 | 2013-02-12 | Wright State University | Systems and methods for remotely communicating with a patient |
| GB0900929D0 (en) * | 2009-01-20 | 2009-03-04 | Sonitor Technologies As | Acoustic position-determination system |
| FR2945696B1 (fr) * | 2009-05-14 | 2012-02-24 | Parrot | Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite. |
| EP2485212A4 (en) * | 2009-10-02 | 2016-12-07 | Nat Inst Inf & Comm Tech | LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV |
| US8639516B2 (en) * | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
| US20120029912A1 (en) * | 2010-07-27 | 2012-02-02 | Voice Muffler Corporation | Hands-free Active Noise Canceling Device |
| US9377941B2 (en) * | 2010-11-09 | 2016-06-28 | Sony Corporation | Audio speaker selection for optimization of sound origin |
| EP2721609A1 (en) * | 2011-06-20 | 2014-04-23 | Agnitio S.L. | Identification of a local speaker |
| US20130073293A1 (en) * | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
| US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
| US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
| KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
| US9966067B2 (en) * | 2012-06-08 | 2018-05-08 | Apple Inc. | Audio noise estimation and audio noise reduction using multiple microphones |
| US8930005B2 (en) * | 2012-08-07 | 2015-01-06 | Sonos, Inc. | Acoustic signatures in a playback system |
| WO2014055076A1 (en) * | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
| US9271111B2 (en) * | 2012-12-14 | 2016-02-23 | Amazon Technologies, Inc. | Response endpoint selection |
| CN103971687B (zh) * | 2013-02-01 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种语音识别系统中的负载均衡实现方法和装置 |
| US20140270260A1 (en) * | 2013-03-13 | 2014-09-18 | Aliphcom | Speech detection using low power microelectrical mechanical systems sensor |
| US20140278418A1 (en) * | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Speaker-identification-assisted downlink speech processing systems and methods |
| KR20140135349A (ko) * | 2013-05-16 | 2014-11-26 | 한국전자통신연구원 | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 |
| US9747899B2 (en) * | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
| US10255930B2 (en) * | 2013-06-28 | 2019-04-09 | Harman International Industries, Incorporated | Wireless control of linked devices |
| WO2015030474A1 (ko) * | 2013-08-26 | 2015-03-05 | 삼성전자 주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
| GB2519117A (en) * | 2013-10-10 | 2015-04-15 | Nokia Corp | Speech processing |
| US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
| CN104143326B (zh) * | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
| US9443516B2 (en) * | 2014-01-09 | 2016-09-13 | Honeywell International Inc. | Far-field speech recognition systems and methods |
| US9318112B2 (en) * | 2014-02-14 | 2016-04-19 | Google Inc. | Recognizing speech in the presence of additional audio |
| WO2015130283A1 (en) * | 2014-02-27 | 2015-09-03 | Nuance Communications, Inc. | Methods and apparatus for adaptive gain control in a communication system |
| US9293141B2 (en) * | 2014-03-27 | 2016-03-22 | Storz Endoskop Produktions Gmbh | Multi-user voice control system for medical devices |
| US9817634B2 (en) * | 2014-07-21 | 2017-11-14 | Intel Corporation | Distinguishing speech from multiple users in a computer interaction |
| JP6464449B2 (ja) * | 2014-08-29 | 2019-02-06 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
| US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
| WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
| US20160306024A1 (en) * | 2015-04-16 | 2016-10-20 | Bi Incorporated | Systems and Methods for Sound Event Target Monitor Correlation |
| US10013981B2 (en) * | 2015-06-06 | 2018-07-03 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
| US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
| US9883294B2 (en) * | 2015-10-01 | 2018-01-30 | Bernafon A/G | Configurable hearing system |
| WO2017197309A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed volume control for speech recognition |
| US10149049B2 (en) * | 2016-05-13 | 2018-12-04 | Bose Corporation | Processing speech from distributed microphones |
| US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
| US10204623B2 (en) * | 2017-01-20 | 2019-02-12 | Essential Products, Inc. | Privacy control in a connected environment |
-
2017
- 2017-05-12 WO PCT/US2017/032484 patent/WO2017197309A1/en not_active Ceased
- 2017-05-12 JP JP2018559953A patent/JP2019518985A/ja not_active Ceased
- 2017-05-12 US US15/593,700 patent/US20170330563A1/en not_active Abandoned
- 2017-05-12 WO PCT/US2017/032488 patent/WO2017197312A2/en not_active Ceased
- 2017-05-12 CN CN201780029399.8A patent/CN109155130A/zh active Pending
- 2017-05-12 US US15/593,733 patent/US20170330564A1/en not_active Abandoned
- 2017-05-12 EP EP17725474.5A patent/EP3455853A2/en not_active Withdrawn
- 2017-05-12 US US15/593,745 patent/US20170330565A1/en not_active Abandoned
- 2017-05-12 US US15/593,788 patent/US20170330566A1/en not_active Abandoned
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
| CN101354569A (zh) * | 2007-07-25 | 2009-01-28 | 索尼株式会社 | 信息处理装置、信息处理方法和计算机程序 |
| US20110182481A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Voice-body identity correlation |
| US8843372B1 (en) * | 2010-03-19 | 2014-09-23 | Herbert M. Isenberg | Natural conversational technology system and method |
| CN102281425A (zh) * | 2010-06-11 | 2011-12-14 | 华为终端有限公司 | 一种播放远端与会人员音频的方法、装置及远程视频会议系统 |
| CN102520391A (zh) * | 2010-11-09 | 2012-06-27 | 微软公司 | 认知负荷减少 |
| CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
| CN102056053A (zh) * | 2010-12-17 | 2011-05-11 | 中兴通讯股份有限公司 | 一种多话筒混音方法及装置 |
| CN104254818A (zh) * | 2012-05-11 | 2014-12-31 | 高通股份有限公司 | 音频用户交互辨识和应用程序接口 |
| CN105280195A (zh) * | 2015-11-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021000876A1 (zh) * | 2019-07-01 | 2021-01-07 | 华为技术有限公司 | 一种语音控制方法、电子设备及系统 |
| CN114207715A (zh) * | 2019-07-30 | 2022-03-18 | 杜比实验室特许公司 | 用于分布式音频设备的声学回声消除控制 |
| CN111048067A (zh) * | 2019-11-11 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种麦克风响应方法及装置 |
| US11272307B2 (en) | 2020-03-10 | 2022-03-08 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method and device for controlling recording volume, and storage medium |
| CN114360546A (zh) * | 2020-09-30 | 2022-04-15 | 华为技术有限公司 | 电子设备及其唤醒方法 |
| WO2022105392A1 (zh) * | 2020-11-17 | 2022-05-27 | Oppo广东移动通信有限公司 | 电子设备中执行语音处理的方法、装置、电子设备及芯片 |
| CN115731933A (zh) * | 2021-09-01 | 2023-03-03 | 苹果公司 | 基于声学空间的语音触发 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20170330566A1 (en) | 2017-11-16 |
| US20170330563A1 (en) | 2017-11-16 |
| WO2017197312A3 (en) | 2017-12-21 |
| WO2017197309A1 (en) | 2017-11-16 |
| US20170330565A1 (en) | 2017-11-16 |
| US20170330564A1 (en) | 2017-11-16 |
| WO2017197312A2 (en) | 2017-11-16 |
| JP2019518985A (ja) | 2019-07-04 |
| EP3455853A2 (en) | 2019-03-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109155130A (zh) | 处理来自分布式麦克风的语音 | |
| US10149049B2 (en) | Processing speech from distributed microphones | |
| AU2022246448B2 (en) | Systems and methods for playback device management | |
| US11764885B2 (en) | Systems and methods for state detection via wireless radios | |
| US20210050013A1 (en) | Information processing device, information processing method, and program | |
| US9431014B2 (en) | Intelligent placement of appliance response to voice command | |
| JP2019207710A (ja) | スマート音声機器間のインタラクション方法、装置、機器及び記憶媒体 | |
| EP4409571B1 (en) | Conflict management for wake-word detection processes | |
| US12482460B2 (en) | Method and system of environment-sensitive wake-on-voice initiation using ultrasound | |
| US20250008023A1 (en) | Systems and methods for providing headset voice control to employees in quick-service restaurants | |
| US12389330B2 (en) | Power management techniques for waking-up processors in media playback systems | |
| US12543015B2 (en) | Spatial audio head tracker | |
| WO2023056280A1 (en) | Noise reduction using synthetic audio | |
| CN114999489A (zh) | 可穿戴式设备的控制方法、装置、终端设备及存储介质 | |
| WO2019183894A1 (zh) | 一种设备间的数据迁移的方法和设备 | |
| WO2019059939A1 (en) | SPEECH TREATMENT FROM DISTRIBUTED MICROPHONES | |
| CN115966207A (zh) | 控制方法、装置、局域网、电子设备和存储介质 | |
| US11882415B1 (en) | System to select audio from multiple connected devices | |
| JP7293863B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
| WO2025029609A1 (en) | Personalization techniques for media playback systems | |
| CN108322852A (zh) | 一种智能音箱的语音播放方法、装置及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190104 |
|
| WD01 | Invention patent application deemed withdrawn after publication |