CN109155130A

CN109155130A - 处理来自分布式麦克风的语音

Info

Publication number: CN109155130A
Application number: CN201780029399.8A
Authority: CN
Inventors: M·J·戴利; D·R·克里斯特; W·贝拉迪
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2016-05-13
Filing date: 2017-05-12
Publication date: 2019-01-04
Also published as: US20170330566A1; US20170330563A1; WO2017197312A3; WO2017197309A1; US20170330565A1; US20170330564A1; WO2017197312A2; JP2019518985A; EP3455853A2

Abstract

本发明公开了定位在不同位置处的多个麦克风。与所述麦克风通信的调度系统从所述多个麦克风导出多个音频信号，计算每个导出的音频信号的置信度得分，比较所述计算的置信度得分。基于所述比较，所述调度系统选择所述导出的音频信号中的至少一个，以用于进一步处理，接收对所述进一步处理的响应，并且使用输出设备输出所述响应。所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。

Description

处理来自分布式麦克风的语音

要求相关申请的优先权并交叉引用相关申请

本申请要求2016年5月13日提交的临时美国专利申请62/335,981和2016年8月16日提交的临时美国专利申请62/375,543的优先权，这些临时美国专利申请的全部内容以引用方式并入本文。本申请涉及2016年12月9日提交的美国专利申请15/373,541，该美国专利申请的全部内容以引用方式并入本文。

技术背景

本公开涉及处理来自分布式麦克风的语音。

当前语音识别系统假定一个麦克风或麦克风阵列正在侦听用户说话并且基于语音采取动作。该动作可包括本地语音识别和响应、基于云的识别和响应或这些的组合。在一些情况下，本地识别“唤醒字词”，并且基于该唤醒字词远程地提供进一步的处理。

分布式扬声器系统可协调定位在家庭周围的多个扬声器处的音频回放，使得声音回放在各位置之间同步。

发明内容

一般来讲，在一个方面，系统包括定位在不同位置处的多个麦克风以及与麦克风通信的调度系统。调度系统从多个麦克风导出多个音频信号，计算每个导出的音频信号的置信度得分，并且比较计算的置信度得分。基于该比较，调度系统选择导出的音频信号中的至少一个，以用于进一步处理。

具体实施可以任何组合包括以下各项中的一者或多者。调度系统可包括多个本地处理器，该多个本地处理器各自连接到麦克风中的至少一个。调度系统可包括至少第一本地处理器以及在网络上可用于第一处理器的至少第二处理器。计算每个导出的音频信号的置信度得分可包括计算信号是否可包括语音、信号中是否可包括唤醒字词、信号中可包括哪种唤醒字词、包括在信号中的语音的质量、其声音可被记录在信号中的用户的身份以及用户相对于麦克风位置的位置中的一者或多者中的置信度。计算每个导出的音频信号的置信度得分可包括确定音频信号表现为包括话语以及该话语是否包括唤醒字词。计算每个导出的音频信号的置信度得分可还包括识别语音中包括多个唤醒字词中的哪个唤醒词。计算每个导出的音频信号的置信度得分还可包括确定语音包括唤醒字词的置信度的程度。

计算每个导出的音频信号的置信度得分可包括比较麦克风检测到与每个音频信号对应的声音、导出的音频信号的信号强度、导出的音频信号的信噪比、导出的音频信号的频谱内容以及导出的音频信号内的回响的时间之间的时序中的一个或多个。计算每个导出的音频信号的置信度得分可包括针对每个音频信号，计算音频信号的表观源与麦克风中的至少一个之间的距离。计算每个导出的音频信号的置信度得分可包括计算每个音频信号源相对于麦克风位置的位置。计算每个音频信号源的位置可包括基于计算的每个源与麦克风中的至少两个之间的距离来对该位置进行三角测量。

调度系统可将所选的一个或多个信号中的至少一部分传输到语音处理系统，以提供进一步处理。传输所选的一个或多个音频信号可包括从多个语音处理系统中选择至少一个语音处理系统。多个语音处理系统中的至少一个语音处理系统可包括在广域网上提供的语音识别服务。多个语音处理系统中的至少一个语音处理系统可包括语音识别方法，所述语音识别方法在执行调度系统的相同处理器上执行。语音处理系统的选择可基于与用户相关联的偏好、计算的置信度得分或导出音频信号所处的情景中的一者或多者。情景可包括对可能正在讲话的用户的识别、多个麦克风中哪个麦克风产生了所选的导出音频信号、用户相对于麦克风位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。语音处理系统的选择可基于可用于语音处理系统的资源。

比较计算的置信度得分可包括确定至少两个所选的音频信号表现为包括来自至少两个不同用户的话语。确定所选音频信号表现为包括来自至少两个不同用户的话语可基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。调度系统可还将与两个不同用户对应的所选音频信号发送到两个不同的所选的语音处理系统。可基于用户的偏好、语音处理系统的负载平衡、所选音频信号的情景以及两个所选音频信号中不同唤醒字词的使用中的一者或多者将所选的音频信号分配到所选的语音处理系统。调度系统可还将与两个不同用户对应的所选音频信号作为两个单独的处理请求发送到相同的语音处理系统。

比较计算的置信度得分可包括确定至少两个所接收的音频信号表现为表示相同的话语。确定所选音频信号表示相同的话语可基于声音识别、音频信号源相对于麦克风位置的位置、麦克风中哪一个产生了每个所选的音频信号、音频信号的到达时间、音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及个人讲话的视觉识别中的一者或多者。调度系统可还将表现为表示相同的话语的音频信号中的仅一者发送到语音处理系统。调度系统可还将表现为表示相同的话语的音频信号中的两者均发送到语音处理系统。调度系统可还将至少一个所选音频信号传输到至少两个语音处理系统中的每一个，接收来自语音处理系统中每一个的响应，以及确定要输出响应的顺序。

调度系统可还将至少两个所选音频信号传输到至少一个语音处理系统，接收来自与每个传输信号对应的语音处理系统的响应，以及确定要输出响应的顺序。调度系统可被进一步配置为接收对进一步处理的响应，以及使用输出设备输出响应。输出设备可不与捕获了音频的麦克风对应。输出设备可不定位在麦克风所定位的任何位置处。输出设备可包括扩音器、耳机、可穿戴音频设备、显示器、视频屏幕或家用电器中的一者或多者。在接收到对进一步处理的多个响应之后，调度系统可通过将响应组合成单个输出来确定要输出响应的顺序。在接收到对进一步处理的多个响应之后，调度系统可通过选择输出少于所有响应的响应或将不同响应发送到不同输出设备来确定要输出响应的顺序。导出的音频信号的数量可不等于麦克风的数量。麦克风中的至少一个可包括麦克风阵列。该系统可还包括非音频输入设备。非音频输入设备可包括加速度计、存在检测器、相机、可穿戴传感器或用户界面设备中的一者或多者。

一般来讲，在一个方面，系统包括定位在不同位置处的多个设备；以及与设备通信的调度系统，该调度系统响应于先前传送的请求接收来自语音处理系统的响应、确定响应与每个设备的相关性、以及基于该确定将响应转发到设备中的至少一个。

具体实施可以任何组合包括以下各项中的一者或多者。设备中的至少一个可包括音频输出设备，并且转发响应可使得该设备输出与响应对应的音频信号。音频输出设备可包括扩音器、耳机或可穿戴音频设备中的一者或多者。设备中的至少一个可包括显示器、视频屏幕或家用电器。先前传送的请求可从不与设备的多个位置中任一个相关联的第三位置处传送。响应可为第一响应，并且调度系统可还接收来自第二语音处理系统的响应。调度系统可还将第一响应转发到设备中的第一个，并且将第二响应转发到设备中的第二个。调度系统可还将第一响应和第二响应两者均转发到设备中的第一个。调度系统可还将第一响应和第二响应中的仅一者转发到设备中的任一个。

确定响应的相关性可包括确定设备中哪一个与先前传送的请求相关联。确定响应的相关性可包括确定设备中哪一个可最接近与先前传送的请求相关联的用户。确定响应的相关性可基于与所要求系统的用户相关联的偏好。确定响应的相关性可包括确定先前传送请求的情景。情景可包括对可能已经与请求相关联的用户的识别、多个麦克风中哪个麦克风可能与请求相关联、用户相对于设备位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。确定响应的相关性可包括确定设备的能力或资源可用性。

多个输出设备可定位在不同的输出设备位置处，并且调度系统可响应于传输的请求接收来自语音处理系统的响应、确定响应与每个输出设备的相关性，以及基于该确定将响应转发到输出设备中的至少一个。输出设备中的至少一个可包括音频输出设备，并且转发响应使得该设备输出与响应对应的音频信号。音频输出设备可包括扩音器、耳机或可穿戴音频设备中的一者或多者。输出设备中的至少一个可包括显示器、视频屏幕或家用电器。确定响应的相关性可包括确定输出设备和与所选音频信号相关联的麦克风之间的关系。确定响应的相关性可包括确定输出设备中哪一个可最接近所选音频信号源。确定响应的相关性可包括确定导出音频信号所处的情景。情景可包括对可能正在讲话的用户的识别、多个麦克风中哪个麦克风产生了所选的导出音频信号、用户相对于麦克风位置和设备位置的位置、系统中的其他设备的操作状态以及当天时刻中的一者或多者。确定响应的相关性可包括确定输出设备的能力或资源可用性。

一般来讲，在一个方面，系统包括定位在不同麦克风位置处的多个麦克风、定位在不同扩音器位置处的多个扩音器以及与麦克风和扩音器通信的调度系统。调度系统从多个麦克风导出多个声音信号；计算关于每个导出的声音信号包括唤醒字词的置信度得分；比较计算的置信度得分；以及基于该比较，选择导出的声音信号中的至少一个并且将所选的一个或多个信号中的至少一部分传输到语音处理系统。调度系统响应于该传输而接收来自语音处理系统的响应、确定响应与每个扩音器的相关性，以及基于该确定将响应转发到扩音器中的至少一个以用于输出。

优点包括检测多个位置处的口头命令以及提供对该命令的单个响应。优点还包括提供对相比检测到命令的位置与用户更相关的位置处的口头命令的响应。

可以任何技术上可能的方式组合上文所提及的所有示例和特征。其他特征和优点在具体实施方式和权利要求书中将是显而易见的。

附图说明

图1示出了麦克风和可响应麦克风所接收到的声音命令的设备的系统布局。

具体实施方式

随着越来越多的设备实现声音控制用户界面(VUI)，出现多个设备可检测到相同口头命令并试图处理该命令的问题，这导致出现从冗余响应到在不同动作点处采取相互矛盾的动作等问题。类似地，如果口头命令可导致多个设备的输出或动作，则该由哪个设备采取动作可能是模糊的。在一些VUI中，被称为“唤醒字词”、“唤醒词”或“关键词”的特殊短语用于激活VUI的语音识别特征-实现VUI的设备总是侦听唤醒字词，并且当该设备侦听到唤醒字词时，该设备解析其之后的任何口头命令。这是为了通过不解析所检测到的每个声音来节约处理资源，并且这可有助于消除关于哪个系统是命令的目标的歧义，但如果多个系统正在侦听相同的唤醒字词，诸如由于该唤醒词与服务提供方而不是单独的硬件相关联，则问题仍然是确定哪个设备应该处理该命令。

图1示出了潜在的环境，其中独立麦克风阵列102、智能电话104、扩音器106和一组耳机108各自均具有检测用户语音的麦克风(为了避免混淆，我们将个人讲话称为“用户”并且将设备106称为“扩音器”；“用户所讲的离散的内容”是“话语”)。检测话语110的每个设备将其所侦听到的内容作为音频信号传输到调度系统112。在设备具有多个麦克风的情况下，那些设备可组合由单独的麦克风呈现的信号以呈现单个组合音频信号，或者其可传输由每个麦克风呈现的信号。

本公开涉及各种不同类型的音频和相关信号。为了清楚起见，使用以下约定。“声学信号”是指物理信号，即物理声压波，其被解释为人类发出的声音，诸如上文所提及的话语。“音频信号”是指表示声音的电信号。音频信号可由麦克风响应声音音频而生成，或者其可接收自其他电子源，诸如录音、计算机生成的信号或流式数据。“音频输出”是指扩音器基于对扬声器的音频信号输入而生成的声音信号。

调度系统112可为其中每个设备均单独地连接到其上的基于云的服务、在一个相同设备或相关联的设备上运行的本地服务、在这些设备本身中的一些或全部上协同运行的分布式服务或者这些架构或类似架构的任何组合。由于其不同的麦克风设计以及其与用户的不同接近度，每个设备可不同地侦听话语110(如果有的话)。例如，独立的麦克风阵列102可具有高质量波束形成能力，这允许无论用户位于何处该独立的麦克风阵列均可清晰地侦听到话语，而耳机108和智能电话104具有高度定向的近场麦克风，如果用户佩戴着耳机并且将电话保持为面向他们的面部，则该近场麦克风仅仅清晰地获取用户的声音。同时，扩音器106可具有简单的全向麦克风，该全向麦克风在用户靠近并面向扩音器时良好地检测语音，但在其他情况下则产生低质量信号。

基于这些因素以及类似因素，调度系统112计算每个音频信号的置信度得分(这可包括设备本身在发送其所侦听到的内容之前对其自身的检测进行评分，并且连同其相应的音频信号一起发送该得分)。基于置信度得分彼此之间的比较、置信度得分和基线之间的比较或者这两者，调度系统112选择一个或多个音频信号以用于进一步处理。这可包括本地执行语音识别和采取直接的动作，或者通过网络114(诸如，互联网或任何专用网络)将音频信号传输到另一个服务提供方。例如，如果一个设备产生对以下事件具有高置信度的音频信号：信号包括唤醒字词“好的，谷歌”，则可将该音频信号发送到谷歌基于云的语音识别系统以用于处理。在将音频信号传输到远程服务的情况下，唤醒字词可连同其之后的任何话语一起被包括在内，或者可仅发送话语。

置信度评分可基于大量因素，并且还可指示多于一个参数中的置信度。例如，得分可指示关于使用了何种唤醒字词(包括是否使用了唤醒字词)或者用户相对于麦克风的位置的置信度的程度。得分可还指示音频信号是否具有高质量的置信度的程度。在一个示例中，调度系统可对来自两个设备的音频信号进行评分，评分结果：二者针对使用特殊唤醒字词这一事件具有高置信度得分，但其中一者在音频信号质量方面具有低置信度，而另一者则在音频信号质量方面具有高置信度。将选择具有用于信号质量的高置信度得分的音频信号用于进一步处理。

当多于一个设备传输音频信号时，确定置信度的关键因素之一就是音频信号是表示相同的话语还是表示两个(或更多个)不同的话语。评分本身可基于因素诸如信号电平、信噪比(SNR)、信号中的回响量、信号的频谱内容、用户识别、关于用户相对于麦克风的位置的了解或两个或更多个设备处的音频信号的相对时序。位置相关评分和用户身份相关评分可基于音频信号本身，并且可基于外部数据，诸如视觉系统、用户佩戴的可佩戴追踪器和提供信号的设备的身份。例如，如果智能电话是音频信号源，则该智能电话的所有者是其声音被侦听的用户这一事件的置信度得分将很高。可基于在多个位置处或者在单个位置处的阵列中的多个麦克风处接收的声音信号的强度和时序来确定用户位置。

除确定使用了哪个唤醒字词以及哪个信号最佳之外，评分还可提供用于告知应该如何处理音频信号的附加情景。例如，如果置信度得分指示用户正面向扩音器，则可能应该通过与智能电话相关联的一个VUI，使用与扩音器相关联的VUI。情景可包括内容诸如哪个用户正在讲话、该用户相对于设备的位置和面向、该用户正在进行何种活动(例如，锻炼、烹饪、看电视)、当天的时刻或正在使用哪些其他设备(包括除提供音频信号的那些设备之外的设备)。

在一些情况下，该评分指示侦听到多于一个的命令。例如，两个设备可各自针对以下事件具有高置信度：其侦听到不同的唤醒字词，或其侦听到不同的用户正在讲话。在这种情况下，调度系统可发送两个请求-将一个请求发送到唤醒字词所用于的每个系统，或者将两个不同的请求发送到两个用户均调用的单个系统。在其他情况下，可发送多于一个的音频信号-例如，以便获得多于一个的响应、以便让远程系统来决定使用哪一个信号、或者通过组合信号来改善声音识别。除选择用于进一步处理的音频信号之外，评分还可导致其他用户反馈。例如，光可在所选的任何设备上闪烁，使得用户知道已接收命令。

当从调度系统将音频信号发送到其上以用于处理的任何服务或系统接收响应时，也会出现类似的考虑。在许多情况下，关于话语的情景还将告知响应的处理。例如，响应可发送到所选音频信号从其接收的设备。在其他情况下，响应可发送到不同的设备。例如，如果选择了来自独立麦克风阵列102的音频信号，但从VUI返回的响应是开始播放音频文件，则该响应该由耳机108或扩音器106处理。如果响应是显示信息，则智能电话104或具有屏幕的一些其他设备将用于递送响应。如果由于评分指示麦克风阵列音频信号具有最佳信号质量而选择麦克风阵列音频信号，则附加评分可能已经指示用户未正在使用耳机108而是在相同房间中使用扩音器106，因此扩音器是响应的可能目标。也将考虑设备的其他能力-例如，尽管仅示出了音频设备，但声音命令可处理其他系统，诸如照明或家庭自动化系统。因此，如果对话语的响应是熄灯，则调度系统可得出结论：它指的是检测到最强音频信号的房间中的灯。其他可能的输出设备包括显示器、屏幕(例如，智能电话上的屏幕或电视监视器)、家用电器、门锁等。在一些示例中，将情景提供给远程系统，并且远程系统具体地基于话语和情景的组合来靶向特定的输出设备。

如上文所述，调度系统可为单个计算机或分布式系统。所提供的语音处理可类似地由单个计算机或分布式系统提供，与调度系统共延或者与调度系统分开。它们各自可完全本地地定位到设备、完全地定位在云中或者分配在两者之间。它们可被集成到设备中的一个或所有。所述的各种任务-对信号进行评分、检测唤醒字词、将信号发送到另一系统以用于处理、解析命令的信号、处理命令、生成响应、确定哪个设备应处理响应等-可组合在一起或者拆分为多个子任务。任务和子任务中的每一个均可由不同的设备或设备的组合以本地方式或者以基于云的系统或其他远程系统来执行。

当我们提及麦克风时，我们包括麦克风阵列，而不旨在对特定的麦克风技术、拓扑或信号处理进行任何限制。类似地，对扩音器和耳机的引用应当理解为包括任何音频输出设备-电视、家庭影院系统、门铃、可穿戴扬声器等。

上述系统和方法的实施方案包括计算机部件和计算机实现的步骤，其对于本领域技术人员将是显而易见的。例如，本领域技术人员应当理解，执行计算机实现的步骤的指令可存储为计算机可读介质(诸如，软盘、硬盘、光盘、闪存ROM、非易失性ROM和RAM)上的计算机可执行指令。此外，本领域技术人员应当理解，可在各种处理器(诸如，例如，微处理器、数字信号处理器、栅极阵列等)上执行计算机可执行指令。为了便于阐述，并非本文所述的系统和方法中的每一个步骤或元件在本文中均被描述为计算机系统的一部分，但本领域技术人员将认识到，每个步骤或元件均可具有对应的计算机系统或软件部件。此类计算机系统和/或软件部件通过描述其对应的步骤或元件(即，其功能)来启用，并且其在本公开的范围内。

已描述了多个具体实施。然而，应当理解，在不脱离本文所述发明构思的范围的情况下，可进行附加修改，并且因此，其他实施方案在以下权利要求书的范围内。

Claims

1.一种系统，包括：

多个麦克风，所述多个麦克风定位在不同位置处；和

调度系统，所述调度系统与所述麦克风通信，所述调度系统被配置为：

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；以及

比较所述计算的置信度得分；以及基于所述比较，选择所述导出的音频信号中的至少一个，以用于进一步处理。

2.根据权利要求1所述的系统，其中所述调度系统包括多个本地处理器，所述多个本地处理器各自连接到所述麦克风中的至少一个。

3.根据权利要求1所述的系统，其中所述调度系统包括至少第一本地处理器以及在网络上能够用于所述第一处理器的至少第二处理器。

4.根据权利要求1所述的系统，其中计算每个导出的音频信号的所述置信度得分包括计算所述信号是否包括语音、所述信号中是否包括唤醒字词、所述信号中包括哪种唤醒字词、包括在所述信号中的语音的质量、其语音被记录在所述信号中的用户的身份或所述用户相对于所述麦克风位置的位置中的一者或多者中的置信度。

5.根据权利要求1所述的系统，其中计算每个导出的音频信号的所述置信度得分包括确定所述音频信号表现为包括话语以及所述话语是否包括唤醒字词。

6.根据权利要求5所述的系统，其中计算每个导出的音频信号的所述置信度得分还包括识别所述语音中包括多个唤醒字词中的哪个唤醒词。

7.根据权利要求5所述的系统，其中计算每个导出的音频信号的所述置信度得分还包括确定所述话语包括所述唤醒字词的置信度的程度。

8.根据权利要求1所述的系统，其中计算每个导出的音频信号的所述置信度得分包括比较所述麦克风检测到与每个所述音频信号对应的声音、所述导出的音频信号的信号强度、所述导出的音频信号的信噪比、所述导出的音频信号的频谱内容以及所述导出的音频信号内的回响的时间之间的时序中的一个或多个。

9.根据权利要求1所述的系统，其中计算每个导出的音频信号的所述置信度得分包括针对每个音频信号，计算所述音频信号的表观源与所述麦克风中的至少一个之间的距离。

10.根据权利要求1所述的系统，其中计算每个导出的音频信号的所述置信度得分包括计算每个音频信号的所述源相对于所述麦克风的所述位置的位置。

11.根据权利要求10所述的系统，其中计算每个音频信号的所述源的所述位置包括基于计算的每个源与所述麦克风中的至少两个之间的距离来对所述位置进行三角测量。

12.根据权利要求1所述的系统，其中所述调度系统被进一步配置为将所述所选的一个或多个信号中的至少一部分传输到语音处理系统，以提供所述进一步处理。

13.根据权利要求12所述的系统，其中传输所述所选的一个或多个音频信号包括从多个语音处理系统中选择至少一个语音处理系统。

14.根据权利要求13所述的系统，其中所述多个语音处理系统中的至少一个语音处理系统包括在广域网上提供的语音识别服务。

15.根据权利要求13所述的系统，其中所述多个语音处理系统中的至少一个语音处理系统包括语音识别方法，所述语音识别方法在执行所述调度系统的所述相同处理器上执行。

16.根据权利要求13所述的系统，其中所述语音处理系统的所述选择基于与所述要求系统的用户相关联的偏好、所述计算的置信度得分或导出所述音频信号所处的情景中的一者或多者。

17.根据权利要求16所述的系统，其中所述情景包括对正在讲话的用户的识别、所述多个麦克风中哪个麦克风产生了所述所选的导出音频信号、所述用户相对于所述麦克风位置的位置、所述系统中的其他设备的操作状态以及当天时刻中的一者或多者。

18.根据权利要求13所述的系统，其中所述语音处理系统的所述选择基于能够用于所述语音处理系统的资源。

19.根据权利要求1所述的系统，其中所述导出音频信号的数量不等于所述麦克风的数量。

20.根据权利要求1所述的系统，其中所述麦克风中的至少一个包括麦克风阵列。

21.根据权利要求1所述的系统，还包括非音频输入设备。

22.根据权利要求21所述的系统，其中所述非音频输入设备包括加速度计、存在检测器、相机、可穿戴传感器或用户界面设备中的一者或多者。

23.一种处理音频信号的方法，包括：

接收来自多个麦克风的音频信号，所述多个麦克风定位在不同位置处；以及

在与所述麦克风通信的调度系统中：

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；

比较所述计算的置信度得分；以及基于所述比较，

选择所述导出的音频信号中的至少一个，以用于进一步处理。

24.根据权利要求23所述的方法，其中计算每个导出的音频信号的所述置信度得分包括计算所述信号是否包括语音、所述信号中是否包括唤醒字词、所述信号中包括哪种唤醒字词、包括在所述信号中的语音的质量、其语音被记录在所述信号中的用户的身份或所述用户相对于所述麦克风位置的位置中的一者或多者中的置信度。

25.根据权利要求23所述的系统，其中计算每个导出的音频信号的所述置信度得分包括确定所述音频信号表现为包括话语以及所述话语是否包括唤醒字词。

26.一种系统，包括：

多个麦克风，所述多个麦克风定位在不同位置处；和

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；以及

比较所述计算的置信度得分；以及基于所述比较，

选择所述导出的音频信号中的至少两个，以用于进一步处理；

其中比较所述计算的置信度得分包括确定至少所述两个所选的音频信号表现为包括来自至少两个不同用户的话语。

27.根据权利要求26所述的系统，其中对于所述所选音频信号表现为包括来自至少两个不同用户的话语的所述确定基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。

28.根据权利要求26所述的系统，其中所述调度系统被进一步配置为将与所述两个不同用户对应的所述所选的音频信号发送到两个不同的所选的语音处理系统。

29.根据权利要求28所述的系统，其中基于所述用户的偏好、所述语音处理系统的负载平衡、所述所选音频信号的情景以及所述两个所选音频信号中不同唤醒字词的使用中的一者或多者，将所述所选的音频信号分配到所述所选的语音处理系统。

30.根据权利要求26所述的系统，其中所述调度系统被进一步配置为将与所述两个不同用户对应的所述所选的音频信号作为两个单独的处理请求发送到相同的语音处理系统。

31.一种系统，包括：

多个麦克风，所述多个麦克风定位在不同位置处；和

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；

比较所述计算的置信度得分；以及基于所述比较，

其中比较所述计算的置信度得分包括确定至少所述两个所选音频信号表现为表示所述相同的话语。

32.根据权利要求31所述的系统，其中对于所述所选音频信号表示所述相同的话语的所述确定基于声音识别、所述音频信号的所述源相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述音频信号的到达时间、所述音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及所述个人讲话的视觉识别中的一者或多者。

33.根据权利要求31所述的系统，其中所述调度系统被进一步配置为将表现为表示所述相同的话语的所述音频信号中的仅一者发送到所述语音处理系统。

34.根据权利要求31所述的系统，其中所述调度系统被进一步配置为将表现为表示所述相同的话语的所述音频信号中的两者均发送到所述语音处理系统。

35.根据权利要求31所述的系统，其中所述调度系统被进一步配置为：

将至少一个所选的音频信号传输到至少两个语音处理系统中的每一个；

接收来自所述语音处理系统中每一个的响应；以及

确定要输出所述响应的顺序。

36.根据权利要求31所述的系统，其中所述调度系统被进一步配置为：

将至少两个所选的音频信号传输到至少一个语音处理系统；

接收来自与每个所述传输信号对应的所述语音处理系统的响应；以及

确定要输出所述响应的顺序。

37.一种处理音频信号的方法，包括：

在与所述麦克风通信的调度系统中：

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；

比较所述计算的置信度得分；以及，基于所述比较，

38.根据权利要求37所述的方法，其中确定所述所选音频信号表现为包括来自至少两个不同用户的话语基于声音识别、所述用户相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述两个所选音频信号中不同唤醒字词的使用以及所述用户的视觉识别中的一者或多者。

39.根据权利要求37所述的方法，还包括将与所述两个不同用户对应的所述所选的音频信号发送到两个不同的所选的语音处理系统。

40.根据权利要求39所述的方法，还包括基于所述用户的偏好、所述语音处理系统的负载平衡、所述所选音频信号的情景以及所述两个所选音频信号中不同唤醒字词的使用中的一者或多者，将所述所选的音频信号分配到所述所选的语音处理系统。

41.根据权利要求37所述的方法，还包括将与所述两个不同用户对应的所述所选的音频信号作为两个单独的处理请求发送到相同的语音处理系统。

42.一种处理音频信号的方法，包括：

在与所述麦克风通信的调度系统中：

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；

比较所述计算的置信度得分；以及基于所述比较，

43.根据权利要求42所述的方法，其中确定所述所选音频信号表示所述相同的话语基于声音识别、所述音频信号的所述源相对于所述麦克风的所述位置的位置、所述麦克风中哪一个产生了每个所述所选的音频信号、所述音频信号的到达时间、所述音频信号之间或麦克风阵列元件的输出之间的相关性、模式匹配以及所述个人讲话的视觉识别中的一者或多者。

44.根据权利要求42所述的方法，还包括将表现为表示所述相同的话语的所述音频信号中的仅一者发送到所述语音处理系统。

45.根据权利要求42所述的方法，还包括将表现为表示所述相同的话语的所述音频信号中的两者均发送到所述语音处理系统。

46.根据权利要求42所述的方法，还包括：

接收来自所述语音处理系统中每一个的响应；以及

确定要输出所述响应的顺序。

47.根据权利要求42所述的方法，还包括：

将至少两个所选的音频信号传输到至少一个语音处理系统；

确定要输出所述响应的顺序。

48.一种系统，包括：

多个麦克风，所述多个麦克风定位在不同位置处；

输出设备；和

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；

比较所述计算的置信度得分；

基于所述比较，选择所述导出的音频信号中的至少一个，

以用于进一步处理；

接收对所述进一步处理的响应；以及

使用所述输出设备输出所述响应；

其中所述输出设备不与捕获了所述所选音频信号的所述麦克风对应。

49.根据权利要求48所述的系统，其中所述输出设备包括扩音器、耳机、可穿戴音频设备、显示器、视频屏幕或家用电器中的一者或多者。

50.根据权利要求48所述的系统，其中在接收到对所述进一步处理的多个响应之后，所述调度系统通过将所述响应组合成单个输出来确定输出所述响应的顺序。

51.根据权利要求48所述的系统，其中在接收到对所述进一步处理的多个响应之后，所述调度系统通过选择输出少于所有所述响应的响应来确定输出所述响应的顺序。

52.根据权利要求48所述的系统，其中在接收到对所述进一步处理的多个响应之后，所述调度系统将不同响应发送到不同输出设备。

53.一种处理音频信号的方法，包括：

接收来自多个麦克风的音频信号，所述多个麦克风定位在不同位置处；

在与所述麦克风通信的调度系统中：

从所述多个麦克风导出多个音频信号；

计算每个导出的音频信号的置信度得分；

比较所述计算的置信度得分；

基于所述比较，选择所述导出的音频信号中的至少一个，

以用于进一步处理；

接收对所述进一步处理的响应；以及

使用输出设备输出所述响应；

54.根据权利要求53所述的方法，其中所述输出设备未定位在所述麦克风所定位的任何所述位置处。

55.一种系统，包括：

多个设备，所述多个设备定位在不同位置处；和

调度系统，所述调度系统与所述设备通信，所述调度系统被配置为：

响应于先前传送的请求接收来自语音处理系统的响应；

确定所述响应与每个所述设备的相关性；以及

基于所述确定将所述响应转发到所述设备中的至少一个。

56.根据权利要求55所述的系统，其中所述设备中的所述至少一个包括音频输出设备，并且转发所述响应使得所述设备输出与所述响应对应的音频信号。

57.根据权利要求55所述的系统，其中所述设备中的所述至少一个包括显示器、视频屏幕或家用电器。

58.根据权利要求55所述的系统，其中所述响应为第一响应，并且所述调度系统被进一步配置为接收来自第二语音处理系统的响应。

59.根据权利要求58所述的系统，其中所述调度系统被进一步配置为将所述第一响应转发到所述设备中的第一个，并且将所述第二响应转发到所述设备中的第二个。

60.根据权利要求58所述的系统，其中所述调度系统被进一步配置为将所述第一响应和所述第二响应两者均转发到所述设备中的第一个。

61.根据权利要求58所述的系统，其中所述调度系统被进一步配置为将所述第一响应和所述第二响应中的仅一者转发到所述设备中的任一个。

62.根据权利要求55所述的系统，其中确定所述响应的所述相关性包括确定所述设备中哪一个与所述先前传送的请求相关联。

63.根据权利要求55所述的系统，其中确定所述响应的所述相关性包括确定所述设备中哪一个最接近与所述先前传送的请求相关联的用户。

64.根据权利要求55所述的系统，其中确定所述响应的所述相关性基于与所述要求系统的用户相关联的偏好。

65.根据权利要求55所述的系统，其中确定所述响应的所述相关性包括确定所述先前传送的请求的情景。

66.根据权利要求65所述的系统，其中所述情景包括对与所述请求相关联的用户的识别、多个麦克风中哪个麦克风与所述请求相关联、所述用户相对于所述设备位置的位置、所述系统中其他设备的操作状态以及当天时刻中的一者或多者。

67.根据权利要求55所述的系统，其中确定所述响应的所述相关性包括确定所述设备的能力或资源可用性。

68.根据权利要求55所述的系统，其中确定所述响应的所述相关性包括确定所述输出设备和与所述所选音频信号相关联的所述麦克风之间的关系。

69.根据权利要求55所述的系统，其中确定所述响应的所述相关性包括确定所述输出设备中哪一个最接近所述所选音频信号源。

70.一种系统，包括：

多个麦克风，所述多个麦克风定位在不同麦克风位置处；

多个扩音器，所述多个扩音器定位在不同扩音器位置处；和

调度系统，所述调度系统与所述麦克风和所述扩音器通信，所述调度系统被配置为：

从所述多个麦克风导出多个声音信号；

计算关于每个导出的声音信号包括唤醒字词的置信度得分；

比较所述计算的置信度得分；

基于所述比较，选择所述导出的声音信号中的至少一个并且将所述所选的一个或多个信号中的至少一部分传输到语音处理系统；

响应于所述传输接收来自语音处理系统的响应；

确定所述响应与每个所述扩音器的相关性；以及

基于所述确定将所述响应转发到所述扩音器中的至少一个以用于输出。