CN109218651B

CN109218651B - 视频会议中的最佳视图选择方法

Info

Publication number: CN109218651B
Application number: CN201810593798.3A
Authority: CN
Inventors: J.冯; P.禇
Original assignee: Polycom LLC
Current assignee: Hewlett Packard Development Co LP
Priority date: 2017-06-30
Filing date: 2018-06-11
Publication date: 2019-10-22
Anticipated expiration: 2038-06-11
Also published as: US20190158733A1; US10091412B1; EP3422705A1; US10491809B2; CN109218651A; EP3422705B1

Abstract

一种系统，用于确保在第一端点处在由多个摄像机以多个角度捕获到人的脸部时，在视频流中包括人的脸部的最优可用视图。该系统使用一个或多个麦克风阵列来捕获与视图相对应的直接混响比信息，并且确定哪个视图最接近地匹配直接看向该摄像机的人的视图，由此改善第二端点处的观看者的体验。

Description

视频会议中的最佳视图选择方法

相关申请的交叉引用

本申请涉及2017年6月30日提交的并且题为“视频会议中的无干扰音频拾取”的美国申请No. 15/640,385，该申请的内容全部并入本文。

技术领域

本公开一般地涉及视频会议，并且更具体地涉及用于从多个视图中选择感兴趣区域的最佳视图的方法和装备。

背景技术

用于视频会议系统的摄像机通常具有机械摇摄（pan）、倾斜和变焦控制。理想情况下，应该不断调整这些控制，以基于房间内的人坐在哪里以及谁在讲话来实现对房间内的人的最佳视频取景（framing）。不幸的是，由于执行这些调整困难，所以摄像机可能经常被设置成整个房间的固定的广角视图，并且可能不会被调整。如果是这种情况，则远端参与者可能会失去来自摄像机所捕获的视频的大部分价值，因为在远端处显示的近端参与者的尺寸可能过小。在一些情况下，远端参与者不能看到近端参与者的脸部表情，并且可能难以识别出发言者。这些问题给视频会议别扭的感觉，并使参与者难以召开富有成效的会晤。

为了应对糟糕的取景，参与者可能不得不介入并执行一系列手动操作来对摄像机进行摇摄、倾斜和变焦以捕获更好的视图。正如预料的那样，即使在使用遥控器时，手动指引摄像机也可能很麻烦。有时，参与者懒得调整摄像机的视图，并且简单地使用默认宽视图。当然，当参与者手动进行对摄像机的视图取景时，这个过程在参与者在视频会议期间改变方位或在后续视频会议中使用不同的座位安排的情况下不得不重复。

手动介入的一个备选是使用话音跟踪技术。具有麦克风阵列的话音跟踪摄像机可以帮助在视频会议期间使摄像机指向正在发言的参与者。尽管话音跟踪摄像机通常非常准确，但是它仍然可能会遇到一些问题。例如，当发言者转过脸不面对麦克风时，话音跟踪摄像机可能失去发言者的线索。此外，非常混响的环境可能会导致话音跟踪摄像机对准反射点处，而不是指向正在发言的人的实际声源处。例如，当发言者转过脸不面对摄像机或当发言者坐在桌子的一端时，可能会产生典型的反射。如果反射足够麻烦，则可以将话音跟踪摄像机引导为指向墙壁、桌子或其他表面而非实际的发言者。

对这些问题的极好的较早的解决方案在Jinwei Feng等人的美国专利No.8,842,161中阐述。那个专利公开了视频会议装置和方法，其将用静止摄像机获得的静止视图协调到用可调摄像机获得的可调视图。静止摄像机可以是web摄像机，而可调摄像机可以是摇摄-倾斜-变焦摄像机。当静止摄像机获得视频时，检测参与者的脸部，并且在视图中确定界限以包含检测到的脸部。与检测到的脸部相关联的运动的缺失和存在被用于验证脸部是否可靠。在Jinwei中，为了捕获和输出视频会议参与者的视频，可调摄像机的视图基于所确定的界限调整为被取景的视图。美国专利No.8,842,161将声源定位（SSL）的技术、参与者检测和运动检测相组合，以定位会晤参加者，并基于定位信息决定最佳视图将是什么，且然后控制辅助的摇摄-倾斜-变焦（PTZ）摄像机摇摄、倾斜和变焦以获得想要的视图。

由于诸如美国专利No.8,842,161中公开的那些视频会议装置之类的视频会议装置的普及，通过连接两个这样的设备、让一个设备控制另一个设备，来扩展这样的装置的范围已经变得普及。这意味着通常将捕获会晤演示者（presenter）的两个视图，每个可调摄像机捕获一个视图。然后，问题变为如何确保选择更好的视图以便传输到远程端点。

发明内容

本公开的实施例涉及一个或多个摄像机，该一个或多个摄像机被自动调整以使用自动取景连续地且即时地提供出席视频会议的所有人的最佳视图。本公开的实施例涉及连续地自动调整一个或多个摄像机以提供正在发言的人的最佳视图。本公开的实施例涉及控制摄像机从不同角度产生同一人的视图馈送，以及控制在一个拾取馈送与另一个拾取馈送之间的切换操作，其中一个目的是利用具有正在发言的人的最优正面脸部视图的馈送。

附图说明

为了说明的目的，在附图中示出了本公开中描述的某些实施例。在附图中，相同的数字始终指示相同的元件。应当理解，本文公开的本发明的全部范围不限于所示的精确布置、维度和仪器。在附图中：

图1A图示了根据本公开的某些教导的视频会议端点。

图1B图示了图1A的视频会议端点的组件。

图1C-1D示出了视频会议端点的平面图。

图2A示出了根据本公开的用于端点的视频会议设备。

图2B-2D示出了用于视频会议设备的备选配置。

图3图示了图2A-2D的视频会议设备的组件。

图4图示了使用音频和视频处理二者的所公开端点的控制方案。

图5A-5B图示了根据本公开的端点配置。

图6A-6B图示了根据本公开的另一种端点配置。

图7A-7B图示了根据本公开的另一种端点配置。

图8A是根据本公开的实施例的声源定位算法的框图。

图8B图示了根据本公开实施例的、使用图8A的声源定位算法的比较结果来确定最佳视图。

图9A-9B图示了根据本公开的实施例的示例性波束形成图。

图10图示了根据本公开的实施例的用于从多个视图中确定最佳脸部视图的一个方法。

图11图示了用于确定哪个脸部视图是最佳的又一示例方法。

具体实施方式

现在将详细参考该技术的实施方式。每个示例仅通过对该技术的解释来提供，而不作为对该技术的限制。对于本领域技术人员来说显然的是，可以在本技术中做出各种修改和变型。比如，作为该技术的一个实施方式的一部分描述的特征可以用在另一个实施方式上，以产生更进一步的实施方式。因此，意在使本公开涵盖这样的修改和变型。

在本公开中使用的术语的描述被提供如下。“耦合”是指能够直接或间接地彼此交互的组件或设备。所有连接的元件都被耦合，但并非所有耦合的元件都被连接。耦合的元件包括那些相互通信的元件。“接近度”是指项目或元件或组件等彼此临近的程度。元件在它们相互靠近时是“接近”的，如技术人员基于上下文所理解的那样。

本公开涉及具有一个或多个静止摄像机和多个可调摄像机的视频会议端点。在至少一个实施例中，端点可以包括多个视频会议设备，视频会议设备中的每一个包括静止摄像机和可调摄像机。可能希望将两个或更多个这样的设备耦合在一起，以便为视听拾取提供比用仅一个这样的设备所可能的更大的范围或距离。当这样的设备被耦合时，它们被称为“链成菊花链的（daisy-chained）”。为了在本文中解释清楚，讨论了其中两个这样的设备被链成菊花链的场景，尽管在不脱离本公开的情况下多于两个的这样的设备（和配置）是可能的。因此，在所讨论的示例的一些中，存在一个主设备和一个从设备，后者由该主设备控制。然而，多个从设备是可能的。

对于由具有多个可调（和/或跟踪）摄像机而引起的增加的功率，也出现了一些新问题。例如，考虑其中演示者正在发言并且他正在被两个摄像机跟踪的情况；这些摄像机中的每一个将捕获发言者的图像。两个摄像机中的一个摄像机将提供比另一个摄像机优良的图像。虽然存在可以使一个视图比另一个视图更好的各种因素，例如尺寸、图像质量、话音到视频同步的准确性，本公开主要关心的属性是哪个视图更接近地近似于其中发言者被感知为看向正被讨论的摄像机或看着该摄像机的视图。通过选择优良视图以便包含在向远端点的音频视频传输中，在接收端点处的那些人的视觉体验——以及因此学习体验将得到改善。因此，本公开的实施例针对的是：确定链成菊花链的单元中的哪个设备（或摄像机）提供了讲话者51的最优放大的正面视图作为系统输出。

根据至少一个实施例，图1A中的视频会议装置或端点10通过网络12与一个或多个远程端点14通信。在一些通用组件中，端点10具有带有音频编解码器22的音频模块20和具有带有视频编解码器32的视频模块30。这些模块20/30可操作地耦合到控制模块40和网络模块70。

在视频会议期间，两个或更多个摄像机50A-B捕获视频并将捕获的视频提供给视频模块30和编解码器32以进行处理。此外，一个或多个麦克风28捕获音频并将音频提供给音频模块20和编解码器22以进行处理。这些麦克风28可以是桌面麦克风或天花板麦克风，或者它们可以是麦克风箱（microphone pod）的一部分等。端点10将利用这些麦克风28捕获的音频主要用于会议音频。

具有正交布置的麦克风62的麦克风阵列60A-B也分别地捕获音频并将该音频提供给音频模块20以进行处理。优选地，麦克风阵列60A-B既包括垂直布置的麦克风62又包括水平布置的麦克风62，用于在视频会议期间确定音频源的位置。因此，端点10将来自这些阵列60A-B的音频主要用于摄像机跟踪目的，而不用于会议音频，尽管它们的音频可以被用于会议。

在捕获音频和视频之后，端点10使用诸如MPEG-1、MPEG-2、MPEG-4、H.261、H.263和H.264之类的任何通用的编码标准对其进行编码。然后，网络模块70使用任何适当的协议经由网络12将经编码的音频和视频输出到远程端点14。类似地，网络模块70经由网络12从远程端点14接收会议音频和视频，并将这些音频和视频发送到它们的相应编解码器22/32以进行处理。最终，扬声器26输出会议音频，并且显示器34输出会议视频。这些模块和其他组件中的许多可以以本领域公知的常规方式操作，因此这里不提供进一步的细节。

与常规布置相比，端点10以自动和协调的方式使用两个或更多个摄像机50A-B，以动态地处理视频会议环境的视频和视图。第一摄像机50A可以是固定或房间视图（room-view）摄像机，并且第二摄像机50B可以是受控或者人视图（people-view）摄像机。例如，使用房间视图摄像机50A，端点10捕获房间的视频或者该房间的、将典型地包括所有视频会议参与者以及一些周围环境的至少宽的或缩小的视图。尽管被描述为固定的，但房间视图摄像机50A可以实际上通过摇摄、倾斜和变焦来调节，以控制其视图并对环境取景。

相比之下，端点10使用人视图摄像机50B以紧密视图（tight view）或放大视图捕获一个或多个具体参与者、以及优选地一个或多个当前发言者的视频。因此，人视图摄像机50B具体地能够摇摄、倾斜和变焦。

在一种布置中，人视图摄像机50B是可操纵的（steerable）摇摄-倾斜-变焦（PTZ）摄像机，而房间视图摄像机50A是电子的摇摄-倾斜-变焦（EPTZ）摄像机。这样，人视图摄像机50B可以被操纵，而房间视图摄像机50A，与其说是可操纵的，不如说可以被电子地操作以改变其观看取向。然而，端点10可以使用其他布置和类型的摄像机。实际上，两个摄像机50A-B都可以是可操纵的PTZ摄像机。此外，宽视场和变焦视图之间的切换可以在两个可操纵摄像机50A-B之间共享和交替，使得一个摄像机在适当时捕获宽视图，而另一个摄像机捕获放大的视图，反之亦然。

出于本公开的目的，一个摄像机50A被称为房间视图摄像机，而另一个摄像机50B被称为人视图摄像机。尽管可能希望在发言者的紧密视图和房间的宽视图之间交替，但是可能存在端点10可以在相同或不同发言者的两个不同紧密视图之间交替的情况。为此，如前所述，可能希望使两个摄像机50A-B均是可操纵的PTZ摄像机。因此，在另一种布置中，第一和第二摄像机50A-B均可以是受控或人视图摄像机，例如可操纵的PTZ摄像机。端点10可以使用这些摄像机50A-B中的每一个来以紧密视图或放大视图捕获一个或多个具体参与者、以及优选地一个或多个当前发言者的视频，以及在需要时提供房间的宽视图或缩小的视图。

在一个实施方式中，端点10在任何特定时间仅从两个摄像机50A-B之一输出视频。随着视频会议的进行，于是来自端点10的输出视频可以不时地在房间视图摄像机和人视图摄像机50A-B之间切换。通常，系统10在没有参与者发言（或操作已经劣化）时输出来自房间视图摄像机50A的视频，并且端点10在一个或多个参与者正在发言时输出来自人视图摄像机50B的视频。一个好处在于，在这些摄像机视图之间切换允许视频会议的远端去欣赏活跃发言者的放大视图，同时仍不时地获得会晤房间的宽视图。

作为一种备选，端点10可以同时传输来自两个摄像机的视频，并且端点10可以让远程端点76决定要显示哪个视图，尤其是如果端点10发送一些用于选择一个或另一个摄像机视图的指令的话。在又一种备选中，端点10可以同时传输来自两个摄像机的视频，因此视频图像中的一个可以被合成为另一个视频图像的画中画。例如，来自摄像机50B的人视图视频可以与来自摄像机50A的房间视图合成，以用画中画（PIP）格式发送到远端。

为了控制由两个摄像机50A-B捕获的视图，端点10使用基于音频的定位器42和基于视频的定位器44来确定参与者的位置以及环境和参与者的取景视图。然后，可操作地耦合到音频和视频模块20/30的控制模块40使用来自这些定位器42/44的音频和/或视频信息向摄像机50A-B中的一个或两个发送摄像机命令以改变它们的取向和它们捕获的视图。对于人视图摄像机50B，这些摄像机命令可以通过具有机械地操纵摄像机50B的电机、伺服器等的致动器或本地控制单元52来实现。对于房间视图摄像机50B，这些摄像机命令可以被实现为要由摄像机50B处理的电子信号。

为了确定使用哪个摄像机50A-B以及如何配置其视图，控制模块40使用从基于音频的定位器42获得的音频信息和/或从基于视频的定位器44获得的视频信息。例如并且如下面更详细描述的那样，控制模块40使用来自水平和垂直布置的麦克风阵列24的、由基于音频的定位器42处理的音频信息。基于音频的定位器42使用语音检测器43检测来自阵列24的已捕获音频中的语音，并且然后确定当前发言者的位置。控制模块40使用所确定的位置，来接着操纵人视图摄像机50B朝向那个位置。也如下面更详细地描述的那样，控制模块40使用来自摄像机50A-B的、由基于视频的位置44处理的视频信息来确定参与者的位置，以确定对于那些视图的取景，以及操纵人视图摄像机50B对准参与者。

来自房间视图摄像机50A的宽视图可以给出人视图摄像机50B的设备场境（context），并且可以被使用，使得在远端处的参与者在人视图摄像机50B朝向参与者移动时不看来自它的视频。此外，当在近端处的多个参与者正在讲话时或者当人视图摄像机50B正在移动以对准多个讲话者时，可以在远端处显示宽视图。来自摄像机50A-B的两个视图之间的转换可以根据需要渐变和混合，以避免在摄像机视图之间切换时采用突然切断的方式（cut-a-ways）。

例如，随着人视图摄像机50B朝向发言者移动，来自该摄像机50B的移动的视频优选地不传输到视频会议的远端。相反，传输来自房间视图摄像机50A的视频。然而，一旦人视图摄像机50B已经对当前发言者合适地取景，则端点10在来自摄像机50A-B的视频之间切换。

同样，端点10优选地不会简单地自动切换去捕获发言者的视图。相反，优选地，摄像机改变是定时的。一段时间上过多的摄像机切换可能会分散会议参与者的注意力。因此，端点10优选地使用那些发言者的位置、他们的话音特征、他们的说话频率等来跟踪他们。然后，当一个发言者开始发言时，端点10可以快速地使人视图摄像机50B对准那个频繁的发言者，但端点10可以避免或延迟跳转到可能仅以简短的回答或评论作出响应的另一个发言者。

尽管端点10优选地在没有用户介入的情况下操作，但是端点10可以允许用户介入和控制。因此，可以使用来自远端和近端中的任一个或二者的摄像机命令来控制摄像机50A-B。例如，参与者可以确定在无人发言时要显示的最优宽视图。同时，随着视频会议的进行，动态摄像机命令可以控制人视图摄像机50B。以这种方式，由人视图摄像机50B提供的视图可以由端点10自动控制。

图1B示出了图1A的视频会议端点10的一些示范性组件。如上所示和讨论的，端点10具有两个或更多个摄像机50A-B和若干麦克风28 / 62A-B。除此之外，端点10具有全部经由总线101耦合的处理单元100、网络接口102、存储器104和通用输入/输出（I/O）接口108。

存储器104可以是诸如SDRAM等的任何常规存储器，并且可以存储用于控制端点10的软件和固件形式的模块106。除了先前讨论的视频和音频编解码器以及其他模块之外，模块106可以包括操作系统、使用户能够控制端点10的图形用户界面（GUI），以及如稍后讨论的用于处理音频/视频信号和控制摄像机50A-B的算法。

网络接口102提供端点10和远程端点（未示出）之间的通信。相比之下，通用I/O接口108提供与诸如键盘、鼠标、打印机、高架（overhead）投影仪、显示器、外部扬声器、附加摄像机、麦克风箱等本地设备的数据传输。端点10还可以包含内部扬声器26。

摄像机50A-B和麦克风阵列60A-B分别在视频会议环境中捕获视频和音频，并产生经由总线101传输到处理单元100的视频和音频信号。这里，处理单元100使用模块106中的算法来处理视频和音频。例如，端点10处理由麦克风28/62A-B捕获的音频以及由摄像机50A-B捕获的视频以确定参与者的位置并指引摄像机50A-B的视图。最终，经处理的音频和视频可以被发送到与接口102/108耦合的本地和远程设备。

在图1C的平面图中，端点10的一种布置使用具有与其集成的麦克风阵列60A-B和两个摄像机50A-B的视频会议设备80。麦克风箱28可以放置在桌子上，尽管可以使用其他类型的麦克风，例如天花板麦克风、独立的桌面麦克风等。麦克风箱28通信地连接到视频会议设备80并且捕获视频会议的音频。就其本身而言，设备80可以被并入或安装在显示器和/或视频会议单元（未示出）上。

图1D示出了端点10的另一种布置的平面图。这里，端点10具有安装在房间各处的若干设备80/81，并且在桌子上具有麦克风箱28。如前所述，一个主要设备80具有麦克风阵列60A-B和两个摄像机50A-B，并且可以并入或安装在显示器和/或视频会议单元（未示出）上。其他设备81耦合到主要设备80并且可以被置于视频会议环境的侧面。如将在下面更详细讨论的，主要设备80可以是主设备并且其他设备81中的至少一个可以是由主要设备80控制的从设备。

辅助设备81至少具有人视图摄像机50B，尽管它们可以具有房间视图摄像机50A、麦克风阵列60A-B或二者并且可以与主要设备80相同。不管怎样，本文描述的音频和视频处理可以标识哪个人视图摄像机50B具有环境中的发言者的最优视图。然后，可以从房间各处的那些设备选择用于发言者的最佳人视图摄像机50B，使得正面视图（或与该视图最接近的视图）可以用于会议视频。

在转向视频会议期间端点10的操作之前，讨论首先转向根据本公开的视频会议设备的细节。如图2A中所示，视频会议设备80具有外壳，在所述外壳上布置有麦克风62A的水平阵列60A。从该外壳延伸出来，垂直阵列60B也具有若干麦克风62B。如图所示，这些阵列60A-B可以各自具有三个麦克风62A-B，尽管任一阵列60A-B可以具有与所描绘的不同的数量。

第一摄像机50A是意在获得视频会议环境的宽视图或缩小视图的房间视图摄像机。第二摄像机50B是意在获得视频会议参与者的紧密视图或放大视图的人视图摄像机。这两个摄像机50A-B被安装在设备80的外壳上并且可以与其相集成。房间视图摄像机50A具有图像处理组件52A，如果不是EPTZ摄像机，则该图像处理组件52A可以包括致动器。人视图摄像机50B也具有图像处理组件52B，该图像处理组件52B包括用于控制摄像机操作的摇摄-倾斜-变焦的致动器。这些组件52A-B可以可操作地耦合到容纳在设备80中的本地控制单元90。

就其本身而言，控制单元90可以包括用于举行视频会议的必要组件的全部或部分，包括音频和视频模块、网络模块、摄像机控制模块等。备选地，必要的视频会议组件中的全部或一些可以被容纳在耦合到设备80的单独的视频会议单元95中。这样，设备80可以是具有摄像机50A-B、麦克风阵列60A-B以及其他相关组件的独立单元，而视频会议单元95处理所有视频会议功能。当然，如果希望，则设备80和单元95可以组合成一个单元。

不是如图2A中所示具有两个或更多个集成摄像机50A-B，而是如图2B中所示的公开的设备80可以具有一个集成摄像机53。备选地，如图2C-2D中所示，设备80可以包括具有麦克风阵列60A-B、通信端口（未示出）和其他处理组件（未示出）的基座单元85。两个或更多个单独的摄像机单元55A-B可以连接到基座单元85上以制作设备80（图2C），或者一个单独的摄像机单元55可以连接在基座单元85上（图2D）。因此，基座单元85可以装下（hold）麦克风阵列60A-B和所有其他所需的电子和信号处理组件，并且可以使用适当形式的附件来支撑一个或多个摄像机单元55。

尽管已经示出了设备80具有彼此邻近地放置的两个摄像机50A-B，但摄像机50A-B中的任一个或二者可以完全地与设备80分离并且连接到外壳的输入。此外，设备80可以被配置为支持额外的摄像机而不是仅两个摄像机。以这种方式，用户可以安装其他的摄像机，它们可以无线地连接到设备80并被置于房间各处，使得设备80可以总是为发言者选择最优视图。

图3简要示出了可以是图2A-2D的设备80的一部分的一些示范性组件。如图所示，设备80包括麦克风阵列60A-B、控制处理器110、现场可编程门阵列（FPGA）120、音频处理器130和视频处理器140。如前所述，设备80可以是集成单元，该集成单元具有与其集成的两个或更多个摄像机50A-B（见图2A），或者这些摄像机50A-B可以是具有它们自身的组件并连接到设备的基座单元的分离的单元（见图2C）。此外，设备80可以具有一个集成摄像机（53；图2B）或一个单独的摄像机（55；图2D）。

在操作期间，FPGA 120捕获来自摄像机50A-B的视频输入，生成针对视频会议单元95的输出视频，并将输入视频发送到视频处理器140。FPGA 120还可以缩放并合成视频和图形叠加。可以是数字信号处理器的音频处理器130捕获来自麦克风阵列60A-B的音频并执行包括回声消除、音频滤波和源跟踪的音频处理。音频处理器130还处理用于在摄像机视图之间切换、用于检测会话模式以及本文公开的其他目的的规则。

视频处理器140（其也可以是数字信号处理器（DSP））从FPGA 120捕获视频并处理运动检测、脸部检测和其他视频处理以辅助跟踪发言者。如下面更详细描述的，例如视频处理器140可以对从人视图摄像机50B捕获的视频执行运动检测算法，以检查由发言者跟踪算法找到的候选发言者位置的当前视图中的运动。这可以避免使摄像机50B对准来自墙壁、桌子等的反射。此外，视频处理器140可以使用脸部寻找算法来通过确认：候选发言者位置确实对具有人脸的视图取景而进一步提高追踪准确性。

可以是通用处理器（GPP）的控制处理器110处理与视频会议单元95的通信并处理设备80的摄像机控制和整体系统控制。例如，控制处理器110控制用于摄像机组件的摇摄-倾斜-变焦通信并且控制由FPGA 120进行的摄像机切换。

通过对上述视频会议端点和组件的理解，现在讨论转向所公开的端点10的操作。首先，图4示出了由所公开的端点10用来举行视频会议的控制方案150。如前所提示的，控制方案150使用视频处理160和音频处理170二者来控制视频会议期间摄像机50A-B的操作。处理160和170可以个别地或组合在一起完成，以增强端点10的操作。尽管在下面简要地描述，但是稍后将更详细地讨论用于音频和视频处理160和170的各种技术中的若干技术。

简言之，视频处理160可以使用来自摄像机50A-B的焦距去确定到参与者的距离，并且可以使用基于颜色、运动和脸部识别的基于视频的技术来跟踪参与者。如图所示，因此，视频处理160可以使用运动检测、肤色检测、脸部检测和其他算法来处理摄像机50A-B的视频和控制操作。在视频会议期间获得的已记录信息的历史数据也可以在视频处理160中使用。

就其本身而言，音频处理170使用利用麦克风阵列60A-B的语音跟踪。为了提高跟踪准确性，音频处理170可以使用本领域已知的多种滤波操作。例如，音频处理170优选地在执行语音跟踪时执行回声消除，使得来自端点的扬声器的被耦合的声音不被拾取为如同它是主导发言者一样。音频处理170还使用滤波来消除来自话音跟踪的非话音音频并忽略可能来自反射的较响的音频。

音频处理170可以使用根据附加音频提示的处理，诸如使用桌面麦克风元件或箱（28；图1）。例如，音频处理170可以执行话音识别以标识发言者的话音，并且可以在视频会议期间确定语音中的对话模式。在另一个示例中，音频处理170可以从分离的麦克风箱（28）获得源的方向（即摇摄（pan）），并将此与用麦克风阵列60A-B获得的位置信息组合。因为麦克风箱（28）可以具有若干置于不同方向的麦克风，因此可以确定音频源相对于那些方向的方位。

当参与者最初说话时，麦克风箱（28）可以获得参与者相对于麦克风箱（28）的方向。这可以被映射到在映射表等中用阵列（60A-B）获得的参与者的位置。在某个稍后的时间，仅麦克风箱（28）可以检测当前发言者，使得仅获得其定向信息。然而，基于映射表，端点10可以定位当前发言者的位置（摇摄、倾斜、变焦坐标）以便使用映射的信息来利用摄像机对发言者进行取景。

然而，如上所提到的，在多视图环境中，定位活跃讲话者51并且自动将可调摄像机指向他的方向是不够的。对于由具有多个可调（和/或跟踪）摄像机而引起的增加的功率，也出现了一些新问题。例如，考虑其中演示者正在发言并且他正在被两个摄像机跟踪的情况；这些摄像机中的每一个将捕获发言者的图像。两个摄像机中的一个摄像机将提供比另一个摄像机更优良的图像。虽然存在可以使一个视图比另一个视图更好的各种因素，例如尺寸、图像质量、话音到视频同步的准确性，本公开主要关心的属性是哪个视图更接近地近似于其中发言者被感知为看向正讨论的摄像机或看着该摄像机的视图。通过选择优良的视图以便包含在向远端点的音频视频传输中，在接收端点处的那些人的视觉体验——以及因此学习体验将得到改善。

因此，本公开的实施例针对的是：确定链成菊花链的单元中的哪个设备（或摄像机）提供了讲话者51的最优放大的正面视图作为系统输出。用于进行这种确定的方法包括“头部取向估计”，其是图像数据的评估以估计人的脸部指向哪个方向。尽管诸如通过使用波束形成来找到讲话者51的位置（其是一个相对容易解决的问题），但是确定所定位的讲话者51的头部/脸部的取向更具挑战性。

使用标准脸部检测技术来检测脸部的正面和（多个）侧面的头部取向估计是不够的。例如，如果在视图中存在面向不同方向的多于一个脸部，则脸部检测器通常不能确定多个视图中脸部的哪个视图被用于头部取向估计。当两个人相互靠近地坐下时，例如当会晤地点包含许多彼此接近的人时会发生这种情况。

此外，在一些情况下，可能存在从诸如墙壁的表面反射的声音、以及不想要的噪音和干扰声音。在这样的情况下，主设备的可调摄像机和从设备的可调摄像机可能放大不同的脸部。例如，反射的声音可能被一个设备拾取，同时在那个位置存在一个没在发言的人的脸部。如果非讲话者51的视图被包括在音频-视频流中，而会晤演示者的视图未被拾取，则将是不利的。同样，当输入处的会晤场所密密麻麻地挤满了人时，这种类型的混乱有更大的可能性。考虑图5A和图5B所图示的具有许多学生的大型教室的示例，其中从设备81被用于扩展主设备80的有效范围。

依靠脸部检测器的另一个问题是分辨率可能不足以确定脸部相对于跟踪它的摄像机的角度。大多数常规脸部检测器不能可靠地在转过脸偏离摄像机三十（30）度的讲话者的图像与转过九十（90）度的讲话者的图像之间进行分辨。在常规脸部检测方案中，这两种视图都将被简单地检测为对应于脸部侧面。

图6A和图6B图示了使用从设备来扩展主设备的范围的端点。在没有适当的脸部取向估计的情况下，如果讲话者位于远离设备的教室的那端，那么两个设备都可能将讲话者的脸部检测为正面视图。然而，可以使用一个或多个提示来帮助确保一致地选择来自扩展单元（从设备）的摄像机视图，否则放大的讲话者视图可能频繁地在从设备和主设备说捕获的视图之间切换，这至少会令人不快，并且有可能迷惑接收来自端点的视听馈送的在远程位置的观看者。在图7A和图7B中所示的布局中可能出现类似的问题。当教授51从他的椅子上发言时，由主设备80捕获的视图很可能是最佳的，而如果教授在房间各处移动、或在黑板上画图并间歇地转身以面向他的班级，那么最佳的——其上有最多脸部的——视图是优选的，但在给定的时间间隔内过于频繁地在视图之间切换将不是所期望的。

根据至少一个实施例，由设备捕获的视频信息被补充有音频信息。如所讨论的，定位和跟踪活跃讲话者51通常使用在端点处布置的多个麦克风阵列。在这样的布置中，端点处的麦克风必须对于音频拾取和分析中的定时仔细同步。美国专利No. 9,030,520中阐述了一种这样的系统，该专利通过引用全部并入本文。然而，该专利中描述的技术不足以处理脸部取向估计，脸部取向估计是在本文中讨论的多设备（至少一个主设备和至少一个从设备）实施例中确定从多个摄像机视图中选择哪个摄像机视图所需的。本公开的至少一个实施例是多个可调摄像机端点，其中不像常规上所需的那样要求音频采样的严格的麦克风信号时间同步。例如，即使不同步（out）多达100毫秒的信号也没有问题。这可以免除对显著的工程努力的需要，其涉及硬件、软件或二者的组合，这些对于合适的同步通常是需要的。例如，参见IEEE 1588精确时间协议。

根据至少一个实施例，端点10可以用比先前可能的精细得多的分辨角来检测头部取向。通过本公开的实施例实现的更高的敏锐度（acuity）使得有可能支持各种配置的链成菊花链的设备，包括图5-7中所图示的那些。

根据至少一个实施例，除了关于讲话者的位置的一阶信息（摇摄、倾斜、深度）之外，根据由麦克风阵列拾取的数据导出二阶信息。该导出可以通过使用为该目的配置的一个或多个算法来实现。在至少一个实施例中，麦克风阵列被用于估计来自活跃讲话者的语音的直接混响比（DRR）。在至少一个实施例中，由与发言人的嘴（即，脸部）的正面径向（diametrically）相对的麦克风（阵列）检测到的DRR大于由与发言者的嘴的正面成某个角度的阵列所检测到的DRR，即使在发言者物理上更接近该成角度的麦克风（阵列）的情况下也是如此。

图8A图示了用于设备80、81的专门化的声源定位（SSL）算法的框图。除了用于定位发言者51的由摇摄、倾斜和深度组成的标准一阶信息之外，还由SSL产生四个二阶参数。根据本公开的至少一个实施例，确定主设备和从设备中的每一个的二阶信息分数（SOIC）。设备80、81的SOIC对应于四个参数的加权和。

来自SSL的第一参数是摇摄比（pan-ratio），它反映DRR。通过计算（波束成形）操纵的响应功率图中峰值信号与平均信号的比率来确定摇摄比（PR）。当讲话者转动其头部时，DRR改变，并且因此摇摄比也改变。发明人已经确定摇摄比在讲话者转过脸偏离设备时是最低的。情况就是这样，因为在这种朝向下，发言者的话音的混响最大并且DRR最小。图9A和图9B示出了两个示例：‘面对’（导致高摇摄比的强峰值）对比‘转过背对’（turn back）（导致低摇摄比的弱峰值）。因此，摇摄比是头部取向的一个指示器。在投票方案中，摇摄比以2倍加权。

来自SSL的第二参数称为计数数量。计数数量（NC）是SSL能够在最近两秒钟内（其他预定时段也是可能的，但是已经确定两秒钟是非常有效的）确定所讨论的声音源的次数。计数数量是灵敏度（以及因此准确性）的指示器，使用所述计数数量来评估讲话者的位置。根据至少一个实施例，SSL核心例程每20毫秒运行一次。在一些实施例中，SSL严重依赖于高频。当讲话者面对设备时，更多的高频被以播送到麦克风阵列，并且对于SSL算法，变得更容易检测和跟踪讲话者的位置。另一方面，当讲话者的头脸转离时，对于SSL算法，更难以检测和跟踪讲话者的位置。在所描述的方案的至少一个版本中，计数的数量也以2倍加权（尽管这可以取决于特定环境/配置的需要而被修改）。

来自SSL的第三参数是阵列麦克风检测到的高频带能量信号与低频带能量信号的比率（HBLD）。较低频辐射的方向性小于较高频辐射的方向性。根据至少一个实施例，HBLD以1倍加权。

第四参数被称为“低频能量”（LFE）。LFE充当检验器以涵盖一些罕见情况。例如，当讲话者坐在非常靠近第一摄像机设备，但面对非常远的第二摄像机设备时。附近的第一设备可能拾取从位于第二设备上的监视器显示屏反射的声音。在缺少LFE的情况下，由第一设备捕获的视图（由于电视显示器反射）可能被误选以包含在发送到远程位置的视听馈送中。LFE可以用来避免这种情况下的错误。在该示例中，第一设备的LFE将大于第二设备的LFE，这将表明与第二设备相比，发言者更接近第一设备。如果第一设备的LFE与第二设备的LFE之间的差异超过预定阈值，则使用确定设备的SOIC的备选方法。当计算备选SOIC（SOIC2）时，使用摇摄比和计数数量的加权版本，其中加权的摇摄比被定义为摇摄比除以LFE的平方根，并且加权的计数数量是计数数量除以LFE的平方根。在至少一个实施例中，LFE差异阈值是：在一个设备的LFE与另一设备的LFE之间的二比一的比率。也就是说，如果任何一个LFE多于另一个的幅度的两倍，则使用SOICver2，而非SOIC。

如上所述，确定主设备和从设备中的每一个的二阶信息分数（SOIC）。设备的SOIC对应于四个参数的加权和（SOIC = 2 * PR + 2 * NC + HBLD），或者如果LFE的差异很大，则使用第二SOIC，其中SOICver2 = [2 * PR/sqrt（LFE）] + [2 * NC/sqrt（LFE）] + HBLD。

每个设备将具有针对其捕获的视图的SOIC（见图10）。如图8B中所示，如果一个（例如从）设备捕获视图1，并且另一个（例如主）设备捕获视图2，在从设备处检测到的SOIC将超过主设备的SOIC，并且因此视图1将被使用。图10图示了用于产生这样的结果的示例方法200。使用由第一（例如，从）设备81捕获的一阶SSL信息来定位202活跃讲话者。也使用由第二（例如，主）设备80捕获的一阶SSL信息来定位202活跃讲话者51。设备80、81都捕获脸部视图206、208。使用上述算法计算210、212与这些视图中的每一个视图相关联的SOIC。如果两个视图具有相同（或非常接近地相同）的SOIC，则端点10可以确定：选择是不可能的，并且在202再次开始。备选地，可以使用其他数据做出选择，或者可以默认选择一个。如果第一设备的SOIC大于216第二设备的SOIC，则将选择218来自第一设备的视图以包含在音频-视频馈送中。否则，将选择220来自第二设备的视图。

图11图示了用于确定哪个脸部视图是最佳的又一示例方法201。如下所述，除了一些例外，它与方法200相同。如前所述，使用由第一（例如，从）设备81捕获的一阶SSL信息来定位202活跃讲话者。也使用由第二（例如，主）设备80捕获的一阶SSL信息来定位202活跃讲话者51。设备80、81都捕获脸部视图206、208。使用上述算法计算与这些视图中的每一个视图相关联的SOIC，并且也确定211、213与这些视图中的每一个相对应的LFE。如果两个视图具有相同（或非常接近地相同）的SOIC，则端点10可以确定：选择是不可能的，并且在202再次开始。备选地，可以使用其他数据做出选择，或者可以默认选择一个。如果两个设备的SOIC不相同，则方法201前进到步骤215，在步骤215中对有关第一设备的LFE和该LFE之间的差异是否超过阈值（例如，2：1比率）进行确定，针对每个设备确定217、219受LFE影响的SOICver2。如果第一设备的SOICver2大于221第二设备的SOICver2，则将选择218来自第一设备的视图以包含在音频-视频馈送中。否则，将选择220来自第二设备的视图。

根据流程图步骤或过程步骤的一个或多个动作可通过如下方式执行，即：由可编程控制设备执行组织到非暂时性可编程存储设备上的一个或多个程序模块中的指令。可编程控制设备可以是单个计算机处理器、专用处理器（例如，数字信号处理器，“DSP”）、通过通信链路耦合的多个处理器或定制设计的状态机。定制设计的状态机可以体现在诸如包括但不限于专用集成电路（“ASIC”）或现场可编程门阵列（“FPGA”）的集成电路的硬件设备中。适用于有形地体现程序指令的非暂时性可编程存储设备（有时称为计算机可读介质）包括但不限于：磁盘（固定、软盘和可拆装的）和磁带；诸如CD-ROM和数字视频盘（“DVD”）之类的光学介质；以及诸如电可编程只读存储器（“EPROM”）、电可擦除可编程只读存储器（“EEPROM”）、可编程门阵列和闪存设备等半导体存储设备。

在本公开内的实施例可以包括用于携带或具有存储在其上的计算机可执行指令或数据结构的有形和/或非暂时性计算机可读存储介质。这样的非暂时性计算机可读存储介质可以是任何可以由通用或专用计算机访问的可用介质，包括如上所讨论的任何专用处理器的功能设计。通过示例的方式而非限制，这种非暂时性计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备，或可以用于以计算机可执行指令、数据结构或处理器芯片设计的形式携带或存储期望的程序代码装置的任何其他介质。当信息通过网络或另一通信连接（硬连线、无线或其组合）传输或提供给计算机时，计算机完全将连接视为计算机可读介质。因此，任何这样的连接都被适当地称为计算机可读介质。上述的组合也应包括在计算机可读介质的范围内。

计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行某些功能或功能组的指令和数据。计算机可执行指令还包括由单机或网络环境中的计算机执行的程序模块。一般而言，程序模块包括例程、程序、组件、数据结构、对象以及执行特定任务或实现特定抽象数据类型的专用处理器等的设计中固有的功能。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文公开方法的步骤的程序代码装置的示例。这种可执行指令或相关联的数据结构的特定顺序表示用于实现这样的步骤中描述的功能的相应动作的示例。

本公开的实施例可以在具有许多类型的计算机系统配置的网络计算环境中实行，所述计算机系统配置包括个人计算机、手持设备、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机等等。实施例也可以在分布式计算环境中实行，其中任务由通过通信网络（通过硬连线链路、无线链路或其组合）链接的本地和远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。

以上描述的各种实施例仅作为说明提供，并且不应被解释为限制本公开的范围。在不脱离本公开的范围的情况下并且在不脱离下面的权利要求的情况下，可以对本文描述的原理和实施例进行各种修改和改变。权利要求中没有明确声明执行特定功能的“装置”或执行特定功能的“步骤”中的任何元素不应被解释为35 USC§112第六段中规定的“装置”或“步骤”条款。

Claims

1.一种用于从多个视图中确定最佳摄像机视图的方法，所述方法包括：

由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者；

从所述第一声源定位模块导出二阶信息；

由第二电子设备使用第二声源定位模块定位所述第一端点处的所述活跃讲话者；

从所述第二声源定位模块导出二阶信息；

使用所述第一电子设备的摄像机捕获所述活跃讲话者的第一脸部视图；

使用所述第二电子设备的摄像机捕获所述活跃讲话者的第二脸部视图；

检测与所述第一脸部视图相对应的低频信号能量LFE并检测与所述第二脸部视图相对应的LFE；

确定对应于所述第一脸部视图的LFE与所述第二脸部视图的LFE之间的差异是否超过预定阈值；

在所述差异超过所述阈值的情况下，在所述二阶信息内包括每个设备的LFE；

基于所述二阶信息从所述第一脸部视图和第二脸部视图中确定最佳视图；以及

在视频流中包括所述最佳视图以传输到第二端点。

2.根据权利要求1所述的方法，其中每个设备的所述二阶信息包括摇摄比（PR）、在预定时段内的计数数量（NC）以及高频带能量信号与低频带能量信号的比率（HBLD），其中所述计数数量（NC）是声源定位模块能够在所述预定时段内定位所述活跃讲话者的次数。

3.根据权利要求2所述的方法，其中所述预定时段是2秒。

4.根据权利要求1所述的方法，其中基于所述二阶信息从所述第一脸部视图和第二脸部视图中确定最佳视图包括：确定所述第一电子设备的二阶信息分数SOIC和所述第二电子设备的SOIC，并选择与较大SOIC相对应的脸部视图。

5.根据权利要求1所述的方法，其中确定对应于所述第一脸部视图的LFE与所述第二脸部视图的LFE之间的差异是否超过预定阈值包括：确定较大LFE是否超过较小LFE的两倍。

6.一种用于从多个视图中确定最佳摄像机视图的视频会议系统，所述视频会议系统包括第一电子设备和第二电子设备，所述视频会议系统被配置为：

由所述第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者；

从所述第一声源定位模块导出二阶信息；

由所述第二电子设备使用第二声源定位模块定位所述第一端点处的所述活跃讲话者；

从所述第二声源定位模块导出二阶信息；

基于所述二阶信息从所述第一脸部视图和第二脸部视图中确定最佳视图，其中每个设备的所述二阶信息包括摇摄比和所述声源定位模块能够在预定时段内确定与所述活跃讲话者对应的声源的次数；以及

在视频流中包括所述最佳视图以传输到第二端点。

7.根据权利要求6所述的视频会议系统，其中所述预定时段是2秒。

8.根据权利要求6所述的视频会议系统，其中基于所述二阶信息从所述第一脸部视图和所述第二脸部视图中确定所述最佳视图包括：确定所述第一电子设备的二阶信息分数SOIC和所述第二电子设备的SOIC，并选择与较大SOIC相对应的脸部视图。

9.根据权利要求6所述的视频会议系统，其中确定对应于所述第一脸部视图的LFE与所述第二脸部视图的LFE之间的差异是否超过预定阈值包括：确定较大LFE是否超过较小LFE的两倍。

10.一种存储指令的非暂时性计算机可读存储介质，所述指令可由处理器执行以使所述处理器：

从所述第一声源定位模块导出二阶信息；

从所述第二声源定位模块导出二阶信息；

在对应于所述第一脸部视图的LFE与所述第二脸部视图的LFE之间的差异超过预定阈值时，在所述二阶信息内包括每个设备的LFE；

在视频流中包括所述最佳视图以传输到第二端点。

11.根据权利要求10所述的非暂时性计算机可读存储介质，其中每个设备的所述二阶信息包括摇摄比（PR）、在预定时段内的计数数量（NC）以及高频带能量信号与低频带能量信号的比率（HBLD），其中所述计数数量（NC）是声源定位模块能够在所述预定时段内定位所述活跃讲话者的次数。

12.根据权利要求11所述的非暂时性计算机可读存储介质，其中所述预定时段是2秒。

13.根据权利要求10所述的非暂时性计算机可读存储介质，其中基于所述二阶信息从所述第一脸部视图和第二脸部视图中确定所述最佳视图包括：确定所述第一电子设备的二阶信息分数SOIC和所述第二电子设备的SOIC，并选择与较大SOIC相对应的脸部视图。

14.根据权利要求10所述的非暂时性计算机可读存储介质，其中确定对应于所述第一脸部视图的LFE与所述第二脸部视图的LFE之间的差异是否超过预定阈值包括：确定较大LFE是否超过较小LFE的两倍。

15.根据权利要求1所述的方法，还包括从当前视图切换到所述最佳视图。

16.根据权利要求1所述的方法，其中所述最佳视图包括所述活跃讲话者的正面脸部视图。

17.根据权利要求6所述的视频会议系统，其中所述视频会议系统还被配置为从当前视图切换到所述最佳视图。

18.根据权利要求6所述的视频会议系统，其中所述最佳视图包括所述活跃讲话者的正面脸部视图。

19.根据权利要求10所述的非暂时性计算机可读存储介质，其中所述最佳视图包括所述活跃讲话者的正面脸部视图。