CN111201784B

CN111201784B - 通信系统、用于通信的方法和视频会议系统

Info

Publication number: CN111201784B
Application number: CN201780095842.1A
Authority: CN
Inventors: S·巴利特卡; M·S·阿瑟瑞亚
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2021-09-07
Anticipated expiration: 2037-10-17
Also published as: WO2019078816A1; US20220201417A1; EP3677025A1; CN111201784A; US11317232B2; EP3677025A4; US20210289306A1

Abstract

在示例中，一种通信系统可以包括第一计算设备，所述第一计算设备经由网络通信地耦接至至少第二计算设备，所述第二计算设备保持在与所述第一计算设备相比在地理上不同的位置；所述第一计算设备包括：音频输出设备阵列和处理器，所述处理器用于接收所述第二计算设备处的麦克风阵列处的所传输的语音数据和描述来自多个讲话者的语音的估计到达方向(DOA)的元数据，并且在与所述第一计算设备相关联的所述音频输出设备阵列处通过在渲染期间消除空间冲突来渲染音频；所述空间冲突是由于多个讲话者的所述估计DOA的低角度间隔引起的。

Description

通信系统、用于通信的方法和视频会议系统

技术领域

本公开涉及通信。

背景技术

通信已经受益于通过诸如内联网、因特网、外联网或互联网等网络上的通信的发展。视频会议和电话会议允许物理上位于多个不同地理位置的用户彼此交谈并共享信息。

发明内容

根据本公开的第一方面，涉及一种通信系统，包括：第一计算设备，所述第一计算设备经由网络通信地耦接至至少第二计算设备，所述第二计算设备保持在与所述第一计算设备相比在地理上不同的位置；所述第一计算设备包括：音频输出设备阵列；以及处理器，所述处理器用于：接收所述第二计算设备处的麦克风阵列处的所传输的语音数据和描述来自多个讲话者的语音的估计到达方向DOA的元数据；并且在与所述第一计算设备相关联的所述音频输出设备阵列处通过在渲染期间消除空间冲突来渲染音频；所述空间冲突是由于多个讲话者的所述估计DOA的低角度间隔引起的。

根据本公开的第二方面，涉及一种用于通信的方法，包括：在第一计算设备处的麦克风阵列处接收来自多个讲话者的音频输入；估计来自所述多个讲话者中的每个讲话者的所述音频输入的到达方向DOA；向第二计算设备传输语音数据和描述所述多个讲话者中的每个讲话者的所估计的DOA的元数据集；以及在消除由于所述多个讲话者的所估计的DOA的低角度间隔引起的空间冲突的同时，在所述第二计算设备处渲染音频回放。

根据本公开的第三方面，涉及一种视频会议系统，包括：多个地理位置不同的视频会议计算设备，每个视频会议计算设备包括：麦克风阵列；多个条形音箱；以及多个视频输出设备；以及处理器，所述处理器用于：估计与第一多个讲话者相关联的语音到达所述麦克风阵列的方向；传输语音数据和描述所述第一多个讲话者的所估计的到达方向DOA的元数据集；并且在所述多个条形音箱处接收所传输的语音数据和元数据并渲染音频，以消除由于第二多个讲话者的所估计的DOA的低角度间隔引起的空间冲突。

附图说明

附图图示了本文所描述原理的不同示例并且是本说明书的一部分。所图示的示例仅出于说明的目的给出，而不限制权利要求的范围。

图1是根据本文所描述原理的示例的通信系统的框图。

图2是根据本文所描述原理的示例的与至少一个用户接口连接的麦克风阵列的简图。

图3是示出根据本文所描述原理的示例的经由网络进行通信的方法的流程图。

图4是根据本文所描述原理的示例的视频会议系统的框图。

在整个附图中，相同的附图标记指代相似但不一定相同的元件。附图不一定成比例，并且可以放大一些零件的尺寸以更清楚地图示所示出的示例。此外，附图提供了与描述一致的示例和/或实施方式；然而，描述不限于附图中提供的示例和/或实施方式。

具体实施方式

与位于不同地理位置的多方通信是一种具有成本效益的开展业务以及共享信息的方式。这种过程将来自世界各地的个人和公司联系起来，从而为所有参与其中的人提供更好的成长和想法共享。

允许这种通信的系统通常至少涉及与另一位置的实时话音关联。诸如麦克风的音频输入设备可以拾取讲话者的话音，并且例如在因特网电话会议的情况下，将表示话音的数据发送到另一个位置，以实时或至少接近实时地回放给听众。在视频会议的情况下，不仅将音频发送到不同的地理位置，而且还将视频发送到不同的地理位置，从而允许视频会议系统的用户获得相对更好的体验。

然而，由于发送到不同地理位置的音频缺少空间性，因此可能会限制通信体验。在一些示例中，在通信中具有空间音频可以显著提高用户的协作质量、满意度、语音清晰度和体验质量(QoE)。本说明书描述了一种与其他通信系统相比至少可以在话音通信中实现相对较高的QoE的系统。

本说明书描述了一种通信系统，所述通信系统包括第一计算设备，所述第一计算设备经由网络通信地耦接至至少第二计算设备，所述第二计算设备保持在与所述第一计算设备相比在地理上不同的位置；所述第一计算设备包括音频输出设备阵列和处理器，所述处理器用于接收所述第二计算设备处的麦克风阵列处的所传输的语音数据和描述来自多个讲话者的语音的估计到达方向(DOA)的元数据，并且在与所述第一计算设备相关联的音频设备阵列处通过在渲染期间消除空间冲突来渲染音频；所述冲突是由于多个讲话者的所述估计DOA的低角度间隔引起的。

本说明书还描述了一种方法，所述方法包括：在第一计算设备处的麦克风阵列处接收来自多个讲话者的音频输入；估计来自所述多个讲话者中的每个讲话者的所述音频输入的到达方向(DOA)；以及向第二计算设备传输语音数据和描述所述多个讲话者中的每个讲话者的所述估计DOA的元数据集；在所述第二计算设备处渲染音频回放，消除由于所述多个讲话者的所述估计DOA引起的空间冲突。

本说明书进一步描述了一种视频会议系统，所述视频会议系统包括多个地理位置不同的视频会议计算设备，每个视频会议计算设备包括：麦克风阵列；多个扩音器(例如，嵌入在单个或多个条形音箱中(soundbar))；以及多个视频输出设备；以及处理器，所述处理器用于：估计与第一多个讲话者相关联的语音到达所述麦克风阵列的方向；传输语音数据和描述所述第一多个讲话者的所述估计到达方向(DOA)的元数据集；并且在所述多个条形音箱处接收所传输的语音数据和元数据并渲染音频，以消除由于第二多个讲话者的估计DOA引起的空间冲突。

如本说明书和所附权利要求中所使用的，术语“讲话者”旨在被理解为经由话音向音频输入设备提供音频的讲话的人。在一些示例中，如所指示的，“讲话者”应被理解为单人或多人。

现在转到附图，图1是根据本文所描述原理的示例的通信系统(100)的框图。通信系统(100)可以包括第一计算设备(105)，所述第一计算设备经由网络(110)通信地耦接至至少第二计算设备，所述第二计算设备保持在与第一计算设备(105)相比在地理上不同的位置。在示例中，第一计算设备(105)可以通过网络(110)通信地耦接至多个计算设备，其中，第一计算设备和多个计算设备中的每一个都位于不同的地理位置。因此，本说明书设想由第一计算设备(105)通过网络(110)发送的音频和/或视频数据可以被发送到多个计算设备(即，第二计算设备)，所有这些设备都接收数据并实施如本文所描述的功能。第一计算设备(105)可以包括音频输出设备阵列(115)和处理器(120)，所述处理器用于执行计算机可读程序代码以实施如本文所描述的通信系统(100)的功能。

第一计算设备(105)和至少第二计算设备可以各自在电子设备中实施。电子设备的示例包括服务器、台式计算机、膝上型计算机、个人数字助理(PDA)、移动设备、智能电话、游戏系统、和平板计算机、以及其他电子设备。

通信系统(100)和第一计算设备(105)可以用于任何数据处理场景，包括独立硬件、移动应用程序、通过计算网络、或其组合。进一步地，通信系统(100)和第一计算设备(105)可以用于计算网络、公共云网络、私有云网络、混合云网络、其他形式的网络、或其组合。在一个示例中，由通信系统(100)和/或第一计算设备(105)提供的方法作为服务由例如第三方通过网络提供。在该示例中，服务可以包括例如以下内容：托管多个应用程序的软件即服务(SaaS)；托管包括例如操作系统、硬件和存储设备等在内的计算平台的平台即服务(PaaS)；托管诸如例如服务器、存储部件、网络和部件等设备的基础设施即服务(IaaS)；应用程序接口(API)即服务(APIaaS)、其他形式的网络服务、或其组合。本系统可以在一个或多个硬件平台上实施，其中，系统中的模块和/或计算机可读程序代码可以在一个平台上或跨多个平台执行。这种模块可以在各种形式的云技术和混合云技术上运行，或者可以作为可以在云内或云外实施的SaaS(软件即服务)提供。在另一个示例中，由通信系统(100)和/或第一计算设备(105)提供的方法由本地管理员执行。

为了实现其期望功能，第一计算设备(105)可以包括各种硬件部件。在这些硬件部件中，可以是多个处理器(120)、多个数据存储设备、多个外围设备适配器以及多个网络适配器。这些硬件部件可以通过使用多个总线和/或网络连接来互连。在一个示例中，处理器(120)、数据存储设备、外围设备适配器和网络适配器可以经由总线通信地耦接。

处理器(120)可以包括用于从数据存储设备中取得可执行代码并执行所述可执行代码的硬件架构。可执行代码在由处理器(120)执行时可以使处理器(120)实施根据本文描述的本说明书的方法的至少以下功能：接收第二计算设备处的麦克风阵列处的所传输的语音数据(125)和描述来自多个讲话者的语音的估计到达方向(DOA)的元数据(130)；并且在与第一计算设备(105)相关联的音频输出设备阵列(115)处通过在渲染期间消除空间冲突来渲染音频，其中，所述冲突是由于多个讲话者的估计DOA的低角度间隔引起的。在执行代码的过程中，处理器(120)可以从多个其余硬件单元接收输入并向其提供输出。

数据存储设备可以存储诸如由处理器(120)或其他处理设备执行的可执行程序代码的数据。如将讨论的，数据存储设备可以具体地存储表示多个应用程序的计算机代码，所述计算机代码由处理器(120)执行以至少实施如本文所描述的通信系统(100)和/或第一计算设备(105)的功能。

数据存储设备可以包括各种类型的存储器模块，包括易失性存储器和非易失性存储器。例如，本示例的数据存储设备包括随机存取存储器(RAM)、只读存储器(ROM)和硬盘驱动器(HDD)存储器。还可以利用许多其他类型的存储器，并且本说明书设想在数据存储设备中使用可以适合本文所描述原理的特定应用的许多不同类型的存储器。在某些示例中，数据存储设备中的不同类型的存储器可以用于不同的数据存储需要。例如，在某些示例中，处理器(120)可以从只读存储器(ROM)启动，维护硬盘驱动器(HDD)存储器中的非易失性存储内容，并执行存储在随机存取存储器(RAM)中的程序代码。

通常，数据存储设备可以包括计算机可读介质、计算机可读存储介质或非暂态计算机可读介质等。例如，数据存储设备可以是但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备、或前述的任何合适的组合。计算机可读存储介质的更具体示例可以包括例如以下内容：具有多条导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、便携式致密盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者前述各项的任何合适的组合。在本文献的上下文中，计算机可读存储介质可以是包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的计算机可使用程序代码的任何有形介质。在另一个示例中，计算机可读存储介质可以是包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何非暂态介质。

第一计算设备(105)中的硬件适配器使得处理器(120)能够与第一计算设备(105)的外部和内部的各种其他硬件元件接口连接。例如，外围设备适配器可以提供到诸如例如音频输出设备阵列(115)、显示设备、鼠标或键盘的输入/输出设备的接口。外围设备适配器还可以提供对其他外部设备的访问，所述外部设备诸如外部存储设备、多个网络设备(诸如例如服务器、交换机和路由器、客户端设备)、其他类型的计算设备、及其组合。

显示设备可以与第一计算设备(105)一起被包括，以允许第一计算设备(105)的用户与第一计算设备(105)交互并实施第一计算设备的功能。外围设备适配器还可以在处理器(120)与显示设备、打印机或其他媒体输出设备之间创建接口。网络适配器可以提供到例如网络内的其他计算设备的接口，由此实现第一计算设备(105)与位于网络内的其他设备之间的数据传输。

第一计算设备(105)在处理器(120)执行时可以在显示设备上显示与表示存储在数据存储设备上的多个应用程序的可执行程序代码相关联的多个图形用户界面(GUI)。显示设备的示例包括计算机屏幕、膝上型计算机屏幕、移动设备屏幕、个人数字助理(PDA)屏幕、平板计算机屏幕、以及其他显示设备。

如上所述，在通信系统(100)的操作期间，处理器(120)接收第二计算设备处的麦克风阵列处的描述来自多个讲话者的语音的估计到达方向(DOA)的元数据(130)以及所传输的语音数据(125)，并且在音频输出设备阵列(115)处渲染音频。第二计算设备可以类似于第一计算设备(105)，其中，第二计算设备至少包括网络适配器，以经由网络(110)将第二计算设备通信地耦接至第一计算设备(105)。第二计算设备可以具有捕获可传输语音数据的硬件，所述可传输语音数据描述由通信地耦接至第二计算设备的至少一个麦克风拾取的音频。在示例中，第二计算设备可以包括麦克风阵列。在示例中，第一计算设备(105)也可以包括多个麦克风阵列。在这些示例中，麦克风阵列既确定语音的DOA，又在如本文所描述的传输语音数据(125)和与DOA相关的元数据(130)之前使用波束成形来增强语音。可以将元数据与编码的语音帧一起嵌入，其中，语音编码器的示例包括AMR-WB、MPEG USAC、Opus、SILK等。

图2是根据本文所描述原理的示例的与至少一个用户接口连接的麦克风阵列(200)的简图。在图2所示的示例中，麦克风阵列(200)包括四个单独的麦克风(201-1、201-2、201-3、201-4)。麦克风阵列(200)的麦克风(201-1、201-2、201-3、201-4)可以以任何布局布置。在本文提供的示例中，麦克风阵列(200)可以计算由图2中的声波(201)表示的用户语音的到达方向(DOA)。可以看出，讲话者的话音何时到达各个麦克风的比较可以使得计算出讲话者的话音起源于何处以及讲话者与麦克风阵列(200)的距离。例如，第一麦克风(201-1)可以距中心位置第一距离(r1)，第四麦克风(201-4)距中心位置第四距离(r4)，第二麦克风(201-2)可以距中心位置第二距离(r2)，并且第三麦克风(201-3)可以距中心位置第三距离(r3)。为了估计DOA(θ)，使用了由麦克风阵列(200)的每个麦克风(201-1、201-2、201-3、201-4)记录的音频。在示例中，通过使每个麦克风(201-1、201-2、201-3、201-4)将数据与彼此相关联，测量到达每个麦克风(201-1、201-2、201-3、201-4)的讲话者话音的传播时间差(即，第一麦克风201-1为Δ1)。

在示例中，可以使用具有相位变换的广义互相关(GCC-PHAT)过程来确定DOA，以确定DOA。在该示例中，到达时间延迟是通过测量麦克风(201-1、201-2、201-3、201-4)之一处的音频信号相对于其他麦克风之一(201-1、201-2、201-3、201-4)之一处的音频信号到达时间来计算的。可以通过找到使两个音频信号之间的互相关最大化的时间滞差来估计时间延迟。

已经确定了讲话者的话音到达每个麦克风(201-1、201-2、201-3、201-4)之间的差异之后，就可以计算DOA，并将其以描述DOA的元数据的形式以及还有描述音频信号的数据提供给第一计算设备(105)。在一些示例中，可以使用保持麦克风阵列(200)的房间的几何形状来确定讲话者的空间位置，并且因此确定讲话者话音的DOA。

该过程对于指向麦克风阵列(200)的每个讲话者的话音都会发生，并且可以使用第一计算设备(105)和麦克风阵列(200)容纳多个讲话者。还可以在第二计算设备及其附带的麦克风(201-1、201-2、201-3、201-4)的麦克风阵列(200)处进行相同的处理。

在示例中，使用麦克风(201-1、201-2、201-3、201-4)的波束成形来确定定向信号接收。在该示例中，由每个麦克风(201-1、201-2、201-3、201-4)接收到的信号都以使得特定角度的信号遭受相长干扰、而其他角度的信号遭受相消干扰的这种方式进行组合。这可以提高传输到第二计算设备和/或由第一计算设备(105)接收的音频的质量。

在示例中，可以使用头部相关传递函数来处理在麦克风阵列(200)的每个麦克风(201-1、201-2、201-3、201-4)处捕获的音频信号。在该示例中，在处理器(120)处对麦克风(201-1、201-2、201-3、201-4)处的音频输入进行变换，使得将音频合成为被感知为来自空间中的特定点(诸如本文所述的DOA)的双耳声音。该变换可以在以下示例中使用，其中，第一计算设备正在接收所传输的语音数据和描述来自渲染头戴式耳机的语音的估计到达方向(DOA)的元数据。

在使用头部相关传递函数来处理在麦克风阵列(200)处接收的音频信号的示例中，可以在第一计算设备(105)中采用附加的串扰消除处理。在这些示例中，可以通过例如在麦克风阵列(200)处再现记录的数据来消除串扰，所述麦克风阵列通过在通过一个光束同时读取目标轨道和至少一个相邻轨道的同时再现相邻轨道来生成串扰信号，并且通过从再现信号中减去串扰信号来消除串扰。应当理解，这仅是示例，并且本说明书设想了消除音频信号中的串扰的其他方法和过程。在示例中，用于消除串扰的过程可以包括通过处理器：识别目标上的位置；确定操作区域内的环境声音的方向、振幅和频率；基于所述方向、振幅和频率来计算反声波以抑制环境声音；并将反声波传输到至少一个音频输出设备，以朝目标上的位置发射。除了串扰消除，还可以采用响度增强过程，以通过监测环境噪声并使用多波段动态范围控制器(MBDRC)来提高音频的响度。

在示例中，可以使用音频平移过程来处理在麦克风阵列(200)的每个麦克风(201-1、201-2、201-3、201-4)处捕获的音频信号。音频平移系统可以改变由麦克风(201-1、201-2、201-3、201-4)接收的音频信号，以模拟音频的感知方向。在使用音频平移过程或头部相关传递函数的任一种情况下，都可以在第一计算设备(105)、第二计算设备、和/或通信地耦接至第一计算设备(105)和第二计算设备的中央计算设备(如通信服务器)处完成处理。

一旦确定了至少一个讲话者的话音的DOA，就将第二计算设备处的麦克风阵列处的描述来自多个讲话者的语音的估计DOA的元数据(130)发送到例如通信地耦接至通信系统(100)的任何其他计算设备，如第一计算设备(105)。然后，第一计算设备(105)在与第一计算设备(105)相关联的音频输出设备阵列(115)处通过在渲染期间消除空间冲突来渲染音频。所述空间冲突是由于在第二计算设备处的多个讲话者的估计DOA的低角度间隔引起的。例如，如果地理位置1中的讲话者A的DOA为45度(DOA(A,1)＝45度)，并且地理位置2中的讲话者B的DOA处于45度+/-n度的范围内(即，则DOA(B,2)＝45+/-n度)，则处理器(120)的渲染过程会将讲话者B的语音重新定位为在45+n<θ或θ<45-n的空间位置θ上进行渲染。在确保重新定位的音频与同其他讲话者相关联的方向之间没有其他冲突的同时完成重新定位和渲染(使用HRTF或音频平移)。可以基于人类听力的空间分辨率来得出用于确定新位置以进行渲染的规则。对于正面方向，用于辨别声源的空间分辨率ε(θ)可能比侧面或后面要精细。因此，如果|DOA(B，2)-DOA(A，1)|＜ε(θ)DOA(A，1))，则重新定位到新位置将由处理器(120)完成。

图3是示出根据本文所描述原理的示例的经由网络进行通信的方法(300)的流程图。方法(300)可以开始于在第一计算设备(图1，105)处的麦克风阵列(图2，200)处接收(305)来自多个讲话者的音频输入。如上所述，麦克风阵列(图2，200)可以包括任意数量的麦克风(图2，201-1、201-2、201-3、201-4)，并且由麦克风(图2，201-1、201-2、201-3、201-4)接收的音频信号用于使用通信系统(图1，100)确定任意数量的讲话者的估计DOA。

可以为每个单独的讲话者的语音生成描述估计DOA的元数据，并且通信系统(图1，100)可以将语音数据和描述多个讲话者中的每个讲话者的估计DOA的元数据集传输(310)至第二计算设备。再次，描述多个讲话者中的每个讲话者的估计DOA的每个元数据集可以在第二计算设备处被渲染之前使用头部相关传递函数、串扰消除、音频平移、和/或响度增强进行处理。

第二计算设备可以包括至少一个音频输出设备。音频输出设备的示例可以包括膝上型计算机的扬声器、头戴式耳机、条形音箱、和/或多个条形音箱。因此，所述方法可以通过在消除由于多个讲话者的估计DOA引起的空间冲突的同时在第二计算设备处渲染(315)音频回放来继续。在示例中，在渲染(315)期间消除空间冲突可以根据第二计算设备处的预定音频输出设备布置、讲话者的数量、地理位置不同的计算设备的数量、或其组合。当在第二计算设备处渲染(315)音频回放时，可以考虑这些因素，以提高使用通信系统(图1，100)时的体验质量。

在示例中，在第二计算设备处通过消除由于多个讲话者的估计DOA引起的空间冲突来渲染(315)音频回放可以进一步包括：协调存在于第二计算设备处的多个视觉输出设备上的多个讲话者的视觉输出，以在空间上渲染语音数据以使得当多个讲话者出现在多个视觉输出设备上时语音数据在空间上与多个讲话者的位置一致。如上所述，通信地耦接在一起以形成通信系统(图1，100)的每个计算设备可以各自包括视觉显示设备，在示例中，所述视觉显示设备可以被用来观看并听到使用位于不同地理位置的计算设备的讲话者。

在目的地计算设备处对音频进行重新格式化和渲染(315)可以考虑使用单个或多个显示设备。如果将单个显示设备与例如位于显示设备下方的单个条形音箱一起使用，则渲染(315)过程将在空间上将话音渲染为在空间上与视频馈送内容中出现在显示器上的讲话者位置一致。因为在一些示例中，在条形音箱中可以存在多个驱动器，因此可以使用本文描述的自动平移过程来实现空间渲染(315)。

在结合至少一个计算设备使用多个显示器并且使用多个条形音箱的示例中，渲染过程(315)可以将来自位于不同地理位置的第三计算设备的视频呈现给与第二计算设备相关联的第二显示器，并将在空间上将不同讲话者的话音渲染给具有多个驱动器的条形音箱，同时确保讲话者的音频和视频相应地表现出空间相关性。

因此，在任何目的地计算设备处的音频渲染(315)可能取决于多种因素，包括位于各个会议室中的其他位于不同地理位置的计算设备的数量以及音频输入设备(即麦克风；图2，201-1、201-2、201-3、201-4)和与位于不同地理位置的计算设备相关联的音频输出设备(即，条形音箱)的类型和数量。举例来说，音频信号的目的地可以在一个会议室中或地理位置分散的几个会议室中，其中，每个会议室具有多个条形音箱(1-P)，每个条形音箱包括多个驱动器(Kp)。会议室中的重新格式化和渲染(315)可以包括驱动器/条形音箱之间的自动平移(振幅平移(amplitude-pan)或基于向量的振幅平移技术)以及取决于来自源会议室(1-M)的音频在任何给定目的地会议室的区域内的平移。例如，由通信系统(图1，100)制定的策略可以指示在存在三个源会议室的任何给定目的地房间内设置三个空间再现区域，并且因此总共有4个计算设备经由通信系统(图1，100)中的网络(图1，110)通信地耦接。在该示例中，空间渲染(即，平移)可以发生在DOA参数与源房间的DOA参数及其计算设备相关联的对应区域中。可以这样做是为了防止如本文所描述的空间冲突。

在通信计算设备是具有PC型音频输出设备的个人计算(PC)设备的情况下，可以使用这些PC扬声器上的串扰消除和HRTF渲染来实现音频的重新格式化和该音频的渲染(315)。在该示例中，空间冲突和分区的类似原理可能适用，使得充当音频的潜在源的会议室将被渲染(315)以取决于与通信系统(图1，100)相关联的位于不同地理位置的计算设备的数量而出现在例如左象限、右前象限、右后象限等中。

在通信计算设备具有耦接至通信计算设备并且由讲话者使用的头戴式耳机的情况下，可以在不进行串扰消除过程而是通过HRTF过程的情况下完成音频的重新格式化以及该音频的渲染(315)。因此，当前描述的通信系统(图1，100)和方法考虑了音频接收计算设备处的硬件(即，音频输出设备)，并基于该硬件及其特性来调整音频的渲染。在示例中，可以在每个计算系统处检测与同通信系统(图1，100)相关联的每个计算设备相关联的硬件和对应特性，并且可以将描述该硬件和对应特性的信息提供给中央服务器或每个单独的计算设备。利用该信息，每个参与计算设备可以知道如何根据本文描述的原理为每个参与计算设备渲染(315)音频。

图4是根据本文所描述原理的示例的视频会议系统(400)的框图。视频会议系统(400)可以包括多个地理位置不同的视频会议计算设备(405-1、405-2)。多个地理位置不同的视频会议计算设备(405-1、405-2)中的每一个可以包括麦克风阵列(410-1、410-2)、多个条形音箱(415-1、415-2)、多个视频输出设备(420-1、420-2)和处理器(425-1、425-2)。

在操作期间，每个处理器(425-1、425-2)可以估计与第一多个讲话者相关联的语音到达麦克风阵列(410-1、410-2)的方向(DOA)，传输语音数据和描述第一多个讲话者的估计DOA的元数据集，并在多个条形音箱(415-1、415-2)处接收所传输的语音数据和元数据并渲染音频，以消除由于第二多个讲话者的估计DOA引起的空间冲突。如本文所描述的，消除由于第二多个讲话者的估计DOA引起的空间冲突是根据预定回放室、第二多个讲话者内的讲话者的数量、和/或地理位置不同的房间的数量。另外，多个条形音箱(415-1、415-2)中的每一个可以各自包括多个驱动器，使得基于从多个地理位置不同的视频会议计算设备(405-1、405-2)接收到的所传输语音的集合的数量，在条形音箱中的驱动器之间自动平移任何接收到的所传输语音数据。

本文参考根据本文所描述原理的示例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了本系统和方法的各方面。流程图图示和框图的每个框、以及流程图图示和框图中的框的组合可以由计算机可使用程序代码来实施。计算机可使用程序代码可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生一种机器，使得计算机可用程序代码在经由例如计算设备或其他可编程数据处理装置的处理器执行时实施流程图和/或框图的一个或多个框中指定的功能或动作。在一个示例中，计算机可使用程序代码可以收录在计算机可读存储介质内；计算机可读存储介质是计算机程序产品的一部分。在一个示例中，计算机可读存储介质是非暂态计算机可读介质。

说明书和附图描述了例如在视频会议会话期间消除由于语音的估计到达方向引起的空间冲突的系统和方法。本文所描述的视频会议系统和通信系统通过基于第二计算设备的音频输出设备的硬件和特性以及其他因素在第二计算设备处渲染在第一计算设备处检测到的音频来提供相对更高的体验质量。考虑了第二计算设备所位于的房间的布局、音频输出设备的类型以及参与通信系统中的视频会议计算设备的数量。另外，在第二计算设备处的音频渲染期间消除了空间冲突；所述空间冲突是由于多个讲话者的估计DOA的低角度间隔引起的。

呈现前述说明以图示和描述所描述原理的示例。此说明不旨在是穷尽性的或将这些原理限制为所公开的任何精确形式。鉴于以上教导，许多修改和变型都是可能的。

Claims

1.一种通信系统，包括：

第一计算设备，所述第一计算设备经由网络通信地耦接至至少第二计算设备，所述第二计算设备保持在与所述第一计算设备相比在地理上不同的位置；所述第一计算设备包括：

音频输出设备阵列；以及

处理器，所述处理器用于：

接收所述第二计算设备处的麦克风阵列处的所传输的语音数据和描述来自多个讲话者的语音的估计到达方向DOA的元数据；并且

在与所述第一计算设备相关联的所述音频输出设备阵列处通过在渲染期间消除空间冲突来渲染音频；所述空间冲突是由于多个讲话者的所述估计DOA的低角度间隔引起的，其中所述消除空间冲突包括：如果所述多个讲话者中的两个讲话者的估计DOA的角度间隔不超过预定角度，重新定位所述两个讲话者中的一个讲话者的语音以使得所述两个讲话者的语音的估计DOA的经重新定位的角度间隔超过所述预定角度。

2.如权利要求1所述的通信系统，其中，所述至少第二计算设备包括：

麦克风阵列；以及

处理器，所述处理器用于：

估计语音到达与多个讲话者相关联的所述麦克风阵列的方向；并且

传输语音数据和描述所述多个讲话者的所述估计到达方向DOA的元数据集。

3.如权利要求1所述的通信系统，其中，所述至少第二计算设备包括多个计算机设备，每个计算机设备位于在地理上不同的位置，每个多个计算机设备包括以下之一：单个麦克风和单个讲话者，或多个讲话者使用麦克风阵列。

4.如权利要求1所述的通信系统，其中，所述第一计算设备在渲染所述音频之前基于所述计算设备包括扩音器还是头戴式耳机来使用音频平移系统或头部相关传递函数系统之一来处理所述第二计算设备处的麦克风阵列处的描述来自多个讲话者的语音的估计到达方向DOA的元数据。

5.如权利要求1所述的通信系统，其中，在渲染期间根据所述第一计算设备处的预定扩音器布置、讲话者的数量、地理位置不同的计算设备的数量、或其组合来消除空间冲突。

6.如权利要求1所述的通信系统，其中，所述音频输出设备阵列是一对头戴式耳机，并且其中，消除由于所述多个讲话者的所述估计DOA引起的空间冲突是通过使用头部相关传递函数将与每个地理上不同位置的讲话者相关联的声场转向不同的空间声音区域来实现的。

7.如权利要求1所述的通信系统，其中，所述音频输出设备阵列是多个条形音箱，每个条形音箱具有多个驱动器，并且其中，所接收到的所传输语音数据基于所接收到的所传输语音的集合的数量而在所述条形音箱中的驱动器之间自动平移。

8.一种用于通信的方法，包括：

在第一计算设备处的麦克风阵列处接收来自多个讲话者的音频输入；

估计来自所述多个讲话者中的每个讲话者的所述音频输入的到达方向DOA；

向第二计算设备传输语音数据和描述所述多个讲话者中的每个讲话者的所估计的DOA的元数据集；以及

在消除空间冲突的同时，在所述第二计算设备处渲染音频回放，其中所述空间冲突是由于所述多个讲话者的所估计的DOA的低角度间隔引起的，并且其中所述消除空间冲突包括：如果所述多个讲话者中的两个讲话者的估计DOA的角度间隔不超过预定角度，重新定位所述两个讲话者中的一个讲话者的语音以使得所述两个讲话者的语音的估计DOA的经重新定位的角度间隔超过所述预定角度。

9.如权利要求8所述的方法，进一步包括处理描述所述多个讲话者中的每个讲话者的所估计的到达方向的元数据集中的每个元数据集是在渲染之前使用头部相关传递函数来处理的。

10.如权利要求8所述的方法，进一步其中，根据所述第二计算设备处的预定回放室、讲话者的数量、传输语音的地理位置不同的房间的数量、或其组合来消除由于所述多个讲话者的所估计的DOA引起的空间冲突。

11.如权利要求8所述的方法，其中，在所述第二计算设备处渲染所述音频回放进一步包括使用串扰消除、头部相关传递函数HRTF、或其组合来处理所述语音数据。

12.如权利要求8所述的方法，其中，在所述第二计算设备处通过消除由于所述多个讲话者的所估计的DOA引起的空间冲突来渲染音频回放进一步包括：协调呈现于所述第二计算设备处的多个视觉输出设备上的所述多个讲话者的视觉输出，以在空间上渲染所述语音数据以使得当所述多个讲话者出现在所述多个视觉输出设备上时所述语音数据在空间上与所述多个讲话者的位置一致。

13.一种视频会议系统，包括：

多个地理位置不同的视频会议计算设备，每个视频会议计算设备包括：

麦克风阵列；

多个条形音箱；以及

多个视频输出设备；以及

处理器，所述处理器用于：

估计与第一多个讲话者相关联的语音到达所述麦克风阵列的方向；

传输语音数据和描述所述第一多个讲话者的所估计的到达方向DOA的元数据集；并且

在所述多个条形音箱处接收所传输的语音数据和元数据并渲染音频，以消除空间冲突，其中所述空间冲突是由于第二多个讲话者的所估计的DOA的低角度间隔引起的，并且其中所述消除空间冲突包括：如果所述第二多个讲话者中的两个讲话者的估计DOA的角度间隔不超过预定角度，重新定位所述两个讲话者中的一个讲话者的语音以使得所述两个讲话者的语音的估计DOA的经重新定位的角度间隔超过所述预定角度。

14.如权利要求13所述的视频会议系统，其中，根据预定回放室、第二多个讲话者内的讲话者的数量、地理位置不同的房间的数量、或其组合来消除由于所述第二多个讲话者的所估计的DOA引起的空间冲突。

15.如权利要求13所述的视频会议系统，其中，所述多个条形音箱各自包括多个驱动器，并且其中，所接收到的所传输语音数据基于所接收到的所传输语音的集合的数量而在所述条形音箱中的驱动器之间自动平移。