CN111937376B

CN111937376B - 电子设备及其控制方法、可读记录介质

Info

Publication number: CN111937376B
Application number: CN201980021333.3A
Authority: CN
Inventors: 柳悳仁
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-04-17
Filing date: 2019-04-16
Publication date: 2022-08-09
Anticipated expiration: 2039-04-16
Also published as: KR102453084B1; EP3701715A4; EP3701715B1; EP3701715A1; KR20190121016A; CN111937376A; US20190320140A1; US10681308B2; WO2019203528A1

Abstract

公开了一种用于提供视频会议的电子设备及其控制方法。所述电子设备包括：多个相机；以及处理器，被配置为执行指令以进行以下操作：进行控制以通过所述多个相机中的第一相机获得进行视频会议的多个用户的第一视频，基于通过第一相机获得的第一视频来确定所述多个用户中当前正在发言的第一用户，进行控制以通过所述多个相机中的第二相机获得确定的第一用户的第二视频，基于通过第一相机获得的第一视频来确定预期在第一用户之后发言的第二用户，进行控制以通过所述多个相机中的第三相机获得确定的第二用户的第三视频，以及进行控制以输出第二视频与第三视频同时显示的屏幕。

Description

电子设备及其控制方法、可读记录介质

技术领域

本公开涉及一种电子设备及其控制方法，更具体地，涉及一种提供视频会议的电子设备及其控制方法。

背景技术

近来，随着电子技术的发展，已经开发出满足消费者需求的各种电子设备。特别地，已经开发了用于提供视频会议(例如，视频会议功能或操作) 的电子设备。

这里，视频会议表示由位于远程位置的人通过视频和语音通信网络在好像人们在同一地点的气氛中进行的电话会议。

现有技术的提供视频会议的电子设备提供拍摄或捕获进行视频会议的整个会议室的视频，或者提供拍摄或捕获正在发言的人的视频。

当提供拍摄整个会议室的视频时，并且特别地，当在大会议室中进行视频会议时，存在发言的人被显示过小的问题。

另外，在提供拍摄正在发言的人的视频的情况下，当发言人改变时，旋转相机以拍摄新的发言人。在这种情况下，存在发言人未被包括在视频中几秒钟的问题。

发明内容

技术问题

提供一种电子设备，所述电子设备能够在发言人改变时，通过将相机分配给预期在当前正在发言的用户之后发言的用户，来提供拍摄或捕捉改变的 (或新的)发言人(即，新发言的用户)的视频。

技术方案

根据本公开的一个方面，一种用于进行视频会议的电子设备包括：多个相机；以及处理器，被配置为执行指令以进行以下操作：进行控制以通过所述多个相机中的第一相机获得进行视频会议的多个用户的第一视频，基于通过第一相机获得的第一视频来确定所述多个用户中当前正在发言的第一用户，进行控制以通过所述多个相机中的第二相机获得确定的第一用户的第二视频，基于通过第一相机获得的第一视频来确定预期在第一用户之后发言的第二用户，进行控制以通过所述多个相机中的第三相机获得确定的第二用户的第三视频，以及进行控制以输出第二视频与第三视频同时显示的屏幕。

根据本公开的一方面，一种用于控制电子设备的方法包括：通过多个相机中的第一相机获得进行视频会议的多个用户；基于通过第一相机捕获的第一视频，确定所述多个用户中当前正在发言的第一用户；通过所述多个相机中的第二相机获得确定的第一用户的第二视频；基于通过第一相机获得的第一视频来确定预期在第一用户之后发言的第二用户；通过所述多个相机中的第三相机获得确定的第二用户的第三视频；以及输出第二视频与第三视频同时显示的屏幕。

根据本公开的一方面，一种其上记录有程序的非暂时性计算机可读记录介质，所述程序可由计算机执行以用于执行所述方法。

根据本公开的一方面，一种用于提供视频会议的电子设备包括：存储器；以及处理器，被配置为执行指令以进行以下操作：获得通过第一相机捕获的进行视频会议的多个用户的第一视频，基于第一视频确定多个用户中当前正在发言的第一用户，进行控制以通过第二相机获得确定的第一用户的第二视频，确定预期在第一用户之后发言的第二用户，以及进行控制以通过第三相机获得确定的第二用户的第三视频。

有益效果

提供一种电子设备，所述电子设备能够在发言人改变时，通过将相机分配给预期在当前正在发言的用户之后发言的用户，来提供拍摄或捕捉改变的 (或新的)发言人(即新发言的用户)的视频。

附图说明

根据以下结合附图进行的描述，本公开的某些实施例的上述和其他方面、特征和优点将更加明显，其中：

图1是被提供以描述根据实施例的电子设备的框图；

图2a是被提供以描述根据实施例的通过相机拍摄的视频的示图；

图2b是被提供以描述根据实施例的通过相机拍摄的视频的示图；

图2c是被提供以描述根据实施例的通过相机拍摄的视频的示图；

图3是被提供以描述根据实施例的包括当前正在发言的用户和预期接下来发言的用户的视频的示图；

图4是描述根据实施例的在存在预期在当前正在发言的用户之后发言的多个用户的情况下将被提供的视频的示图；

图5是描述根据实施例的在存在当前正在发言的多个用户的情况下将被提供的视频的示图；

图6a是描述根据实施例的在电子设备提供虚拟现实(VR)视频的情况下的实施例的示图；

图6b是描述根据实施例的在电子设备提供虚拟现实(VR)视频的情况下的实施例的示图；

图7a是描述根据实施例的在电子设备提供群组呼叫功能的情况下的实施例的示图；

图7b是描述根据实施例的在电子设备提供群组呼叫功能的情况下的实施例的示图；以及

图8是描述根据实施例的用于电子设备的控制方法的流程图。

具体实施方式

最佳模式

发明模式

在本说明书和权利要求书中使用的术语是考虑到本公开的各种实施例的功能而确认的通用术语。然而，这些术语可以依据本领域技术人员的意图、法律或技术解释、新技术的出现等而改变。此外，可能存在由申请人任意确认的一些术语。除非存在术语的具体定义，否则可以基于整体内容和上下文以及相关领域技术人员的技术常识来解释术语。

在描述实施例时，如果确定关于已知技术或配置的具体描述不必要地模糊了本公开的要旨，则缩短或省略该具体描述。此外，应当理解，当诸如“……中的至少一个”的表述在元件列表之后时修饰整个元件列表，而不是修饰列表中的单个元件。

在下文中，将参照附图和附图的描述详细地描述实施例，但是本公开不限于在此描述的实施例。

图1是被提供以描述根据实施例的电子设备100的框图。

参照图1，根据实施例的电子设备100可包括第一相机110、第二相机 120、第三相机130和处理器140。

第一相机至第三相机110、120和130可以拍摄各种对象(例如，捕获或获得各种对象的图像)。

具体地，第一相机110可以拍摄进行视频会议的多个用户。例如，如果视频会议正在会议室中进行，则第一相机110可以拍摄会议室中存在的多个用户。为此目的，电子设备100可被设置在可以拍摄在会议室内存在的多个用户的位置。

第二相机120可以拍摄正在进行视频会议的多个用户中正在发言的第一用户。

第三相机130可以拍摄正在进行视频会议的多个用户中预期在当前正在发言的第一用户之后发言的第二用户。

处理器140控制电子设备100的整体操作。为此目的，处理器140可以包括中央处理器(CPU)、应用处理器(AP)、通信处理器(CP)等中的一个或更多个。

处理器140可以使用第一相机110拍摄(例如，进行控制以拍摄或捕获) 进行视频会议的多个用户。例如，如果视频会议正在会议室中进行，则处理器140可以使用第一相机110拍摄会议室中存在的多个用户。这里，通过第一相机110拍摄的视频可以包括在特定位置进行视频会议的所有用户。

处理器140基于通过第一相机110拍摄的视频，可以从进行视频会议的多个用户(例如，存在于视频会议的远程位置中的一个位置的多个用户)中识别当前正在发言的第一用户。

通过示例的方式，处理器140可在通过第一相机110拍摄的视频中识别多个用户的嘴形改变，并将嘴形改变等于或大于预定阈值的用户识别为当前正在发言的第一用户。

例如，当通过第一相机110拍摄的视频中的特定用户的嘴形一直改变时，处理器140可将该用户识别为第一用户。

处理器140可通过将面部识别算法应用于通过第一相机110拍摄的视频来识别多个用户的面部。处理器140可从识别的面部提取嘴形，然后识别提取的嘴形的改变。然而，应当理解，一个或更多个其他实施例不限于此。例如，处理器140可通过将嘴形识别算法应用于通过第一相机110拍摄的视频来识别多个用户的嘴形的改变。

另外，处理器140可识别通过第一相机110拍摄的视频中的多个用户的姿态的改变，并将姿态的改变等于或大于预定阈值的用户识别为第一用户。

例如，在通过第一相机110拍摄的视频中特定用户进行移动手的姿态或从座位站立的姿态等的情况下，处理器140可将执行姿态的用户识别为第一用户。

处理器140可通过将运动跟踪算法应用于通过第一相机110拍摄的视频来识别多个用户的运动。处理器140可通过识别的运动的改变来识别姿态的改变。

另外，处理器140可以识别正在进行视频会议的多个用户的视线(或者多个用户中的至少一个用户的视线、或者多个用户中的预定数量的用户的视线)，并且可以将在多个用户的视线的方向上存在的用户识别(例如，确定) 为第一用户。

例如，在通过第一相机110拍摄的视频中多个用户的视线朝向特定方向的情况下，位于特定方向上的用户可以被识别为第一用户。

处理器140可通过将视线识别算法应用于通过第一相机110拍摄的视频来识别多个用户的视线。

基于多个用户的嘴形的改变、姿态的改变或视线方向中的至少一个来识别当前正在发言的用户的方法是示例性的，并且应当理解一个或更多个其他实施例不限于此。即，根据实施例的电子设备100可通过各种方法识别当前正在发言的用户。例如，电子设备100还可以包括麦克风(或多个麦克风)，并且通过跟踪由麦克风接收用户语音的位置来识别当前正在发言的用户。

处理器140可通过第二相机120拍摄识别出的第一用户，即，当前正在发言的用户。

当未识别出当前正在发言的第一用户时，处理器140可控制第二相机120 拍摄在进行视频会议的会议室的内部空间中主要进行第一发言的位置(例如，预定位置或默认位置)。

例如，在主要在进行视频会议的会议室的内部空间中的讲台附近进行初始发言的情况下，处理器140可控制第二相机120拍摄讲台附近。

为此目的，根据实施例的电子设备100可存储视频会议历史。这里，视频会议历史可以包括关于在会议室的内部空间中进行初始发言的位置的信息等。

处理器140基于通过第一相机110拍摄的视频，可以识别预期在第一用户之后发言的用户(第二用户)。

具体地，处理器140可以在通过第一相机110拍摄的视频上识别第一用户的视线，并且将存在于第一用户的视线的方向上的用户识别为第二用户。更具体地，处理器140可以从通过第一相机110拍摄的视频将在第一用户的视线方向上存在了预定时间或更长时间的用户识别为第二用户。

处理器140可以通过将视线识别算法应用于通过第一相机110拍摄的视频来识别第一用户的视线。

另外，处理器140可从通过第一相机110拍摄的视频识别第一用户的姿态，并且如果识别或确定第一用户做出指出特定方向的姿态，则处理器140 可将存在于该特定方向上的用户识别为第二用户。

例如，当第一用户通过举起手臂来做出指示特定方向的运动时，处理器 140可将存在于由第一用户指示的方向上的用户识别为第二用户。

处理器140可以通过将运动跟踪算法应用于通过第一相机110拍摄的视频来识别第一用户的运动。

处理器140可从通过第一相机110拍摄的视频识别多个用户的姿态，并且如果识别或确定多个用户中的至少一个用户做出举手的姿态，则处理器140 可将做出举手的姿态的用户识别为第二用户。

为此目的，处理器140可通过将运动跟踪算法应用于通过第一相机110 拍摄的视频来识别多个用户的姿态。

当多个用户中的至少一个用户被第一用户叫喊时，处理器140可将具有被叫喊的名字的用户识别为第二用户。

具体地，当多个用户中的至少一个被第一用户叫喊时，处理器140可在预先存储的关于多个用户的面部和名字的信息中识别关于与被叫喊的名字匹配的面部的信息，并将与识别的关于面部的信息对应的用户识别为第二用户。

为此目的，根据实施例的电子设备100可将各个用户的名字与关于多个用户的面部的信息匹配，并存储该信息。

处理器140可基于预先存储的语音顺序列表来识别预期在第一用户之后发言的第二用户。

具体地，处理器140可以通过预存储的发言顺序列表识别在第一用户之后发言的用户的名字。然后，处理器140可在预存储的关于多个用户的面部的信息中识别关于与识别的名字匹配的面部的信息。处理器140可将通过第一相机110拍摄的视频中包括的多个用户中的与识别出的面部信息对应的用户识别为第二用户。

此后，处理器140可以通过第三相机130拍摄识别出的第二用户，即，预期在当前正在发言的第一用户之后发言的第二用户。

处理器140可通过使用由第三相机130拍摄的视频覆叠由第二相机120 拍摄的视频来提供视频。

也就是说，处理器140可通过使用包括预期在第一用户之后发言的第二用户的视频覆叠包括当前正在发言的第一用户的视频来提供视频。

如此，根据实施例的电子设备100可提供不仅包括当前正在发言的第一用户，而且包括预期在第一用户之后发言的第二用户的视频。因此，进行视频会议的用户可以更容易和方便地专注于视频会议。

如果基于通过第一相机110拍摄的视频确认识别的第二用户开始发言，则处理器140可在整个屏幕(例如，显示器的屏幕或视频会议应用的屏幕) 上提供由第三相机130拍摄的视频。

这里，当第二用户的嘴形的改变和/或姿态的改变等于或大于预设阈值时，处理器140可识别第二用户开始发言。然而，这仅仅是示例性的，并且应当理解一个或更多个其他实施例不限于此。例如，根据另一实施例，电子设备 100还可包括麦克风(或多个麦克风)，并且当通过麦克风接收到第二用户的语音时，处理器140可识别第二用户开始发言。

虽然在本实施例中，经由通过第一相机110拍摄的视频来识别第二用户，但应理解一个或更多个其它实施例不限于此，并且可经由通过第二相机120 拍摄的视频(例如，通过识别第一用户的视线方向或姿态)或通过第一相机 110拍摄的视频与通过第二相机120拍摄的视频的组合来识别第二用户。此外，虽然在本实施例中，处理器140可以经由通过第一相机110拍摄的视频来识别第二用户开始发言，但是应理解一个或更多个其他实施例不限于此，并且处理器140可以经由通过第三相机130拍摄的视频或者通过第一相机110 拍摄的视频和通过第三相机130拍摄的视频的组合来识别第二用户开始发言。

如上所述，根据实施例的电子设备100可以预先将相机分配给预期在正在发言的第一用户之后发言的第二用户，并且当发言的人改变时，电子设备 100可以立即提供拍摄新发言的第二用户的视频。

因此，进行视频会议的用户可以更容易和方便地关注视频会议。

应当理解，如上所述的电子设备100可以被实现为具有多个相机的单个装置(例如，移动电话、移动装置、包括处理器和多个相机的视频会议装置、包括处理器的多相机装置)或者被实现为多个装置(例如，诸如移动电话、计算机、工作站、服务器等的计算装置，以及多个相机或相机装置)。

图2a、图2b和图2c是被提供以描述根据实施例的通过相机拍摄的视频的示图。

图2a是描述通过第一相机110拍摄的视频的示图。通过第一相机110拍摄的视频可以包括进行视频会议的多个用户。

例如，参照图2a，当在会议室中进行视频会议时，存在于会议室的内部空间中的多个用户可以被包括在通过第一相机110拍摄的视频中。这里，优选地，通过第一相机110拍摄的视频包括进行视频会议的所有用户。为此目的，根据实施例的电子设备100可被设置在可以拍摄(即，捕获)进行视频会议的所有用户的位置。

图2b是被提供以描述通过第二相机120拍摄的视频的示图。通过第二相机120拍摄的视频可以包括进行视频会议的多个用户中的当前正在发言的第一用户。

例如，参照图2b，当在进行视频会议的多个用户中用手握持麦克风的用户被识别为当前正在发言的第一用户时，通过第二相机120拍摄的视频可以包括用手握持麦克风的用户。

如上所述，可以基于通过第一相机110拍摄的视频中包括的多个用户的嘴形改变、姿态改变、视线方向等中的至少一个来识别第一用户。

图2c是被提供以描述根据实施例的通过第三相机130拍摄的视频的示图。通过第三相机130拍摄的视频可以包括正在进行视频会议的多个用户中预期在当前正在发言的第一用户之后发言的第二用户。

例如，参照图2c，如果识别出正在进行视频会议的多个用户中正在触摸麦克风以开启麦克风的用户是预期在第一用户之后发言的第二用户，则通过第三相机130拍摄的视频可以包括用手触摸麦克风的用户。

如上所述，可以基于包括在通过第一相机110拍摄的视频中的第一用户的视线的方向、第一用户的姿态和/或第二用户的姿态、或者第一用户叫喊的名字中的至少一个来识别第二用户。

图3是被提供以描述根据实施例的包括当前正在发言的用户和预期接下来发言的用户的视频的示图。

处理器140可通过使用通过第三相机130拍摄的视频覆叠通过第二相机 120拍摄的视频来提供视频。

例如，当通过第二相机120拍摄如图2b中所示包括第一用户的视频，并且通过第三相机130拍摄如图2c中所示包括第二用户的视频时，处理器140 可以如图3中所示使用图2c中所示的图像覆叠图2b中所示的图像。

即，处理器140可提供包括当前正在发言的第一用户和预期在第一用户之后发言的第二用户的视频。

图4是描述根据实施例的在存在预期在当前正在发言的第一用户之后发言的多个用户的情况下将被提供的视频的示图。

如上所述，处理器140可以基于包括在通过第一相机110拍摄的视频中的第一用户的视线方向、第一用户的姿态和/或第二用户的姿态、第一用户叫喊的名字等中的至少一个来识别预期在第一用户之后发言的第二用户。

此外，在一些情况下，处理器140可以将至少两个或更多个用户识别为在第一用户之后发言的用户。例如，在第一用户做出分别指向两个或更多个用户的姿态的情况下，当第一用户叫喊两个或更多个用户时等，处理器140 可将至少两个或更多个用户识别为在第一用户之后发言的用户。

在这种情况下，处理器140可控制多个相机分别拍摄预期在第一用户之后发言的至少两个用户。

除了第一相机至第三相机之外，根据实施例的电子设备100还可以包括第四相机。

也就是说，如果两个用户被识别为将在第一用户之后发言的用户，则处理器140可通过第三相机130和第四相机中的每一个拍摄两个用户。

因此，如图4所示，处理器140可使用拍摄预期在第一用户之后发言的多个用户中的每一个的视频覆叠包括当前正在发言的第一用户的视频，并提供该视频。

此外，图4示出了两个用户被识别为在第一用户之后发言的用户的实施例。在一些情况下，如果三个用户被识别为在第一用户之后发言的用户，则处理器140可以覆叠拍摄三个用户中的每一个的视频并且提供该视频。应当理解，一个或更多个其他实施例不限于在第一用户之后发言的特定数量的所识别的用户，并且不限于特定数量的相机。

图5是描述根据实施例的在存在当前正在发言的多个用户的情况下将被提供的视频的示图。

如上所述，处理器140可基于通过第一相机110拍摄的视频中的多个用户的嘴形改变、姿态改变和/或视线方向来识别当前正在发言的用户。

在一些情况下，处理器140可以将至少两个或更多个用户识别为当前正在发言的用户。例如，如果两个或更多个用户的每个嘴形改变预定阈值或更多，则处理器140可将该至少两个或更多个用户识别为当前正在发言的用户。

处理器140可控制多个相机分别拍摄当前正在发言的至少两个或更多个的用户。

为此目的，除了第一相机至第三相机之外，根据本公开的实施例的电子设备100还可以包括第四相机。

也就是说，当两个用户被识别为当前正在发言的用户时，处理器140可通过第二相机120和第四相机分别拍摄两个用户。

如图5所示，处理器140可以提供包括当前正在发言的多个用户的视频。

图5示出了根据实施例的两个用户被识别为当前正在发言用户的情况。应当理解，一个或更多个其他实施例不限于可识别并且可被拍摄的特定数量的当前正在发言的用户。例如，根据另一实施例，如果三个用户被识别为当前正在发言的用户，则处理器140可提供分别拍摄三个用户的视频。

在本实施例中，当通过如上所述的识别第二用户的方法识别第二用户时，处理器140可使用包括多个当前正在发言用户的视频覆叠拍摄通过第二相机 120识别的第二用户的视频，并提供该视频。

图6a和图6b是描述根据实施例的在电子设备提供虚拟现实(VR)视频的情况下的实施例的示图。

根据实施例的电子设备100可以提供虚拟现实(VR)视频。这里，VR 视频可以是指使用具有广角的相机(例如，180度相机、360度相机等)拍摄的视频。

为此目的，电子设备100的多个相机中的至少一个可以被实现为具有广角的相机(例如，360度相机)。

例如，当第一相机110被实现为360度相机时，通过第一相机110拍摄的视频(如图6a所示)可以是VR视频。

因此，根据实施例的电子设备100可以比二维(2D)视频更精确地掌握出席会议的多个用户中的每一个的姿态和视线方向的改变。

此外，可以通过如上所述的各种方法来识别通过360度相机拍摄的视频中当前正在发言的用户。具体地，处理器140可基于通过360度相机拍摄的视频中的多个用户的嘴形改变、姿态改变或视线方向中的至少一个来识别当前正在发言的用户。

此外，还可以通过如上所述的各种方法来识别在通过360度相机拍摄的视频中预期接下来发言的用户。具体地，处理器140可基于包括在通过360 度相机拍摄的视频中的第一用户的视线方向、第一用户的姿态、第二用户的姿态或由第一用户叫喊的名字中的至少一个来识别预期在第一用户之后发言的第二用户。

因此，如图6b所示，根据实施例的电子设备100可以使用捕获预期在第一用户之后发言的第二用户的视频覆叠包括当前正在发言的第一用户的VR 视频，并提供该视频。

同时，图6b示出了第二相机和第三相机以与第一相机110相同的方式被实现为360度相机的实施例，并且捕获第一用户和第二用户的视频是VR视频。然而，应当理解，一个或更多个其他实施例不限于此，并且在一些情况下，第二相机和/或第三相机可以被实现为一般相机。在这种情况下，处理器 140可以提供如图3所示的视频。

图6b是示出存在预期在第一用户之后发言的一个用户的示例的示图。然而，在一些情况下，至少两个或更多个用户可以被识别为将在第一用户之后发言的用户。在这种情况下，如上所述，处理器140可以使用捕获第一用户的视频覆叠分别捕获该至少两个或更多个用户的视频，并且提供覆叠的视频。

图7a和7b是描述根据实施例的在电子设备提供群组呼叫功能的情况下的实施例的示图。

根据实施例的电子设备100可提供群组呼叫功能。这里，群组呼叫功能是指多个用户可以通过其一起进行呼叫的功能。

在提供群组呼叫功能时，现有技术的电子设备在屏幕上显示正在进行呼叫的所有多个用户。

然而，当正在进行群组呼叫功能的所有用户被显示在屏幕上时，存在难以在某个时间识别哪个用户正在发言的问题。

为了解决所述问题，处理器140可从进行群组呼叫的多个用户当中识别当前正在发言的第一用户，并在全屏上显示识别的第一用户。

具体地，如图7a所示，处理器140可在包括进行群组呼叫的多个用户的屏幕上识别多个用户的嘴形的改变，并将嘴形改变大于或等于预设阈值的用户识别为当前正在发言的第一用户。

例如，在包括多个用户的屏幕中，当特定用户的嘴形一直改变时，处理器140可将该用户识别为第一用户。

另外(或可选地)，处理器140可识别包括多个用户的屏幕上的多个用户的姿态的改变，并将姿态的改变等于或大于预定阈值的用户识别为第一用户。

另外(或可选地)，处理器140可识别通过第一相机110拍摄的视频中的多个用户的姿态的改变，并且将姿态的改变等于或大于预定阈值的用户识别为第一用户。

例如，在通过第一相机100拍摄的视频上特定用户进行举手的姿态等的情况下，处理器140可将进行该姿态的用户识别为第一用户。

当识别出当前正在发言的第一用户时，处理器140可在全屏上(或在屏幕的预定区域上)显示第一用户。因此，进行群组呼叫的用户可以容易地识别当前正在发言的用户。

处理器140可在进行群组呼叫的多个用户中识别预期接下来发言的第二用户，使用包括第二用户的屏幕覆叠显示第一用户的全屏幕，并显示屏幕。

具体地，处理器140可在包括多个用户的屏幕上识别多个用户的姿态，并且当识别出多个用户中的至少一个用户正在进行举手的姿态时，处理器140 可将进行举手的姿态的用户识别为第二用户。

另外，当当前正在发言的第一用户叫喊多个用户中的至少一个时，处理器140可从预先存储的关于多个用户的面部的信息中识别关于与被叫喊的名字匹配的面部的信息，并将与识别的关于面部的信息对应的用户识别为第二用户。

如图7b所示，当识别出预期在第一用户之后发言的第二用户时，处理器 140可使用包括第二用户的视频覆叠显示第一用户的全屏幕，并显示该屏幕。

图8是描述根据实施例的用于电子设备的控制方法的流程图。

参照图8，在操作S810，电子设备可使用多个相机中的第一相机拍摄进行视频会议的多个用户。

例如，当会议室中正在进行视频会议时，电子设备可以使用第一相机拍摄会议室中存在的多个用户。这里，通过第一相机拍摄的视频可以包括正在进行视频会议的所有用户。

在操作S820，电子设备可以基于通过第一相机拍摄的视频，识别多个用户中当前正在发言的第一用户，并且通过多个相机中的第二相机拍摄所识别的第一用户。

具体地，电子设备可以基于用户的嘴形改变、姿态改变或视线方向中的至少一个来识别当前正在发言的用户。

并在操作S830，电子设备可基于通过第一相机拍摄的视频识别预期在第一用户之后发言的第二用户，并且通过多个相机中的第三相机拍摄识别的第二用户。

具体地，电子设备可以基于第一用户的视线方向、第一用户的姿态、第二用户的姿态、第一用户所叫的名字等中的至少一个来识别第二用户。

在操作S840，电子设备可使用由第三相机拍摄的视频覆叠由第二相机拍摄的视频，并提供覆叠的视频。

这样，根据实施例的电子设备不仅提供包括当前正在发言的第一用户的视频，而且提供包括预期在第一用户之后发言的第二用户的视频，因此，进行视频会议的用户可以更容易和方便地关注视频会议。

可提供一种存储顺序地进行电子设备的控制方法的程序的非暂时性计算机可读介质。

非暂时性计算机可读存储介质是半永久地存储数据并且可由设备从其读取数据的介质，但不是短时间存储数据的介质(诸如寄存器、高速缓存、存储器等)。详细地，前述各种应用或程序可以被存储在非暂时性计算机可读介质中(例如，压缩盘(CD)、数字多功能盘(DVD)、硬盘、固态驱动器(SSD)、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等)并且可以被提供。

前述实施例和优点仅是示例性的，并且不应被解释为限制本公开。本教导可被容易地应用于其它类型的装置。此外，实施例的描述旨在是说明性的，而不是限制权利要求的范围，并且许多替代、修改和改变对于本领域技术人员将是显而易见的。

Claims

1.一种用于提供视频会议的电子设备，所述电子设备包括：

多个相机；以及

处理器，被配置为执行指令以进行以下操作：

进行控制以通过所述多个相机中的第一相机获得进行视频会议的多个用户的第一视频，

基于通过第一相机获得的第一视频来确定所述多个用户中当前正在发言的第一用户，

进行控制以通过所述多个相机中的第二相机获得确定的第一用户的第二视频，

基于通过第一相机获得的第一视频来确定预期在第一用户之后发言的第二用户，

进行控制以通过所述多个相机中的第三相机获得确定的第二用户的第三视频，以及

进行控制以输出第二视频与第三视频同时显示的屏幕，

其中，所述处理器被配置为执行所述指令以进一步进行以下操作：

基于预存储的发言顺序列表，识别预期在第一用户之后发言的用户；

从预存储的关于所述多个用户的面部的信息中确定关于与识别的用户对应的面部的信息；以及

将与识别的关于面部的信息对应的用户确定为第二用户。

2.如权利要求1所述的电子设备，其中，所述处理器被配置为执行所述指令以进一步进行以下操作：

基于第一视频，将嘴形改变或姿态改变被确定为大于或等于预设阈值的用户确定为第一用户；或

基于第一视频，将存在于所述多个用户中的至少一个用户的确定的视线方向上的用户确定为第一用户。

3.如权利要求1所述的电子设备，其中，所述处理器被配置为执行所述指令以进一步进行以下操作：

根据基于通过第一相机获得的第一视频确定第二用户开始发言，进行控制在全屏幕上输出通过第三相机获得的第三视频。

4.如权利要求1所述的电子设备，其中，所述处理器被配置为执行所述指令以进一步进行以下操作：

基于预存储的视频会议历史信息，确定在举行视频会议的地点进行初始发言的位置，并且控制第二相机以获得识别的位置的第二视频。

5.一种用于控制电子设备的方法，所述方法包括：

通过多个相机中的第一相机获得进行视频会议的多个用户的第一视频；

基于通过第一相机捕获的第一视频，确定所述多个用户中当前正在发言的第一用户；

通过所述多个相机中的第二相机获得确定的第一用户的第二视频；

基于通过第一相机获得的第一视频来确定预期在第一用户之后发言的第二用户；

通过所述多个相机中的第三相机获得确定的第二用户的第三视频；以及

输出第二视频与第三视频同时显示的屏幕，

其中，确定第二用户的步骤包括：

将与识别的关于面部的信息对应的用户确定为第二用户。

6.如权利要求5所述的用于控制电子设备的方法，其中，确定第一用户的步骤包括：

7.一种其上记录有程序的非暂时性计算机可读记录介质，所述程序可由计算机执行以用于执行如权利要求5所述的方法。