CN116129526A

CN116129526A - 合拍控制方法、装置、电子设备及存储介质

Info

Publication number: CN116129526A
Application number: CN202310080244.4A
Authority: CN
Inventors: 邵志兢; 张煜; 孙伟; 吕云
Original assignee: Zhuhai Prometheus Vision Technology Co ltd
Current assignee: Zhuhai Prometheus Vision Technology Co ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-16

Abstract

本申请提供一种合拍控制方法、装置、电子设备及计算机可读存储介质。该合拍控制方法包括：呈现包含用户角色的拍摄画面；对所述拍摄画面中的所述用户角色进行手势识别，得到所述用户角色的当前手势；若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点；按照所述指向位置点在所述拍摄画面中放置虚拟对象，以控制所述拍摄画面中所述虚拟对象与所述用户角色的相对位置。本申请中可以使得用户角色可以控制和清楚虚拟对象的位置，进而使得用户角色在与虚拟对象合拍时作出与虚拟对象更加自然协调的动作与表情，降低合拍画面的突兀性，使得合拍画面效果更自然。

Description

合拍控制方法、装置、电子设备及存储介质

技术领域

本申请涉及拍摄处理技术领域，具体涉及一种合拍控制方法、装置、电子设备及计算机可读存储介质。

背景技术

随着图像拍摄技术的发展，用户可以使用电子设备拍摄各种各样的视频或图像，用户对视频或图像的拍摄要求也越来越多样化，例如，用户期望可以与虚拟对象(如体积视频)合拍视频或图像。

但是，本申请实施例发明人在实际研发过程中发现：在合拍过程中，由于用户角色不知道虚拟对象在画面中与自己的相对位置，从而导致用户角色与虚拟对象的动作、表情等不协调，从而导致合拍出来的画面效果较为突兀。

发明内容

本申请提供一种合拍控制方法、装置、电子设备及计算机可读存储介质，可以使得用户角色可以控制和清楚虚拟对象的位置，进而使得用户角色在与虚拟对象合拍时作出与虚拟对象更加自然协调的动作与表情，降低合拍画面的突兀性，使得合拍画面效果更自然。

第一方面，本申请提供一种合拍控制方法，所述方法包括：

呈现包含用户角色的拍摄画面；

对所述拍摄画面中的所述用户角色进行手势识别，得到所述用户角色的当前手势；

若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点；

按照所述指向位置点在所述拍摄画面中放置虚拟对象，以控制所述拍摄画面中所述虚拟对象与所述用户角色的相对位置。

第二方面，本申请提供一种合拍控制装置，所述合拍控制装置包括：

显示单元，用于呈现包含用户角色的拍摄画面；

识别单元，用于对所述拍摄画面中的所述用户角色进行手势识别，得到所述用户角色的当前手势；

获取单元，用于若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点；

控制单元，用于按照所述指向位置点在所述拍摄画面中放置虚拟对象，以控制所述拍摄画面中所述虚拟对象与所述用户角色的相对位置。

在一些实施例中，所述获取单元具体用于：

若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势对应的手指指向在所述拍摄画面所在的三维空间中形成的射线；

获取所述射线与所述虚拟对象的支撑面之间的交点，以作为所述当前手势的指向位置点。

在一些实施例中，所述获取所述射线与所述虚拟对象的支撑面之间的交点，以作为所述当前手势的指向位置点之前，所述获取位单元具体用于：

将所述拍摄画面中所述用户角色的站立面加入所述拍摄画面的备选平面集合中；

将所述拍摄画面中与所述站立面之间的夹角小于预设夹角阈值的平面，加入所述备选平面集合中；

从所述备选平面集合的各平面中，获取与所述射线存在交点且与所述射线的起点最近的平面，以作为所述虚拟对象的支撑面。

在一些实施例中，所述获取单元具体用于：

检测所述用户角色的当前手势的手势类型；

若所述手势类型为位置控制手势、且所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点。

在一些实施例中，所述控制单元具体用于：

若所述手势类型为朝向控制手势，则获取所述当前手势的关联朝向；

按照所述关联朝向，控制所述拍摄画面中所述虚拟对象与所述用户角色的相对朝向。

在一些实施例中，所述控制单元具体用于：

响应于所述用户角色的朝向的变化，更新所述虚拟对象的朝向，以使得所述用户角色与所述虚拟对象的相对朝向保持为所述关联朝向。

在一些实施例中，所述控制单元具体用于：

若所述手势类型为距离控制手势，则获取所述当前手势的关联距离；

按照所述关联距离，控制所述拍摄画面中所述虚拟对象与所述用户角色的相对距离。

在一些实施例中，所述控制单元具体用于：

响应于针对拍摄控件的触控操作，对所述拍摄画面进行拍摄，得到所述虚拟对象与所述用户角色的目标合拍视频。

在一些实施例中，所述控制单元具体用于：

响应于针对拍摄控件的触控操作，对所述拍摄画面进行拍摄，得到所述虚拟对象与所述用户角色的初步合拍视频；

对所述初步合拍视频中的视频帧进行控制手势识别，得到包含控制手势的目标视频帧；

将所述目标视频帧从所述初步合拍视频中滤除，得到所述目标合拍视频。

在一些实施例中，所述控制单元具体用于：

当所述当前手势与预设的控制手势匹配时，检测所述拍摄画面的摄像头是否处于拍摄状态；

若所述摄像头处于拍摄状态，则将所述摄像头由拍摄状态切换至暂停状态；

直至所述拍摄画面中所述虚拟对象放置于所述指向位置点时，将所述摄像头由暂停状态切换至拍摄状态。

在一些实施例中，所述虚拟对象为体积视频中的三维模型，所述控制单元具体用于：

按照所述指向位置点在所述拍摄画面中放置体积视频中的三维模型。

第三方面，本申请还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请提供的任一种合拍控制方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的合拍控制方法。

本申请通过对拍摄画面中的用户角色进行手势识别，得到用户角色的当前手势；若当前手势与预设的位置控制手势匹配，则获取当前手势的指向位置点；按照指向位置点在拍摄画面中放置虚拟对象，可以使得用户角色可以通过手势控制虚拟对象的位置，从而使得用户角色所合拍的虚拟对象的大致位置，进而使得用户角色在与虚拟对象合拍时作出与虚拟对象更加自然协调的动作与表情，降低合拍画面的突兀性，使得合拍画面效果更自然。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例所提供的合拍控制系统的场景示意图；

图2是本申请实施例提供的合拍控制方法的一种流程示意图；

图3是本申请实施例中提供的拍摄画面与拍摄场景的一个对比示意图；

图4是本申请实施例中提供的拍摄画面的一个场景示意图；

图5是本申请实施例中提供的拍摄画面的另一个场景示意图；

图6是本申请实施例中提供的拍摄画面的另一个场景示意图；

图7是本申请实施例中提供的合拍控制装置的一个实施例结构示意图；

图8是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本申请实施例的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

体积视频(Volumetric Video，又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度信息和色彩信息等)并生成三维模型序列的技术。相对于传统的视频，体积视频将空间的概念加入到视频中，用三维模型来更好的还原真实三维世界，而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列，使得用户可以随自己喜好调整到任意视角进行观看，较二维平面视频具有更高的还原度和沉浸感。

可选地，在本申请中，用于构成体积视频的三维模型可以按照如下方式重建得到：

先获取拍摄对象的不同视角的彩色图像和深度图像，以及彩色图像对应的相机参数；然后根据获取到的彩色图像及其对应的深度图像和相机参数，训练隐式表达拍摄对象三维模型的神经网络模型，并基于训练的神经网络模型进行等值面提取，实现对拍摄对象的三维重建，得到拍摄对象的三维模型。

应当说明的是，本申请实施例中对采用何种架构的神经网络模型不作具体限制，可由本领域技术人员根据实际需要选取。比如，可以选取不带归一化层的多层感知机(Multilayer Perceptron，MLP)作为模型训练的基础模型。

下面将对本申请提供的三维模型重建方法进行详细描述。

首先，可以同步采用多个彩色相机和深度相机对需要进行三维重建的目标物体(该目标物体即为拍摄对象)进行多视角的拍摄，得到目标物体在多个不同视角的彩色图像及对应的深度图像，即在同一拍摄时刻(实际拍摄时刻的差值小于或等于时间阈值即认为拍摄时刻相同)，各视角的彩色相机将拍摄得到目标物体在对应视角的彩色图像，相应的，各视角的深度相机将拍摄得到目标物体在对应视角的深度图像。需要说明的是，目标物体可以是任意物体，包括但不限于人物、动物以及植物等生命物体，或者机械、家具、玩偶等非生命物体。

以此，目标物体在不同视角的彩色图像均具备对应的深度图像，即在拍摄时，彩色相机和深度相机可以采用相机组的配置，同一视角的彩色相机配合深度相机同步对同一目标物体进行拍摄。比如，可以搭建一摄影棚，该摄影棚中心区域为拍摄区域，环绕该拍摄区域，在水平方向和垂直方向每间隔一定角度配对设置有多组彩色相机和深度相机。当目标物体处于这些彩色相机和深度相机所环绕的拍摄区域时，即可通过这些彩色相机和深度相机拍摄得到该目标物体在不同视角的彩色图像及对应的深度图像。

此外，进一步获取每一彩色图像对应的彩色相机的相机参数。其中，相机参数包括彩色相机的内外参，可以通过标定确定，相机内参为与彩色相机自身特性相关的参数，包括但不限于彩色相机的焦距、像素等数据，相机外参为彩色相机在世界坐标系中的参数，包括但不限于彩色相机的位置(坐标)和相机的旋转方向等数据。

如上，在获取到目标物体在同一拍摄时刻的多个不同视角的彩色图像及其对应的深度图像之后，即可根据这些彩色图像及其对应深度图像对目标物体进行三维重建。区别于相关技术中将深度信息转换为点云进行三维重建的方式，本申请训练一神经网络模型用以实现对目标物体的三维模型的隐式表达，从而基于该神经网络模型实现对目标物体的三维重建。

可选地，本申请选用一不包括归一化层的多层感知机(Multilayer Perceptron，MLP)作为基础模型，按照如下方式进行训练：

基于对应的相机参数将每一彩色图像中的像素点转化为射线；

在射线上采样多个采样点，并确定每一采样点的第一坐标信息以及每一采样点距离像素点的SDF值；

将采样点的第一坐标信息输入基础模型，得到基础模型输出的每一采样点的预测SDF值以及预测RGB颜色值；

基于预测SDF值与SDF值之间的第一差异，以及预测RGB颜色值与像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整，直至满足预设停止条件；

将满足预设停止条件的基础模型作为隐式表达目标物体的三维模型的神经网络模型。

首先，基于彩色图像对应的相机参数将彩色图像中的一像素点转化为一条射线，该射线可以为经过像素点且垂直于彩色图像面的射线；然后，在该射线上采样多个采样点，采样点的采样过程可以分两步执行，可以先均匀采样部分采样点，然后再在基于像素点的深度值在关键处进一步采样多个采样点，以保证在模型表面附近可以采样到尽量多的采样点；然后，根据相机参数和像素点的深度值计算出采样得到的每一采样点在世界坐标系中的第一坐标信息以及每一采样点的有向距离(Signed Distance Field，SDF)值，其中，SDF值可以为像素点的深度值与采样点距离相机成像面的距离之间的差值，该差值为有符号的值，当差值为正值时，表示采样点在三维模型的外部，当差值为负值时，表示采样点在三维模型的内部，当差值为零时，表示采样点在三维模型的表面；然后，在完成采样点的采样并计算得到每一采样点对应的SDF值之后，进一步将采样点在世界坐标系的第一坐标信息输入基础模型(该基础模型被配置为将输入的坐标信息映射为SDF值和RGB颜色值后输出)，将基础模型输出的SDF值记为预测SDF值，将基础模型输出的RGB颜色值记为预测RGB颜色值；然后，基于预测SDF值与采样点对应的SDF值之间的第一差异，以及预测RGB颜色值与采样点所对应像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整。

此外，对于彩色图像中的其它像素点，同样按照上述方式进行采样点采样，然后将采样点在世界坐标系的坐标信息输入至基础模型以得到对应的预测SDF值和预测RGB颜色值，用于对基础模型的参数进行调整，直至满足预设停止条件，比如，可以配置预设停止条件为对基础模型的迭代次数达到预设次数，或者配置预设停止条件为基础模型收敛。在对基础模型的迭代满足预设停止条件时，即得到能够对拍摄对象的三维模型进行准确地隐式表达的神经网络模型。最后，可以采用等值面提取算法对该神经网络模型进行三维模型表面的提取，从而得到拍摄对象的三维模型。

可选地，在一些实施例中，根据相机参数确定彩色图像的成像面；确定经过彩色图像中像素点且垂直于成像面的射线为像素点对应的射线。

其中，可以根据彩色图像对应的彩色相机的相机参数，确定该彩色图像在世界坐标系中的坐标信息，即确定成像面。然后，可以确定经过彩色图像中像素点且垂直于该成像面的射线为该像素点对应的射线。

可选地，在一些实施例中，根据相机参数确定彩色相机在世界坐标系中的第二坐标信息及旋转角度；根据第二坐标信息和旋转角度确定彩色图像的成像面。

可选地，在一些实施例中，在射线上等间距采样第一数量个第一采样点；根据像素点的深度值确定多个关键采样点，并根据关键采样点采样第二数量个第二采样点；将第一数量个的第一采样点与第二数量个的第二采样点确定为在射线上采样得到的多个采样点。

其中，先在射线上均匀采样n(即第一数量)个第一采样点，n为大于2的正整数；然后，再根据前述像素点的深度值，从n个第一采样点中确定出距离前述像素点最近的预设数量个关键采样点，或者从n个第一采样点中确定出距离前述像素点小于距离阈值的关键采样点；然后，根据确定出的关键采样点再采样m个第二采样点，m为大于1的正整数；最后，将采样得到的n+m个采样点确定为在射线上采样得到的多个采样点。其中，在关键采样点处再多采样m个采样点，可以使得模型的训练效果在三维模型表面处更为精确，从而提升三维模型的重建精度。

可选地，在一些实施例中，根据彩色图像对应的深度图像确定像素点对应的深度值；基于深度值计算每一采样点距离像素点的SDF值；根据相机参数与深度值计算每一采样点的坐标信息。

其中，在每一像素点对应的射线上采样了多个采样点后，对于每一采样点，根据相机参数、像素点的深度值确定彩色相机的拍摄位置与目标物体上对应点之间的距离，然后基于该距离逐一计算每一采样点的SDF值以及计算出每一采样点的坐标信息。

需要说明的是，在完成对基础模型的训练之后，对于给定的任意一个点的坐标信息，即可由完成训练的基础模型预测其对应的SDF值，该预测的SDF值即表示了该点与目标物体的三维模型的位置关系(内部、外部或者表面)，实现对目标物体的三维模型的隐式表达，得到用于隐式表达目标物体的三维模型的神经网络模型。

最后，对以上神经网络模型进行等值面提取，比如可以采用等值面提取算法(Marching cubes，MC)绘制出三维模型的表面，得到三维模型表面，进而根据该三维模型表面得到目标物体的三维模型。

本申请提供的三维重建方案，通过神经网络去隐式建模目标物体的三维模型，并加入深度信息提高模型训练的速度和精度。采用本申请提供的三维重建方案，在时序上持续的对拍摄对象进行三维重建，即可得到拍摄对象在不同时刻的三维模型，这些不同时刻的三维模型按时序构成的三维模型序列即为对拍摄对象所拍摄得到的体积视频。以此，可以针对任意拍摄对象进行“体积视频拍摄”，得到特定内容呈现的体积视频。比如，可以对跳舞的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象舞蹈的体积视频，可以对教学的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象教学的体积视频，等等。

需要说明的是，本申请以下实施例涉及的体积视频可采用以上体积视频拍摄方式所拍摄得到。

本申请实施例提供一种合拍控制方法、装置、电子设备和计算机可读存储介质。其中，该合拍控制装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例的合拍控制方法可以应用于体积视频的制作流程及使用中，例如，体积视频中的被摄对象(如表演者)作为虚拟对象，按照本申请实施例的合拍控制方法进行合拍。示例性地，该体积视频的制作流程及使用大致如下：

第一步：拍摄采集

表演者进入按矩阵部署的相机阵列系统，通过其中的红外IR相机、4K超高清工业相机等专业级采集设备将会拍摄并提取表演者的颜色信息、材质信息、深度信息等数据。

第二步：素材生成

采集好数据后将素材上传云端，就可以在云端调动算法自动生成体积视频(3D动态人物模型序列)。

第三步：使用体积视频

通过插件将体积视频放入UE4/UE5/Unity 3D里面，与虚拟场景或CG特效完美融合，支持实时渲染，或者用于AR合拍等。

本申请实施例合拍控制方法的执行主体可以为本申请实施例提供的合拍控制装置，或者集成了该合拍控制装置的服务器设备、物理主机或者用户设备(User Equipment，UE)等不同类型的电子设备，其中，合拍控制装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式，该电子设备可以集成摄像头或与摄像头建立网络连接，以实现对拍摄场景的拍摄形成拍摄画面；该电子设备还可以集成显示屏或与显示屏建立网络连接，以实现在拍摄过程中呈现拍摄画面。

例如，本申请实施例提供的合拍控制方法，可以应用于如图1所示的合拍控制系统中。其中，该合拍控制系统包括终端101、服务器102，终端101可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。终端101具体可以是设置有摄像头的如手机、平板电脑、笔记本电脑等终端，用于捕捉拍摄场景得到拍摄画面；终端101具体还可以是安装于拍摄现场用于完成合拍画面拍摄的摄像头。终端101与服务器102可以通过网络进行双向通信，服务器102可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(CloudComputing)的大量计算机或网络服务器构成。其中，服务器102还可以包含显示屏，用于显示拍摄画面。终端101和服务器102可以共同实现该合拍控制方法，例如，终端101可以向服务器102发送拍摄画面，服务器102由此可以呈现包含用户角色的拍摄画面；对所述拍摄画面中的所述用户角色进行手势识别，得到所述用户角色的当前手势；若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点；按照所述指向位置点在所述拍摄画面中放置虚拟对象，以控制所述拍摄画面中所述虚拟对象与所述用户角色的相对位置。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的计算机设备，例如图1中仅示出1个服务器102，可以理解的，该合拍控制系统还可以包括一个或多个其他服务器，具体此处不作限定。

还需说明的是，图1所示合拍控制系统的场景示意图仅仅是一个示例，本发明实施例描述的合拍控制系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着合拍控制系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本申请实施例提供的合拍控制方法，本申请实施例中以电子设备作为执行主体、该电子设备集成了摄像头和显示屏来举例说明，为了简化与便于描述，后续方法实施例中将省略该执行主体。

参照图2，图2是本申请实施例提供的合拍控制方法的一种流程示意图。需要说明的是，虽然在图2或其他附图所示的流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该合拍控制方法包括步骤201～204，其中：

201、呈现包含用户角色的拍摄画面。

其中，用户角色是指与虚拟对象进行合拍的用户。例如，拍摄场景中的人物。

其中，虚拟对象是指不存在于拍摄场景中但呈现于拍摄画面中的、与用户角色合拍的对象。例如，如图3所示，虚拟对象为小狗，拍摄场景(如图3中虚线框内为拍摄场景的示意)中不存在该小狗、但拍摄画面中呈现该小狗。

其中，虚拟对象具体可以是体积视频中的三维模型，或者也可以是二维模型。

其中，拍摄场景是指用户角色拍摄时所在的实景。

其中，拍摄画面是指对拍摄场景进行画面捕捉形成的画面。拍摄画面具体可以是打开摄像头后但未正式进入拍摄状态时捕捉到的画面，也可以是打开摄像头后正式进行拍摄状态时(如用户按照“开始拍摄”按钮后)捉到的画面。

示例性地，当电子设备的摄像头打开后，摄像头将会对当前的拍摄场景进行画面捕捉形成拍摄画面，电子设备的显示屏上将会呈现包含用户角色的拍摄画面。在一些实施例中，当电子设备的摄像头打开后，还可以同时呈现虚拟对象，即步骤201中同时呈现包含用户角色和虚拟对象的拍摄画面。在另一些实施例中，也可以在摄像头正式拍摄时才呈现虚拟对象，即步骤201中可以呈现包含用户角色、但不包含虚拟对象的拍摄画面。

202、对所述拍摄画面中的所述用户角色进行手势识别，得到所述用户角色的当前手势。

其中，当前手势是指对用户角色进行手势识别得到的用户角色的手势。例如，用户角色的当前手势可以是“食指伸展、其余四指弯曲”、“五指合并伸展”等。

示例性地，首先，可以对步骤201呈现的拍摄画面进行截图得到拍摄画面图像；然后，通过手势识别算法，根据拍摄画面图像进行手势识别，得到用户角色的当前手势。

例如，首先，基于训练数据集(包括多个样本图像，并标注每个样本图像中用户的手部区域、每个样本图像中手部区域对应的手势类别)，对预设的手势识别算法进行训练，使得训练后的手势识别算法学习到各种手势的特征，从而得到训练后的(适用于检测图像中的手部区域、确定图像中手部区域对应的手势类别的)手势识别算法。其中，预设的手势识别算法可以是可用于分类任务的开源网络模型，如EfficientNet模型、YOLOv3网络、MobileNet网络等等。具体地，可以采用模型参数为默认值的(可用于分类任务)开源网络作为预设的手势识别算法。

其中，可以根据实际业务场景所需识别的手势而设置手势识别算法所需学习的手势类别，例如，若需要识别用户角色的手势是否为“食指伸展、其余四指弯曲”，则可以设置2种手势类别(一种为“食指伸展、其余四指弯曲”、另一种为“其他手势”)对预设的手势识别算法进行训练；又如，若需要识别用户角色的手势是否为类别1(如“食指伸展、其余四指弯曲”手势)、类别2(如“五指合并伸展”手势)、类别3(除类别1和类别2外的形态)，则可以设置3种手势类别(一种为“食指伸展、其余四指弯曲”、一种为“五指合并伸展”、另一种为“其他手势”)对预设的手势识别算法进行训练。

然后，将对步骤201呈现的拍摄画面进行截图得到拍摄画面图像输入至训练后的手势识别算法中，以调用训练后的手势识别算法对拍摄画面图像进行分类处理：先检测出拍摄画面图像中用户角色的手部区、再对拍摄画面图像中手部区域进行分类，得到拍摄画面图像中用户角色的手势类别，以作为用户角色的当前手势。

203、若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点。

其中，预设的位置控制手势是指预设设定的、用于控制虚拟对象的放置位置的手势。例如，预设的位置控制手势可以是“食指伸展、其余四指弯曲”、或“五指合并伸展”等。

此处预设的位置控制手势仅为举例，实际上，预设的位置控制手势的具体呈现形态可以根据实际业务场景需求而设置，本实施例中对预设的位置控制手势的具体呈现形态不做限制。

其中，指向位置点是指当前手势指向的位置。具体可以是当前手势对应的手指指向的位置点(如下情况(1)所示)，也可以是当前手势预先关联的位置点(如下情况(2)所示)。

步骤202中识别出了用户角色的当前手势后，会检测用户角色的当前手势与预设的位置控制手势是否匹配，若当前手势与预设的位置控制手势匹配，将会进入步骤203；否则，若当前手势与预设的位置控制手势不匹配，则可以不作进一步处理或重新执行步骤202对拍摄画面中的用户角色进行手势识别，得到用户角色的当前手势，直至检测到用户角色的当前手势与预设的位置控制手势匹配时，进入步骤203。

步骤203中确定指向位置点的方式有多种，示例性地，包括：

情况(1)：指向位置为当前手势对应的手指指向的位置点。此时，步骤203具体可以包括如下步骤2031A～2032A：

2031A、若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势对应的手指指向在所述拍摄画面所在的三维空间中形成的射线。

2032A、获取所述射线与所述虚拟对象的支撑面之间的交点，以作为所述当前手势的指向位置点。

其中，拍摄画面所在的三维空间是指拍摄画面所对应捕捉的拍摄场景的三维空间。

其中，射线是指当前手势对应的手指指向在拍摄画面所在的三维空间中形成的射线，本文中简称为射线。如图3所示，射线具体可以理解为：以当前手势对应的手指指尖为起点、手指指向为射线延长方向的射线。

在一些实施例中，步骤2032A中可以直接将用户角色的站立面(如地面)作为虚拟对象的支撑面，此时，可以直接将射线与用户角色的站立面之间的交点作为当前手势的指向位置点。例如，如图4所示，假设预设的位置控制手势是“食指伸展、其余四指弯曲”，通过步骤202可以识别出用户角色的当前手势为“食指伸展、其余四指弯曲”，则当前手势与预设的位置控制手势匹配，可以识别用户角色的当前手势对应的手指指向(即食指的指向)在拍摄画面所在的三维空间中形成的射线，然后，将射线与用户角色的站立面之间的交点(如图4中的A点所示，其中，手指指向的延长线与用户角色的站立面相交于A点)作为当前手势的指向位置点。

在一些实施例中，拍摄场景中同时存在多个平面(如地板平面、楼梯的每个阶梯平面)，步骤2032A中可以指定拍摄场景任意的一个平面作为虚拟对象的支撑面，此时，步骤2032A之前可以先确定虚拟对象的支撑面，再进入步骤2032A获取射线与虚拟对象的支撑面之间的交点作为当前手势的指向位置点。确定虚拟对象的支撑面的过程具体可以包括：将所述拍摄画面中所述用户角色的站立面加入所述拍摄画面的备选平面集合中；将所述拍摄画面中与所述站立面之间的夹角小于预设夹角阈值的平面，加入所述备选平面集合中；从所述备选平面集合的各平面中，获取与所述射线存在交点且最近的平面，以作为所述虚拟对象的支撑面。

其中，射线的起点是指手指指向的起点，例如可以是指尖。

其中，平面交点是指射线与平面之间的交点。

其中，与射线的起点最近的平面是指备选平面集合的各平面中，与射线存在交点的平面、且平面交点与射线的起点之间距离最小的平面。

例如，如图6所示，拍摄画面中包括了桌面、墙面、地面，用户角色的站立面为地面，其中，桌面与地面之间的夹角小于预设夹角阈值(如5°)，射线与地面的交点为A点、射线与桌面的交点为B点，则会将地面、桌面加入备选平面集合中；然后，会分别计算射线与备选平面集合中各平面(即地面、桌面)是否存在交点，并从中选取与射线存在交点(如图6中射线与地面的交点为A点、射线与桌面的交点为B点)、且与射线的起点最近的平面(如图6中为桌面)，以作为虚拟对象的支撑面。

可见，为了保证虚拟对象可以正常放置，虚拟对象的支撑面为地面或者是平行与地面的平面(如桌面、楼梯的每个阶梯平面等)，通过先将用户角色的站立面、以及与站立面之间的夹角小于预设夹角阈值的平面加入拍摄画面的备选平面集合中，再从备选平面集合中筛选出与射线存在交点且最近的平面作为虚拟对象的支撑面；第一方面，由于站立面、以及与站立面之间的夹角小于预设夹角阈值的平面被加入备选平面集合中，从而保证有可能是支撑面的平面保留下来进行支撑面的判定，并可以过滤掉一些非支撑面，从而减少需要确定当前手势的指向位置点的计算量。第二方面，可以在用户可以指定虚拟对象的支撑面基础上，避免将与射线存在交点但不能正常放置虚拟对象的平面(如拍摄场景中的墙面)作为虚拟对象的支撑面，从而避免将虚拟对象放置在错误的平面上。第三方面，由于是以与射线存在交点且最近的平面作为虚拟对象的支撑面，因此可以避免射线同时与多个存在交点时(例如，如图6所示，射线同时与桌面和地面存在交点，此时会以与射线的起点最近的平面即桌面作为虚拟对象的支撑面)支撑面的误判问题。第四方面，可以实现用户指定虚拟对象的放置平面，而无需固定某个平面(如地面)作为虚拟对象的放置平面，提高了虚拟对象的控制多样性。

情况(2)：指向位置为当前手势预先关联的位置点。例如，预设的位置控制手势包括：A手势、B手势、C手势，假设A手势、B手势、C手势预先关联的位置点分别为：用户角色左侧1米处、用户角色右侧1米处、用户角色正前方1米处，若识别出当前手势为C手势，则证明当前手势与预设的位置控制手势匹配，并将用户角色正前方1米处作为当前手势的指向位置点。

204、按照所述指向位置点在所述拍摄画面中放置虚拟对象，以控制所述拍摄画面中所述虚拟对象与所述用户角色的相对位置。

例如，如图4所示和图5所示，指向位置点为A点，则会在指向位置点A处放置虚拟对象(如小狗)，以使得拍摄画面中虚拟对象被放置在用户想要的位置，从而实现用户角色可以控制拍摄画面中虚拟对象与用户角色的相对位置，使得用户即使无法看见拍摄画面时在拍摄过程中仍可以大致控制和清楚虚拟对象的放置位置，从而可以作出与虚拟对象更加自然协调的动作与表情，降低合拍视频或图像的突兀性，使得合拍视频或图像效果更自然。

进一步地，为了让合拍者(即拍摄画面中的用户角色)更好地控制和清楚虚拟对象的方位信息，除了可以通过手势控制虚拟对象的放置点外，还可以通过手势控制虚拟对象的朝向(例如与用户角色的相对朝向、与摄像头的相对朝向等)、虚拟对象与用户角色的相对距离。此时，步骤203中检测所述用户角色的当前手势的手势类型；若所述手势类型为位置控制手势、且所述当前手势与预设的位置控制手势匹配，再获取所述当前手势的指向位置点。例如，预设的位置控制手势是“五指合并伸展”，若当前手势为“食指伸展、其余四指弯曲”则不会获取当前手势的指向位置点，若当前手势为“五指合并伸展”则证明当前手势为预设的位置控制手势，会进一步获取当前手势的指向位置点。以保证用户是作出控制虚拟对象的位置情况下再获取执行位置点，以避免用户当前手势不是控制虚拟对象的位置、或当前手势是控制虚拟对象的相对朝向、相对距离等方位信息，从而避免执行位置点的无效检测，保证了用户可以通过多种类型手势控制虚拟对象不同的方位(如放置点、放置距离、放置朝向等)。

若所述手势类型为朝向控制手势，则获取所述当前手势的关联朝向；按照所述关联朝向，控制所述拍摄画面中所述虚拟对象与所述用户角色的相对朝向。例如，预设的朝向控制手势为“食指平行地面指向正前方”、“食指平行地面指向正后方”，其中，“食指平行地面指向正前方”、“食指平行地面指向正后方”的关联朝向分别：虚拟对象朝向用户角色、虚拟对象背向用户角色，若当前手势为“食指平行地面指向正前方”则证明当前手势为预设的朝向控制手势，会按照当前手势“食指平行地面指向正前方”的关联朝向“虚拟对象背向用户角色”移动拍摄画面中的虚拟对象，以使得控制拍摄画面中虚拟对象与所述用户角色的相对朝向为“虚拟对象背向用户角色”。由此，可以使得用户可以通过手势控制虚拟对象的不同朝向，从而使得用户在看不到拍摄画面情况下仍可以大致控制和清楚虚拟对象的朝向，从而作出与虚拟对象更加自然协调的动作与表情，降低合拍视频的突兀性，使得合拍视频效果更自然。

进一步地，用户在作出朝向控制手势后用户角色的朝向可能会发生，如由正对摄像头变为侧对摄像头，而用户本质上要控制虚拟对象朝向用户角色，为此，当用户在拍摄过程中调整朝向后，可以控制虚拟对象的朝向随之而变，以避免用户拍摄过程中微调朝向后需要不断通过手势控制虚拟对象的朝向问题，实现交互便捷性。此时，在按照所述关联朝向，控制所述拍摄画面中所述虚拟对象与所述用户角色的相对朝向之后，当检测到用户角色的朝向变化时，还可以响应于所述用户角色的朝向的变化，更新所述虚拟对象的朝向，以使得所述用户角色与所述虚拟对象的相对朝向保持为所述关联朝向。

若所述手势类型为距离控制手势，则获取所述当前手势的关联距离；按照所述关联距离，控制所述拍摄画面中所述虚拟对象与所述用户角色的相对距离。例如，预设的距离控制手势为“竖起1个手指”、“竖起2个手指”，其中，“竖起1个手指”、“竖起2个手指”的关联距离分别：虚拟对象距离用户角色1米、虚拟对象距离用户角色2米，若当前手势为“竖起1个手指”则证明当前手势为预设的距离控制手势，会按照当前手势“竖起1个手指”的关联距离“虚拟对象距离用户角色1米”移动拍摄画面中的虚拟对象，以使得控制拍摄画面中虚拟对象与所述用户角色的相对距离为“1米”。由此，可以使得用户可以通过手势控制虚拟对象的不同距离，从而使得用户在看不到拍摄画面情况下仍可以大致控制和清楚虚拟对象的距离，从而作出与虚拟对象更加自然协调的动作与表情，降低合拍视频的突兀性，使得合拍视频效果更自然。

拍摄者(可以是用户角色本人、也可以时其他人)可以选择在任意时间按下拍摄控件，以控制摄像头进入拍摄状态对拍摄画面进行拍摄，得到虚拟对象与用户角色的目标合拍视频；电子设备将会响应于针对拍摄控件的触控操作，对拍摄画面进行拍摄，得到虚拟对象与所述用户角色的目标合拍视频。进一步地，为了避免在进入拍摄状态后，用户角色作出控制手势会被拍摄出来，导致拍摄得到的目标合拍视频数据量较大(例如，尤其是在利用体积视频中的三维模型作为虚拟对象时，会导致合拍视频增大较为明显)、或导致用户需在后期裁剪掉视频中的控制手势帧，可以响应于针对拍摄控件的触控操作，对所述拍摄画面进行拍摄，得到所述虚拟对象与所述用户角色的初步合拍视频；对所述初步合拍视频中的视频帧进行控制手势识别，得到包含控制手势的目标视频帧(如识别出包含位置控制手势、朝向控制手势、或距离控制手势的视频帧作为目标视频帧)；将所述目标视频帧从所述初步合拍视频中滤除，得到所述目标合拍视频。如此，可以过滤掉包含控制手势的视频帧后再保存，从而可以一定程度上降低目标合拍视频所需占用的内存、减少后续所需的裁剪处理。

进一步地，当拍摄者按下拍摄控件后，即摄像头处于拍摄状态过程中，也可以通过自动识别当前手势是否为预设的控制手势(如是否为位置控制手势、朝向控制手势、或距离控制手势)，若是则自动暂停拍摄、等待控制完成后再继续拍摄。即该合拍控制方法还包括：当所述当前手势与预设的控制手势匹配时，检测所述拍摄画面的摄像头是否处于拍摄状态；若所述摄像头处于拍摄状态，则将所述摄像头由拍摄状态切换至暂停状态；直至所述拍摄画面中所述虚拟对象放置于所述指向位置点时，将所述摄像头由暂停状态切换至拍摄状态。例如，为了避免合拍者的控制手势会被拍摄记录，可以自动跳过或过滤手势出现的画面。比如，即使拍摄设备已经按下“拍摄”按钮，若合拍者在使用手势控制虚拟对象位置时，自动暂停拍摄；在虚拟对象放置于指向位置点之后，自动继续拍摄，以降低与虚拟对象合拍的视频数据量。

由此，本实施例可以通过合拍者(即用户)手势控制虚拟对象的位置、朝向、距离等，使得用户可以大致控制和清楚虚拟对象(如体积视频中的三维模型)的位置，从而作出与虚拟对象更加自然协调的动作与表情，降低合拍视频的突兀性，使得合拍视频效果更自然。也可以在一定程度上避免需要拍摄者在拍摄画面中手动调节虚拟对象的位置并告知被拍摄者，被拍摄者无法准确、快速地了解到虚拟对象位置的问题。

为了更好实施本申请实施例中合拍控制方法，在合拍控制方法基础之上，本申请实施例中还提供一种合拍控制装置，如图7所示，为本申请实施例中合拍控制装置的一个实施例结构示意图，该合拍控制装置700包括：

显示单元701，用于呈现包含用户角色的拍摄画面；

识别单元702，用于对所述拍摄画面中的所述用户角色进行手势识别，得到所述用户角色的当前手势；

获取单元703，用于若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点；

控制单元704，用于按照所述指向位置点在所述拍摄画面中放置虚拟对象，以控制所述拍摄画面中所述虚拟对象与所述用户角色的相对位置。

在一些实施例中，所述获取单元703具体用于：

在一些实施例中，所述获取所述射线与所述虚拟对象的支撑面之间的交点，以作为所述当前手势的指向位置点之前，所述获取单元703具体用于：

在一些实施例中，所述获取单元703具体用于：

检测所述用户角色的当前手势的手势类型；

在一些实施例中，所述控制单元704具体用于：

在一些实施例中，所述虚拟对象为体积视频中的三维模型，所述控制单元704具体用于：

由此，本申请实施例提供的合拍控制装置700可以带来如下技术效果：使得用户角色可以通过手势控制虚拟对象的位置，从而使得用户角色所合拍的虚拟对象的大致位置，进而使得用户角色在与虚拟对象合拍时作出与虚拟对象更加自然协调的动作与表情，降低合拍画面的突兀性，使得合拍画面效果更自然。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图8所示，图8为本申请实施例提供的电子设备的结构示意图。该电子设备800包括有一个或者一个以上处理核心的处理器801、有一个或一个以上计算机可读存储介质的存储器802及存储在存储器802上并可在处理器上运行的计算机程序。其中，处理器801与存储器802电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器801是电子设备800的控制中心，利用各种接口和线路连接整个电子设备800的各个部分，通过运行或加载存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行电子设备800的各种功能和处理数据，从而对电子设备800进行整体监控。

在本申请实施例中，电子设备800中的处理器801会按照本申请提供的任一种合拍控制方法的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现上述合拍控制方法的具体过程。

可选的，如图8所示，电子设备800还包括：触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807。其中，处理器801分别与触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807电性连接。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏803可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏803可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

射频电路804可用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路805可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。音频电路805可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路805接收后转换为音频数据，再将音频数据输出处理器801处理后，经射频电路804以发送给比如另一电子设备，或者将音频数据输出至存储器802以便进一步处理。音频电路805还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元806可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源807用于给电子设备800的各个部件供电。可选的，电源807可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源807还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图8中未示出，电子设备800还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种合拍控制方法中。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

在上述合拍控制装置、计算机可读存储介质、电子设备实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的合拍控制装置、计算机可读存储介质、电子设备及其相应单元的具体工作过程及可带来的有益效果，可以参考如上实施例中合拍控制方法的说明，具体在此不再赘述。

以上对本申请实施例所提供的一种合拍控制方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种合拍控制方法，其特征在于，所述方法包括：

呈现包含用户角色的拍摄画面；

2.根据权利要求1所述的合拍控制方法，其特征在于，所述若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点，包括：

3.根据权利要求2所述的合拍控制方法，其特征在于，所述获取所述射线与所述虚拟对象的支撑面之间的交点，以作为所述当前手势的指向位置点之前，还包括：

4.根据权利要求1所述的合拍控制方法，其特征在于，所述若所述当前手势与预设的位置控制手势匹配，则获取所述当前手势的指向位置点，包括：

检测所述用户角色的当前手势的手势类型；

5.根据权利要求4所述的合拍控制方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的合拍控制方法，其特征在于，所述按照所述关联朝向，控制所述拍摄画面中所述虚拟对象与所述用户角色的相对朝向之后，还包括：

7.根据权利要求4所述的合拍控制方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的合拍控制方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的合拍控制方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的合拍控制方法，其特征在于，所述方法还包括：

11.根据权利要求1-10任一项所述的合拍控制方法，其特征在于，所述虚拟对象为体积视频中的三维模型。

12.一种合拍控制装置，其特征在于，所述合拍控制装置包括：

显示单元，用于呈现包含用户角色的拍摄画面；

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至11任一项所述的合拍控制方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至11任一项所述的合拍控制方法。