CN117812467A

CN117812467A - 数据处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN117812467A
Application number: CN202311364826.1A
Authority: CN
Inventors: 齐晓辰; 叶广明; 蔡洪斌; 卢光辉
Original assignee: Shenzhen Siyuan Electronic Technology Co ltd
Current assignee: Shenzhen Siyuan Electronic Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-04-02

Abstract

本申请公开一种数据处理方法、装置、电子设备及计算机可读存储介质，该方法通过获取摄制设备的测量数据以及摄制视频；将摄制视频输入预设的计算网络，得到对应的视频光流；根据测量数据确定摄制设备的初始姿态数据；基于预设的姿态预测模型，根据视频光流和初始姿态数据确定摄制设备的目标姿态数据；根据初始姿态数据和目标姿态数据对摄制视频进行调整，得到目标视频。以此，通过融合传感器的测量数据和视频内容对摄制设备的目标姿态进行预测实现稳像，得到目标视频。在强视差变化、多动态前景遮挡、低质量视频等情况下，对摄制视频的图像帧进行实时的稳像处理，提高了视频处理的效率，提升了对视频数据进行防抖、稳像处理的效果。

Description

数据处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。

背景技术

近年来，随着拍摄技术的不断发展，拍摄技术的应用范围不断向各个领域渗透。其中，在动态过程中获取图像的拍摄技术成为一个技术热点，而如何减少拍摄过程中的抖动，得到稳定、清晰的图像成为一个重要的技术问题。然而，传统的对图像、视频进行处理的数据处理方法往往是通过视觉处理技术或图像信号处理技术实现防抖稳像，无法适应复杂的运动场景。例如，在强视差变化、多动态前景遮挡、低质量视频等情况下，传统的数据处理方法的防抖、稳像效果差。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质，可以提升了防抖、稳像的效果。

第一方面，本申请实施例公开一种数据处理方法，所述方法包括：

获取摄制设备的测量数据以及摄制视频；

将所述摄制视频输入预设的计算网络，得到对应的视频光流；

根据所述测量数据确定所述摄制设备的初始姿态数据；

基于预设的姿态预测模型，根据所述视频光流和所述初始姿态数据确定所述摄制设备的目标姿态数据；

根据所述初始姿态数据和所述目标姿态数据对所述摄制视频进行调整，得到目标视频。

第二方面，本申请实施例公开一种数据处理装置，所述数据处理装置包括：

获取单元，用于获取摄制设备的测量数据以及摄制视频；

计算单元，用于将所述摄制视频输入预设的计算网络，得到对应的视频光流；

第一确定单元，用于根据所述测量数据确定所述摄制设备的初始姿态数据；

第二确定单元，用于基于预设的姿态预测模型，根据所述视频光流和所述初始姿态数据确定在摄制所述摄制视频时所述摄制设备的目标姿态数据；

调整单元，用于根据所述初始姿态数据和所述目标姿态数据对所述摄制视频进行调整，得到目标视频。

第三方面，本申请实施例公开一种电子设备，该电子设备包括处理器和存储器，存储器存储有计算机程序，处理器调用计算机程序实现上述的数据处理方法。

第四方面，本申请实施例公开一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，程序代码被处理器调用实现上述的数据处理方法。

第五方面，本申请公开了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码被处理器运行时，使得上述通信方法被执行。

本申请实施例中，通过获取摄制设备的测量数据以及摄制视频；将摄制视频输入预设的计算网络，得到对应的视频光流；根据测量数据确定摄制设备的初始姿态数据；基于预设的姿态预测模型，根据视频光流和初始姿态数据确定摄制设备的目标姿态数据；根据初始姿态数据和目标姿态数据对摄制视频进行调整，得到目标视频。以此，通过融合传感器的测量数据和视频内容对摄制设备的目标姿态进行预测，并根据该目标姿态对摄制视频进行调整，得到稳像后的目标视频。在强视差变化、多动态前景遮挡、低质量视频等情况下，对视频数据的序列进行实时的稳定处理，提高了视频处理的效率，提升了对视频数据进行防抖、稳像处理的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种数据处理系统的系统架构示意图；

图2是本申请实施例公开的一种数据处理方法的流程示意图；

图3是本申请实施例公开的一种数据处理方法的一种具体场景的流程示意图；

图4是本申请实施例公开的另一种数据处理方法的流程示意图；

图5是本申请实施例公开的一种数据处理方法的一种具体场景的流程示意图；

图6是本申请实施例公开的一种数据处理方法的另一种具体场景的流程示意图；

图7是本申请实施例公开的一种数据处理装置的结构示意图；

图8是本申请实施例公开的一种电子设备的结构示意图；

图9是本申请实施例公开的一种计算机可读存储介质的结构示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地理解本申请实施例，下面先对系统架构图进行介绍。

请参阅图1，图1是本申请实施例公开的一种处理系统100的结构示意图。如图1所示，该处理系统100可以包括摄制设备110、数据处理器120以及传感器130。该摄制设备110可以与该数据处理器120数据连接。该数据处理器120可以独立于该摄制设备110，该数据处理器120还可以嵌入该摄制设备110。

其中，该摄制设备110可以是微型、中型、大型的摄制设备。该摄制设备110可以是摄影机、录像机等包含摄像头用于摄制视频的电子设备。该摄制设备110可以摄制清晰度为高清、超清、4K的摄制视频。该摄制设备110还可以摄制不同数据格式的摄制视频。

该数据处理器120可以用于获取摄制设备110采集到的视频数据，对摄制设备110获取的摄制视频和传感器130采集的测量数据进行处理得到相应的视频光流和姿态数据。该数据处理器120还可以根据计算到的视频光流和姿态数据对摄制设备110的稳定姿态数据进行预测，确定摄制设备110的目标姿态数据。该数据处理器120还可以根据目标姿态对摄制视频进行调整，得到目标视频。该数据处理器120可以包括计算网络，该计算网络可以用于根据摄制视频中的视频帧计算相应的视频光流。该数据处理器120还可以包括姿态预测模型，该姿态预测模型可以用于对摄制设备的稳定姿态进行预测，得到对应的目标姿态数据。

该传感器130可以是惯性传感器(Inertial Measurement Unit，IMU)，还可以是陀螺仪或旋转变压器等传感器装置。该传感器130可以固定安装在该摄制设备110的任意位置。该传感器130可以用于测量该摄制设备110与摄制视频对应的角速度、加速度和/或位移等数据。

作为一种实施方式，摄制设备110可以在动态拍摄过程中获取摄制视频，并将该摄制视频传输至数据处理器120。安装在摄制设备110上的传感器130可以在动态拍摄过程中测量对应的测量数据，并将该测量数据传输至该数据处理器120。该数据处理器120可以根据该摄制视频中的视频帧计算对应的视频光流，该数据处理器120还可以根据该测量数据计算该摄制设备110的初始姿态数据。该数据处理器120还可以根据计算到的视频光流和姿态数据对摄制设备110的稳定姿态进行预测，得到摄制设备110的目标姿态数据。该数据处理器120还可以根据摄制设备的初始姿态数据和目标姿态数据对摄制视频中的多个视频帧进行调整，得到目标视频。

需要说明的是，图1所示的系统架构仅仅是一个示例，并不对本申请实施例公开的技术方案构成限定。随着交互系统架构的演变和新的应用场景的出现，本申请实施例公开的技术方案对于类似的技术问题同样适用。

请参阅图2，图2是本申请实施例公开的一种数据处理方法的流程示意图。该数据处理方法可以应用于数据处理器。该数据处理方法可以包括以下步骤。

201、获取摄制设备的测量数据以及摄制视频。

在摄制设备动态拍摄的过程中，摄制设备、安装于摄制设备的传感器以及与摄制设备和传感器实现数据连接的数据处理器可以同时运行，以实现拍摄、计算、调整等步骤同时进行的实时视频稳像方法。其中，该摄制设备可以获取多帧图像，得到摄制视频；该传感器可以采集摄制设备在拍摄每帧图像时对应的传感器数据，得到相应的测量数据。

需要说明的是，摄制设备拍摄的摄制视频可以包括至少两帧的多帧图像，该多帧图像基于摄制设备在预设拍摄时长内的动态拍摄。例如，拍摄1秒可以得到24帧图像。该测量数据可以包括摄制设备的加速度、角速度和/或位移等数据。

可以理解的是，该传感器可以是固定安装在摄制设备任意位置的传感器，摄制设备在动态拍摄过程中带着传感器进行运动，传感器采集的测量数据能够表征摄制视频在拍摄空间中的具体动态内容。由此，传感器采集的测量数据和摄制视频中的每帧图像按照拍摄时长内的预设时间点对应。其中，拍摄时长内的预设时间点可以根据调整。具体地，拍摄时长可以是指摄制视频的视频时长，预设时间点可以是指在该摄制视频采集测量数据对应的时间点。例如，在1秒的摄制视频中，可以采集24帧图像中的每一帧图像对应的测量数据，则该时间点为1/24秒；在1秒的摄制视频中，还可以采集24帧图像中的每三帧图像对应的测量数据，则对应的时间点为3/24(1/8)秒。

另外，该摄制设备还可以将拍摄的摄制视频传输至该数据处理器；该传感器可以将采集的测量数据传输至数据处理器。该数据处理器可以接收摄制设备的摄制视频以及传感器的测量数据。

202、将摄制视频输入预设的计算网络，得到对应的视频光流；

摄制视频可以包括多帧图像。在数据处理器接收到摄制视频的第一帧图像的情况下，即摄制视频中的当前图像帧不存在前序的图像帧，将该当前图像帧作为稳定的图像帧，无需对该当前图像进行处理。

在数据处理器接收到该摄制视频中的目标图像帧后，还可以对该摄制视频中的多帧图像进行处理，计算得到每个摄制视频对应的视频光流。该目标图像帧可以是指在动态拍摄的过程中获取的除第一帧图像的任一帧图像。例如，第二帧图像。该视频光流是指在拍摄对象与摄制设备的相对运动中，拍摄的连续多帧图像(连续图像帧序列)之间各像素点的变化矢量，该变化矢量可以包括变化方向和位移。

数据处理器可以根据该摄制视频进行处理，得到对应的图像帧序列，根据图像帧序列中的每一帧图像计算得到摄制视频对应的变化矢量。具体地，可以按照顺序采集摄制视频的多帧图像中的任意图像帧，生成对应的连续图像帧序列。将该连续图像帧输入预设的计算网络，基于该计算网络提取连续图像帧序列中每一图像帧的特征，并根据每一图像帧的特征计算连续图像帧序列中每相邻两帧之间的偏移光流，得到对应的视频光流。其中，连续图像帧序列可以通过取摄制视频中的每一帧图像，得到对应的第一图像序列；还可以按照相同间隔数值提取摄制视频中的图像帧，得到对应的第二图像序列；还可以按照预设的不同间隔数值生成的间隔规则提取摄制视频的图像帧，得到第三图像序列。

示例性地，在摄制视频中可以在拍摄车辆运动的第1帧图像至第100帧图像中选取1-100帧的每一帧，得到第一图像帧序列。还可以在第1帧图像至第100帧图像中选取每隔一帧图像的图像帧，得到第二图像帧序列。还可以在该摄制视频中车辆运动较快，即场景、视差变化较大(图像帧中每一像素点与相邻图像帧的差异较大)的情况下，选取每一帧的图像帧，得到第一部分图像帧序列；在摄制视频中车辆运动较平缓，即场景、视差变化较小的情况下，选取每隔两帧图像的图像帧，得到第二部分图像帧序列，通过组合第一部分图像帧序列和第二部分图像帧序列得到第三图像帧序列。

以此，该视频光流可以是摄制视频中结束帧与起始帧之间的变化矢量，还可以是摄制视频对应的图像帧序列中每相邻两帧图像之间的变化矢量。需要说明的是，通过计算当前图像帧与前序的图像帧之间的视频光流，可以确定当前图像帧与前序的图像帧之间的变化矢量。即，该变化矢量可以用于表征前序图像帧向当前图像帧变化时的变化方向和位移。而根据该视频光流可以对当前图像帧的后续图像帧的变化方向和位移进行预测，从而确定摄制设备当前图像帧的后续图像帧在动态拍摄过程中的变化矢量(移动方向和位移)。

在另一些实施例中，该摄制视频可以包括多帧图像，还可以包括两帧图像。在该摄制视频中多帧图像或两帧图像的第一帧和最后一帧分别为起始帧和结束帧。该视频光流可以是根据摄制视频的起始帧和结束帧计算得到的变化矢量，该变化矢量可以是指摄制视频从起始帧到结束帧的两帧图像中每一像素点的变化方向和位移。具体地，可以对连续多帧图像中的结束帧图像(连续多帧图像中的最后一帧图像，即当前帧)与连续多帧图像中的起始帧(连续多帧图像中除结束帧图像的任一帧图像)进行特征计算，以确定对应的变化矢量。其中，摄制视频的起始帧与结束帧可以根据预设的光流密度确定。该光流密度可以由用户设置和调整。该光流密度可以包括密集光流和稀疏光流，该密集光流可以计算每帧每个像素的光流矢量，以提升图像特征提取的准确性。该稀疏光流可以按照调整的密度值计算每隔若干图像帧之间的光流矢量，以减少数据处理的时间成本。

示例性地，在摄制车辆的运动过程中，可以根据车辆的第10帧图像与第9帧图像确定车辆在相邻两帧图像之间各个像素点的变化方向和位移。在摄制车辆的运动过程中，还可以根据车辆的第10帧图像与第8帧图像确定车辆在以第8帧图像为起始帧、第10帧图像为结束帧的两帧图像中每一像素点从起始帧至结束帧的变化矢量。

203、根据测量数据确定摄制设备的初始姿态数据；

在数据处理器接收到在拍摄该摄制视频时对应的测量数据后，还可以将对该测量数据进行处理，计算得到在拍摄该摄制视频时摄制设备对应的初始姿态数据。摄制设备的初始姿态数据是指根据摄制设备在拍摄摄制视频中对应图像帧时采集到的测量数据计算得到的原始姿态数据，该初始姿态数据是未调整的姿态数据。

该数据处理器还可以计算摄制设备在拍摄图像时对应的姿态数据。需要说明的是，在数据处理器接收到摄制视频的第一帧图像的情况下，即摄制视频中的当前图像帧不存在前序的图像帧的情况下，可以将该当前图像帧对应时刻的摄制设备的姿态数据作为稳定的姿态数据，无需对该姿态数据进行处理。

在数据处理器接收到该摄制视频中的目标图像帧对应的测量数据后，根据该测量数据计算对应视频帧的初始姿态数据。具体地，数据处理器可以接收在拍摄该视频帧到传感器采集的加速度、角速度和/或位移等数据。可以根据以该视频帧为结束帧的起始帧对应的测量数据以及该视频帧对应的测量数据进行计算，得到该视频帧对应的初始姿态数据。在另一些实施例中，还可以根据图像帧序列中当前视频帧前一帧图像对应的测量数据进行计算得到当前帧对应的初始姿态数据。

该初始姿态数据可以是结束帧(当前帧)根据对应的测量数据计算得到的原始姿态数据，还可以是摄制视频对应的图像帧序列中除去第一帧图像的每帧图像根据对应的测量数据计算得到的初始姿态数据。

204、基于预设的姿态预测模型，根据视频光流和初始姿态数据确定摄制设备的目标姿态数据；

该目标姿态数据可以是在根据测量数据计算摄制设备对应的初始姿态数据后，对初始姿态数据进行调整后的稳定状态下的姿态数据。该目标姿态数据可以是基于深度学习的姿态预测模型，根据视频流光和初始姿态数据对摄制设备的稳定姿态进行预测得到的姿态数据。

具体地，视频光流可以确定在图像帧序列中当前图像帧与前一图像帧之间每一像素的变化矢量，进而可以根据该视频光流预测在图像帧序列中当前图像帧与后一图像帧之间的变化矢量。初始姿态数据可以表示在拍摄该摄制视频中每帧图像的过程中对应的姿态数据。

基于该姿态预测模型中的卷积神经网络(Convolutional Neural Network，CNN)对根据视频光流和初始姿态数据确定的计算参数进行编码；基于该姿态预测模型中的长短期记忆网络(Long Short-Term Memory，LSTM)对编码结果进行计算，得到对应的预测姿态数据；基于该姿态预测模型中的全连接层(Fully Connected，FC)对计算结果进行解码，实现对稳定姿态的预测，得到对应的目标姿态数据。

在另一些实施例中，还可以基于该姿态预测模型计算该目标姿态数据的损失因子。在该目标姿态数据的目标损失达到预设条件的情况下，得到用于调整摄制设备的目标姿态数据。其中，该目标姿态数据可以是摄制设备的姿态四元数，该姿态四元数可以以多元复数的方式表示该摄制设备在空间坐标上的朝向和位置。具体地，可以基于预设的损失计算规则计算该目标姿态数据损失因子。其中，损失计算规则可以根据姿态数据的稳定性、平滑性、边缘损失、变形程度以及平移值计算得到的姿态数据。

需要说明的是，该姿态预测模型计算损失因子的训练过程可以包括：获取样本训练数据，样本训练数据包括目标姿态数据对应的第一图像和稳定状态下的第二图像；将样本训练数据输入训练网络，得到第一图像和第二图像的图像差；根据图像差计算对应的目标损失；根据目标损失优化训练网络，得到姿态预测模型。

具体地，可以定义平滑损失函数L₁用于评价摄制设备目标姿态数据对应的图像帧的稳定性和平滑性：

L₁＝‖R_s(t)-R_s(t-Δt)‖²

其中，R_s(t)是指在采样时刻t摄制设备的旋转角度，‖R_s(t)-R_s(t-Δt)‖用于约束摄制设备的旋转角度在R_s(t)至R_s(t-Δt)的范围内。

还可以定义边缘损失函数L₂用于评价目标姿态数据对应的图像帧与真实状态下的姿态数据对应的图像帧的边缘突出值：

其中，w_p,i是在稳定状态下的姿态数据对应的图像帧为中心的高斯正态分布权重系数，α是目标姿态数据对应的图像帧可突出的边缘最大值，prot函数用于评价目标姿态数据对应的图像帧裁剪后超过稳定状态下的姿态数据对应的图像帧边缘的系数，P_s(t)是指在采样时刻t的用于表示摄制设备的朝向和位移数据(姿态数据)，P_o(t+iΔt)是指在采样时刻t之后的某个时刻的朝向和位移数据。

还可以定义变形损失函数L₃用于评价目标姿态数据对应的图像帧的变形程度：

其中，Ω(R_s,R_o)是目标姿态数据和稳定状态下姿态数据之间的夹角，β₀是一个夹角阈值，β₁是控制变形函数斜率的一个参数。

还可以定义平移损失函数L₄使相邻帧的平移运动最小化：

其中，x_o,n和y_o,n+1是摄制设备在稳定状态下在空间中相邻两帧图像中的平移对应像素点。t时刻视频帧像素点(x_t,y_t)的二维偏移量S(t)由视频光流和加速度数据计算出的平移融合得到，表示为S(t)＝αΔT+βΔI。T为根据加速度数据计算出的平移，I为视频光流，α，β为相关权重系数。Tr为摄制设备在稳定状态下在空间到稳像后摄像机空间的变换。其中x_s,n＝Tr_n(x_o,n),y_s,n+1＝Tr_n+1(y_o,n+1),为前向平移，为后向平移，稳像后像素点可以表示为：

最终的目标损失由上述步骤定义的平滑损失函数L₁、边缘损失函数L₂、变形损失函数L₃和平移损失函数L₄进行加权计算得到，具体如下：

L＝w₁L₁+w₂L₂+w₃L₃+w₄L₄

其中，w₁，w₂，w₃，w₄分别是平滑损失、边缘损失、变形损失和平移损失的权重值，在网络训练阶段，可以采用多种损失计算方式(损失函数)来训练网络，在第一训练阶段，可以对最小化平滑损失函数L₁和变形损失函数L₃进行训练；在第二训练阶段，可以加入边缘损失函数L₂进行训练；再加入平移损失函数L₄进行训练，使目标损失达到最小。

205、根据初始姿态数据和目标姿态数据对摄制视频进行调整，得到目标视频。

用稳定姿态对当前视频帧进行稳像变换，形成稳像视频。通过将真实摄像机空间中的点转换为虚拟空间中的点，可以实现将摄像机的真实姿态向稳定摄像机姿态进行变换，从而实现对稳像视频帧的变换。

参照图3，图3为本申请提供的另一种实施方式的具体流程图。具体地，在获取数据后对该数据进行预处理，其中，数据包括视频帧数据和测量数据。采用深度学习的方法根据该视频帧数据计算光流；根据该测量数据计算原始姿态和稳定姿态的历史数据；根据该光流、原始姿态以及状态历史数据预测摄像机的稳定姿态；并根据该稳定姿态对当前视频帧进行稳像变换，形成稳像视频。

在图2所描述的方法实施例中，通过获取摄制设备的测量数据以及摄制视频；将摄制视频输入预设的计算网络，得到对应的视频光流；根据测量数据确定摄制设备的初始姿态数据；基于预设的姿态预测模型，根据视频光流和初始姿态数据确定摄制设备的目标姿态数据；根据初始姿态数据和目标姿态数据对摄制视频进行调整，得到目标视频。以此，通过融合传感器的测量数据和视频内容对摄制设备的目标姿态进行预测，并根据该目标姿态对摄制视频进行调整，得到稳像后的目标视频。在强视差变化、多动态前景遮挡、低质量视频等情况下，对视频数据的序列进行实时的稳定处理，提高了视频处理的效率，提升了对视频数据进行防抖、稳像处理的效果。

请参阅图4，图4是本申请实施例公开的另一种数据处理方法的流程示意图。该数据处理方法可以包括以下步骤。

401、获取摄制设备的测量数据以及摄制视频。

其中，步骤401具体实现过程可参见上述图1所对应实施例中对步骤101的描述，这里将不再继续进行赘述。

402、对加速度数据进行预处理，得到摄制设备对应的位移。

在对测量数据进行与处理之前，数据处理器可以从传感器采集测量数据，该测量数据包括加速度数据和角速度数据。该加速度数据和角速度数据可以分别表示为：

a＝(a_x,a_y,a_z,t)

ω＝(ω_x,ω_y,ω_z,t)

其中，a_x,a_y,a_z为在空间坐标系三个轴向上的加速度值，ω_x,ω_y,ω_z为在空间坐标系中三个轴向上的角速度值，t为加速度以及角速度对应的传感器时间戳。

在数据处理器获取传感器的测量数据后，分别对加速度数据和角速度数据进行预处理，其中，对该加速度进行预处理可以是确定摄制设备在传感器时间戳对应的位移值。具体地，将加速度数据由时域数据转化为频域数据，得到第一频域值集；基于滤波器从第一频域值集中筛选有效值，得到第二频域值集；将第二频域值集由频域数据转化为时域数据，得到摄制设备在不同时刻的位移。

对于加速度信号a的具体计算过程如下，经傅立叶变换得到其频域值：

一次积分得：

二次积分得：

其中，A(k)为加速度a的频域转换；V(r)为速度v的频域转换；S(r)为位移s的频域转换；j为虚数单位。

在上述计算得到的频域转换的加速度a、速度v以及位移s对应的频谱中，可以基于预设的滤波器对频谱进行筛选，得到各频谱中的有效值集，具体如下：

其中，H(k)为滤波器；Δf为频率的分辨率；f_m为下限截止频率；f_n为上限截止频率。

进一步地，在完成对频谱的筛选后，将加速度a、速度v以及位移s对应的频域积分结果(频谱)通过傅里叶逆变换，得到时域的积分结果，即位移。另外，还可以通过计算摄制设备在相邻两帧图像之间的位移之差得到摄制设备的平移。

403、对角速度数据进行预处理，得到摄制设备对应的旋转角度。

进一步地，对于角速度数据ω的预处理过程可以是根据角速度数据确定摄制设备在不同时刻的旋转角度。

其中角速度数据可以表示为(ω_x,ω_y,ω_z,t)，ω为角速度，摄制设备的旋转角度可以表示为：

R(t)＝Sω(t)*R(t-S)

其中，S指的是采样间隔时间，R(t)可以是四元数。

404、将摄制视频输入第一计算网络，得到第一光流。

在数据处理器获取包括多帧图像的摄制视频后，可以将摄制视频对应的图像帧序列(有序的多帧图像)中的至少两帧图像发送至计算网络中进行计算，得到对应的视频光流。其中，计算网络可以包括第一计算网络和第二计算网络，该第一计算网络为串行结构的计算网络，该第二计算网络为并行结构的计算网络。

第一计算网络可以基于FlowNetS-FlowNetC-FlowNetS的串行网络结构对摄制视频对应的图像帧序列进行计算，得到图像帧序列中多帧图像之间相对较大偏移量的第一光流。具体地，该第一计算网络可以包括两个计算分支，其中，第一个计算分支可以计算出输入的至少两帧图像对应的光流；第二个计算分支可以计算出该光流的置信度。在计算得到多帧图像对应的光流和光流的置信度后，可以根据光流的置信度对光流进行联合训练，得到更加稳定、更高精度的光流。其中，该第一计算网络可以包括结构编码器，基于结构编码器将摄制视频中的多帧图像划分为多个尺度，得到多个尺度中每个尺度对应的图像；提取多个尺度对应的图像的图像特征；根据图像特征通过多次卷积和反卷积操作计算多帧图像的偏移光流，得到第一光流。

405、将摄制视频输入第二计算网络，得到第二光流，该第二光流的偏移量小于第一光流的偏移量。

第二计算网络可以是基于FlowNet-SD的并行网络结构对多个图像帧进行计算，得到对应的偏移量较小的第二光流。具体地，该FlowNet-SD并行网络结构能够对图像进行更加细致的处理，得到偏移量较小的偏移光流。

406、将第一光流和第二光流进行复合，得到摄制视频对应的视频光流。

将较大偏移量的第一光流和较小偏移量的第二光流进行复合得到最终的视频光流。具体地，将第一光流和第二光流进行复合可以是将较大偏移量和较小偏移量的光流在平面维度进行复合计算，融合多帧视频对应的视频光流的光流偏移量，以得到较为精确的视频光流。

参照图5，图5为计算网络的具体流程示意图。具体地，至少两帧的多个图像帧可以输入第一计算网络和第二计算网络。第一计算网络可以是由FlowNetS-FlowNetC-FlowNetS组成的串行结构网络，能够将图像进行横向拓展并计算出相对较大偏移量的光流。第二计算网络可以是FlowNet-SD的串行结构网络，能够计算多个图像帧中相邻两帧图像相对较小偏移量的光流。将偏移量相对较大的光流和偏移量相对较小的光流进行复合，得到基于多个图像帧计算得到的视频光流。

407、根据位移确定摄制设备的二维偏移量。

进一步地，在对测量数据中的加速度进行预处理，并得到摄制设备对应的位移后，还可以根据摄制设备的位移计算摄制设备的二维偏移量。其中，该二维偏移量可以是摄制设备在拍摄空间中的位移量映射至二维空间中的偏移量。

可以将t时刻的摄制设备的二维偏移量S(t)定义为：

S(t)＝αΔT+βΔI

其中，T为步骤1中通过加速度数据计算出的平移，I为上述步骤提取到的视频光流，α，β为向平面映射的权重系数。

408、根据旋转角度和二维偏移量，确定摄制设备的初始姿态数据。

进一步地，在对测量数据中的角速度进行预处理得到摄制设备对应的旋转角度后，可以根据摄制设备的旋转角度和二维偏移量确定摄制设备的初始姿态数据。需要说明的是，可以通过摄制设备旋转角度和平移来描述在三维空间中摄制设备的位置和朝向。由此，摄制设备的初始姿态数据可以表示为：

P_o＝(R_o,S_o)

其中，R_o表示相机的旋转，S_o是相机主点的二维偏移量。

409、获取目标图像对应的历史姿态数据集，该历史姿态数据集为多帧图像中处于目标图像之前的图像对应的姿态数据的集合，该目标图像为多帧图像中除第一帧图像之外的任一图像。

其中，姿态数据包括初始姿态数据和目标姿态数据，该历史姿态数据集包括第一历史姿态数据集和第二历史姿态数据集。获取目标图像对应的历史姿态数据集包括：获取多帧图像中处于目标图像之前的图像的初始姿态数据，得到第一历史姿态数据集；获取第一历史姿态数据集中多个初始姿态数据对应的多个目标姿态数据，得到第二历史姿态数据集；根据映射参数、第一历史姿态数据和第二历史姿态数据集确定动态参数预测值组。

示例性地，对于包括多帧图像的摄制视频的当前图像帧，可以采用当前图像帧对应时刻的初始姿态数据、在当前图像帧前M帧的M帧图像对应的初始姿态数据构成第一历史姿态数据集，可以具体表示为：

H_o＝(P_o(t-MΔt),…,P_o(t),…,P_o(t+MΔt))

其中，Δt表示两帧之间的时间间隔。

第一历史姿态数据集中除当前图像帧对应的原始姿态数据的每一原始姿态数据都可以存在对应的目标姿态数据。目标姿态数据可以是一个用于稳像变换的四元数，即用于稳像变换的旋转R_s，可以具体表示为：

P_s＝R_s

进一步地，采用在当前图像帧的前M帧图像对应的目标姿态数据构成第二历史姿态数据集，可以具体表示为：

H_s＝(P_s(t-MΔt),…,P_o(t-Δt))

410、将视频光流由空间向平面映射，得到视频光流在低维的映射参数，该视频光流为视频光流中目标图像对应的光流；

可以将多个视频帧对应的视频光流输入至预设的卷积网络，基于该预设的卷积网络中具有2D卷积的编码器将该视频光流编码到隐空间，得到光流映射到低维的表示z。即，将多个图像帧对应的视频光流由立体空间向平面空间映射，得到视频光流在低维的映射参数。

411、根据映射参数和历史姿态数据集确定动态参数预测值组；

可以根据视频光流在低维的映射参数、第一历史姿态数据集和第二历史姿态数据集构建动态参数预测值组。该动态参数预测值组中可以包括当前图像帧对应的视频光流在低维的映射参数、在拍摄当前图像帧的初始姿态以及在拍摄当前图像帧对应的稳定状态下的姿态。该动态参数预测值组可以表示在当前图像帧对应的同一时间戳中所表示的光流、原始姿态和目标姿态。具体地，该动态参数预测值组可以具体表示为：

[z,Ho,Hs]

其中，z为视频光流在低维空间的映射参数，Ho为第一历史数据集中与该映射参数z对应的初始姿态数据，Hs为第二历史数据集中与该初始姿态数据Ho对应的目标姿态数据。

412、根据动态参数和姿态预测模型，确定目标图像对应的目标姿态，得到多帧图像对应的目标姿态数据。

具体地，可以将该动态参数预测值组输入姿态预测模型。该姿态预测模型可以是由卷积神经网络CNN、长短期记忆网络LSTM以及全连接层FC组成的深度学习网络。

参照图6，图6为姿态预测模型的具体流程示意图。其中，传感器采集的加速度数据和角速度数据与原始姿态历史数据可以生成对应的联合运动表示。多个图像帧对应的视频光流和联合运动表示可以输入姿态预测模型的卷积神经网络，通过该卷积神经网络进行编码。在长短期记忆网络中根据编码结果确定对应的预测姿态数据。通过全连接层对预测姿态数据进行解码，得到对应的目标姿态数据。

413、根据多帧图像对应的初始姿态数据和目标姿态数据对多帧图像进行调整，得到目标视频。

基于该目标姿态数据对摄制视频中的当前图像帧进行稳像变换，形成目标视频，该目标视频为稳定状态下的多帧图像组成的视频。具体地，可以通过将摄制设备在拍摄过程中的立体空间中的点转换为虚拟空间中的点，通过点到点的转换可以确定将摄像机的真实姿态向稳定摄像机姿态进行变换，从而实现对稳像视频帧的变换，得到目标视频。

对于摄制设备拍摄摄制图像中的图像帧的成像过程，真实立体空间的一个点X，其在2D图像中的投影点x为：

x＝K*R*X

其中，R为摄像机的旋转角度，K为摄制设备的内参矩阵f是摄制设备拍摄摄制视频时的焦距，(u,v)是摄像机主点。

根据摄制设备在拍摄过程中根据测量数据计算得到的初始姿态数据P_o＝(R_o,S_o)和基于姿态预测模型确定的目标姿态数据P_s＝R_s，实现摄制视频中每帧图像的每个像素点从原始点x_o到稳定点x_s的稳像变换公式具体如下：

基于上述稳像变换公式可以将摄制视频中每帧图像的每个像素点有原始点变换为稳像点，得到每个像素点实现稳像变化的每帧图像，进而得到对应的稳像视频。

在图4所描述的方法实施例中，通过获取摄制设备的测量数据以及摄制视频；将摄制视频输入预设的计算网络，得到对应的视频光流；根据测量数据确定摄制设备的初始姿态数据；基于预设的姿态预测模型，根据视频光流和初始姿态数据确定摄制设备的目标姿态数据；根据初始姿态数据和目标姿态数据对摄制视频进行调整，得到目标视频。以此，通过融合传感器的测量数据和视频内容对摄制设备的目标姿态进行预测，并根据该目标姿态对摄制视频进行调整，得到稳像后的目标视频。在强视差变化、多动态前景遮挡、低质量视频等情况下，对视频数据的序列进行实时的稳定处理，提高了视频处理的效率，提升了对视频数据进行防抖、稳像处理的效果。

应理解，上述不同实施例中相同或相应的信息可以相互参考。

请参阅图7，图7是本申请实施例公开的一种数据处理装置700的结构示意图。如图7所示，该数据处理装置700可以包括：

获取单元701，用于获取摄制设备的测量数据以及摄制视频；

计算单元702，用于将所述摄制视频输入预设的计算网络，得到对应的视频光流；

第一确定单元703，用于根据所述测量数据确定所述摄制设备的初始姿态数据；

第二确定单元704，用于基于预设的姿态预测模型，根据所述视频光流和所述初始姿态数据确定在摄制所述摄制视频时所述摄制设备的目标姿态数据；

调整单元705，用于根据所述初始姿态数据和所述目标姿态数据对所述摄制视频进行调整，得到目标视频。

在一些实施例中，该数据处理装置700还可以包括：

预处理单元706：用于对所述加速度数据进行预处理，得到所述摄制设备对应的位移；

预处理单元706：还用于对所述角速度数据进行预处理，得到所述摄制设备对应的旋转角度；

在一些实施例中，该第一确定模块703可以具体用于：

根据所述位移确定所述摄制设备的二维偏移量；

根据所述旋转角度和所述二维偏移量，确定所述摄制设备的初始姿态数据。

在一些实施例中，该预处理模块706可以具体用于：

将所述加速度数据由时域数据转化为频域数据，得到第一频域值集；

基于滤波器从所述第一频域值集中筛选有效值，得到第二频域值集；

将所述第二频域值集由频域数据转化为时域数据，得到所述摄制设备在不同时刻的位移；

根据所述角速度数据确定所述摄制设备在不同时刻的旋转角度。

在一些实施例中，该第二确定模块704可以具体用于：

获取目标图像对应的历史姿态数据集，所述历史姿态数据集为所述多帧图像中处于所述目标图像之前的图像对应的姿态数据的集合，所述目标图像为所述多帧图像中除第一帧图像之外的任一图像；

将视频光流由空间向平面映射，得到所述视频光流在低维的映射参数，所述视频光流为所述视频光流中所述目标图像对应的光流；

根据所述映射参数和所述历史姿态数据集确定动态参数预测值组；

根据所述动态参数和所述姿态预测模型，确定所述目标图像对应的目标姿态，得到所述多帧图像对应的目标姿态数据。

在一些实施例中，该调整单元705可以具体用于：

根据所述多帧图像对应的初始姿态数据和目标姿态数据对所述多帧图像进行调整，得到目标视频。

在一些实施例中，所述姿态数据包括初始姿态数据和目标姿态数据，所述历史姿态数据集包括第一历史姿态数据集和第二历史姿态数据集，该第二确定模块704可以具体用于：

获取所述多帧图像中处于所述目标图像之前的图像的初始姿态数据，得到第一历史姿态数据集；

获取所述第一历史姿态数据集中多个初始姿态数据对应的多个目标姿态数据，得到第二历史姿态数据集；

根据所述映射参数、所述第一历史姿态数据和所述第二历史姿态数据集确定动态参数预测值组。

在一些实施例中，该数据处理装置600还可以包括：

训练单元707，用于获取样本训练数据，所述样本训练数据包括初始姿态数据对应的第一图像和目标姿态数据对应的第二图像；

训练单元707，还用于将所述样本训练数据输入训练网络，得到所述第一图像和第二图像的图像差；

训练单元707，还用于根据所述图像差计算对应的目标损失；

训练单元707，还用于根据所述目标损失优化所述训练网络，得到所述姿态预测模型。

在一些实施例中，所述计算网络包括第一计算网络和第二计算网络，所述第一计算网络为串行结构的计算网络，所述第二计算网络为并行结构的计算网络，该计算单元702可以具体用于：

将所述摄制视频输入所述第一计算网络，得到第一光流；

将所述摄制视频输入所述第二计算网络，得到第二光流，所述第二光流的偏移量小于所述第一光流的偏移量；

将所述第一光流和所述第二光流进行复合，得到所述摄制视频对应的视频光流。

在一些实施例中，所述第一计算网络包括结构编码器，该计算单元可以具体用于：

基于所述结构编码器将所述摄制视频中的多帧图像划分为多个尺度，得到所述多个尺度中每个尺度对应的图像；

提取所述多个尺度对应的图像的图像特征；

根据所述图像特征计算所述多帧图像的偏移光流，得到第一光流。

在一些实施例中，该调整单元705可以具体用于：

根据所述摄制设备的初始姿态数据确定所述摄制视频中图像帧对应的初始稳定点；

根据所述初始姿态数据和所述目标姿态数据计算所述摄制设备的目标稳定点；

将所述摄制视频的初始稳定点调整至所述目标稳定点，得到所述目标视频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所公开的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

如图8所示，本申请实施例还公开一种电子设备800的结构示意图，该电子设备800包括处理器810、存储器820，存储器820存储有计算机程序指令，计算机程序指令被处理器810调用时，可实执行上述的实施例公开的各种方法步骤。本领域技术人员可以理解，图中示出的电子设备的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器810可以包括一个或多个处理核。处理器810利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器820内的指令、程序、代码集或指令集，调用存储在存储器820内的数据，执行电池管理系统的各种功能和处理数据，以及执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选地，处理器810可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器810可集成中央处理器810(Central ProcessingUnit，CPU)、图像处理器810(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器810中，单独通过一块通信芯片进行实现。

存储器820可以包括随机存储器820(Random Access Memory，RAM)，也可以包括只读存储器820(Read-Only Memory)。存储器820图可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。相应地，存储器820还可以包括存储器控制器，以公开处理器810对存储器820的访问。

尽管未示出，电子设备800还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器810会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器820中，并由处理器810来运行存储在存储器820中的应用程序，从而实现前述实施例公开的各种方法步骤。

如图9所示，本申请实施例还公开一种计算机可读存储介质900，该计算机可读存储介质900中存储有计算机程序指令910，计算机程序指令910可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例公开的各种可选实现方式中公开的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取摄制设备的测量数据以及摄制视频；

根据所述测量数据确定所述摄制设备的初始姿态数据；

2.如权利要求1所述的方法，其特征在于，所述测量数据包括加速度数据和角速度数据，所述方法还包括：

对所述加速度数据进行预处理，得到所述摄制设备对应的位移；

对所述角速度数据进行预处理，得到所述摄制设备对应的旋转角度；

所述根据所述测量数据确定所述摄制设备的初始姿态数据包括：

根据所述位移确定所述摄制设备的二维偏移量；

3.如权利要求2所述的方法，其特征在于，所述对所述加速度数据进行预处理，得到所述摄制设备对应的位移包括：

所述对所述角速度数据进行预处理，得到所述摄制设备对应的旋转角度包括：

4.如权利要求2所述的方法，其特征在于，所述摄制视频包括多帧图像，所述基于预设的姿态预测模型，根据所述视频光流和所述初始姿态数据确定所述摄制设备的目标姿态数据包括：

根据所述动态参数和所述姿态预测模型，确定所述目标图像对应的目标姿态，得到所述多帧图像对应的目标姿态数据；

所述根据所述初始姿态数据和所述目标姿态数据对所述摄制视频进行调整，得到目标视频包括：

5.如权利要求4所述的方法，其特征在于，所述姿态数据包括初始姿态数据和目标姿态数据，所述历史姿态数据集包括第一历史姿态数据集和第二历史姿态数据集，所述获取目标图像对应的历史姿态数据集包括：

所述根据所述映射参数和所述历史姿态数据集确定动态参数预测值组包括：

6.如权利要求1所述的方法，其特征在于，所述姿态预测模型的训练过程包括：

获取样本训练数据，所述样本训练数据包括初始姿态数据对应的第一图像和目标姿态数据对应的第二图像；

将所述样本训练数据输入训练网络，得到所述第一图像和第二图像的图像差；

根据所述图像差计算对应的目标损失；

根据所述目标损失优化所述训练网络，得到所述姿态预测模型。

7.如权利要求1所述的方法，其特征在于，所述计算网络包括第一计算网络和第二计算网络，所述第一计算网络为串行结构的计算网络，所述第二计算网络为并行结构的计算网络，所述将所述摄制视频输入预设的计算网络，得到对应的视频光流包括：

将所述摄制视频输入所述第一计算网络，得到第一光流；

8.如权利要求7所述的方法，其特征在于，所述第一计算网络包括结构编码器，所述将所述摄制视频输入所述第一计算网络，得到第一光流包括：

提取所述多个尺度对应的图像的图像特征；

9.如权利要求1所述的方法，其特征在于，所述根据所述初始姿态数据和所述目标姿态数据对所述摄制视频进行调整，得到目标视频包括：

10.一种数据处理装置，其特征在于，所述数据处理装置包括：

获取单元，用于获取摄制设备的测量数据以及摄制视频；

11.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序实现如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或计算机指令，当所述计算机程序或所述计算机指令被处理器运行时，实现如权利要求1-9任一项所述的方法。