CN113222810B

CN113222810B - 图像处理方法和图像处理装置

Info

Publication number: CN113222810B
Application number: CN202110558580.6A
Authority: CN
Inventors: 赵明瑶; 闫嵩
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2024-11-05
Anticipated expiration: 2041-05-21
Also published as: CN113222810A

Abstract

本发明实施例公开了一种图像处理方法和图像处理装置。本发明实施例获取包括原始形象的第一图像序列以及包括预定形象的第二图像，并根据第二图像的大小确定第一图像序列中各第一图像对应的截取框的大小，进而基于各截取框截取对应的第一图像，得到第三图像，从而根据第二图像以及各第三图像，基于预定的图像处理模型得到包括具有原始形象的姿态的预定形象的目标图像序列。本发明实施例根据预定形象的图像大小确定视频中各帧图像的截取框大小，以对各帧图像中的原始形象进行截取，使得截取到的原始形象与预定形象的大小更加接近，从而可以有效提升形象替换效果。

Description

图像处理方法和图像处理装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种图像处理方法和图像处理装置。

背景技术

随着互联网和计算机技术的不断普及，越来越多的用户选择通过互联网观看线上视频。为了增加视频的趣味性，线上视频播放平台可以将视频中的原始形象替换为其他形象(例如，卡通形象)。但现有的图像处理方法在将视频中的原始形象替换为其他形象时，替换效果不佳。

发明内容

有鉴于此,本发明实施例的目的在于提供一种图像处理方法和图像处理装置，用于根据预定形象的图像大小确定视频中各帧图像的截取框大小，以对各帧图像中的原始形象进行截取，使得截取到的原始形象与预定形象的大小更加接近，从而提升形象替换效果。

根据本发明实施例的第一方面，提供一种图像处理方法，所述方法包括：

获取第一图像序列，所述第一图像序列包括多个第一图像，且各所述第一图像均包括原始形象；

获取第二图像，所述第二图像包括预定形象；

根据所述第二图像的大小确定各所述第一图像对应的截取框的大小，并基于各所述截取框截取对应的所述第一图像，以获取第三图像序列，所述第三图像序列包括多个第三图像，且各所述第三图像均包括所述原始形象；

根据所述第二图像以及各所述第三图像，基于预定的图像处理模型得到目标图像序列，所述目标图像序列中的各目标图像均包括目标形象，所述目标形象为具有所述原始形象的姿态的所述预定形象。

根据本发明实施例的第二方面，提供一种图像处理装置，所述装置包括：

第一序列获取单元，用于获取第一图像序列，所述第一图像序列包括多个第一图像，且各所述第一图像均包括原始形象；

第二序列获取单元，用于获取第二图像序列，所述第二图像序列包括至少一个第二图像，且各所述第二图像均包括预定形象；

第三序列获取单元，用于根据所述第一图像的大小确定各所述第二图像对应的截取框的大小，并基于各所述截取框截取对应的所述第一图像，以获取第三图像序列；

第四序列获取单元，用于根据各所述第二图像以及所述第三图像序列中的各第三图像，基于预定的图像处理模型得到目标图像序列，所述目标图像序列中的各目标图像均包括目标形象，所述目标形象为具有所述预定形象的姿态的所述原始形象。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

本发明实施例获取包括原始形象的第一图像序列以及包括预定形象的第二图像，并根据第二图像的大小确定第一图像序列中各第一图像对应的截取框的大小，进而基于各截取框截取对应的第一图像，得到第三图像，从而根据第二图像以及各第三图像，基于预定的图像处理模型得到包括具有原始形象的姿态的预定形象的目标图像序列。本发明实施例根据预定形象的图像大小确定视频中各帧图像的截取框大小，以对各帧图像中的原始形象进行截取，使得截取到的原始形象与预定形象的大小更加接近，从而可以有效提升形象替换效果。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的线上教学活动的界面示意图；

图2是本发明第一实施例的图像处理方法的流程图；

图3是本发明第一实施例的一种可选的实现方式中确定第一图像的截取框的流程图；

图4是本发明实施例的一种可选的实现方式中眼部关键点的示意图；

图5是本发明第一实施例的一种可选的方式中确定第一图像对应的截取框的示意图；

图6是本发明第一实施例的一种可选的实现方式中获取第三图像序列的流程图；

图7是本发明第一实施例的目标截取区域与非目标截取区域的位置示意图；

图8是本发明第一实施例根据第三图像与第二图像得到目标图像的示意图；

图9是本发明第一实施例的一种可选的实现方式中获取目标图像的示意图；

图10是本发明第二实施例的图像处理装置的示意图；

图11是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明实施例中，以第一图像序列为线上教学活动中录制的、包括教学者的面部的图像序列为例进行说明。但是本领域技术人员容易理解，本发明实施例的第一图像序列还可以为包括至少一个形象(包括人物、动物等)的任意图像序列，本发明实施例不做限定。

随着互联网和计算机技术的不断普及，越来越多的用户选择通过互联网观看线上视频。网上教学活动使得教学者可以通过线上的方式向学习者教授知识，大大提升了教学过程的灵活度，因此受到越来越多教学者和学习者的欢迎。为了增添学习过程的趣味性，在播放预先录制的教学视频或在教学者教学过程中实时录制的教学视频时，可以借助表情迁移、动作迁移等方式将教学者的形象替换为其他形象，例如，卡通形象、经过授权的真实人物的形象等。

图1是本发明实施例的线上教学活动的界面示意图。如图1所示，学习者正在进行线上教学活动时，终端界面可以显示用于展示线上教学活动的教学内容的窗口11、用于展示采集到的学习者的面部图像的窗口12以及用于展示采集到的教学者的面部图像以及肢体动作中的至少一项的教学视频的窗口13。为了增添学习者的学习兴趣，可以将教学视频中教学者的面部图像以及肢体动作中的至少一项与预定形象结合，生成包括目标形象的面部图像以及肢体动作中的至少一项的教学视频(也即，通过表情迁移以及动作迁移中的至少一项生成处理后的教学视频)，并通过窗口13播放处理后的教学视频。但在录制教学视频的过程中，教学者通常不会长时间停留在同一个位置，因此在教学视频中呈现出的教学者的大小始终是在变化的。而现有的图像处理方法在进行表情迁移和/或动作迁移时，通常较少考虑视频中教学者的大小，因此在将视频中的原始形象(也即，教学者的形象)替换为其他形象时，替换效果不佳。

图2是本发明第一实施例的图像处理方法的流程图。如图2所示，本实施例的方法包括如下步骤：

步骤S100，获取第一图像序列。

在本实施例中，第一图像序列也即教学视频。第一图像序列包括按照预定周期采集得到的多个第一图像，且各第一图像均包括原始形象，也即教学者的形象。本实施例目的在于对教学者的面部表情进行表情迁移，因此第一图像至少包括教学者的面部。

在一种可能的情况中，可以预先通过图像采集设备实时采集至少一次历史线上教学活动中教学者的图像序列，或者在其他任意情况下采集教学者的图像序列，并根据各图像序列对应的教学内容将各图像序列存储在数据库中。在后续的线上教学活动中，服务器可以根据正在进行的线上教学活动的教学内容从数据库中获取对应的第一图像序列。

在另一种可能的情况中，可以通过图像采集设备实时采集正在进行的线上教学活动中教学者的图像序列，并将采集到的图像序列作为第一图像序列。

步骤S200，获取第二图像。

在本实施例中，第二图像包括预定形象。其中，预定形象用于表征非教学者的形象，例如可以为卡通形象、经过授权的、真实的人物形象等。预定形象可以由学习者自行选择，可选地，终端可以响应于学习者针对预定形象的选择操作，向服务器发送针对预定形象的选择请求，使得服务器可以在接收到该请求后，确定包括预定形象的第二图像。

步骤S300，根据第二图像的大小确定各第一图像对应的截取框的大小，并基于各截取框截取对应的所述第一图像，以获取第三图像序列。

可选地，在本步骤前，为了保证表情迁移的迁移效果(也即，形象替换效果)，服务器可以预先对第二图像的大小进行剪裁处理，以使得预定形象的面部可以处于第二图像的中间位置，且预定形象的面部占剪裁后的第二图像的比例大于预定比例。

在本实施例中，第二图像为方形图像，第二图像的宽度和高度可以相同，也可以不同，为了便于描述，本实施例以第二图像的宽度和高度相同为例进行说明。为了使得截取到的原始形象与预定形象的大小更加接近，进一步提升形象替换效果，服务器基于第二图像的大小确定各第一图像对应的截取框的大小。容易理解，第三图像序列同样包括多个第三图像，且各第三图像均包括原始形象。

图3是本发明第一实施例的一种可选的实现方式中确定第一图像的截取框的流程图。如图3所示，在本实施例的一种可选的实现方式中，步骤S300可以包括如下步骤：

步骤S310，确定第一比值。

在本步骤中，服务器可以通过各种现有的方式对第二图像进行关键点检测，确定预定形象的眼部关键点位置，并根据预定形象的眼部关键点位置确定预定形象的眼距，进而将预定形象的眼距与第二图像的宽度的比值确定为第一比值。其中，眼距可以为两眼外宽、两眼内宽、眼裂宽(也即，同一眼的眼外角点至眼内角点之间的直线距离)或者瞳孔眼距，本实施例选择两眼内宽作为眼距。

可选地，服务器可以利用Dlib来通过关键点检测的方式确定预定形象的眼部关键点的位置，然后根据两眼的内眼角点的位置确定预定形象的眼距。Dlib是一个包含机器学习算法的C++开源工具包。在Dlib中，将人脸的五官和轮廓通过68个关键点来进行标识，其中关键点37-关键点48为Dlib中的眼部关键点。图4是本发明实施例的一种可选的实现方式中眼部关键点的示意图。图4所示的图像为人的眼部图像，关键点37-关键点48为眼部关键点。服务器可以计算两眼的眼内角点之间的距离，也即关键点40和关键点43之间的距离作为眼距。

步骤S320，对于各第一图像，基于对应的原始形象的眼距与第一比值确定对应的截取框的宽度。

在本步骤中，服务器同样可以通过各种现有的方式分别对各第一图像进行关键点检测，确定各第一图像中原始形象的眼部关键点位置，并根据各第一图像中原始形象的眼部关键点位置确定各第一图像中原始形象的眼距。进而，对于各第一图像，服务器可以根据对应的原始形象的眼距与第一比值确定对应的截取框的宽度。具体地，对于各第一图像，服务器可以将对应的原始形象的眼距与第一比值的比值确定为对应的截取框的宽度。

图5是本发明第一实施例的一种可选的方式中确定第一图像对应的截取框的示意图。如图5所示，图像51为第二图像，图像51的宽度为w1。服务器在确定第二图像中预定形象的眼距d1与第二图像的宽度w1的比值后，可以根据原始形象的眼距d2确定图像52，也即第一图像对应的截取框53的宽度w2＝d2*w1/d1。

步骤S330，确定第二比值。

在本步骤中，服务器可以通过各种现有的方式对第二图像进行关键点检测，确定预定形象的眼部关键点位置，并根据预定形象的眼部关键点位置确定预定形象的眼部中心点，进而确定预定形象的眼部中心点距第二图像的上边缘的最短距离为第一距离，从而将第一距离与第二图像的高度的比值确定为第二比值。其中，眼部中心点可以为两眼的眼外角点的中点、两眼的眼内角点的中点以及两眼瞳孔的中点，本实施例选择两眼的眼内角点的中点作为眼部中心点。

仍旧以图4所示的眼部关键点为例进行说明。服务器在确定两眼的眼内角点分别为关键点40和关键点43后，可以计算关键点40和关键点43的中点P作为预定形象的眼部中心点，中点P与关键点40的距离以及与关键点43的距离均为d。

容易理解，在本实施例的一种可选的实现方式中，步骤S310和步骤S330可以同时执行，也可以先后执行，本实施例不做限定。

步骤S340，对于各第一图像，基于对应的第二距离与第二比值确定对应的截取框的高度。

在本步骤中，服务器同样可以通过各种现有的方式分别对各第一图像进行关键点检测，确定各第一图像中原始形象的眼部关键点位置，并根据各第一图像中原始形象的眼部关键点位置确定各第一图像中原始形象的眼部中心点。进而，对于各第一图像，服务器可以确定对应的原始形象的眼部中心点距第一图像的上边缘的最短距离为第二距离，并根据对应的第二距离与第二比值确定对应的截取框的宽度。具体地，对于各第一图像，服务器可以将对应的第二距离与第二比值的比值确定为对应的截取框的高度。

仍旧以图5所示的截取框为例进行说明。如图5所示，图像51为第二图像，图像51的高度同样为w1，也就是说，图像51为边长为w1的正方形图像。服务器在确定第二图像中预定形象的眼部中心点距第二图像的上边缘的最短距离y1与第二图像的宽度w1的比值后，可以根据原始形象的眼部中心点距第二图像的上边缘的最短距离y2确定图像52，也即第一图像对应的截取框53的宽度w2＝y2*w1/y1。

在确定各第一图像对应的截取框的大小后，服务器可以按照第一图像序列中各第一图像的排序，基于各截取框截取对应的第一图像，获取各第一图像对应的第三图像，从而得到第三图像序列。

图6是本发明第一实施例的一种可选的实现方式中获取第三图像序列的流程图。如图6所示，在本实施例的一种可选的实现方式中，步骤S300还可以包括如下步骤：

步骤S350，对于各第一图像，基于对应的原始图像的眼部中心点的位置、对应截取框的宽度、对应的第二距离以及截取框的高度确定对应的截取区域。

在本实施例中，截取区域用于表征截取框相对于对应截取框相对于对应第一图像的位置。服务器可以确定截取区域的中心位置为第一图像中原始形象的眼部中心点的位置。仍旧以图5所示的截取框为例进行说明。第一图像中原始形象的眼部中心点的的坐标为(x,y)，服务器可以确定截取区域的宽度范围在[x-w2/2,x+w2/2]之间，高度范围在[y-w2*y1/w1,y+w2*(1-y1/w1)]之间。

步骤S360，确定当前第一图像。

在本步骤中，服务器可以按照第一图像序列中各第一图像的排序，将各第一图像分别确定为当前第一图像。

步骤S3A，确定当前第一图像是否为第一图像序列中的首个图像。

若是，执行步骤S370；若否，执行步骤S380。

步骤S370，按照截取区域截取所述第一图像，得到对应的第三图像。

若当前第一图像为第一图像序列中的首个图像，服务器可以直接按照该第一图像对应的截取区域对第一图像进行截取，得到该第一图像对应的第三图像。

步骤S380，确定目标截取区域与非目标截取区域的交并比。

在本实施例中，非目标截取区域为当前第一图像的前一第一图像对应的截取区域，交并比也即目标截取区域与非目标截取区域的重合范围(也即，交集)以及目标截取区域与非目标截取区域的整体范围(也即，并集)的比值。

图7是本发明第一实施例的目标截取区域与非目标截取区域的位置示意图。如图7所示，截取区域71为非目标截取区域，截取区域72为目标截取区域，其中区域A3为截取区域71与截取区域72的重合范围，区域A1为截取区域71中去除区域A3剩余的范围，区域A2为截取区域72中去除区域A3剩余的范围。服务器可以确定截取区域71与截取区域72的交集为区域A3，并确定截取区域71与截取区域72的并集为区域A1+区域A2+区域A3，从而可以确定截取区域71与截取区域72的交并比为区域A3/(区域A1+区域A2+区域A3)。

步骤S390，响应于交并比小于预定阈值，将当前第一图像的截取区域更新为非目标截取区域，并按照非目标截取区域截取当前第一图像，得到对应的第三图像。

若交并比小于预定阈值，表示原始形象的移动幅度并不大，因此服务器可以在目标截取区域与非目标截取区域的交并比小于预定阈值时，将当前第一图像的截取区域更新为非目标截取区域，并按照非目标截取区域截取当前第一图像，得到当前第一图像对应的第三图像。通过这种方式，可以使得原始形象呈现出移动状态，从而在后续使得目标形象可以呈现出移动状态，有效提升教学视频的真实性，并提升学习者的观感。

步骤S400，根据第二图像以及各第三图像，基于预定的图像处理模型得到目标图像序列。

在本实施例中，第二图像作为图像处理模型的源图像(source image)，各第三图像作为图像处理模型的驱动图像(driving image)，服务器可以将各第三图像与第二图像分别组成一个图像对，然后按照各第三图像的顺序将各图像对输入图像处理模型中，得到由多个目标图像组成的目标图像序列。其中，各目标图像均包括目标形象，且目标形象为具有原始形象的姿态的预定形象。可选地，姿态可以包括原始形象的动作、面部表情等的至少一项。容易理解，目标图像序列中目标图像的数量与第三图像序列中第三图像的数量相同。

图8是本发明第一实施例根据第三图像与第二图像得到目标图像的示意图。如图8所示，图像P1为驱动图像，也即第三图像，图像P1中的形象为原始形象，原始形象的面部表情为81。图像P2为源图像，也即第二图像，图像P2中的形象为预定形象，预定形象的面部表情为82。在将图像P1和图像P2组成一个图像对输入图像处理模型后，可以得到图像P3，也即目标图像。图像P3中的形象为目标形象，目标形象的面部表情为面部表情83，也就是说，面部表情83为原始形象的面部表情，且五官为预定形象的五官。

在本实施例中，图像处理模型属于视频合成模型的一种，具体可以为FOMMIA(First Order Motion Model for Image Animation，图像动画的一阶运动模型)。FOMMIA主要包括两个模块，分别为运动预测模块(motion estimation module)和图像生成模块(image generation module)。其中，运动预测模块用于预测从驱动视频的一帧(也即，驱动图像)D到源图像S的稠密运动场(dense motion field)，稠密运动场将D中的每个像素点映射到S中，可以用函数T_S←D:R²→R²表示，也即反向光流。运动预测模块包括两个子模块，分别为关键点检测器和稠密运动网络。

可选地，服务器可以基于《First Order Motion Model for Image Animation,Aliaksandr Siarohin,Stéphane Lathuilière,Sergey Tulyakov,Elisa Ricci,NicuSebe,Computer Vision and Pattern Recognition(cs.CV)；Artificial Intelligence(cs.AI),2020》中记载的方法训练图像动画的一阶运动模型。具体地，用于训练图像动画的一阶运动模型的训练样本中，各训练用图像所包括的形象与原始形象以及预定形象为同一类别的对象。例如，若用于实现动作迁移，则训练用图像所包括的形象均是在进行相同或不同动作；若用于实现表情迁移，则训练用图像所包括的形象均具有相同或不同的表情。

图9是本发明第一实施例的一种可选的实现方式中获取目标图像的示意图。如图9所示，形象91为预定形象，形象92为原始形象，服务器将包括形象91的驱动图像(也即，第三图像)和包括形象92的源图像(也即，第二图像)组成为图像对后，经过图像动画的一阶运动模型的处理，得到包括形象93的目标图像，形象93也即目标形象，形象93为具有形象92的姿态的形象91。

本实施例获取包括原始形象的第一图像序列以及包括预定形象的第二图像，并根据第二图像的大小确定第一图像序列中各第一图像对应的截取框的大小，进而基于各截取框截取对应的第一图像，得到第三图像，从而根据第二图像以及各第三图像，基于预定的图像处理模型得到包括具有原始形象的姿态的预定形象的目标图像序列。本实施例根据预定形象的图像大小确定视频中各帧图像的截取框大小，以对各帧图像中的原始形象进行截取，使得截取到的原始形象与预定形象的大小更加接近，从而可以有效提升形象替换效果。

图10是本发明第二实施例的图像处理装置的示意图。如图10所示，本实施例的装置包括第一序列获取单元101、第二图像获取单元102、第三序列获取单元103和目标序列获取单元104。

其中，第一序列获取单元101用于获取第一图像序列，所述第一图像序列包括多个第一图像，且各所述第一图像均包括原始形象。第二图像获取单元102用于获取第二图像，各所述第二图像包括预定形象。第三序列获取单元103用于根据所述第二图像的大小确定各所述第一图像对应的截取框的大小，并基于各所述截取框截取对应的所述第一图像，以获取第三图像序列，所述第三图像序列包括多个第三图像，且各所述第三图像均包括所述原始形象。目标序列获取单元104用于根据所述第二图像以及各所述第三图像，基于预定的图像处理模型得到目标图像序列，所述目标图像序列中的各目标图像均包括目标形象，所述目标形象为具有所述原始形象的姿态的所述预定形象。

图11是本发明第三实施例的电子设备的示意图。图11所示的电子设备为通用数据处理装置，具体可以为本发明实施例的第一终端、第二终端或服务器，其包括通用的计算机硬件结构，其至少包括处理器111和存储器112。处理器111和存储器112通过总线113连接。存储器112适于存储处理器111可执行的指令或程序。处理器111可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器111通过执行存储器112所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线113将上述多个组件连接在一起，同时将上述组件连接到显示控制器114和显示装置以及输入/输出(I/O)装置115。输入/输出(I/O)装置115可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置115通过输入/输出(I/O)控制器116与系统相连。

其中，存储器112可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取第二图像，所述第二图像包括预定形象；

根据预定形象的眼距、眼部中心点和第二图像的尺寸，生成与各第一图像适配的截取框，并基于原始形象的眼部中心点、对应的截取框尺寸和第二距离确定截取区域，以获取第三图像序列，所述第三图像序列包括多个第三图像，且各所述第三图像均包括所述原始形象；

根据所述第二图像以及各所述第三图像，基于预定的图像处理模型得到目标图像序列，所述目标图像序列中的各目标图像均包括目标形象，所述目标形象为具有所述原始形象的姿态的所述预定形象；

其中，所述根据预定形象的眼距、眼部中心点和第二图像的尺寸，生成与各第一图像适配的截取框包括：

确定第一比值，所述第一比值为所述预定形象的眼距与所述第二图像的宽度的比值，所述预定形象的眼距基于关键点检测确定；

对于各所述第一图像，基于对应的所述原始形象的眼距与所述第一比值确定对应的所述截取框的宽度；

确定第二比值，所述第二比值为第一距离与所述第二图像的高度的比值，所述第一距离为所述预定形象的眼部中心点距所述第二图像的上边缘的最短距离，所述预定形象的眼部中心点基于关键点检测确定；

对于各所述第一图像，基于对应的第二距离与所述第二比值确定对应的所述截取框的高度，所述第二距离为所述原始形象的眼部中心点距所述第一图像的上边缘的最短距离；

其中，所述基于原始形象的眼部中心点、对应的截取框尺寸和第二距离确定截取区域，以获取第三图像序列包括：

对于各所述第一图像，基于对应的所述原始形象的眼部中心点的位置、对应截取框的宽度、对应的所述第二距离以及所述截取框的高度确定对应的截取区域，所述截取区域用于表征对应截取框相对于对应第一图像的位置；

确定当前第一图像；

响应于当前第一图像为所述第一图像序列中的首个图像，按照所述截取区域截取所述第一图像，得到对应的所述第三图像；

响应于当前第一图像不为所述第一图像序列中的首个图像，确定目标截取区域与非目标截取区域的交并比，所述目标截取区域为当前第一图像对应的截取区域，所述非目标截取区域为前一第一图像对应的截取区域；

响应于所述交并比小于预定阈值，将当前第一图像的截取区域更新为所述非目标截取区域，并按照所述非目标截取区域截取所述当前第一图像，得到对应的所述第三图像。

2.根据权利要求1所述的方法，其特征在于，所述获取第二图像包括：

响应于接收到针对所述预定形象的选择请求，获取所述第二图像。

3.根据权利要求1所述的方法，其特征在于，所述图像处理模型为图像动画的一阶运动模型。

4.一种图像处理装置，其特征在于，所述装置包括：

第二图像获取单元，用于获取第二图像，各所述第二图像包括预定形象；

第三序列获取单元，用于根据预定形象的眼距、眼部中心点和第二图像的尺寸，生成与各第一图像适配的截取框，并基于原始形象的眼部中心点、对应的截取框尺寸和第二距离确定截取区域，以获取第三图像序列，所述第三图像序列包括多个第三图像，且各所述第三图像均包括所述原始形象；

目标序列获取单元，用于根据所述第二图像以及各所述第三图像，基于预定的图像处理模型得到目标图像序列，所述目标图像序列中的各目标图像均包括目标形象，所述目标形象为具有所述原始形象的姿态的所述预定形象；

其中，所述第三序列获取单元还用于：

确定当前第一图像；

5.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-3中任一项所述的方法。

6.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-3中任一项所述的方法。