CN114401446A - 人体姿态迁移方法、装置、系统、电子设备以及存储介质 - Google Patents
人体姿态迁移方法、装置、系统、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN114401446A CN114401446A CN202111547521.5A CN202111547521A CN114401446A CN 114401446 A CN114401446 A CN 114401446A CN 202111547521 A CN202111547521 A CN 202111547521A CN 114401446 A CN114401446 A CN 114401446A
- Authority
- CN
- China
- Prior art keywords
- human body
- migrated
- image
- posture
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000005012 migration Effects 0.000 title claims abstract description 53
- 238000013508 migration Methods 0.000 title claims abstract description 53
- 230000033001 locomotion Effects 0.000 claims abstract description 58
- 230000009471 action Effects 0.000 claims abstract description 53
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 210000000697 sensory organ Anatomy 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种人体姿态迁移方法、装置、系统、电子设备以及存储介质,该人体姿态迁移方法包括:获取待迁移人体图像中目标对象的纹理特征与源视频中源对象的动作特征;基于源视频与待迁移人体图像获取人体姿势转换流;基于纹理特征与人体姿势转换流,得到目标对象的矢量特征;判断矢量特征与预设真值之间的误差值是否大于第一预设值;若否,则基于矢量特征与动作特征生成目标视频。本申请能够简单高效的得到稳定的转换流预测结果,以使最终的生成结果更清晰和稳定。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种人体姿态迁移方法、人体姿态迁移装置、直播系统、电子设备以及计算机可读存储介质。
背景技术
现有技术中实现人体姿态迁移的技术方案有3D重建人体模型和驱动生成以及和2D关键点直接通过几何warp(或者网络学习warp)这两大类。其中,3D重建方案的计算量过大,需要消耗大量硬件资源,同时由于参数化模型导致生成的结果姿势僵硬不协调,造成生成的结果过于不真实,而2D关键点方案生成的结果会受转换流学习好坏影响,且影响程度较大。
发明内容
本申请至少提供一种人体姿态迁移方法、人体姿态迁移装置、直播系统、电子设备以及计算机可读存储介质。
本申请第一方面提供了一种人体姿态迁移方法,该人体姿态迁移方法包括:
获取待迁移人体图像中目标对象的纹理特征与源视频中源对象的动作特征;
基于源视频与待迁移人体图像获取人体姿势转换流;
基于纹理特征与人体姿势转换流,得到目标对象的矢量特征;
判断矢量特征与预设真值之间的误差值是否大于第一预设值;
若否,则基于矢量特征与动作特征生成目标视频。
其中,待迁移人体图像至少包括第一待迁移人体图像与第二待迁移人体图像,第一待迁移人体图像中的目标对象的动作与第二待迁移人体图像中的目标对象的动作不同,所述方法还包括:
获取第一待迁移人体图像中的目标对象的第一动作特征;
获取第二待迁移人体图像中的目标对象的第二动作特征;
基于第一动作特征与第二动作特征,计算得到预设真值。
其中,在基于矢量特征与动作特征生成目标视频的步骤之后,该人体姿态迁移方法还包括:
判断目标视频的置信度是否大于第二预设值;
若是,则输出目标视频;
若否,则基于目标视频,更新预设真值,返回获取待迁移人体图像中目标对象的纹理特征与源视频中源对象的动作特征的步骤。
其中,该人体姿态迁移方法还包括:
对待迁移人体图像进行姿态估计,得到第一姿态估计图;
基于第一姿态估计图,采集第一运动数据,其中,第一运动数据包括目标对象至少一个人体关键点的位置信息;
基于第一运动数据与标准人体姿态点,得到第一变换参数;
基于第一变换参数与第一姿态估计图,得到新的待迁移人体图像;其中,新的待迁移人体图像中的目标对象位于新的待迁移人体图像的中心位置。
其中,该人体姿态迁移方法还包括:
获取源视频中特定帧的图像,对特定帧的图像进行姿态估计,得到第二姿态估计图;其中,特定帧的图像包括源对象做出至少一个动作的静态影像;
基于第二姿态估计图,采集第二运动数据,其中,第二运动数据包括源对象至少一个人体关键点的位置信息;
基于第二运动数据与标准人体姿态点,得到第二变换参数;
基于第二变换参数与第二姿态估计图,得到新的图像;其中,新的图像中的源对象位于新的图像的中心位置。
其中,该人体姿态迁移方法还包括:
获取训练集内所有训练对象的图像,对所有训练对象的图像进行姿态估计,得到至少一个对应的姿态估计图;
基于至少一个对应的姿态估计图,采集每一姿态估计图的运动数据;其中,运动数据包括姿态估计图对应的训练对象至少一个人体关键点的位置信息;
平均所有姿态估计图的运动数据,得到标准人体姿态点。
本申请第二方面提供了一种人体姿态迁移装置,所述人体姿态迁移装置包括:
获取模块,用于获取待迁移人体图像中目标对象的纹理特征、源视频中源对象的动作特征、预设真值,以及基于源视频与待迁移人体图像获取人体姿势转换流;
第一计算模块,用于基于纹理特征与人体姿势转换流得到目标对象的矢量特征;
判断模块,用于判断矢量特征与预设真值之间的偏差值是否大于预设值;
第二计算模块,用于基于矢量特征与动作特征得到目标视频。
本申请第三方面提供了一种直播系统,直播系统包括主播端、观众端与服务器,直播系统通过主播端或观众端输入待迁移人体图像以及源视频,服务器根据待迁移人体图像以及源视频,并通过上述第一方面中人体姿态迁移方法得到目标视频。
本申请第四方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中人体姿态迁移方法。
本申请第五方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中人体姿态迁移方法。
区别于现有技术,本申请通过增加预设真值,以使人体姿态迁移方法实现监督训练相结合,能够简单高效的得到稳定的转换流预测结果,以使最终的生成结果更清晰和稳定。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请人体姿态迁移方法一实施例的第一流程示意图;
图2是本申请提供的图片风格迁移模型的一实施例的结构示意图;
图3是本申请人体姿态迁移方法一实施例的第二流程示意图;
图4是图1中步骤S14之前获取预设真值的具体流程示意图;
图5是本申请人体姿态迁移方法另一实施例的流程示意图;
图6是图5中步骤S33与步骤S43之前获取标准人体姿态点的具体流程示意图;
图7是本申请直播系统一实施例的框架示意图;
图8是本申请人体姿态迁移装置一实施例的框架示意图;
图9是本申请电子设备一实施例的框架示意图;
图10是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图和具体实施方式对本申请所提供的人体姿态迁移方法、人体姿态迁移装置、直播系统、电子设备以及计算机可读存储介质做进一步详细描述。可以理解的是,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
请参阅图1与图2,图1是本申请人体姿态迁移方法一实施例的第一流程示意图,图2是本申请提供的图片风格迁移模型的一实施例的结构示意图。
本申请人体姿态迁移方法的执行主体可以是一种轨迹规划装置,例如,轨迹规划方法可以由终端设备或服务器或其它处理设备执行,其中,轨迹规划装置可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无线电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该人体姿态迁移方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
具体而言,本公开实施例的人体姿态迁移方法可以包括以下步骤:
步骤S11:获取待迁移人体图像中目标对象的纹理特征与源视频中源对象的动作特征。
其中,待迁移人体图像与源视频均为用户所提供,用于将源视频中做出特定动作的源对象替换为待迁移人体图像中的目标对象,以使用户通过人体姿态迁移方法获得做出特定动作的目标对象的视频。
为实现将源对象替换为目标对象,需要确认源对象的动作特征以及目标对象的纹理特征,具体地,动作特征即为特定动作,例如特定的舞蹈动作;纹理特征为目标对象的区别于源对象的特征,具体可为肤色、五官、发型或皮肤状态等等。
可选地,待迁移人体图像可为一张人体照片,包含目标对象的所有纹理特征,例如一个人的正面全身照。源视频可为一段舞蹈视频,具体可为单人或多人进行跳舞的视频,其中包含待替换的源对象。
当源视频所包含对象为单人时,该对象即为源对象;当源视频所包含对象为多人时,需要确定源对象,具体可通过对源视频进行人体图像识别,得到源视频中所包含的所有人体图像,对每一张人体图像所包含对象进行动作识别,以确定进行特定动作的目标对象为源对象。
人体姿态迁移方法通过获取源对象的舞蹈动作以确定待替换的目标对象,通过获取目标对象的纹理特征,以将对应的纹理特征替换源对象的纹理特征,以实现人体姿态迁移。
具体地,本实施例通过E_src网络从待迁移人体图像提取目标对象的纹理特征X′,并通过E_tgt网络从源视频提取源对象的动作特征D′。
步骤S12:基于源视频与待迁移人体图像获取人体姿势转换流。
其中,人体姿势转换流包含从用户姿势到舞蹈姿势转换的相关信息,为人体姿态迁移中的重要参数。
步骤S13:基于纹理特征与人体姿势转换流,得到目标对象的矢量特征。
其中,本实施例通过E_flow网络从源视频与待迁移人体图像中提取出的人体姿势转换流T,然后将人体姿势转换流T作用于目标对象的纹理特征X′上,得到转换后的目标对象的矢量特征XT。
步骤S14:判断矢量特征与预设真值之间的误差值是否大于第一预设值。
其中,本实施例增设预设真值,然后将E_flow网络的生成结果,即将目标对象的矢量特征XT与预设真值计算误差值,以进行约束训练,以实现监督与训练的相结合。
具体地,本实施例根据目标对象的矢量特征XT与预设真值,计算L2范数损失函数(L2-Loss),即计算最小平方误差(LSE)。其中,最小平方误差是把目标值与估计值的差值的平方和最小化,即将矢量特征XT与预设真值的差值的平方和最小化。
若判断矢量特征与预设真值之间的误差值大于第一预设值,则返回步骤S11,若否则执行步骤S15。
步骤S15:若否,则基于矢量特征XT与动作特征生成目标视频。
当判断目标对象的矢量特征XT与预设真值之间的最小平方误差小于或等于第一预设值时,则证明目标对象的矢量特征XT的偏差在可控范围内,进一步通过D_tgt网络,基于矢量特征XT与源对象的动作特征生成目标视频。
当判断目标对象的矢量特征XT与预设真值之间的最小平方误差大于第一预设值时,证明目标对象的矢量特征XT存在较大误差,如果依旧使用该矢量特征XT,会对生成目标视频的纹理清晰度和视频稳定性产生影响,因此返回步骤S13,重新进行目标对象的纹理特征、源对象的动作特征、人体姿势转换流以及目标对象的矢量特征XT的获取。
在执行步骤S14之前,需要获取预设真值,具体获取过程请继续参阅图4,图4是图1中步骤S14之前获取预设真值的具体流程示意图。
具体而言,包括以下步骤:
步骤S21:获取第一待迁移人体图像中的目标对象的第一动作特征。
步骤S22:获取第二待迁移人体图像中的目标对象的第二动作特征。
步骤S23:基于第一动作特征与第二动作特征,计算得到预设真值。
其中,待迁移人体图像包括多个待迁移人体图像,每个待迁移人体图像中的目标对象的动作可相同或不同。
具体地,本实施例包括第一待迁移人体图像与第二待迁移人体图像,且第一待迁移人体图像中的目标对象的动作与第二待迁移人体图像中的目标对象的动作不同。可选地,第一待迁移人体图像中的目标对象的动作与源对象的动作不同,第二待迁移人体图像中的目标对象的动作与源对象的动作相同;或,第一待迁移人体图像中的目标对象的动作与源对象的动作相同,第二待迁移人体图像中的目标对象的动作与源对象的动作不同。
本实施例通过Flow_net网络分别获取第一待迁移人体图像与第二待迁移人体图像内目标对象的第一动作特征以及第二动作特征,并基于第一动作特征与第二动作特征计算得到预设真值。
可选地,在其它实施例中,多个待迁移人体图像包括多个动作不相同的目标对象,通过对多个待迁移人体图像中的目标对象的不同动作特征,根据多个动作特征计算得到预设真值。其中,多个动作特征中的至少一个动作特征与源对象的动作特征相同。
本实施例通过设置预设真值,实现对E_flow网络的预训练,能够提高E_flow网络的准确度,使其按照监督与训练相结合的方式简单高效的得到稳定的人体姿势转换流预测结果。
在上述实施例的基础上,还可对目标视频进行置信度的判断,请参阅图3,图3是本申请人体姿态迁移方法一实施例的第二流程示意图。
具体而言,本公开实施例的人体姿态迁移方法还可以包括以下步骤:
步骤S16:判断目标视频的置信度是否大于第二预设值。
其中,当通过D_tgt网络得到目标视频时,需进一步对目标视频的置信度进行判断,以判别目标视频是不是“真实的”。若判断结果为是,则执行步骤S18,若判断结果为否,则执行步骤S17。
步骤S17:若否,则基于目标视频,更新预设真值,返回步骤S11。
步骤S18:若是,则输出目标视频。
具体地,本实施例通过Dec网络进行置信度判断。其中,Dec网络的输入参数是目标视频,输出参数代表目标视频为真实视频的概率,如果输出参数为1,就代表100%是真实的视频,而输出参数为0,就代表不可能是真实的视频。
可选地,本实施例第二预设值设置为0.5,当Dec网络的输出参数大于0.5时,则证明Dec网络判断目标视频为真实视频,直接输出目标视频。当Dec网络的输出参数小于或等于0.5时,则证明Dec网络判断目标视频不可能是真实视频,进一步基于目标视频更新预设真值,返回步骤S11,以获取新的目标视频。
本实施例通过Dec网络对目标视频进行置信度判断,根据Dec网络的输出参数更新预设真值,以使输出的目标视频更“真实”。
为了更进一步提升E_flow网络的学习效果,本申请还提供另一实施例,请参阅图5,图5是本申请人体姿态迁移方法另一实施例的流程示意图。具体而言,本公开实施例的人体姿态迁移方法可以包括以下步骤:
步骤S31:对待迁移人体图像进行姿态估计,得到第一姿态估计图。
其中,在获取待迁移人体图像之后,需要对待迁移人体图像进行姿态估计,其中姿态估计方法可以有多种,可以是二维的姿态估计方法,也可以是三维的姿态估计方法,在这里本实施例对此不做具体限定。
步骤S32:基于第一姿态估计图,采集第一运动数据。
其中,本实施例根据第一姿态估计图得到对应的第一姿态T1,并从第一姿态T1采集目标对象的第一运动数据,第一运动数据包括目标对象至少一个人体关键点的位置信息。
人体关键点的位置信息用于定位目标对象在迁移人体图像中的头部位置以及肢体位置,包括但不限于头顶、五官、颈部以及四肢主要关节点等。可选地,在本实施例中,人体关键点主要包括颈部以及四肢主要关节点等七个姿态关键点。
步骤S33:基于第一运动数据与标准人体姿态点,得到第一变换参数。
其中,本实施例基于第一运动数据与标准人体姿态点进行仿射变换参数计算,以得到第一变换参数θ1。
步骤S34:基于第一变换参数与第一姿态估计图,得到新的待迁移人体图像。
其中,本实施例通过公式(1)将待迁移人体图像进行对齐变化,以使新的待迁移人体图像中的目标对象位于新的待迁移人体图像的中心位置。公式(1)具体如下所示:
X2=T(X1,θ) (1)
其中,X2为变化后的图像,X1为变化前的图像,θ为变化参数,本实施例在使用公式(1)时,将第一变换参数θ1与第一姿态T1分别输入公式(1)中,以获得新的待迁移人体图像。
步骤S41:获取源视频中特定帧的图像,对特定帧的图像进行姿态估计,得到第二姿态估计图。
其中,源视频为一段舞蹈视频,其包括多帧图像,但并非每一帧图像都会出现待替换的源对象,因此需要对多帧图像进行筛选,以得到特定帧的图像。具体地,特定帧的图像包括源对象做出至少一个动作的静态影像,并对特定帧的图像进行姿态估计,得到第二姿态估计图。
其中,姿态估计方法可以有多种,可以是二维的姿态估计方法,也可以是三维的姿态估计方法,在这里本实施例对此不做具体限定。
步骤S42:基于第二姿态估计图,采集第二运动数据。
其中,本实施例根据第二姿态估计图得到对应的第二姿态T2,并从第二姿态T2采集源对象的第二运动数据,第二运动数据包括源对象至少一个人体关键点的位置信息。
人体关键点的位置信息用于定位源对象在静态影像中的头部位置以及肢体位置,包括但不限于头顶、五官、颈部以及四肢主要关节点等。可选地,在本实施例中,人体关键点主要包括颈部以及四肢主要关节点等七个姿态关键点。
步骤S43:基于第二运动数据与标准人体姿态点,得到第二变换参数。
其中,本实施例基于第二运动数据与标准人体姿态点进行仿射变换参数计算,以得到第二变换参数θ2。
步骤S44:基于第二变换参数与第二姿态估计图,得到新的图像。
其中,本实施例通过公式(1)将特定帧的图像进行对齐变化,以使新的图像中的源对象位于新的图像的中心位置。本实施例在使用公式(1)时,将第二变换参数θ2与第二姿态T2分别输入公式(1)中,以获得新的图像。
可选地,本申请可同时执行步骤S31与S41,或按时许先后执行步骤S31与S41,例如先执行步骤S31-S34,再执行步骤S41-S44;或先执行步骤S41-S44,再执行步骤S31-S34,本申请对此不做限定。
另外,在执行步骤S33与步骤S43之前,需要获取标准人体姿态点,具体获取过程请继续参阅图6,图6是图4中步骤S33与步骤S43之前获取标准人体姿态点的具体流程示意图。具体而言,包括以下步骤:
步骤S51:获取训练集内所有训练对象的图像,对所有训练对象的图像进行姿态估计,得到至少一个对应的姿态估计图。
其中,训练集包括所有输入的待迁移人体图像内的目标对象以及所有源视频内说包含的对象的总集合,其中的任一对象均为训练对象,本实施例对每一个训练对象的对应图像进行姿态估计,得到至少一个对应的姿态估计图。
步骤S52:基于至少一个对应的姿态估计图,采集每一姿态估计图的运动数据。
其中,本实施例根据至少一个对应的姿态估计图得到每一训练对象对应的姿态,并从该姿态采集该训练对象的运动数据,运动数据包括训练对象至少一个人体关键点的位置信息。
人体关键点的位置信息用于定位源对象在静态影像中的头部位置以及肢体位置,包括但不限于头顶、五官、颈部以及四肢主要关节点等。可选地,在本实施例中,人体关键点主要包括颈部以及四肢主要关节点等七个姿态关键点。
步骤S53:平均所有姿态估计图的运动数据,得到标准人体姿态点。
其中,在通过步骤S52得到多组训练对象的运动数据,将其进行加权平均处理,则可得到标准人体姿态点。
本实施例通过对输入的待迁移人体图像以及源视频进行姿态估计,并提取人体关键点进行仿射变换,使最终输入的待迁移人体图像内的目标对象以及源视频内的源对象均位于图像的中心位置,减少E_flow网络的学习量,提高E_flow网络的学习效果,使最终生成的目标视频更清晰和更稳定。
本申请还提供一种直播设备,请参阅图7,图7是本申请直播设备一实施例的框架示意图。如图7所示,直播设备60包括主播端61、观众端62与服务器63,直播设备60通过主播端61或观众端62输入待迁移人体图像以及源视频,并存储于服务器63,服务器63通过上述任一实施例的人体姿态迁移方法,对源视频内的每一帧包含源对象的图像进行人体迁移,以使源对象替换为目标对象,得到替换后的目标视频,并将目标视频输出至主播端61或观众端62,以使对应的用户观看目标视频。
举例说明,当用户为主播时,用户通过主播端61输入待迁移人体图像以及源视频,并通过服务器63获得替换后的目标视频,将视频展示于观看该主播的观众,能够提高用户对主播的关心度。
当用户为观众时,用户通过观众端62输入待迁移人体图像以及源视频,并通过服务器63获得替换后的目标视频,能够提高直播设备的趣味性,进而提高用户的粘性。
本申请还提供一种人体姿态迁移装置,请参阅图8,图8是本申请人体姿态迁移装置一实施例的框架示意图。如图8所示,人体姿态迁移装置70包括获取模块71、第一计算模块72、判断模块73以及第二计算模块74。
获取模块71用于获取待迁移人体图像中目标对象的纹理特征X′、源视频中源对象的动作特征D′、预设真值,以及基于源视频与待迁移人体图像获取人体姿势转换流T。
第一计算模块72用于基于纹理特征X′与人体姿势转换流T得到目标对象的矢量特征XT。
判断模块73用于判断矢量特征XT与预设真值之间的偏差值是否大于预设值。若是,则返回获取模块71,重新获取待迁移人体图像中目标对象的纹理特征X′与源视频中源对象的动作特征D′;若否,则将矢量特征XT与动作特征D′传输至第二计算模块74。
第二计算模块74用于基于矢量特征XT与动作特征D′得到目标视频。
进一步地,人体姿态迁移装置70还包括第三计算模块75、输出判断模块76以及姿态估计模块77。
获取模块71还用于获取第一待迁移人体图像与第二待迁移人体图像中目标对象的第一动作特征以及第二动作特征。
第三计算模块75用于基于第一动作特征与第二动作特征,计算得到预设真值,并将预设真值传输至判断模块73。
输出判断模块76用于判断目标视频的置信度是否大于第二预设值。若是,则输出目标视频;若否,则基于目标视频,更新预设真值,返回获取模块71。
姿态估计模块77用于对待迁移人体图像、源视频中特定帧的图像以及训练集内所有训练对象的图像进行姿态估计,分别得到第一运动数据、第二运动数据以及标准人体姿态点,基于第一运动数据与标准人体姿态点得到目标对象位于图像中心位置的新的待迁移人体图像,基于第二运动数据与标准人体姿态点得到源对象位于图像中心位置的新的源视频,并将新的待迁移人体图像与新的源视频传输至获取模块71。
本申请人体姿态迁移装置70通过设置判断模块73与姿态估计模块77,从输入部分降低难度到输出部分按照有监督训练相结合,能够简单高效的得到稳定的转换流预测结果,最终生成的目标视频也更清晰和更稳定。
本申请还提供一种电子设备,请参阅图9,图9是本申请电子设备一实施例的框架示意图。如图9所示,电子设备80包括相互耦接的存储器81和处理器82,处理器82用于执行存储器81中存储的程序指令,以实现上述任一机器人的轨迹规划方法实施例中的步骤。在一个具体的实施场景中,电子设备80可以包括但不限于:微型计算机、服务器,此外,电子设备80还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器82用于控制其自身以及存储器81以实现上述任一人体姿态迁移方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由集成电路芯片共同实现。
本申请还提供一种计算机可读存储介质,请参阅图10,图10是本申请计算机可读存储介质一实施例的框架示意图。如图10所示,计算机可读存储介质90存储有能够被处理器运行的程序指令91,程序指令91用于实现上述任一人体姿态迁移方法实施例中的步骤。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种人体姿态迁移方法,其特征在于,包括:
获取待迁移人体图像中目标对象的纹理特征与源视频中源对象的动作特征;
基于所述源视频与所述待迁移人体图像获取人体姿势转换流;
基于所述纹理特征与所述人体姿势转换流,得到所述目标对象的矢量特征;
判断所述矢量特征与预设真值之间的误差值是否大于第一预设值;
若否,则基于所述矢量特征与所述动作特征生成目标视频。
2.根据权利要求1所述的方法,其特征在于,所述待迁移人体图像至少包括第一待迁移人体图像与第二待迁移人体图像,所述第一待迁移人体图像中的所述目标对象的动作与所述第二待迁移人体图像中的所述目标对象的动作不同,所述方法还包括:
获取所述第一待迁移人体图像中的目标对象的第一动作特征;
获取所述第二待迁移人体图像中的目标对象的第二动作特征;
基于所述第一动作特征与所述第二动作特征,计算得到所述预设真值。
3.根据权利要求2所述的方法,其特征在于,在所述基于所述矢量特征与所述动作特征生成目标视频的步骤之后,所述方法还包括:
判断所述目标视频的置信度是否大于第二预设值;
若是,则输出所述目标视频;
若否,则基于所述目标视频,更新所述预设真值,返回所述获取待迁移人体图像中目标对象的纹理特征与源视频中源对象的动作特征的步骤。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待迁移人体图像进行姿态估计,得到第一姿态估计图;
基于所述第一姿态估计图,采集第一运动数据,其中,所述第一运动数据包括所述目标对象至少一个人体关键点的位置信息;
基于所述第一运动数据与标准人体姿态点,得到第一变换参数;
基于所述第一变换参数与所述第一姿态估计图,得到新的待迁移人体图像;其中,所述新的待迁移人体图像中的目标对象位于所述新的待迁移人体图像的中心位置。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述源视频中特定帧的图像,对所述特定帧的图像进行姿态估计,得到第二姿态估计图;其中,所述特定帧的图像包括所述源对象做出至少一个动作的静态影像;
基于所述第二姿态估计图,采集第二运动数据,其中,所述第二运动数据包括所述源对象至少一个人体关键点的位置信息;
基于所述第二运动数据与标准人体姿态点,得到第二变换参数;
基于所述第二变换参数与所述第二姿态估计图,得到新的图像;其中,所述新的图像中的源对象位于所述新的图像的中心位置。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取训练集内所有训练对象的图像,对所述所有训练对象的图像进行姿态估计,得到至少一个对应的姿态估计图;
基于所述至少一个对应的姿态估计图,采集每一所述姿态估计图的运动数据;其中,所述运动数据包括所述姿态估计图对应的所述训练对象至少一个人体关键点的位置信息;
平均所有所述姿态估计图的运动数据,得到所述标准人体姿态点。
7.一种人体姿态迁移装置,其特征在于,包括:
获取模块,用于获取待迁移人体图像中目标对象的纹理特征、源视频中源对象的动作特征、预设真值,以及基于所述源视频与所述待迁移人体图像获取人体姿势转换流;
第一计算模块,用于基于所述纹理特征与所述人体姿势转换流得到所述目标对象的矢量特征;
判断模块,用于判断所述矢量特征与所述预设真值之间的偏差值是否大于预设值;
第二计算模块,用于基于所述矢量特征与所述动作特征得到目标视频。
8.一种直播系统,其特征在于,所述直播系统包括主播端、观众端与服务器,所述直播系统通过所述主播端或所述观众端输入待迁移人体图像以及源视频,所述服务器根据所述待迁移人体图像以及所述源视频,并通过权利要求1-6中任一项所述的人体姿态迁移方法得到目标视频。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1-6中任一项所述的人体姿态迁移方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被处理器执行时实现如权利要求1-6中任一项所述的人体姿态迁移方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111547521.5A CN114401446B (zh) | 2021-12-16 | 2021-12-16 | 人体姿态迁移方法、装置、系统、电子设备以及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111547521.5A CN114401446B (zh) | 2021-12-16 | 2021-12-16 | 人体姿态迁移方法、装置、系统、电子设备以及存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN114401446A true CN114401446A (zh) | 2022-04-26 |
| CN114401446B CN114401446B (zh) | 2024-09-24 |
Family
ID=81226277
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111547521.5A Active CN114401446B (zh) | 2021-12-16 | 2021-12-16 | 人体姿态迁移方法、装置、系统、电子设备以及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114401446B (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116659047A (zh) * | 2023-05-06 | 2023-08-29 | 西安建筑科技大学 | 基于用户行为特征识别的办公环境空调送风参数调节方法 |
| CN116957919A (zh) * | 2023-07-12 | 2023-10-27 | 珠海凌烟阁芯片科技有限公司 | 一种基于rgbd图像的3d人体模型生成方法及系统 |
| WO2025050368A1 (en) * | 2023-09-08 | 2025-03-13 | Huawei Technologies Co., Ltd. | System and method for generative human motion style transfer |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012073852A (ja) * | 2010-09-29 | 2012-04-12 | Kddi Corp | 人体姿勢推定装置、人体姿勢推定方法、およびコンピュータプログラム |
| CN111027438A (zh) * | 2019-12-03 | 2020-04-17 | Oppo广东移动通信有限公司 | 一种人体姿态的迁移方法、移动终端以及计算机存储介质 |
| CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
| CN112508776A (zh) * | 2020-12-11 | 2021-03-16 | 网易(杭州)网络有限公司 | 动作迁移方法、装置和电子设备 |
| CN113705295A (zh) * | 2021-03-10 | 2021-11-26 | 中国科学院计算技术研究所 | 对象姿态迁移方法、装置、设备及存储介质 |
| CN113762292A (zh) * | 2020-06-03 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 一种训练数据获取方法、装置及模型训练方法、装置 |
-
2021
- 2021-12-16 CN CN202111547521.5A patent/CN114401446B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012073852A (ja) * | 2010-09-29 | 2012-04-12 | Kddi Corp | 人体姿勢推定装置、人体姿勢推定方法、およびコンピュータプログラム |
| CN111027438A (zh) * | 2019-12-03 | 2020-04-17 | Oppo广东移动通信有限公司 | 一种人体姿态的迁移方法、移动终端以及计算机存储介质 |
| CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
| CN113762292A (zh) * | 2020-06-03 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 一种训练数据获取方法、装置及模型训练方法、装置 |
| CN112508776A (zh) * | 2020-12-11 | 2021-03-16 | 网易(杭州)网络有限公司 | 动作迁移方法、装置和电子设备 |
| CN113705295A (zh) * | 2021-03-10 | 2021-11-26 | 中国科学院计算技术研究所 | 对象姿态迁移方法、装置、设备及存储介质 |
Non-Patent Citations (1)
| Title |
|---|
| 王红豫: "基于生成对抗网络的人体姿态合成人物图像与视频技术研究", 《中国优秀硕士论文电子期刊网》, no. 09, pages 3 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116659047A (zh) * | 2023-05-06 | 2023-08-29 | 西安建筑科技大学 | 基于用户行为特征识别的办公环境空调送风参数调节方法 |
| CN116957919A (zh) * | 2023-07-12 | 2023-10-27 | 珠海凌烟阁芯片科技有限公司 | 一种基于rgbd图像的3d人体模型生成方法及系统 |
| WO2025050368A1 (en) * | 2023-09-08 | 2025-03-13 | Huawei Technologies Co., Ltd. | System and method for generative human motion style transfer |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114401446B (zh) | 2024-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Li et al. | Low-light image and video enhancement using deep learning: A survey | |
| US11526970B2 (en) | System and method for video processing with enhanced temporal consistency | |
| CN111353506B (zh) | 自适应的视线估计方法和设备 | |
| US10846836B2 (en) | View synthesis using deep convolutional neural networks | |
| US12307732B2 (en) | Methods for handling occlusion in augmented reality applications using memory and device tracking and related apparatus | |
| CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
| WO2020192568A1 (zh) | 人脸图像生成方法、装置、设备及存储介质 | |
| CN113688907B (zh) | 模型训练、视频处理方法,装置,设备以及存储介质 | |
| CN111598818A (zh) | 人脸融合模型训练方法、装置及电子设备 | |
| CN114401446A (zh) | 人体姿态迁移方法、装置、系统、电子设备以及存储介质 | |
| WO2024041108A1 (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
| CN111047543B (zh) | 图像增强方法、装置和存储介质 | |
| CN113256529B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
| US12400294B2 (en) | Image processing device and super-resolution processing method | |
| KR20220118095A (ko) | 딥러닝 기반의 의류 가상 착용 방법 및 그 시스템 | |
| CN112258563B (zh) | 图像对齐方法、装置、电子设备及存储介质 | |
| CN112714263B (zh) | 视频生成方法、装置、设备及存储介质 | |
| CN113610879B (zh) | 深度预测模型的训练方法及装置、介质和电子设备 | |
| CN118247186B (zh) | 图像畸变矫正方法、电子设备、存储介质及芯片 | |
| EP4589542A1 (en) | Trajectory information processing method and apparatus, and computer device and readable storage medium | |
| Van Vo et al. | High dynamic range video synthesis using superpixel-based illuminance-invariant motion estimation | |
| CN114359961B (zh) | 行人属性识别方法及相关设备 | |
| CN114463213A (zh) | 视频处理方法、视频处理装置、终端及存储介质 | |
| CN117196957B (zh) | 基于人工智能的图像分辨率转换方法及装置 | |
| CN114764751B (zh) | 图像对齐方法、装置、计算机设备和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |