[go: up one dir, main page]

CN111815756A - 图像生成方法、装置、计算机可读介质及电子设备 - Google Patents

图像生成方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN111815756A
CN111815756A CN201910296009.4A CN201910296009A CN111815756A CN 111815756 A CN111815756 A CN 111815756A CN 201910296009 A CN201910296009 A CN 201910296009A CN 111815756 A CN111815756 A CN 111815756A
Authority
CN
China
Prior art keywords
image
semantic
target
information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910296009.4A
Other languages
English (en)
Inventor
张炜
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910296009.4A priority Critical patent/CN111815756A/zh
Publication of CN111815756A publication Critical patent/CN111815756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种图像生成方法、图像生成装置、计算机可读介质及电子设备,涉及计算机技术领域。该方法包括:确定与第一图像对应的第一语义图像;根据第一语义图像和目标信息确定第二语义图像;根据第二语义图像、目标信息以及第一图像生成第二图像。本公开中的图像生成方法能够一定程度上克服图像生成效果不佳的问题,进而改善图像的生成效果;以及,能够通过语义转换过程和图像生成过程,简化对输入图像(如,第一图像)和输出图像(如,第二图像)映射关系的建模,进而改善生成人物图像时的人体结构重建效果。

Description

图像生成方法、装置、计算机可读介质及电子设备
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种图像生成方法、图像生成装置、计算机可读介质及电子设备。
背景技术
目前,图像生成技术在多媒体领域和计算机视觉领域的应用越来越广泛,例如,图像生成技术可以应用于图像视频编辑、艺术电影的制作以及零售商品的展示等。其中,在零售商品的展示(如,衣物展示,其中涉及衣物的展示模特)中,图像生成技术可以应用于人物图像生成(Person Image Generation)。人物图像生成是根据当前人物图像和需要生成的目标人物姿态,生成具有目标人物姿态的人物图像。
具体地,对于人物图像的生成,可以包括:根据图像生成技术中的生成对抗网络(Generative Adversarial Network,GAN)技术提取当前人物图像中的特征点,并根据该特征点生成具有目标人物姿态的人物图像。但是,通过这种人物图像生成方法生成的人物图像中的人物属性(如,人物的衣物款式或人体形态结构)与原人物图像(即,当前人物图像)中的人物属性容易存在较大的差异,进而会导致图像生成效果不佳的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种图像生成方法、图像生成装置、计算机可读介质及电子设备,进而至少在一定程度上克服图像生成效果不佳的问题,进而改善图像的生成效果。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开的第一方面提供了一种图像生成方法,包括:确定与第一图像对应的第一语义图像;根据第一语义图像和目标信息确定第二语义图像;根据第二语义图像、目标信息以及第一图像生成第二图像。
在本公开的一种示例性实施例中,目标信息包括第二图像中的姿态信息。
在本公开的一种示例性实施例中,该图像生成方法还包括:将第一语义图像与第二语义图像作为对应关系进行存储。
在本公开的一种示例性实施例中,该图像生成方法还包括:确定多个语义图像组;其中,每个语义图像组中包含至少两个语义图像;在语义图像组内,每个语义图像对应的姿态信息不同,每个语义图像对应的语义信息相同;根据多个语义图像组训练语义转换模型。
在本公开的一种示例性实施例中,确定多个语义图像组,包括:确定每个图像集中的图像对应的语义图像;根据每个语义图像对应的语义信息将多个语义图像进行匹配,以确定出多个语义图像组。
在本公开的一种示例性实施例中,根据多个语义图像组训练语义转换模型,包括:从多个语义图像组中确定出目标语义图像组;通过语义转换模型对目标姿态信息和第一目标语义图像进行处理,以生成第三图像;其中,目标语义图像组包括第一目标语义图像,目标姿态信息与目标语义图像组中的第二目标语义图像对应;根据对第三图像与第二目标语义图像的比对,确定出第一损失函数对应的数值;根据第一损失函数对应的数值更新语义转换模型。
在本公开的一种示例性实施例中,根据第一语义图像和目标信息确定第二语义图像,包括:通过更新后的语义转换模型对第一语义图像和目标信息进行处理,以确定出第二语义图像。
在本公开的一种示例性实施例中,每个图像集中包括图像以及与图像对应的待生成姿态信息,该图像生成方法还包括:根据语义转换模型以及图像生成模型对目标图像集中目标图像和目标图像对应的待生成姿态信息进行处理,以生成第四图像,第四图像与目标图像对应的待生成姿态信息对应;其中,多个图像集中包括目标图像集;根据语义转换模型以及图像生成模型对第四图像和目标图像对应的姿态信息进行处理,以生成第五图像,第五图像与目标图像的姿态信息对应;根据对目标图像以及第五图像的比对,确定出第二损失函数对应的数值;根据第二损失函数对应的数值更新语义转换模型和图像生成模型。
在本公开的一种示例性实施例中,根据第二语义图像、目标信息以及第一图像生成第二图像,包括:通过更新后的图像生成模型对第二语义图像、目标信息以及第一图像进行处理,以生成第二图像。
在本公开的一种示例性实施例中,第一损失函数中包括第一对抗损失项和交叉熵损失项。
在本公开的一种示例性实施例中,第二损失函数中包括第二对抗损失项、姿态损失项、内容一致性损失项、语义引导的风格损失项以及面部损失项。
根据本公开的第二方面,提供一种图像生成装置,包括语义分解单元、语义转换单元以及图像生成单元,其中:语义分解单元,用于确定与第一图像对应的第一语义图像;语义转换单元,用于根据第一语义图像和目标信息确定第二语义图像;图像生成单元,用于根据第二语义图像、目标信息以及第一图像生成第二图像。
在本公开的一种示例性实施例中,目标信息包括第二图像中的姿态信息。
在本公开的一种示例性实施例中,该图像生成装置还包括语义图像存储单元,其中:语义图像存储单元,用于将第一语义图像与第二语义图像作为对应关系进行存储。
在本公开的一种示例性实施例中,该图像生成装置还包括语义图像组确定单元和语义转换模型训练单元,其中:语义图像组确定单元,用于确定多个语义图像组;其中,每个语义图像组中包含至少两个语义图像;在语义图像组内,每个语义图像对应的姿态信息不同,每个语义图像对应的语义信息相同;语义转换模型训练单元,用于根据多个语义图像组训练语义转换模型。
在本公开的一种示例性实施例中,语义图像组确定单元确定多个语义图像组的方式具体为:语义图像组确定单元确定每个图像集中的图像对应的语义图像;语义图像组确定单元根据每个语义图像对应的语义信息将多个语义图像进行匹配,以确定出多个语义图像组。
在本公开的一种示例性实施例中,语义转换模型训练单元根据多个语义图像组训练语义转换模型的方式具体为:语义转换模型训练单元从多个语义图像组中确定出目标语义图像组;语义转换模型训练单元通过语义转换模型对目标姿态信息和第一目标语义图像进行处理,以生成第三图像;其中,目标语义图像组包括第一目标语义图像,目标姿态信息与目标语义图像组中的第二目标语义图像对应;语义转换模型训练单元根据对第三图像与第二目标语义图像的比对,确定出第一损失函数对应的数值;语义转换模型训练单元根据第一损失函数对应的数值更新语义转换模型。
在本公开的一种示例性实施例中,语义转换单元根据第一语义图像和目标信息确定第二语义图像的方式具体为:语义转换单元通过更新后的语义转换模型对第一语义图像和目标信息进行处理,以确定出第二语义图像。
在本公开的一种示例性实施例中,每个图像集中包括图像以及与图像对应的待生成姿态信息,该图像生成装置还包括:图像处理单元和损失函数确定单元,其中:
图像处理单元,用于根据语义转换模型以及图像生成模型对目标图像集中目标图像和目标图像对应的待生成姿态信息进行处理,以生成第四图像,第四图像与目标图像对应的待生成姿态信息对应;其中,多个图像集中包括目标图像集;图像处理单元,还用于根据语义转换模型以及图像生成模型对第四图像和目标图像对应的姿态信息进行处理,以生成第五图像,第五图像与目标图像的姿态信息对应;损失函数确定单元,用于根据对目标图像以及第五图像的比对,确定出第二损失函数对应的数值;图像生成单元,还用于根据第二损失函数对应的数值更新语义转换模型和图像生成模型。
在本公开的一种示例性实施例中,图像生成单元根据第二语义图像、目标信息以及第一图像生成第二图像的方式具体为:图像生成单元通过更新后的图像生成模型对第二语义图像、目标信息以及第一图像进行处理,以生成第二图像。
在本公开的一种示例性实施例中,第一损失函数中包括第一对抗损失项和交叉熵损失项。
在本公开的一种示例性实施例中,第二损失函数中包括第二对抗损失项、姿态损失项、内容一致性损失项、语义引导的风格损失项以及面部损失项。
根据本公开的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中第一方面所述的图像生成方法。
根据本公开的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如上述实施例中第一方面所述的图像生成方法。
本公开提供的技术方案可以包括以下有益效果:
在本公开的实施例所提供的技术方案中,终端设备或服务器可以确定与第一图像(如,原始人物图像)对应的第一语义图像,其中,第一语义图像可以表示第一图像中的人体结构;进而,根据第一语义图像和目标信息(如,需要生成的图像中的人物姿态信息)确定第二语义图像,举例来说,如果第一图像中的人物姿态为正向站立,那么目标信息可以为侧向站立信息,第二语义图像用于表示人物侧向站立时的人体结构;进而,根据第二语义图像、目标信息以及第一图像可以生成第二图像,举例来说,在第二图像中,人物姿态可以为侧向站立。依据上述方案描述,本公开一方面能够在一定程度上克服图像生成效果不佳的问题,进而改善图像生成效果;另一方面能够通过语义转换过程和图像生成过程,简化对输入图像和输出图像映射关系的建模,能够提升生成人物图像时的人体结构重建效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本公开一示例性实施例的一种图像生成方法的流程示意图;
图2示出了根据本公开一示例性实施例的根据多个语义图像组训练语义转换模型的流程示意图;
图3示出了根据本公开一示例性实施例的联合训练语义转换模型和图像生成模型的流程示意图;
图4示出了根据本公开一示例性实施例的一种图像生成方法对应的生成过程示意图;
图5示出了根据本公开一示例性实施例的一种图像生成方法的应用示意图;
图6示出了根据本公开一示例性实施例的图像生成装置的结构框图;
图7示出了适于用来实现本公开一示例性实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
请参阅图1,图1示出了根据本公开一示例性实施例的一种图像生成方法的流程示意图,该图像生成方法可以由服务器或终端设备来实现。
如图1所示,根据本公开的一个实施例的图像生成方法,包括如下步骤S110、步骤S120以及步骤S130,其中:
步骤S110:确定与第一图像对应的第一语义图像。
步骤S120:根据第一语义图像和目标信息确定第二语义图像。
步骤S130:根据第二语义图像、目标信息以及第一图像生成第二图像。
以下对各步骤进行详细说明:
在步骤S110中,第一图像中可以包含人物信息,如,人体结构信息,人物面部信息,衣物纹理信息以及姿态信息。与第一图像对应的第一语义图像可以用于表现第一图像中人物的人体结构,例如,第一图像中的人物的头部、手臂、腿部、躯干以及头发在第一语义图像中分别用不同的区域表示,人物身体结构的每个部分在第一图像中的占比及所在位置与在第一语义图像中的占比及所在位置相同。
在本公开的示例性实施例中,可选的,确定与第一图像对应的第一语义图像的方式具体可以为:通过语义分解模型对第一图像进行语义分解,以获得与第一图像对应的第一语义图像。其中,语义分解模型的训练数据集可以包括DeepFashion、Market-1501、Pascal VOC 2012、Cityscapes、Pascal Context以及Stanford Background Dataset中至少一种;DeepFashion是衣物数据集,Market-1501是人物数据集,Pascal VOC 2012是包括人物、交通工具等20个类别的数据集,Cityscapes是景观数据集,Pascal Context和Stanford Background Dataset是室内外场景数据集。举例来说,如果第一图像为人物图像,语义分解模型的训练数据集可以为Pascal VOC 2012,语义分解模型可以为人体语义分解模型;如果第一图像为物品图像,语义分解模型的训练数据集可以为Pascal VOC 2012,语义分解模型可以为物品语义分解模型;如果第一图像为景观图像,语义分解模型的训练数据集可以为Cityscapes,语义分解模型可以为景观语义分解模型。
另外,需要说明的是,由于图像是由像素组成的,因此,语义分解用于表示将像素按照图像中表达语义含义的不同进行分组/分割。图像语义分割的目标,是将语义标签分配给图像中的每个像素,其中语义标签通常包括不同范围的物体类别(如,人、狗、公共汽车以及自行车)和背景成分(如,天空、道路、建筑物以及山)。语义分割的结果是预测图像中每个像素所对应的类别分割掩码,相较图像分类获得的图像级类别标签和对象检测所预测的物体框,能够更全面地描述图像内容。此外,可选的,上述的通过语义分解模型对第一图像进行语义分解的方式具体可以为:通过语义分解模型并根据全卷积神经网络(FCN)或深度卷积神经网络(CNN)对第一图像进行语义分解。
在步骤S120中,目标信息可以包括第二图像中的姿态信息。目标信息可以为图像信息,该图像可以为特征图像,其中包括了姿态对应的特征点。目标信息中的姿态信息为待生成图像(即,第二图像)中的姿态信息,与第一图像中的姿态信息不同,举例来说,如果第一图像为人物图像,且第一图像中的姿态信息为人物正向站立姿态,目标信息可以为除人物正向站立姿态之外的其他姿态,如,人物侧向站立姿态,生成的第二图像中的姿态信息则包括人物侧向站立姿态;如果第一图像为物品图像,且第一图像中的姿态信息为物品正向放置姿态,目标信息可以为除物品正向放置姿态之外的其他姿态,如,物品侧向放置姿态,生成的第二图像中的姿态信息则包括物品侧向放置姿态;如果第一图像为景观图像,且第一图像中的姿态信息为正向拍摄姿态,目标信息可以为除正向拍摄姿态之外的其他姿态,如,侧向拍摄姿态,生成的第二图像中的姿态信息则包括侧向拍摄姿态。
在步骤S130中,第二图像与第一图像可以为具有不同姿态信息,但具有相同语义信息的两个图像,其中,语义信息可以包括语义标签和图像属性。另外,与第二图像对应的第二语义图像可以用于表现第二图像中人物的人体结构。
在本公开的示例性实施例中,可选的,根据第二语义图像、目标信息以及第一图像生成第二图像的方式具体可以为:根据目标信息和第一图像对第二语义图像进行渲染,以获得第二图像。其中,第二图像中的图像属性与第一图像中的图像属性相同。举例来说,如果第一图像为人物图像,则生成的第二图像中的人物身体结构和衣物纹理等图像属性与第一图像中的人物身体结构和衣物纹理等图像属性相同。
在本公开的示例性实施例中,可选的,该图像生成方法还可以包括以下步骤:确定第二图像与原始图像的相似度,其中,第二图像与原始图像中的姿态信息和语义信息相同;如果相似度高于预设相似度,判定图像生成成功,如果相似度低于预设相似度,判定图像生成失败。
此外,需说明的是,本公开的一种图像生成方法可以应用于人物图像生成,也可以应用于动物图像、植物图像或物品图像的生成,本公开的实施例不作限定。
可见,实施图1所示的图像生成方法,能够一定程度上克服图像生成效果不佳的问题,进而改善图像的生成效果;以及,能够通过语义转换过程和图像生成过程,简化对第一图像和第二图像映射关系的建模,进而改善生成人物图像时的人体结构重建效果。
作为一种示例性实施例,该图像生成方法还可以包括以下步骤:将第一语义图像与第二语义图像作为对应关系进行存储。
在本公开的示例性实施例中,第一语义图像中的语义信息与第二图像中的语义信息相同。
可见,实施该示例性实施例,能够通过将第一语义图像和第二语义图像作为对应关系进行存储,便于在分解相同图像时对其进行调用,进而提升图像生成效率;以及,还能够作为训练样本对用于进行语义转换的语义转换模型进行训练,以提升语义转换效率以及语义转换效果。
作为另一种示例性实施例,该图像生成方法还可以包括以下步骤:确定多个语义图像组;其中,每个语义图像组中包含至少两个语义图像;在语义图像组内,每个语义图像对应的姿态信息不同,每个语义图像对应的语义信息相同;根据多个语义图像组训练语义转换模型。
在本公开的示例性实施例中,如果每个语义图像组中包含两个语义图像,多个语义图像组对应的表达式可以为:
Figure BDA0002026507880000101
其中,
Figure BDA0002026507880000102
Figure BDA0002026507880000103
可以为姿态信息不同的语义图,
Figure BDA0002026507880000104
的下标
Figure BDA0002026507880000105
用于代表语义图
Figure BDA0002026507880000106
的姿态,
Figure BDA0002026507880000107
的下标Ps用于代表语义图
Figure BDA0002026507880000108
的姿态。每个语义图像组中包含至少两个语义图像
Figure BDA0002026507880000109
Figure BDA00020265078800001010
Figure BDA00020265078800001011
Figure BDA00020265078800001012
中的上标i取相同数值时,
Figure BDA00020265078800001013
Figure BDA00020265078800001014
对应的姿态信息不同,
Figure BDA00020265078800001015
Figure BDA00020265078800001016
对应的语义信息相同。
在本公开的示例性实施例中,可选的,在根据多个语义图像组训练语义转换模型之后,根据第一语义图像和目标信息确定第二语义图像包括:通过训练后的语义转换模型对第一语义图像和目标信息进行处理,以确定出第二语义图像。
可见,实施该示例性实施例,能够通过确定出的多个语义图像组对语义转换模型进行训练,进而提升图像语义转换的效果和效率。
作为又一种示例性实施例,上述的确定多个语义图像组,可以包括以下步骤:确定每个图像集中的图像对应的语义图像;根据每个语义图像对应的语义信息将多个语义图像进行匹配,以确定出多个语义图像组。
在本公开的示例性实施例中,图像集中可以包括图像以及目标信息,其中,目标信息用于表示根据该图像生成的另一图像中的姿态信息。图像集存在多个,且图像集可以为一种数据集,图像集对应的表达式可以为:
Figure BDA00020265078800001017
其中,
Figure BDA00020265078800001018
可以为图像,
Figure BDA00020265078800001019
的下标Ps用于代表图像中的姿态信息,
Figure BDA00020265078800001020
可以为根据图像
Figure BDA0002026507880000111
生成的另一图像中的姿态信息。
在本公开的示例性实施例中,确定每个图像集中的图像对应的语义图像之后,获得的多个语义图像对应的表达式可以为:
Figure BDA0002026507880000112
可见,实施该示例性实施例,能够通过将图像集中的图像对应的语义图进行匹配,确定出多个语义图像组,以提升对于语义转换模型的训练效果,进而提升语义转换效率。
作为又一种示例性实施例,请参阅图2,图2示出了根据本公开一示例性实施例的根据多个语义图像组训练语义转换模型的流程示意图。如图2所示,根据多个语义图像组训练语义转换模型可以包括步骤S210、步骤S220、步骤S230以及步骤S240,其中:
步骤S210:从多个语义图像组中确定出目标语义图像组。
步骤S220:通过语义转换模型对目标姿态信息和第一目标语义图像进行处理,以生成第三图像;其中,目标语义图像组包括第一目标语义图像,目标姿态信息与目标语义图像组中的第二目标语义图像对应。
步骤S230:根据对第三图像与第二目标语义图像的比对,确定出第一损失函数对应的数值。
步骤S240:根据第一损失函数对应的数值更新语义转换模型。
在本公开的示例性实施例中,可选的,从多个语义图像组中确定出目标语义图像组的方式具体可以为:从多个语义图像组中随机确定一个语义图像组,作为目标语义图像组;或者,从多个语义图像组中确定出预设语义图像组,作为目标语义图像组。此外,目标姿态信息可以为目标语义图像组中的第二目标语义图像的姿态信息,第二目标语义图像与第一目标语义图像的姿态信息不同但语义信息相同。此外,第三图像可以为语义图,第二目标语义图像为语义转换模型通过与第二目标语义图像对应的原图像直接转换得到的。
在本公开的示例性实施例中,目标语义图像组对应的表达式可以为:
Figure BDA0002026507880000113
其中,
Figure BDA0002026507880000114
是从
Figure BDA0002026507880000115
确定出的,即,上述的从多个语义图像组中确定出目标语义图像组。另外,
Figure BDA0002026507880000116
可以为第一目标语义图像,
Figure BDA0002026507880000121
可以为第二目标语义图像,
Figure BDA0002026507880000122
可以为目标姿态信息,通过语义转换模型(Hs)对
Figure BDA0002026507880000123
Figure BDA0002026507880000124
进行处理可以得到
Figure BDA0002026507880000125
Figure BDA0002026507880000126
可以为第三图像,通过比对
Figure BDA0002026507880000127
Figure BDA0002026507880000128
能够确定出第一损失函数对应的数值。
在本公开的示例性实施例中,可选的,根据第一损失函数对应的数值更新语义转换模型的方式具体可以为:根据第一损失函数对应的数值确定网络参数的梯度,并根据反向传播算法更新语义转换模型的网络参数。
在本公开的示例性实施例中,可选的,还包括以下步骤:循环执行步骤S210~步骤S240,直到语义转换模型收敛,进而判定对语义转换模型的训练完成;其中,语义转换模型收敛也可以理解为第一损失函数收敛。
在本公开的示例性实施例中,第一损失函数中可以包括第一对抗损失项和交叉熵损失项。具体地,第一损失函数LS的表达式可以为:
Figure BDA0002026507880000129
其中,
Figure BDA00020265078800001210
可以为上述的第一对抗损失项,
Figure BDA00020265078800001211
的表达式可以为:
Figure BDA00020265078800001212
上述表达式中的DS可以为语义转换模型的判别器,具体地,Ladv(G,D,X,Y)=EX[logD(X)]+EY[log(1-D(Y))],G可以为上述的HS,D可以为上述的DS,X可以为上述的
Figure BDA00020265078800001213
Y可以为上述的
Figure BDA00020265078800001214
Figure BDA00020265078800001215
可以为上述的交叉熵损失项,
Figure BDA00020265078800001216
的表达式可以为:
Figure BDA00020265078800001217
可见,实施图2所示的示例性实施例,能够通过损失函数对语义转换模型中的网络参数进行修改,提升对于图像的语义转换效果。
作为又一种示例性实施例,上述的根据第一语义图像和目标信息确定第二语义图像,可以包括以下步骤:通过更新后的语义转换模型对第一语义图像和目标信息进行处理,以确定出第二语义图像。
作为又一种示例性实施例,每个图像集中可以包括图像以及与图像对应的待生成姿态信息。请参阅图3,图3示出了根据本公开一示例性实施例的联合训练语义转换模型和图像生成模型的流程示意图。如图3所示,联合训练语义转换模型和图像生成模型可以包括步骤S310、步骤S320、步骤S330以及步骤S340,其中:
步骤S310:根据语义转换模型以及图像生成模型对目标图像集中目标图像和目标图像对应的待生成姿态信息进行处理,以生成第四图像,第四图像与目标图像对应的待生成姿态信息对应;其中,多个图像集中包括目标图像集。
步骤S320:根据语义转换模型以及图像生成模型对第四图像和目标图像对应的姿态信息进行处理,以生成第五图像,第五图像与目标图像的姿态信息对应。
步骤S330:根据对目标图像以及第五图像的比对,确定出第二损失函数对应的数值。
步骤S340:根据第二损失函数对应的数值更新语义转换模型和图像生成模型。
在本公开的示例性实施例中,目标图像集对应的表达式可以为:
Figure BDA0002026507880000131
其中,图像集
Figure BDA0002026507880000132
中包括
Figure BDA0002026507880000133
Figure BDA0002026507880000134
可以为目标图像,pt可以为目标图像对应的待生成姿态信息。可选的,在步骤S310之前,终端设备或服务器可以通过语义分解模型对图像
Figure BDA0002026507880000135
进行分解,得到与图像
Figure BDA0002026507880000136
对应的语义图
Figure BDA0002026507880000137
进而,通过语义转换模型(Hs)对
Figure BDA0002026507880000138
和pt进行处理,可以得到语义图
Figure BDA0002026507880000139
通过图像生成模型(HA)对
Figure BDA00020265078800001310
pt
Figure BDA00020265078800001311
进行处理,可以得到
Figure BDA00020265078800001312
Figure BDA00020265078800001313
可以为上述的第四图像。进而,通过语义转换模型(Hs)对
Figure BDA00020265078800001314
和ps的处理,可以得到语义图
Figure BDA00020265078800001315
进而,通过图像生成模型(HA)对
Figure BDA00020265078800001316
ps
Figure BDA00020265078800001317
的处理,可以得到
Figure BDA00020265078800001318
Figure BDA00020265078800001319
可以为上述的第五图像。通过对
Figure BDA00020265078800001320
Figure BDA00020265078800001321
的比对,可以确定出第二损失函数对应的数值。
在本公开的示例性实施例中,可选的,根据第一损失函数对应的数值更新语义转换模型的方式具体可以为:根据第二损失函数对应的数值确定网络参数的梯度,并根据反向传播算法更新语义转换模型和图像生成模型的网络参数。
在本公开的示例性实施例中,可选的,还包括以下步骤:循环执行步骤S310~步骤S340,直到语义转换模型和图像生成模型收敛,进而判定对语义转换模型和图像生成模型的联合训练完成;其中,语义转换模型和图像生成模型收敛也可以理解为第二损失函数收敛。
在本公开的示例性实施例中,第二损失函数可以包括第二对抗损失项、姿态损失项、内容一致性损失项、语义引导的风格损失项以及面部损失项,具体地,第二损失函数对应的表达式可以为:
Figure BDA0002026507880000141
其中,
Figure BDA0002026507880000142
可以为上述的第二对抗损失项,对应的表达式可以为:
Figure BDA0002026507880000143
Figure BDA0002026507880000144
可以为上述的姿态损失项,对应的表达式可以为:
Figure BDA0002026507880000145
Φ(·)可以为姿态提取器;
Figure BDA0002026507880000146
可以为上述的内容一致性损失项,对应的表达式可以为:
Figure BDA0002026507880000147
Λ(·)可以为图像特征提取器,如将图像输入VGG网络得到的某一层特征;
Figure BDA0002026507880000148
可以为上述的语义引导的风格损失项,对应的表达式可以为:
Figure BDA0002026507880000149
Ψ(·)可以为语义特征提取器,提取相应语义信息下的图像VGG特征;
Figure BDA00020265078800001410
可以为上述的面部损失项,对应的表达式可以为:
Figure BDA00020265078800001411
DF为面部判别器,F(·)为面部提取器,需要说明的是,如果图像为人物图像,则面部判别器可以对人脸进行判别,面部提取器可以对人脸进行提取,如果图像为动物图像,则面部判别器可以对动物面部进行判别,面部提取器可以对动物面部进行提取。
此外,需要说明的是,VGG网络(Visual Geometry Group Network)证明了增加网络的深度能够在一定程度上影响网络性能。VGG使用3个3x3卷积核代替7x7卷积核,以及使用2个3x3卷积核代替5*5卷积核,以在具有相同感知野的条件下提升网络深度,在一定程度上提升了神经网络的效果。
需要说明的是,上述的第一对抗损失项和第二对抗损失项中关于第一和第二的表述,仅用于区分两个不同的对抗损失项,不构成对于两个对抗损失项在等级或优先级方面的区分。
可见,实施图3所示的示例性实施例,能够通过损失函数的数值不断训练语义转换模型和图像生成模型,即,更新语义转换模型和图像生成模型中的网络参数,进而提升图像生成模型对语义图像的纹理渲染效果;以及,通过对于语义转换模型和图像生成模型的联合训练,能够提升图像生成效果以及图像生成效率。
作为又一种示例性实施例,上述的根据第二语义图像、目标信息以及第一图像生成第二图像,可以包括以下步骤:通过更新后的图像生成模型对第二语义图像、目标信息以及第一图像进行处理,以生成第二图像。
请参阅图4,图4示出了根据本公开一示例性实施例的一种图像生成方法对应的生成过程示意图,可以理解为本公开的图像生成方法在生成人物图像时的应用。如图4所示,该生成过程中包括:第一图像401、人体语义分解器403、第一语义图像405、人体语义转换器407、第二语义图像409、目标姿态411、人体外观生成器413以及第二图像415;其中,人体语义分解器403可以理解为本公开实施例中的语义分解模型,人体语义转换器407可以理解为本公开实施例中的语义转换模型,目标姿态411可以理解为本公开实施例第二图像中的姿态信息对应的姿态,人体外观生成器413可以理解为本公开实施例中的图像生成模型。
具体地,当终端设备或服务器检测到第一图像401时,可以通过人体语义分解器403将第一图像401进行语义分解,以获得第一语义图像405,相当于本公开实施例中的确定与第一图像对应的第一语义图像;进而,通过人体语义转换器407对第一语义图像405和目标姿态411进行处理,可以获得第二语义图像409,相当于本公开实施例中的根据第一语义图像和目标信息确定第二语义图像;进而,通过人体外观生成器413对目标姿态411、第二语义图像409以及第一图像401的处理,可以获得第二图像415,相当于本公开实施例中的根据第二语义图像、目标信息以及第一图像生成第二图像。
可见,图4所示的图像生成方法对应的生成过程,能够一定程度上克服图像生成效果不佳的问题,进而改善图像的生成效果;以及,能够通过语义转换过程和图像生成过程,简化对第一图像和第二图像映射关系的建模,进而改善生成人物图像时的人体结构重建效果。
请参阅图5,图5示出了根据本公开一示例性实施例的一种图像生成方法的应用示意图。如图5所示,图像生成方法的应用示意图中包括第一图像501、第二姿态信息502、人体语义分解器503、第一语义图像504、人体语义转换器505、第二图像506、人体外观生成器507、第二语义图像508、第一姿态信息509,第一图像’510以及第一语义图像’511。
其中,人体语义分解器503可以理解为本公开实施例中的语义分解模型,人体语义转换器505可以理解为本公开实施例中的语义转换模型,人体外观生成器507可以理解为本公开实施例中的图像生成模型。第一图像501可以为上述的
Figure BDA0002026507880000161
第二图像506可以为上述的
Figure BDA0002026507880000162
第一语义图像504可以为上述的
Figure BDA0002026507880000163
第二语义图像508可以为上述的
Figure BDA0002026507880000164
第一图像’510可以为上述的
Figure BDA0002026507880000165
第一语义图像’511可以为上述的
Figure BDA0002026507880000166
具体地,当终端设备或服务器检测到第一图像501时,可以通过人体语义分解器503将第一图像501分解为第一语义图像504;进而,第一语义图像504和第二姿态信息502通过人体语义转换器505能够得到第二语义图像508;进而,第二语义图像508、第二姿态信息502以及第一图像501通过人体外观生成器507能够得到第二图像506。此外,当第二语义图像508和第一姿态信息509通过人体语义转换器505之后可以得到第一语义图像’511;进而,第一语义图像’511、第二图像506以及第一姿态信息509通过人体外观生成器507能够得到第一图像’510。因此,通过本公开的图像生成方法不仅能够根据某一姿态的人物图像生成另一姿态的人物图像,还能够根据另一姿态的人物图像还原上述的某一姿态的人物图像。
在数据方面,该图像生成方法可以为一种非监督式方法;在人体图像生成方面,该图像生成方法的算法框架中引入了人体语义结构,可以对人体结构进行分解,进而构建更完整的人体结构以及保持更完整的衣物属性,以达到改善图像生成效果。
可见,图5所示的图像生成方法的应用示意图,能够一定程度上克服图像生成效果不佳的问题,进而改善图像的生成效果;以及,能够通过语义转换过程和图像生成过程,简化对第一图像和第二图像映射关系的建模,进而改善生成人物图像时的人体结构重建效果。
请参阅图6,图6示出了根据本公开一示例性实施例的图像生成装置的结构框图。该图像生成装置包括:语义分解单元601、语义转换单元602以及图像生成单元603,其中:
语义分解单元601,用于确定与第一图像对应的第一语义图像;语义转换单元602,用于根据第一语义图像和目标信息确定第二语义图像;图像生成单元603,用于根据第二语义图像、目标信息以及第一图像生成第二图像。
可见,实施图6所示的图像生成装置,能够一定程度上克服图像生成效果不佳的问题,进而改善图像的生成效果;以及,能够通过语义转换过程和图像生成过程,简化对第一图像和第二图像映射关系的建模,进而改善生成人物图像时的人体结构重建效果。
作为一种示例性实施例,目标信息包括第二图像中的姿态信息。
作为另一种示例性实施例,该图像生成装置还可以包括语义图像存储单元(未图示),其中:语义图像存储单元,用于将第一语义图像与第二语义图像作为对应关系进行存储。
可见,实施该示例性实施例,能够通过将第一语义图像和第二语义图像作为对应关系进行存储,便于在分解相同图像时对其进行调用,进而提升图像生成效率;以及,还能够作为训练样本对用于进行语义转换的语义转换模型进行训练,以提升语义转换效率以及语义转换效果。
作为又一种示例性实施例,该图像生成装置还可以包括语义图像组确定单元(未图示)和语义转换模型训练单元(未图示),其中:语义图像组确定单元,用于确定多个语义图像组;其中,每个语义图像组中包含至少两个语义图像;在语义图像组内,每个语义图像对应的姿态信息不同,每个语义图像对应的语义信息相同;语义转换模型训练单元,用于根据多个语义图像组训练语义转换模型。
可见,实施该示例性实施例,能够通过确定出的多个语义图像组对语义转换模型进行训练,进而提升图像语义转换的效果和效率。
作为又一种示例性实施例,语义图像组确定单元确定多个语义图像组的方式具体可以为:语义图像组确定单元确定每个图像集中的图像对应的语义图像;语义图像组确定单元根据每个语义图像对应的语义信息将多个语义图像进行匹配,以确定出多个语义图像组。
可见,实施该示例性实施例,能够通过将图像集中的图像对应的语义图进行匹配,确定出多个语义图像组,以提升对于语义转换模型的训练效果,进而提升语义转换效率。
作为又一种示例性实施例,语义转换模型训练单元根据多个语义图像组训练语义转换模型的方式具体可以为:语义转换模型训练单元从多个语义图像组中确定出目标语义图像组;语义转换模型训练单元通过语义转换模型对目标姿态信息和第一目标语义图像进行处理,以生成第三图像;其中,目标语义图像组包括第一目标语义图像,目标姿态信息与目标语义图像组中的第二目标语义图像对应;语义转换模型训练单元根据对第三图像与第二目标语义图像的比对,确定出第一损失函数对应的数值;语义转换模型训练单元根据第一损失函数对应的数值更新语义转换模型。
可见,实施该示例性实施例,能够通过损失函数对语义转换模型中的网络参数进行修改,提升对于图像的语义转换效果。
作为又一种示例性实施例,语义转换单元602根据第一语义图像和目标信息确定第二语义图像的方式具体为:语义转换单元602通过更新后的语义转换模型对第一语义图像和目标信息进行处理,以确定出第二语义图像。
作为又一种示例性实施例,每个图像集中包括图像以及与图像对应的待生成姿态信息,该图像生成装置还可以包括:图像处理单元(未图示)和损失函数确定单元(未图示),其中:
图像处理单元,用于根据语义转换模型以及图像生成模型对目标图像集中目标图像和目标图像对应的待生成姿态信息进行处理,以生成第四图像,第四图像与目标图像对应的待生成姿态信息对应;其中,多个图像集中包括目标图像集;图像处理单元,还用于根据语义转换模型以及图像生成模型对第四图像和目标图像对应的姿态信息进行处理,以生成第五图像,第五图像与目标图像的姿态信息对应;损失函数确定单元,用于根据对目标图像以及第五图像的比对,确定出第二损失函数对应的数值;图像生成单元603,还用于根据第二损失函数对应的数值更新语义转换模型和图像生成模型。
可见,实施该示例性实施例,能够通过损失函数的数值不断训练语义转换模型和图像生成模型,即,更新语义转换模型和图像生成模型中的网络参数,进而提升图像生成模型对语义图像的纹理渲染效果;以及,通过对于语义转换模型和图像生成模型的联合训练,能够提升图像生成效果以及图像生成效率。
作为又一种示例性实施例,图像生成单元603根据第二语义图像、目标信息以及第一图像生成第二图像的方式具体可以为:图像生成单元603通过更新后的图像生成模型对第二语义图像、目标信息以及第一图像进行处理,以生成第二图像。
作为又一种示例性实施例,第一损失函数中包括第一对抗损失项和交叉熵损失项。
作为又一种示例性实施例,第二损失函数中包括第二对抗损失项、姿态损失项、内容一致性损失项、语义引导的风格损失项以及面部损失项。
由于本公开的示例实施例的图像生成装置的各个功能模块与上述图像生成方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的图像生成方法的实施例。
请参阅图7,图7示出了适于用来实现本公开一示例性实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备的计算机系统700仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的图像生成方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S110:确定与第一图像对应的第一语义图像;步骤S120:根据第一语义图像和目标信息确定第二语义图像;步骤S130:根据第二语义图像、目标信息以及第一图像生成第二图像。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开的实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开的实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种图像生成方法,其特征在于,包括:
确定与第一图像对应的第一语义图像;
根据所述第一语义图像和目标信息确定第二语义图像;
根据所述第二语义图像、所述目标信息以及所述第一图像生成第二图像。
2.根据权利要求1所述的方法,其特征在于,所述目标信息包括所述第二图像中的姿态信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一语义图像与所述第二语义图像作为对应关系进行存储。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定多个语义图像组;其中,每个所述语义图像组中包含至少两个语义图像;在所述语义图像组内,每个所述语义图像对应的姿态信息不同,每个所述语义图像对应的语义信息相同;
根据多个所述语义图像组训练语义转换模型。
5.根据权利要求4所述的方法,其特征在于,确定多个语义图像组,包括:
确定每个图像集中的图像对应的语义图像;
根据每个所述语义图像对应的语义信息将多个所述语义图像进行匹配,以确定出多个语义图像组。
6.根据权利要求4所述的方法,其特征在于,根据多个所述语义图像组训练语义转换模型,包括:
从多个所述语义图像组中确定出目标语义图像组;
通过语义转换模型对目标姿态信息和第一目标语义图像进行处理,以生成第三图像;其中,所述目标语义图像组包括所述第一目标语义图像,所述目标姿态信息与所述目标语义图像组中的第二目标语义图像对应;
根据对所述第三图像与所述第二目标语义图像的比对,确定出第一损失函数对应的数值;
根据所述第一损失函数对应的数值更新所述语义转换模型。
7.根据权利要求6所述的方法,其特征在于,根据所述第一语义图像和目标信息确定第二语义图像,包括:
通过更新后的所述语义转换模型对所述第一语义图像和目标信息进行处理,以确定出第二语义图像。
8.根据权利要求5所述的方法,其特征在于,每个所述图像集中包括所述图像以及与所述图像对应的待生成姿态信息,所述方法还包括:
根据所述语义转换模型以及图像生成模型对目标图像集中目标图像和所述目标图像对应的待生成姿态信息进行处理,以生成第四图像,所述第四图像与所述目标图像对应的待生成姿态信息对应;其中,多个所述图像集中包括所述目标图像集;
根据所述语义转换模型以及所述图像生成模型对所述第四图像和所述目标图像对应的姿态信息进行处理,以生成第五图像,所述第五图像与所述目标图像的姿态信息对应;
根据对所述目标图像以及所述第五图像的比对,确定出第二损失函数对应的数值;
根据所述第二损失函数对应的数值更新所述语义转换模型和所述图像生成模型。
9.根据权利要求8所述的方法,其特征在于,根据所述第二语义图像、所述目标信息以及所述第一图像生成第二图像,包括:
通过更新后的所述图像生成模型对所述第二语义图像、所述目标信息以及所述第一图像进行处理,以生成第二图像。
10.根据权利要求6所述的方法,其特征在于,所述第一损失函数中包括第一对抗损失项和交叉熵损失项。
11.根据权利要求8所述的方法,其特征在于,所述第二损失函数中包括第二对抗损失项、姿态损失项、内容一致性损失项、语义引导的风格损失项以及面部损失项。
12.一种图像生成装置,其特征在于,包括:
语义分解单元,用于确定与第一图像对应的第一语义图像;
语义转换单元,用于根据所述第一语义图像和目标信息确定第二语义图像;
图像生成单元,用于根据所述第二语义图像、所述目标信息以及所述第一图像生成第二图像。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~11中任一项所述的图像生成方法。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~11中任一项所述的图像生成方法。
CN201910296009.4A 2019-04-12 2019-04-12 图像生成方法、装置、计算机可读介质及电子设备 Pending CN111815756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910296009.4A CN111815756A (zh) 2019-04-12 2019-04-12 图像生成方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910296009.4A CN111815756A (zh) 2019-04-12 2019-04-12 图像生成方法、装置、计算机可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN111815756A true CN111815756A (zh) 2020-10-23

Family

ID=72843995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910296009.4A Pending CN111815756A (zh) 2019-04-12 2019-04-12 图像生成方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111815756A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330060A1 (en) * 2010-11-29 2013-12-12 Hans-Peter Seidel Computer-implemented method and apparatus for tracking and reshaping a human shaped figure in a digital world video
CN104732506A (zh) * 2015-03-27 2015-06-24 浙江大学 一种基于人脸语义分析的人物照片颜色风格转换方法
CN108197589A (zh) * 2018-01-19 2018-06-22 北京智能管家科技有限公司 动态人体姿态的语义理解方法、装置、设备和存储介质
CN108805803A (zh) * 2018-06-13 2018-11-13 衡阳师范学院 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330060A1 (en) * 2010-11-29 2013-12-12 Hans-Peter Seidel Computer-implemented method and apparatus for tracking and reshaping a human shaped figure in a digital world video
CN104732506A (zh) * 2015-03-27 2015-06-24 浙江大学 一种基于人脸语义分析的人物照片颜色风格转换方法
CN108197589A (zh) * 2018-01-19 2018-06-22 北京智能管家科技有限公司 动态人体姿态的语义理解方法、装置、设备和存储介质
CN108805803A (zh) * 2018-06-13 2018-11-13 衡阳师范学院 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIJIE SONG等: ""Unsupervised Person Image Generation with Semantic Parsing Transformation"", ARXIV, 6 April 2019 (2019-04-06), pages 1 - 5 *

Similar Documents

Publication Publication Date Title
Zhou et al. SignBERT: A BERT-based deep learning framework for continuous sign language recognition
US20240169701A1 (en) Affordance-based reposing of an object in a scene
CN111696028A (zh) 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质
CN110222722A (zh) 交互式图像风格化处理方法、系统、计算设备及存储介质
WO2024099026A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
US10891471B2 (en) Method and system for pose estimation
CN108900788B (zh) 视频生成方法、视频生成装置、电子装置及存储介质
CN114299573B (zh) 视频处理方法、装置、电子设备及存储介质
CN117635897B (zh) 三维对象的姿态补全方法、装置、设备、存储介质及产品
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114821424A (zh) 视频分析方法、视频分析装置、计算机设备、存储介质
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
Zhang et al. Style separation and synthesis via generative adversarial networks
CN118823153A (zh) 图像生成方法、装置、设备及存储介质
CN116309983B (zh) 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN116664603A (zh) 图像处理方法、装置、电子设备及存储介质
CN108460364B (zh) 用于生成信息的方法和装置
CN117475340A (zh) 视频数据处理方法、装置、计算机设备和存储介质
Liu et al. AGDF-Net: Learning domain generalizable depth features with adaptive guidance fusion
CN119693632A (zh) 对象的识别方法和装置、存储介质及电子设备
CN112669431A (zh) 图像处理方法、装置、设备、存储介质以及程序产品
CN111815756A (zh) 图像生成方法、装置、计算机可读介质及电子设备
Wang et al. [Retracted] Convolution‐Based Design for Real‐Time Pose Recognition and Character Animation Generation
CN116777766A (zh) 图像增强方法、电子设备及存储介质
CN115482327A (zh) 图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201023