HK40070393B - 一种转换模型的确定方法和相关装置 - Google Patents
一种转换模型的确定方法和相关装置 Download PDFInfo
- Publication number
- HK40070393B HK40070393B HK42022060093.6A HK42022060093A HK40070393B HK 40070393 B HK40070393 B HK 40070393B HK 42022060093 A HK42022060093 A HK 42022060093A HK 40070393 B HK40070393 B HK 40070393B
- Authority
- HK
- Hong Kong
- Prior art keywords
- style
- image
- model
- domain
- initial
- Prior art date
Links
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种转换模型的确定方法和相关装置。
背景技术
随着人工智能的发展,可以通过网络模型将一种风格的图像转换为另一种风格的图像。例如将用户通过相机拍摄的风景照片转换为油画风格的图像,相当于实现了对图像的再创作,提高了用户感受。
然而,相关技术中采用的风格转换模型主要能够实现将输入的图像转换为某一个美术作品的风格,例如转换为著名抽象画A的风格。难以满足目前的多样性的图像再创作需求。
发明内容
为了解决上述技术问题,本申请提供了一种转换模型的确定方法和相关装置,使风格转换模型不仅可以准确的转换出属于某一风格领域的风格转换图像,而且还能够基于转换需求得到属于不同风格领域的风格转换图像,实现了在高效率的训练下得到能够满足用户多样性转换需求的风格转换模型。
本申请实施例公开了如下技术方案:
一方面,本申请提供一种转换模型的确定方法,所述方法包括:
获取包括第一训练样本集和第二训练样本集的多个训练样本集,所述第一训练样本集包括的多个图像样本的图像风格属于第一风格领域,所述第二训练样本集包括的多个图像样本的图像风格属于第二风格领域;
通过初始转换模型对待训练图像进行风格转换,得到初始转换图像;
将所述初始转换图像和所述图像样本分别作为输入图像,通过判别模型得到针对所述输入图像的类别识别结果,所述类别识别结果用于标识所述输入图像被识别的图像类别属于所述初始转换图像或所述图像样本;
基于所述类别识别结果与所述输入图像的类别差异,确定第一损失函数,以及基于所述初始转换图像作为所述输入图像时的类别识别结果与所述图像样本的类别差异,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,在所述对抗训练中,所述第一损失函数用于调整所述判别模型的模型参数,所述第二损失函数用于调整所述初始转换模型的模型参数;
通过所述对抗训练,基于所述初始转换模型得到风格转换模型,所述风格转换模型用于对目标图像进行风格转换,得到属于所述第一风格领域或第二风格领域的风格转换图像。
另一方面,本申请提供一种转换模型的确定装置,所述装置包括:
训练样本集获取单元,用于获取包括第一训练样本集和第二训练样本集的多个训练样本集,所述第一训练样本集包括的多个图像样本的图像风格属于第一风格领域,所述第二训练样本集包括的多个图像样本的图像风格属于第二风格领域;
风格转换控制单元,用于通过初始转换模型对待训练图像进行风格转换,得到初始转换图像;
判别控制单元,用于将所述初始转换图像和所述图像样本分别作为输入图像,通过判别模型得到针对所述输入图像的类别识别结果,所述类别识别结果用于标识所述输入图像被识别的图像类别属于所述初始转换图像或所述图像样本;
损失函数确定单元,用于基于所述类别识别结果与所述输入图像的类别差异,确定第一损失函数,以及基于所述初始转换图像作为所述输入图像时的类别识别结果与所述图像样本的类别差异,确定第二损失函数;
对抗训练单元,用于根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,在所述对抗训练中,所述第一损失函数用于调整所述判别模型的模型参数,所述第二损失函数用于调整所述初始转换模型的模型参数;
模型确定单元,用于通过所述对抗训练,基于所述初始转换模型得到风格转换模型,所述风格转换模型用于对目标图像进行风格转换,得到属于所述第一风格领域或第二风格领域的风格转换图像。
另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的转换模型的确定方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的转换模型的确定方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的转换模型的确定方法。
由上述技术方案可以看出,获取待训练图像和对应不同风格领域的多个训练样本集,如第一训练样本集和第二训练样本集。利用初始转换模型对待训练图像进行风格转换,得到初始转换图像,将初始转换图像和训练样本集中的图像样本分别作为输入图像,通过判别模型得到标识输入图像属于初始转换图形还是图像样本的类别识别结果,通过该类别识别结果可以体现出判别模型对图像类别的识别能力,同时可以体现初始转换模型将待训练图像向第一风格领域或第二风格领域转换的能力。
因此,可以根据判别模型得到的类别识别结果与输入图像的类别差异,确定第一损失函数,也可以根据初始转换图像作为输入图像时的类别识别结果与图像样本的类别差异,确定第二损失函数,根据第一损失函数和第二损失函数对包括判别模型和初始转换模型的生成对抗网络进行对抗训练,通过第一损失函数尽量提升判别模型的识别能力,使得判别模型能够正确识别出输入图像中的初始转换图像,通过第二损失函数尽量提升初始转换模型的风格转换能力,让得到的初始转换图像能够欺骗判别模型,使得判别模型无法正确识别出该初始转换图像,从而通过这种对抗训练所得到的风格转换模型充分学习到了不同训练样本集中多个图像样本的共性,从而能够基于目标图像得到足以乱真的第一风格领域或第二风格领域的风格转换图像,使得风格转换模型不仅可以准确的转换出属于某一风格领域的风格转换图像,而且还能够基于转换需求得到属于不同风格领域的风格转换图像,实现了在高效率的训练下得到能够满足用户多样性转换需求的风格转换模型。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种转换模型的确定方法的应用场景示意图;
图2为本申请实施例提供的一种转换模型的确定方法的信令图;
图3为本申请实施例提供的一种批量标准化层的结构示意图;
图4-图6为本申请实施例提供的多种风格转换界面的示意图;
图7为本申请实施例提供的另一种批量标准化层的示意图;
图8-图9为本申请实施例提供的多种风格转换界面的示意图;
图10-图13为本申请实施例提供的多种风格领域图像的示意图;
图14为本申请实施例提供的一种转换模型的确定装置的结构框图;
图15为本申请实施例提供的一种终端设备的结构图;
图16为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
目前可以通过网络模型将一种风格的图像转换为另一种风格的图像,例如将用户实际拍摄的风景照片转换为油画风格的图像,实现了对图像的再创作,然而相关技术中的风格转换模型只能获取某一美术作品的特征而将输入的图像转换为该美术作品的风格,例如将输入的图像转换为著名抽象画A的风格,难以满足目前的多样性的图像再创作需求。
为了解决上述技术问题,本申请实施例提供了一种转换模型的确定方法和相关装置,获取待训练图像和对应不同风格领域的多个训练样本集,构建生成对抗网络,并利用待训练图像和多个训练样本集中的图像样本对生成对抗网络进行对抗训练,所得到的风格转换模型充分学习到了不同训练样本集中多个图像样本的共性,使得风格转换模型不仅可以准确的转换出属于某一风格领域的风格转换图像,而且还能够基于转换需求得到属于不同风格领域的风格转换图像,实现了在高效率的训练下得到能够满足用户多样性转换需求的风格转换模型。
本申请实施例提供的转换模型的确定方法是基于人工智能(ArtificialIntelligence,AI)实现的,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述机器学习/深度学习等方向。例如,可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network,ANN)。
本申请实施例所提供的转换模型的确定方法可以通过具有数据处理的计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该具有数据处理的计算机设备涉及计算机视觉技术(Computer Vision,CV),计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
该具有数据处理的计算机设备具备机器学习能力,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例提供的一种转换模型的确定方法和相关装置中,采用的人工智能模型主要涉及对自然语言处理的应用,通过自然语言处理实现转换模型的确定,从而实现对图像的多种风格转换。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种转换模型的确定方法进行介绍。
参见图1,图1为本申请实施例提供的一种转换模型的确定方法的应用场景示意图。在图1所示的应用场景中,包括服务器20和终端设备10,终端设备10中安装有用于实现图像风格转换的应用程序,该应用程序对应的服务器20和终端设备10之间可以通过网络进行交互。服务器20用于确定风格转换模型,风格转换模型用于对目标图像S1进行多种风格转换得到风格转换图像,终端设备10用于和用户进行交互,从而获取风格转换指令,并展示风格转换图像。
在具体实现时,终端设备10在应用程序中展示风格转换界面100,基于用户在风格转换界面100内的操作确定风格转换指令,风格转换指令包括需要进行风格转换的目标图像S1,以及需要对该目标图像S1进行哪种风格的风格转换,终端设备10可以向服务器20发送风格转换指令,终端设备10还可以在服务器20对目标图像S1进行风格转换之后,从服务器20获取并在风格转换界面10中向用户展示经过风格转换的风格转换图像G1或G2。
服务器20可以获取对应不同风格领域的多个训练样本集T,多个训练样本集T中第i个训练样本集表示为Ti,i为正整数,如多个训练样本集T包括第一训练样本集T1和第二训练样本集T2,第一训练样本集T1包括的多个图像样本的图像风格属于第一风格领域Y1,第二训练样本集T2包括的多个图像样本的图像风格属于第二风格领域Y2。每个图像样本包括图像及图像对应的类别标签,图像对应的类别标签用于标识该图像的图像风格所属的风格领域。例如,第一风格领域Y1为水墨画风格,第二风格领域Y2为现代派风格。
服务器20还可以获取待训练图像S和初始转换模型G,初始转换模型G对待训练图像S进行风格转换得到初始转换图像,初始转换模型的算法模型包括特征提取算法f和特征处理算法g,该算法模型可以表示为g(f(x)),x为待训练图像S的像素。
服务器20中还具有判别模型D,判别模型D可以针对输入图像的类别进行识别,初始转换模型和判别模型构成生成对抗网络21。具体的,可以将初始转换图像和图像样本分别作为输入图像,通过判别模型D得到标识输入图像属于初始转换图像或图像样本的类别识别结果,判别模型D的算法模型可以表示为D(x),x为输入图像。
因此,可以根据判别模型得到的类别识别结果与输入图像的类别差异,确定第一损失函数LD,第一损失函数LD表征判别模型对图像类别的识别误差,识别误差越小,说明表征判别模型D对图像类别的识别能力越强;也可以根据初始转换图像作为输入图像时的类别识别结果与图像样本的类别差异,确定第二损失函数LG,第二损失函数LG表征经过初始转换模型G的风格转换后的初始转换图像的类别的识别偏差,识别偏差越大,说明初始转换模型G的风格转换越成功,即初始转换模型G的风格转换能力越强。
由于第一损失函数LD表征判别模型对图像类别的识别能力,而第二损失函数LG表征初始转换模型的风格转换能力,可以根据第一损失函数LD调整判别模型D的模型参数,通过第一损失函数尽量提升判别模型的识别能力,使得判别模型能够正确识别出输入图像中的初始转换图像,根据第二损失函数LG用于调整初始转换模型G的模型参数,通过第二损失函数尽量提升初始转换模型的风格转换能力,让得到的初始转换图像能够欺骗判别模型,使得判别模型无法正确识别出该初始转换图像,以强化判别模型D的图像类别的识别能力以及初始转换模型G的风格转换能力。
通过这种对抗训练将初始转换模型优化为风格转换模型,风格转换模型充分学习到了不同训练样本集中多个图像样本的共性,从而能够基于目标图像得到足以乱真的第一风格领域或第二风格领域的风格转换图像,使得风格转换模型不仅可以准确的转换出属于某一风格领域的风格转换图像,而且还能够基于转换需求得到属于不同风格领域的风格转换图像,实现了在高效率的训练下得到能够满足用户多样性转换需求的风格转换模型。例如风格转换模型对目标图像S1进行风格转换得到的风格转换图像G1的图像风格属于第一风格领域Y1,风格转换图像G2的图像风格属于第二风格领域Y2。
接下来,将结合附图,对本申请实施例提供的一种转换模型的确定方法进行介绍。
参见图2,图2为本申请实施例提供的一种转换模型的确定方法的信令图,该方法包括:
S201,获取包括第一训练样本集和第二训练样本集的多个训练样本集。
本申请实施例中,可以获取多个训练样本集,可以从远程或从本地获取,多个训练样本集可以通过有线连接或无线连接的方式获取。
多个训练样本集可以对应可以包括第一训练样本集和第二训练样本集,其中第一训练样本集和第二训练样本集可以为多个训练样本集中的任意两个训练样本集,可以为多个训练样本集中的全部,也可以为多个训练样本集中的部分训练样本集,也就是说,多个训练样本集可以仅包括第一训练样本集和第二训练样本集,也可以在第一训练样本集和第二训练样本集之外还包括其他训练样本集,其他训练样本集为一个训练样本集,也可以为两个训练样本集,甚至可以为更多个训练样本集,例如多个训练样本集还包括第三训练样本集,或还包括第三训练样本集和第四训练样本集,等等。本申请实施例中以多个训练样本集中的第一训练样本集和第二训练样本集作为示例进行说明,在多个训练样本集还包括其他训练样本集时,其转换模型的确定方法,可以参考多个训练样本集仅包括第一训练样本集和第二训练样本集时的转换模型的确定方法。
多个训练样本集T中第i个训练样本集表示为Ti,i为正整数,需要说明的是,第i个训练样本集的排序方式可以根据实际情况而定,而第一训练样本集和第二训练样本集指示不同的训练样本集,并不指示顺序的先后。举例来说,第一训练样本集可以为多个训练样本集T中的第1个训练样本集T1,第二训练样本集可以为多个训练样本集T中的第2个训练样本集T2。在多个训练样本集T还包括第三训练样本集时,第三训练样本集可以为多个训练样本集T中的第3个训练样本集T3,在多个训练样本集T还包括第四训练样本集时,第四训练样本集可以为多个训练样本集T中的第4个训练样本集T4。
多个训练样本集T中的每个训练样本集可以对应一个风格领域,这样多个训练样本集可以对应多个风格领域。具体的,第一训练样本集T1可以对应第一风格领域Y1,第二训练样本集T2可以对应第二风格领域Y2,这样利用多个训练样本集进行风格转换模型的确定,得到的风格转换模型可以具有将图像向多个风格领域转换的能力。相应的,第三训练样本集T3可以对应第三风格领域Y3,第四训练样本集T4可以对应第四风格领域Y4。
其中,第一训练样本集T1中可以包括多个图像样本,多个图像样本的图像风格属于第一风格领域Y1;第二训练样本集T2中也可以包括多个图像样本,多个图像样本的图像风格属于第二风格领域Y2。这样基于第一训练样本集T1和第二训练样本集T2进行风格转换模型的确定,得到的风格转换模型可以具有将图像向第一风格领域Y1或第二风格领域Y2转换的能力,即实现从原始领域向其他领域的域到域(Domain2domain,D2D)风格转换,而不仅局限于目前的从原始图片向其他图片的图片到图片(Image2image,I2I)风格转换,使风格转换更加普世化,更好的满足实际需求。当然,多个训练样本集中的其他训练样本集中的图像样本可以为一个,也可以为多个。
本申请实施例中,图像风格(style)是图像的整体的特征属性的体现,也可以是图像中某一个特征所具有的共性的体现,图像风格可以是图像的艺术风格,也可以是图像的图像作者风格,还可以是图像的其他风格,图像风格的领域可以基于图像作者或者艺术风格中的至少一种确定的。
具体的,图像的艺术风格可以包括艺术流派风格、艺术时代风格、艺术表现风格等。其中,艺术流派风格可以包括印象派风格、抽象派风格、写实派风格等;艺术时代风格可以包括传统风格、古典风格、现代风格等;艺术表现风格可以包括油画风格、水墨画风格、水彩画风格、简笔画风格、塑封风格、素描风格等。图像的图像作者风格可以包括画家A风格、画家B风格等,例如齐白石风格、徐悲鸿风格、张大千风格等。图像的其他风格例如可以为自定义风格,自定义风格例如可以包括天气风格,天气风格可以包括晴天风格、阴雨风格、雾霭风格等。第一风格领域Y1和第二风格领域Y2是基于图像作者或者艺术风格中的至少一种确定的。
每个图像样本包括图像及图像对应的类别标签,图像对应的类别标签用于标识该图像的图像风格所属的风格领域,即第一训练样本集T1中的多个图像样本具有第一标签,第二训练样本集T2中的多个图像样本具有第二标签。举例来说,第一风格领域Y1可以为水墨画风格或水墨画画家A风格,第一训练样本集T1中的多个图像样本具有水墨画标签或水墨画画家A标签,第二风格领域Y2可以为现代派风格或现代派画家B风格,第二训练样本集T2中的多个图像样本具有现代派标签或现代派画家B标签,利用多个训练样本集训练得到的风格转换模型则具有将图像的图像风格转换为水墨画风格或水墨画画家A风格的能力,也具有将图像的图像风格转换为现代派风格或现代派画家B风格的能力。或者,第一风格领域Y1可以为素描风格,第一训练样本集T1中的多个图像样本具有素描标签,第二风格领域Y2可以为塑封风格,第二训练样本集T2中的多个图像样本具有塑封标签,利用多个训练样本集训练得到的风格转换模型则具有将图像的图像风格转换为素描风格的能力,也具有将图像的图像风格转换为塑封风格的能力。
此外,第三风格领域Y3可以为印象派画家C风格,第三训练样本集T3中的多个图像样本具有印象派画家C标签,第四风格领域Y4可以为印象派画家D风格,第四训练样本集T4中的多个图像样本具有印象派画家D标签。
S202,通过初始转换模型对待训练图像进行风格转换,得到初始转换图像。
本申请实施例中,可以建立生成对抗网络(Generative Adversarial Network,GAN),生成对抗网络包括一个生成网络(generator)与一个判别网络(discriminator),生成网络可以对输入数据进行处理得到输出结果,输出结果会尽量模仿训练样本集中的训练样本,对抗网络的输入为训练样本或生成网络的输出结果,其目的是将生成网络的输出从训练样本中尽可能分先出来,而生成网络则需要输出与训练样本相似的输出结果,从而使输出结果尽量不能从训练样本中分辨出来,生成网络和对抗网络相互对抗,二者的参数不断被调整,最终使判别网络无法判断生成网络的输出结果是否真实,此时生成网络的输出结果接近于训练样本。
具体的,生成网络可以用于对图像进行风格转换,对抗训练之前的生成网络称为初始转换模型,初始转换模型的输入为待训练图像,输出结果为初始转换图像,即初始转换模型可以对待训练图像进行风格转换(style transfer)得到初始转换图像,随着对抗训练的进行,初始转换图像逐渐接近训练样本集。初始转换模型的算法模型可以表示为g(f(x)),x为待训练图像S的像素,f(x)为待训练图像S中的高阶特征,则g(f(x))为初始转换图像,其中x∈S。其中,风格转换是指将图像局部或整体的风格领域转换为另一种风格领域,同时保证图像所表达内容的完整性。待训练图像可以为人物图像,也可以为景物图像,还可以为其他图像。
本申请实施例中,可以通过实例规范化(instance normalization)的方式,使不同的风格领域对应不同的子模型参数,从而使同一初始转换模型在不同的子模型参数下实现向不同风格领域的图像风格转换。初始转换模型包括分别针对第一风格领域Y1和第二风格领域Y2的子模型参数,在多个训练数据集还包括第三训练数据集时,初始转换模型还包括针对第三风格领域Y3的子模型参数,在多个训练数据集还包括第四训练数据集时,初始转换模型还包括针对第四风格领域Y4的子模型参数。
在一些实施例中,上述的生成对抗网络可以是各种结构的生成式对抗网络,例如条件生成式对抗网络(Conditional Generative Adversarial Network,CGAN)、深度条件生成式对抗网络(Deep Convolutional Generative Adversarial Network,DCGAN)、瓦瑟斯坦生成式对抗网络(Wasserstein Generative Adversarial Network,WGAN)、循环生成式对抗网络(Cycle Generative Adversarial Network,Cycle-GAN),等等。
其中,生成网络可以是一种用于图像风格领域转换的人工神经网络模型,例如可以是卷积神经网络,该卷积神经网络包括卷积层、池化层、反池化层、反卷积层等,该卷积神经网络例如可以为VGG(Visual Geometry Group Network)、Resnet等;判别网络可以是一种用于监测、控制生成对抗网络输入输出之间差异的人工神经网络模型,例如可以是卷积神经网络(Convolutional Neural Network,CNN),该卷积神经网络包括全连接层,该全连接层可以实现分类功能,该卷积神经网络例如可以为VGG、Resnet等。此外,判别网络也可以是其他用于实现分类功能的模型,例如支持向量机(Support Vector Machine,SVM)。
上述生成对抗网络可以是未经训练的、初始化参数后的生成对抗网络,则生成的输出转换图像的图像风格可以不属于第一风格领域Y1或第二风格领域Y2,上述生成对抗网络也可以是已经经过训练的生成对抗网络,对生成对抗网络进行训练的训练数据包括多个训练样本集,则初始转换图像的图像风格可以属于第一风格领域Y1或第二风格领域Y2。
具体的,对应第i个训练样本集所属的风格领域的子模型参数可以为初始转换模型中批量标准化层(Batch normalization,BN)的层参数,即针对第一风格领域Y1的子模型参数和针对第二风格领域Y2的子模型参数分别为初始转换模型中批量标准化层的层参数,而批量标准化层之外的其他层的层参数可以在不同风格领域之间共享,这样约99.3%的模型参数为共享参数,模型在不同领域之间可通用,降低模型训练的复杂度。初始转换模型可以包括一个或多个批量标准化层,用于执行批标准化,从而改善人工神经网络的性能和稳定性。
对应第i个训练样本集所属的风格领域的批量标准化层的层参数可以包括缩放参数γi和位移参数βi,缩放参数γi和位移参数βi用于在所对应风格领域下标识图像像素值的批量标准化变化,缩放参数用于整体按一定倍数放大或缩小图像像素值,位移参数用于为图像像素值增加或减小一定值。
参见图3,图3为本申请实施例提供的一种批量标准化层的结构示意图,对于单个批量标准化层,可以通过调整其层参数使其对应一个风格领域,层参数为缩放参数γ1和位移参数β1时,批量标准化层对应第一风格领域Y1,该批量标准化层可以记为第一批量标准化层;层参数为γ2和位移参数β2时,批量标准化层对应第二风格领域Y2,该批量标准化层可以记为第二批量标准化层。当然,通过调整批量标准化层的层参数,可以使该批量标准化层对应第三风格领域Y3或第四风格领域Y4,在此不做一一举例说明。
批量标准化层还用于在所对应风格领域下对图像像素值进行归一化,参见图3所示,x为输入至批量标准化层的图像的像素值,按照x的期望值μ和标准差σ对x进行归一化,得到对x的归一化结果,公式如下:
xnorm=(x-μ)/σ,
而后可以利用缩放参数γi和位移参数βi对归一化结果进行批量标准化变化,得到批量标准化层的输出结果公式如下:
zi=γi*xnorm+βi。
S203,将初始转换图像和图像样本分别作为输入图像,通过判别模型得到针对输入图像的类别识别结果。
本申请实施例中,可以将初始转换图像和图像样本分别作为输入图像,通过判别模型得到针对输入图像的类别识别结果,判别模型即为前述的判别网络,始转换模型和判别模型构成生成对抗网络。具体的,可以将初始转换图像输入判别模型,判别模型可以得到针对初始转换图像的类别识别结果,将图像样本输入判别模型,判别模型得到针对图像样本的类别识别结果。其中,类别识别结果用于标识输入图像被识别的图像类别属于初始转换图像或图像样本。判别模型的算法模型可以表示为D(x),x为输入图像,则输入图像为图像样本时,类别识别结果可以表示为D(x),其中,x∈T,输入图像为初始转换图像时,类别识别结果可以标识为D(g(f(x))),其中x∈S。
具体的,初始转换图像作为输入图像时,针对初始转换图像的类别识别结果可能为初始转换图像被识别的图像类别属于初始转换图像,即判别模型识别初始转换图像为初始转换图像,此时判别模型的领域识别正确;当然,针对初始转换图像的类别识别结果也可能为初始转换图像被识别的图像类别属于图像样本,即判别模型识别初始转换图像为图像样本,此时判别模型的领域识别错误。同理,图像样本作为输入图像时,针对图像样本的类别识别结果可能是图像样本被识别的图像类别属于初始转换图像,即判别模型识别图像样本为初始转换图像,此时判别模型的领域识别错误;当然,针对图像样本的类别识别结果也可能是图像样本被识别的图像类别属于图像样本,即判别模型识别图像样本为图像样本,此时判别模型的领域识别正确。
实际上,针对特定输入图像的类别识别结果可以体现判别模型对图像类别的识别能力,例如判别模型的类别识别错误越少,类别识别正确越多,说明判别模型对图像类别的识别能力越好;针对特定输入图像的类别识别结果可以体现初始转换模型将待训练图像向第一风格领域Y1或第二风格领域Y2转换的能力,例如初始转换图像被识别为图像样本的次数越多,说明初始转换图像和图像样本越像,初始转换模型的风格转换能力越强。
判别模型可以为二项分类器(Binary classifier),针对输入图像的类别识别结果可以包括第一标签或第二标签,第一标签用于标识输入图像被识别的图像类别属于初始转换图像,第二标签用于标识输入图像被识别的图像类别属于图像样本。作为一种示例,第一标签可以为“0”,第二标签可以为“1”,当然,第一标签和第二标签也可以为其他预先设置的信息,不限于数值1和0。
判别模型也可以为其他分类模型,针对输入图像的类别识别结果可以为具有预设范围的标识,例如针对输入图像的类别识别结果可以为[0,1]的数值,数值的大小标识输入图像被识别的图像类别属于图像样本或初始转换图像的概率。举例来说,类别识别结果越接近1,标识输入图像被识别的图像类别属于图像样本的概率越大,相应的属于初始转换图像的概率越小,而类别识别结果越接近0,标识输入图像被识别的图像类别属于图像样本的概率越小,相应的属于初始转换图像的概率越大。
S204,基于类别识别结果与输入图像的类别差异,确定第一损失函数,以及基于初始转换图像作为输入图像时的类别识别结果与图像样本的类别差异,确定第二损失函数。
由于针对特定输入图像的类别识别结果可以体现判别模型对图像类别的识别能力,同时可以体现初始转换模型将待训练图像向第一风格领域Y1或第二风格领域Y2转换的能力,因此可以根据判别模型得到的类别识别结果与输入图像的类别差异,确定第一损失函数,第一损失函数表征判别模型对图像类别的识别误差,类别差异越小,识别误差越小,说明表征判别模型对图像类别的识别能力越强,能够很好的区分输入图像是图像样本还是初始转换图像;也可以根据初始转换图像作为输入图像时的类别识别结果与图像样本的类别差异,确定第二损失函数,第二损失函数表征经过初始转换模型的风格转换后的初始转换图像的类别的识别偏差,初始转换图像作为输入图像时的类别识别结果与图像样本的类别差异越小,识别偏差越大,说明初始转换图像的风格领域与第一风格领域Y1或第二风格领域Y2的差距越小,也说明初始转换模型的风格转换越成功,即初始转换模型的风格转换能力越强,能够很好的欺骗判别模型,使判别模型无法正确识别出该初始转换图像。
第一损失函数可以针对第i个训练样本集所属的风格领域,第二损失函数针对第i个训练样本集所属的风格领域。具体的,初始转换模型包括分别针对第一风格领域Y1和第二风格领域Y2的子模型参数,因此,可以确定分别针对第一风格领域Y1和第二风格领域Y2的第一损失函数(和),以及分别针对第一风格领域Y1和第二风格领域Y2的第二损失函数(和)。在多个训练数据集还包括第三训练数据集时,初始转换模型还包括针对第三风格领域Y3的子模型参数,则还可以确定针对第三风格领域Y3的第一损失函数和第二损失函数在多个训练数据集还包括第四训练数据集时,初始转换模型还包括针对第四风格领域Y4的子模型参数,则还可以确定针对第四风格领域Y4的第一损失函数和第二损失函数
第一损失函数可以表示为:
第二损失函数可以表示为:
本申请实施例中,还可以基于待训练图像和对应的初始转换图像间的图像特征差异,确定第三损失函数,第三损失函数体现初始转换模型将待训练图像转换为对应的初始转换图像时的特征损失,特征损失越小,待训练图像和对应的初始转换图像间的内容一致性越好。第三损失函数可以为待训练图像和对应的初始转换图像件的像素特征的距离,例如可以为待训练图像的高阶特征和对应的初始转换图像的高阶特征之间的距离,该距离可以为欧式距离。具体的,f(x)为待训练图像S中的高阶特征,g(f(x))为初始转换图像,f(g(f(x)))为初始转换图像的高阶特征,其中x∈S。
第三损失函数可以针对第i个训练样本集所属的风格领域,具体的,可以确定分别针对第一风格领域Y1和第二风格领域Y2的第三损失函数(和),在多个训练数据集还包括第三训练数据集时,还可以确定针对第三风格领域Y3的第三损失函数在多个训练数据集还包括第四训练数据集时,还可以确定针对第四风格领域Y4的第三损失函数
第三损失函数可以表示为:
其中,λ为常数。
S205,根据第一损失函数和第二损失函数对包括判别模型和初始转换模型的生成对抗网络进行对抗训练。
本申请实施例中,判别模型和初始转换模型可以构成生成对抗网络,根据第一损失函数和第二损失函数可以对生成对抗网络进行对抗训练。由于第一损失函数表征判别模型对图像类别的识别误差,则在对抗训练中,第一损失函数用于调整判别网络的模型参数,具体的,可以调整判别网络的模型参数来最小化第一损失函数;由于第二损失函数表征经过初始转换模型的风格转换后的初始转换图像的类别的识别偏差,则在对抗训练中,第二损失函数用于调整初始转换模型的模型参数,具体的,可以调整初始转换模型的模型参数来最小化第二损失函数。
在初始转换模型包括分别针对不同风格领域的子模型参数时,可以通过调整某一风格领域对应的子模型参数,从而最小化该风格领域对应的第二损失函数,例如可以通过调整针对第一风格领域Y1的子模型参数,最小化针对第一风格领域Y1的第二损失函数,通过调整针对第二风格领域Y2的子模型参数,最小化针对第二风格领域Y2的第二损失函数。
即,针对初始转换模型,根据第一损失函数和第二损失函数对生成对抗网络进行对抗训练可以具体为,响应于第二损失函数为根据初始转换图像的类别识别结果与属于第一风格领域Y1的图像样本的类别差异确定,根据第二损失函数对初始转换模型中针对第一风格领域Y1的子模型参数进行调整;响应于第二损失函数为根据初始转换图像的类别识别结果与属于第二风格领域Y2的图像样本的类别差异确定,根据第二损失函数对初始转换模型中针对第二风格领域Y2的子模型参数进行调整。
本申请实施例中,在基于待训练图像和对应的初始转换图像间的图像特征差异,确定第三损失函数时,由于第三损失函数体现初始转换模型将待训练图像转换为对应的初始转换图像时的特征损失,则针对初始转换模型,在对抗训练中,还可以根据第三损失函数调整初始转换模型的模型参数。具体的,可以调整初始转换模型的模型参数来最小化第三损失函数。
S206,通过对抗训练,基于初始转换模型得到风格转换模型。
本申请实施例中,根据第一损失函数和第二损失函数对生成对抗网络进行对抗训练,通过对抗训练,可以强化判别模型的图像类别的识别能力以及初始转换模型的风格转换能力。在训练完成后,风格转换能力得到提高的初始转换模型可以作为风格转换模型,得到的风格转换模型充分学习到了不同训练样本集中多个图像样本的共性,使得风格转换模型不仅可以准确的转换出属于某一风格领域的风格转换图像,而且还能够基于转换需求得到属于不同风格领域的风格转换图像,实现了在高效率的训练下得到能够满足用户多样性转换需求的风格转换模型。
相比于利用目标图像和单个风格图像对模型进行训练从而该模型具有将目标图像的图像风格转换为风格图像的风格而言,本申请实施例无需在对目标图像进行风格转换时进行模型训练,降低了风格转换的时间复杂度(Time complexity),即节省了生成风格转换图像的时间;相比于单个模型具有将目标图像向单一风格转换的功能,而将目标图像向多个风格转换需要多个模型而言,本申请实施例仅需要风格转换模型即可实现多风格转换,降低了风格转换的空间复杂度(Space complexity),即节省了资源消耗。
需要说明的是,多个训练样本集中每个训练样本集可以对应一个风格领域,则该训练样本集中的图像样本的图像风格属于该风格领域,则训练样本集的数量越多,训练样本集中的图像样本的图像风格所属的风格领域也越多,风格转换模型可以进行的风格转换方向也越多。具体的,在多个训练样本集仅包括第一训练样本集T1和第二训练样本集T2时,基于多个训练样本集训练得到的风格转换模型具有将目标图像的图像风格转换为第一风格领域Y1或第二风格领域Y2的能力,而在多个训练样本集还包括除第一训练样本集T1和第二训练样本集T2之外的其他训练样本集时,风格转换模型的风格转换方向也不仅局限于两个风格领域,而存在更多可能性。
举例来说,在训练样本集中的图像样本的图像风格所属的风格领域包括水墨画风格、水墨画画家A风格、传统风格、古典风格、现代风格、油画风格、水彩画风格、简笔画风格、塑封风格、素描风格等时,风格转换模型可以将目标图像的图像风格转换为水墨画风格、水墨画画家A风格、传统风格、古典风格、现代风格、油画风格、水彩画风格、简笔画风格、塑封风格、素描风格等。
在训练完成后,风格转换模型具有图像转换能力,因此可以利用风格转换模型进行风格转换。风格转换模型可以由服务器确定,也可以由终端设备确定,风格转换模型可以存储在服务器中,从而使服务器可以利用风格转换模型进行风格转换,风格转换模型也可以存储在终端设备中,从而使终端设备利用风格转换模型进行风格转换。
本申请实施例中,还可以获取风格转换请求,基于风格转换请求进行风格转换,具体的,风格转换请求可以包括目标图像和指定的目标风格领域,目标风格领域可以包括第一风格领域Y1或第二风格领域Y2,这样通过风格转换模型中与目标风格领域对应的子模型参数对目标图像进行风格转换,得到属于目标风格领域的风格转换图像。例如风格转换请求中包括目标图像和第一风格领域Y1,则通过风格转换模型中与第一风格领域Y1对应的子模型参数可以对目标图像进行风格转换,得到属于第一风格领域Y1的风格转换图像。
本申请实施例中,风格转换请求可以由终端设备生成,在风格转换模型存储在终端设备时,终端设备可以基于风格转换请求利用风格转换模型进行风格转换;在风格转换模型存储在服务器时,服务器可以获取到来自终端设备的风格转换请求,基于风格转换请求利用风格转换模型进行风格转换,而后向终端设备发送经过风格转换后的风格转换图像。
本申请实施例中,终端设备还可以展示风格转换界面,风格转换界面可以在用于实现图像风格转换的应用程序中展示,该应用程序对应的服务器和终端设备可以通过网络进行交互。
风格转换界面是为用户展示的可操作界面,以便终端设备基于用户在风格转换界面中的操作,确定目标图像和目标风格领域。用户可以在风格转换界面中先通过操作选中需要进行风格转换的目标图像,然后再通过操作选中针对该目标图像的目标风格领域,下面将以此为例进行说明;用户也可以在风格转换界面中先通过操作选中目标风格领域,然而通过操作选中针对该目标风格领域需要进行风格转换的目标图像,该方式可参考先选中目标图像再选中目标风格领域的方式,不再进行举例说明。
风格转换界面可以包括图像输入控件,终端设备根据用户对图像输入控件的操作在风格转换界面中显示可选图像,并基于用户对可选图像的选中操作将被选中的可选图像作为目标图像;图像转换界面也可以包括摄像头激活控件,终端设备根据用户对摄像头激活控件的操作激活摄像头,并将基于摄像头获取的图像作为目标图像。
参见图4,为本申请实施例提供的一种风格转换界面的示意图,其中需要进行风格转换的目标图像已经确定,风格转换界面100包括多个可转换风格领域对应的风格标识101,多个可转换风格领域包括第一风格领域Y1和第二风格领域Y2,用户可以对多个可转换风格领域对应的风格标识101进行选择。风格转换界面中的风格标识101显示在风格转换界面中的第一显示区域1001中,目标图像和风格转换图像显示在风格转换界面中的第二显示区域1002,图4中目标风格领域未被选中,目标图像显示在第二显示区域1002。
获取风格转换请求,可以具体为,在通过风格转换界面获取目标图像和确定多个可转换风格领域中目标风格领域的风格标识被选中时,获取该风格转换请求。例如第一风格领域Y1可以为素描风格领域,对应素描的风格标识,第二风格领域Y2可以为塑封风格领域,对应塑封的风格标识,多个可转换风格领域还包括第三风格领域Y3,第三风格领域Y3可以为简笔画风格领域,对应简笔画的风格标识,这些风格标识可供用户选择。
参见图5,为本申请实施例提供的另一种风格转换界面的示意图,在素描风格领域对应的素描的风格标识被选中时,可以获取风格转换请求,风格转换请求中包括目标图像和素描风格领域,此时在第二显示区域1002可以显示属于素描风格领域的风格转换图像。
参见图6,为本申请实施例提供的又一种风格转换界面的示意图,在塑封风格领域对应的塑封的风格标识被选中时,可以获取风格转换请求,风格转换请求中包括目标图像和塑封风格领域,此时在第二显示区域1002可以显示属于塑封风格领域的风格转换图像。
本申请实施例中,初始转换模型包括分别针对第一风格领域Y1和第二风格领域Y2的子模型参数,针对第一风格领域Y1的子模型参数和针对第二风格领域Y2的子模型参数分别为初始转换模型中批量标准化层的层参数时,由于初始转换模型中除批量标准化层之外的其他模型参数可以在不同风格领域之间共享,因此还可以通过调整批量标准化层的层参数,实现不同风格领域之间的融合,具体的,可以对不同风格领域对应的批量标准化层的层参数进行线性插值(linear interpolation),得到的新的批量标准化层的层参数作为融合不同风格领域的新领域对应的子模型参数。
新的批量标准化层的层参数,可以通过对各个风格领域对应的子模型参数的加权平均,在融合形成的新领域与某一风格领域相关时,该风格领域的权重不为零,在融合形成的新领域与某一风格领域不相关时,该风格领域的权重为零,参考如下公式:
γ=∑ai*γi,β=∑ai*βi,
其中,ai为第i个训练样本集对应的风格领域的权重,各个风格领域的权重范围可以为[0,1],各个风格领域的权重之和可以为1,即∑ai=1。
批量标准化层还用于在所对应风格领域下对图像像素值进行归一化,参见图7,为本申请实施例提供的另一种批量标准化层的示意图,x为输入至批量标准化层的图像的像素值,按照x的期望值μ和标准差σ对x进行归一化,得到对x的归一化结果,公式如下:
xnorm=(x-μ)/σ,
而后可以利用缩放参数γ和位移参数β对归一化结果进行批量标准化变化,得到批量标准化层的输出结果公式如下:
z=γ*xnorm+β。
本申请实施例中,风格转换请求中的目标风格领域还可以为多个风格领域融合得到的新领域,这样通过风格转换模型中与目标风格领域对应的子模型参数对目标图像进行风格转换,得到属于目标风格领域的风格转换图像。具体的,目标风格领域包括第一占比的第一风格领域Y1和第二占比的第二风格领域Y2,则可以按照第一占比和第二占比将第一风格领域Y1和第二风格领域Y2进行融合得到新领域,通过风格转换模型中与目标风格领域对应的子模型参数对目标图像进行风格转换,得到属于目标风格领域的风格转换图像,可以具体为,获取风格转换模型中与第一风格领域Y1和第二风格领域Y2分别对应的子模型参数,根据第一占比、第二占比和与第一风格领域Y1和第二风格领域Y2分别对应的子模型参数,通过风格转换模型对目标图像进行风格转换,得到属于目标风格领域的风格转换图像。
其中,第一占比可以作为第一风格领域Y1的权重a1,第二占比可以作为第二风格领域Y2的权重a2,按照第一占比a1和第二占比a2将第一风格领域Y1和第二风格领域Y2进行融合得到的新领域,对应的批量标准化层的层参数可以表示为:
γ=a1*γ1+a2*γ2,β=a1*β1+a2*β2。
参见图8,图8为本申请实施例提供的再一种风格转换界面的示意图,风格转换界面100包括多个可转换风格领域对应的风格标识101,在通过风格转换界面获取目标图像和确定多个可转换风格领域中目标风格领域的风格标识被选中时,获取该风格转换请求,例如第一风格领域Y1可以为水墨画风格领域,第二风格领域Y2可以为现代派风格领域,第三风格领域Y3可以为印象派风格领域。可转换风格领域可以包括一种风格领域,例如为水墨画风格领域,对应水墨画的风格标识,可转换风格领域也可以包括多种风格领域,例如包括现代派风格领域和水墨画风格领域,对应现代+水墨画的风格标识,又例如包括印象派风格领域和水墨画风格领域,对应印象+水墨画的风格标识。
在可转换风格领域包括多种风格领域时,风格显示界面还包括风格占比选择标识,用户可以通过风格占比选择标识确定多种风格领域的占比。风格占比选择标识可以包括输入框或选择控件等多种形式。参见图9,图9为本申请实施例提供的还一种风格转换界面的示意图,风格占比选择标识包括占比数轴102和光标103,光标103在占比数轴102的位置表征多种风格领域的占比,其中占比数轴102的一侧端点为一种风格领域,占比数轴102的另一侧端点为另一种风格领域。参见图9,以可转换风格领域包括现代派风格领域和水墨画风格领域为例,占比数轴102的左侧端点为现代派风格领域,右侧端点为水墨画风格领域,用户可以通过在水平方向上滑动光标103来确定现代派风格领域和水墨画风格领域而占比,例如将光标103从左侧虚线位置滑动到右侧实线位置,现代派风格领域的占比增加,水墨画风格领域的占比减小。
参见图10,图10为本申请实施例提供的一种风格领域图像的示意图,在可选择风格领域包括现代派风格领域和水墨画风格领域时,在不同占比下可以得到不同的风格图像,图中以现代派风格领域和水墨画风格领域的占比分别为1:0(100%-现代派,0%-水墨画)、0.75:0.25(75%-现代派,25%-水墨画)、0.5:0.5(50%-现代派,50%-水墨画)、0.25:0.75(25%-现代派,75%-水墨画)、0:1(0%-现代派,100%-水墨画)为例进行展示。
参见图11,图11为本申请实施例提供的另一种风格领域图像的示意图,在可选择风格领域包括现代派画家B风格领域和水墨画画家A风格领域时,在不同占比下可以得到不同的风格图像,图中以占比分别为1:0(100%-B,0%-A)、0.75:0.25(75%-B,25%-A)、0.5:0.5(50%-B,50%-A)、0.25:0.75(25%-B,75%-A)、0:1(0%-B,100%-A)为例进行展示。
参见图12,图12为本申请实施例提供的又一种风格领域图像的示意图,在可选择风格领域包括现代派画家B风格领域、水墨画画家A风格领域、印象派画家C风格领域时,在不同占比下可以得到不同的风格图像,其中上方为现代派画家B风格领域,左下方为印象派画家C风格领域,右下方为水墨画画家A风格领域,风格领域图像越接近现代派画家B风格领域,则现代派画家B风格领域的占比越高,水墨画画家A风格领域和印象派画家C风格领域同理。
参见图13,图13为本申请实施例提供的还一种风格领域图像的示意图,在可选择风格领域包括现代派画家B风格领域、水墨画画家A风格领域、印象派画家C风格领域、印象派画家D风格领域时,在不同占比下可以得到不同的风格图像,其中左上方为印象派画家D风格领域,右上方为现代派画家B风格领域,左下方为印象派画家C风格领域,右下方为水墨画画家A风格领域,风格领域图像越接近现代派画家B风格领域,则现代派画家B风格领域的占比越高,印象派画家D风格领域、水墨画画家A风格领域和印象派画家C风格领域同理。
基于上述实施例提供的一种转换模型的确定方法,本申请实施例还提供了一种转换模型的确定装置,参见图14,图14为本申请实施例提供的一种转换模型的确定装置的结构框图,该转换模型的确定装置1400包括:
训练样本集获取单元1401,用于获取包括第一训练样本集和第二训练样本集的多个训练样本集,所述第一训练样本集包括的多个图像样本的图像风格属于第一风格领域,所述第二训练样本集包括的多个图像样本的图像风格属于第二风格领域;
风格转换控制单元1402,用于通过初始转换模型对待训练图像进行风格转换,得到初始转换图像;
判别控制单元1403,用于将所述初始转换图像和所述图像样本分别作为输入图像,通过判别模型得到针对所述输入图像的类别识别结果,所述类别识别结果用于标识所述输入图像被识别的图像类别属于所述初始转换图像或所述图像样本;
损失函数确定单元1404,用于基于所述类别识别结果与所述输入图像的类别差异,确定第一损失函数,以及基于所述初始转换图像作为所述输入图像时的类别识别结果与所述图像样本的类别差异,确定第二损失函数;
对抗训练单元1405,用于根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,在所述对抗训练中,所述第一损失函数用于调整所述判别模型的模型参数,所述第二损失函数用于调整所述初始转换模型的模型参数;
模型确定单元1406,用于通过所述对抗训练,基于所述初始转换模型得到风格转换模型,所述风格转换模型用于对目标图像进行风格转换,得到属于所述第一风格领域或第二风格领域的风格转换图像。
在一些可能的实现中,所述损失函数确定单元1404,还用于:基于所述待训练图像和对应的初始转换图像间的图像特征差异,确定第三损失函数;
所述对抗训练单元1405还用于:针对所述初始转换模型,在所述对抗训练中,根据所述第三损失函数调整所述初始转换模型的模型参数。
在一些可能的实现中,所述初始转换模型包括分别针对所述第一风格领域和所述第二风格领域的子模型参数,针对所述初始转换模型,所述对抗训练单元1405具体用于:
响应于所述第二损失函数为根据所述初始转换图像的类别识别结果与属于第一风格领域的图像样本的类别差异确定,根据所述第二损失函数对所述初始转换模型中针对所述第一风格领域的子模型参数进行调整;
响应于所述第二损失函数为根据所述初始转换图像的类别识别结果与属于第二风格领域的图像样本的类别差异确定,根据所述第二损失函数对所述初始转换模型中针对所述第二风格领域的子模型参数进行调整。
在一些可能的实现中,所述针对第一风格领域的子模型参数和针对所述第二风格领域的子模型参数分别为所述初始转换模型中批量标准化层的层参数,所述层参数包括缩放参数和位移参数,所述缩放参数和位移参数用于在所对应风格领域下标识图像像素值的批量标准化变换。
在一些可能的实现中,所述装置还包括:
请求获取单元,用于获取风格转换请求,所述风格转换请求包括所述目标图像和指定的目标风格领域;
风格转换单元,用于通过所述风格转换模型中与所述目标风格领域对应的子模型参数对所述目标图像进行风格转换,得到属于所述目标风格领域的风格转换图像。
在一些可能的实现中,所述目标风格领域包括第一占比的所述第一风格领域和第二占比的所述第二风格领域,所述风格转换单元,包括:
参数获取单元,用于获取所述风格转换模型中与所述第一风格领域和所述第二风格领域分别对应的子模型参数;
风格转换子单元,用于根据所述第一占比、所述第二占比和与所述第一风格领域和所述第二风格领域分别对应的子模型参数,通过所述风格转换模型对目标图像进行风格转换,得到属于所述目标风格领域的风格转换图像。
在一些可能的实现中,所述装置还包括:
展示单元,用于展示风格转换界面,所述风格转换界面包括多个可转换风格领域对应的风格标识;
所述请求获取单元具体用于:
在通过所述风格转换界面获取所述目标图像和确定所述多个可转换风格领域中所述目标风格领域的风格标识被选中时,获取所述风格转换请求。
在一些可能的实现中,所述第一风格领域和所述第二风格领域是基于图像作者或者艺术风格中的至少一种确定的。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器,前述的转换模型的确定装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。
若该计算机设备为终端设备,请参见图15所示,本申请实施例提供了一种终端设备,以终端设备为手机为例:
图15示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图15,手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图15中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图15对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据。
手机还包括给各个部件供电的电源1590(比如电池)。
在本实施例中,该终端设备所包括的处理器1580还具有以下功能:
获取包括第一训练样本集和第二训练样本集的多个训练样本集,所述第一训练样本集包括的多个图像样本的图像风格属于第一风格领域,所述第二训练样本集包括的多个图像样本的图像风格属于第二风格领域;
通过初始转换模型对待训练图像进行风格转换,得到初始转换图像;
将所述初始转换图像和所述图像样本分别作为输入图像,通过判别模型得到针对所述输入图像的类别识别结果,所述类别识别结果用于标识所述输入图像被识别的图像类别属于所述初始转换图像或所述图像样本;
基于所述类别识别结果与所述输入图像的类别差异,确定第一损失函数,以及基于所述初始转换图像作为所述输入图像时的类别识别结果与所述图像样本的类别差异,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,在所述对抗训练中,所述第一损失函数用于调整所述判别模型的模型参数,所述第二损失函数用于调整所述初始转换模型的模型参数;
通过所述对抗训练,基于所述初始转换模型得到风格转换模型,所述风格转换模型用于对目标图像进行风格转换,得到属于所述第一风格领域或第二风格领域的风格转换图像。
若计算机设备为服务器,本申请实施例还提供一种服务器,请参见图16所示,图16为本申请实施例提供的服务器1600的结构图,服务器1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1622(例如,一个或一个以上处理器)和存储器1632,一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储设备)。其中,存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1622可以设置为与存储介质1630通信,在服务器1600上执行存储介质1630中的一系列指令操作。
服务器1600还可以包括一个或一个以上电源1626,一个或一个以上有线或无线网络接口1650,一个或一个以上输入输出接口1658,和/或,一个或一个以上操作系统1641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图16所示的服务器结构。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (15)
1.一种转换模型的确定方法,其特征在于,所述方法包括:
获取包括第一训练样本集和第二训练样本集的多个训练样本集,所述第一训练样本集包括的多个图像样本的图像风格属于第一风格领域,所述第二训练样本集包括的多个图像样本的图像风格属于第二风格领域;
通过初始转换模型对待训练图像进行风格转换,得到初始转换图像;
将所述初始转换图像和所述图像样本分别作为输入图像,通过判别模型得到针对所述输入图像的类别识别结果,所述类别识别结果用于标识所述输入图像被识别的图像类别属于所述初始转换图像或所述图像样本;
基于所述类别识别结果与所述输入图像的类别差异,确定第一损失函数,以及基于所述初始转换图像作为所述输入图像时的类别识别结果与所述图像样本的类别差异,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,在所述对抗训练中,所述第一损失函数用于调整所述判别模型的模型参数,所述第二损失函数用于调整所述初始转换模型的模型参数;
通过所述对抗训练,基于所述初始转换模型得到风格转换模型,所述风格转换模型用于对目标图像进行风格转换,得到属于所述第一风格领域或第二风格领域的风格转换图像。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述待训练图像和对应的初始转换图像间的图像特征差异,确定第三损失函数;
针对所述初始转换模型,在所述对抗训练中,所述方法还包括:
根据所述第三损失函数调整所述初始转换模型的模型参数。
3.根据权利要求1所述的方法,其特征在于,所述初始转换模型包括分别针对所述第一风格领域和所述第二风格领域的子模型参数,针对所述初始转换模型,所述根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,包括:
响应于所述第二损失函数为根据所述初始转换图像的类别识别结果与属于第一风格领域的图像样本的类别差异确定,根据所述第二损失函数对所述初始转换模型中针对所述第一风格领域的子模型参数进行调整;
响应于所述第二损失函数为根据所述初始转换图像的类别识别结果与属于第二风格领域的图像样本的类别差异确定,根据所述第二损失函数对所述初始转换模型中针对所述第二风格领域的子模型参数进行调整。
4.根据权利要求3所述的方法,其特征在于,所述针对第一风格领域的子模型参数和针对所述第二风格领域的子模型参数分别为所述初始转换模型中批量标准化层的层参数,所述层参数包括缩放参数和位移参数,所述缩放参数和位移参数用于在所对应风格领域下标识图像像素值的批量标准化变换。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取风格转换请求,所述风格转换请求包括所述目标图像和指定的目标风格领域;
通过所述风格转换模型中与所述目标风格领域对应的子模型参数对所述目标图像进行风格转换,得到属于所述目标风格领域的风格转换图像。
6.根据权利要求5所述的方法,其特征在于,所述目标风格领域包括第一占比的所述第一风格领域和第二占比的所述第二风格领域,所述通过所述风格转换模型中与所述目标风格领域对应的子模型参数对所述目标图像进行风格转换,得到属于所述目标风格领域的风格转换图像,包括:
获取所述风格转换模型中与所述第一风格领域和所述第二风格领域分别对应的子模型参数;
根据所述第一占比、所述第二占比和与所述第一风格领域和所述第二风格领域分别对应的子模型参数,通过所述风格转换模型对目标图像进行风格转换,得到属于所述目标风格领域的风格转换图像。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
展示风格转换界面,所述风格转换界面包括多个可转换风格领域对应的风格标识;
所述获取风格转换请求,包括:
在通过所述风格转换界面获取所述目标图像和确定所述多个可转换风格领域中所述目标风格领域的风格标识被选中时,获取所述风格转换请求。
8.根据权利要求1所述的方法,其特征在于,所述第一风格领域和所述第二风格领域是基于图像作者或者艺术风格中的至少一种确定的。
9.一种转换模型的确定装置,其特征在于,所述装置包括:
训练样本集获取单元,用于获取包括第一训练样本集和第二训练样本集的多个训练样本集,所述第一训练样本集包括的多个图像样本的图像风格属于第一风格领域,所述第二训练样本集包括的多个图像样本的图像风格属于第二风格领域;
风格转换控制单元,用于通过初始转换模型对待训练图像进行风格转换,得到初始转换图像;
判别控制单元,用于将所述初始转换图像和所述图像样本分别作为输入图像,通过判别模型得到针对所述输入图像的类别识别结果,所述类别识别结果用于标识所述输入图像被识别的图像类别属于所述初始转换图像或所述图像样本;
损失函数确定单元,用于基于所述类别识别结果与所述输入图像的类别差异,确定第一损失函数,以及基于所述初始转换图像作为所述输入图像时的类别识别结果与所述图像样本的类别差异,确定第二损失函数;
对抗训练单元,用于根据所述第一损失函数和所述第二损失函数对包括所述判别模型和所述初始转换模型的生成对抗网络进行对抗训练,在所述对抗训练中,所述第一损失函数用于调整所述判别模型的模型参数,所述第二损失函数用于调整所述初始转换模型的模型参数;
模型确定单元,用于通过所述对抗训练,基于所述初始转换模型得到风格转换模型,所述风格转换模型用于对目标图像进行风格转换,得到属于所述第一风格领域或第二风格领域的风格转换图像。
10.根据权利要求9所述的装置,其特征在于,所述损失函数确定单元,还用于:基于所述待训练图像和对应的初始转换图像间的图像特征差异,确定第三损失函数;
所述对抗训练单元还用于:针对所述初始转换模型,在所述对抗训练中,根据所述第三损失函数调整所述初始转换模型的模型参数。
11.根据权利要求9所述的装置,其特征在于,所述初始转换模型包括分别针对所述第一风格领域和所述第二风格领域的子模型参数,针对所述初始转换模型,所述对抗训练单元具体用于:
响应于所述第二损失函数为根据所述初始转换图像的类别识别结果与属于第一风格领域的图像样本的类别差异确定,根据所述第二损失函数对所述初始转换模型中针对所述第一风格领域的子模型参数进行调整;
响应于所述第二损失函数为根据所述初始转换图像的类别识别结果与属于第二风格领域的图像样本的类别差异确定,根据所述第二损失函数对所述初始转换模型中针对所述第二风格领域的子模型参数进行调整。
12.根据权利要求11所述的装置,其特征在于,所述针对第一风格领域的子模型参数和针对所述第二风格领域的子模型参数分别为所述初始转换模型中批量标准化层的层参数,所述层参数包括缩放参数和位移参数,所述缩放参数和位移参数用于在所对应风格领域下标识图像像素值的批量标准化变换。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的转换模型的确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的转换模型的确定方法。
15.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-8任意一项所述的转换模型的确定方法。
Publications (2)
| Publication Number | Publication Date |
|---|---|
| HK40070393A HK40070393A (zh) | 2022-10-28 |
| HK40070393B true HK40070393B (zh) | 2024-09-27 |
Family
ID=
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12481705B1 (en) | Natural language selection of objects in image data | |
| US20200410338A1 (en) | Multimodal data learning method and device | |
| CN112418302A (zh) | 一种任务预测方法及装置 | |
| CN114610677B (zh) | 一种转换模型的确定方法和相关装置 | |
| CN110114765B (zh) | 通过共享话语的上下文执行翻译的电子设备及其操作方法 | |
| CN118246537B (zh) | 基于大模型的问答方法、装置、设备及存储介质 | |
| CN114282606B (zh) | 对象识别方法、装置、计算机可读存储介质及计算机设备 | |
| CN113569052B (zh) | 知识图谱的表示学习方法及装置 | |
| CN114462546A (zh) | 一种基于多模型融合的特征蒸馏方法、系统、设备和介质 | |
| CN119205988A (zh) | 图像生成方法、装置、电子设备及介质 | |
| CN117473359A (zh) | 一种摘要生成模型的训练方法及相关装置 | |
| CN117011571A (zh) | 图像分类模型的训练方法、装置及设备 | |
| CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
| CN117076702B (zh) | 图像查找方法及电子设备 | |
| HK40070393B (zh) | 一种转换模型的确定方法和相关装置 | |
| CN111797863A (zh) | 模型训练方法、数据处理方法、装置、存储介质及设备 | |
| CN115147754A (zh) | 视频帧处理方法、装置、电子设备、存储介质和程序产品 | |
| CN113298731A (zh) | 图像色彩迁移方法及装置、计算机可读介质和电子设备 | |
| HK40070393A (zh) | 一种转换模型的确定方法和相关装置 | |
| CN118230224B (zh) | 标签打分方法、标签打分模型训练方法和装置 | |
| CN120029497A (zh) | 社交互动方法、装置、设备及计算机可读存储介质 | |
| CN117789103A (zh) | 场景识别方法、模型训练方法、装置以及电子设备 | |
| Chen et al. | Multi-view Intention Recognition in Face-to-Face Communication | |
| HK40091966B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
| HK40091966A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 |