CN117219050A

CN117219050A - 一种基于深度生成对抗网络的文本生成视频系统

Info

Publication number: CN117219050A
Application number: CN202311154604.7A
Authority: CN
Inventors: 李雪健; 陈永强; 王育欣; 高泽夫; 马宏斌; 焦义文; 马宏; 吴涛; 刘杨; 李超; 腾飞; 卢志伟; 陈雨迪; 宋雨珂
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-12

Abstract

本发明公开了一种基于深度生成对抗网络的文本生成视频系统，能够生成目标人物的清晰语音，解决音画不同步问题，提高合成视频的画质。包括语音生成模块和视频生成模块。语音生成模块以生成对象的参考语音信号以及文字部分作为输入，语音生成模块包括三个独立训练的神经网络：扬声器编码器，序列合成器，自回归WaveNet声码器；最终生成语音特征。视频生成模块以生成对象的图片以及语音特征作为输入，采用3D人脸识别单元用于根据生成对象的图片确定初始参考表达系数以及初始参考头部姿态系数。表达单元生成关联语音的表达系数。头部姿态单元得到头部姿态系数。3D面部渲染单元利用关联语音的表达系数、头部姿态系数对面部关键点进行映射，生成视频。

Description

一种基于深度生成对抗网络的文本生成视频系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于深度生成对抗网络的文本生成视频系统。

背景技术

随着数字人概念的火爆、生成技术的不断发展，让照片里的人物跟随音频的输入动起来也不再是难题。受该技术启发，如果将该技术用于舆论领域，利用任意一段文本，通过提取特定“人物目标”的声纹特征与深度视觉特征，生成特定人物的演讲视频，达到对敌以假乱真、煽动人心的效果，在正面战场和敌后战场都有极强的军事意义。

目前关于深度生成对抗网络(GAN)的语音生成视频技术很少，下面介绍与发明内容关系密切且文献发布最新的解决方法。

目前已有的方法是基于多条件生成对抗网络的文本生成视频方法(2022.10，周瑞，计算机辅助设计与图形学报)。此文本生成视频方法包括三个模块，分别是文本处理模块、位姿建模与转换模块、视频帧生成与优化模块。文本处理模块将传统生成方法(检索与监督学习方法)与生成模型相结合建立动作检索数据库,提高生成过程的可控性；位姿建模与转换模块实现对位姿信息的提取及三维建模；视频帧生成与优化模块利用多条件生成对抗网络进行视频帧的合成与优化。其中文本处理模块中利用了动作检索数据库，用于存储语义信息所对应的动作序列，动作检索数据库是构建包含满足语义要求的行为动作的数据库。除了保证动作检索数据库的完善性之外，为了有效提高对动作的检索能力，采用总线型拓扑结构和树型拓扑结构相结合的检索方式。首先，依据树型拓扑结构将检索库中“人物块”、“时间块”、“状态块”、“动作块”进行分支检索，分别选择匹配度最高的动作参考模块。其次，通过总线型拓扑结构的检索方式结合每个树型拓扑结构上的分支中匹配度最高的检索方式，筛选出匹配值最高的动作块。

位姿建模与转换模块可以更深层次地从源图像中提取图像特征，通过训练单个模型来表达所有对象的运动特征。同时，使用人体参数统计模型进行3D人像建模，使得生成视频中人物动作尽可能地满足人体结构学运动特征。

位姿建模与转换模块包含两部分，第一部分为3D位姿建模，使用人体生成模型搭建了从2D到3D图像建模端到端的模型。通过2D图像信息，预测3D姿态和形状参数，可以较好地平衡生成图像精度与效率，进而生成更为丰富且运动更为真实的3D动作模型。参考图像和源图像通过残差网络编码，获得2D图像的卷积特征，将获得的卷积特征传递到迭代的3D回归模型中，以生成3D人像建模信息(姿势与形态)以及相机与2D关节的投影关系。相机视场角提供了一个衡量3D模型建模后人像与相机距离参数，以避免出现极大或者极小的3D人像模型。最后，利用可微的3D人体建模和GAN结构，将生成模型的参数信息输入到判别模型中，以判断生成的3D模型是否满足正常人体行为活动。SMPL是一种参数化的人体模型，数据化地表示人体的形状与姿势。同时，这种建模方法可以模拟人的肌肉在运动过程中的凸起和凹陷，避免人体肌肉在运动过程中出现表面失真的现象，精确地对人的肌肉拉伸以及收缩运动的形态进行建模。通过这种方式，可创造出逼真的动画人体，不同的体型可以自然地随姿势变形，并表现出与真人类似的软组织运动。

第二部分为位姿转换模块，使用可微的神经网络渲染模块，对其中获得的2个3D模型(参考图像3D模型(3Dref)和源图像3D模型(3Dsrc)进行映射，并通过其投影顶点计算变换矩阵通过变换矩阵T对源3D模型进行特定动作转换。在位姿转换过程中，生成模型采用的是变分自编码器。

视频帧生成与优化模块本文采用了ResUnet结构，即残差神经网络(residualnetworks，ResNet)与CNN组合，在判别模型中使用的是Pix2Pix中的判别模型框架结构。视频帧优化模块在传统的基础上去除了原网络中批量归一化(BN层)，通过生成模型与判别模型的相互对抗，获得图像空间的最优解，从而获得高分辨率视频帧。

已有方法存在的不足是：在处理源图像时，存在生成目标人物的语音清晰度不高且会产生音画不同步，且视频画质不高等缺陷。

发明内容

有鉴于此，本发明提供了一种基于深度生成对抗网络的文本生成视频系统，能够生成目标人物的清晰语音，并且解决了音画不同步问题，提高了合成视频的画质。

为达到上述目的，本发明的技术方案为：包括语音生成模块和视频生成模块。

语音生成模块以生成对象的参考语音信号以及文字部分作为输入，语音生成模块包括三个独立训练的神经网络，分别为：

扬声器编码器，从生成对象的参考语音信号中计算固定维度的嵌入向量。

序列合成器，以生成对象的嵌入向量为条件，根据字素或者音素输入序列为条件来预测梅尔谱图。

自回归WaveNet声码器，用于将梅尔谱图转换为时域波形，最终生成语音特征，输入至视频生成模块。

视频生成模块以生成对象的图片以及语音特征作为输入，视频生成模块包括3D人脸识别单元、表达单元、头部姿态单元以及3D面部渲染单元。

3D人脸识别单元用于根据生成对象的图片进行3D人脸识别，确定初始参考表达系数以及初始参考头部姿态系数。

表达单元对生成对象的面部的运动系数进行计算，生成关联语音的表达系数。

头部姿态单元对头部整体的运动系数进行计算，得到头部姿态系数。

3D面部渲染单元利用关联语音的表达系数、头部姿态系数对面部关键点进行映射，生成最终的视频。

进一步地，扬声器编码器，扬声器编码器网络由神经网络训练而成，该网络从任意长度的参考语音信号中计算出Log-Mel的谱图序列，并将其映射到固定维度的嵌入向量中；扬声器编码器在训练过程中，训练样本包括分割成1.6s的语音视频实例和说话者身份标签；训练网络为Log-Mel谱图通过多个传输通道到达由多个单元组成的长短期记忆递归神经网络LSTM，最终对输出进行归一化。

进一步地，序列合成器包含编码器、合成器和解码器；序列合成器的输入在对文本转录目标音频上进行训练，在输入端，首先将文本映射成一系列音素，因素为最小语音单位；一系列音素与参考语音经过预训练扬声器编码器的输出的编码向量进行合成，最后将合成的语音编码输入到解码器进行解码，最终生成与参考语音相同的合成Mel声谱图。

进一步地，表达单元包括音频编码器、映射网络、Wav2Lip模型以及3DMM系数估计器。

音频编码器为残差神经网络ResNet，音频编码器的输入为音频，输出为音频编码结果。

映射网络为一个线性层，用来解码表达系数，映射网络的输入包括三个：第一个是音频经过音频编码器后输出的音频编码结果，第二个是来自参考图像的参考表达系数β₀，第三个是眨眼控制信号z_blink∈[0,1]和相应的眼标损失；映射网络的输出为t帧的表达系数。

Wav2Lip模型的输入为音频，音频通过Wav2Lip网络后得到初步的唇形表达系数，Wav2Lip模型的输出为初步唇形表达系数；初步唇形表达系数输入到3DMM系数估计器。

3DMM系数估计器为一个单目三维人脸重建模型，用来学习真实的表达系数。

进一步地，头部姿态单元包括基于VAE模型的VAE编码器和VAE解码器。

VAE模型中的VAE编码器和VAE解码器都是两层的MLPs。

首先将第一帧的头部姿态ρ₀、身份风格标识Z_style、音频a{1,...,t}、残差头部姿态△ρ{1,...,t}＝ρ{1,...,t}-ρ₀输入到VAE编码器中进行编码，得到均值和方差，然后将该均值和方差映射为一个高斯分布，然后通过对该高斯分布进行采样来获得潜在向量，采样后的潜在向量再经过VAE解码器，生成与原始数据分布相似的新数据。

最终得到一次迭代后的残差△ρ′{1,...,t}，进而通过计算残差△ρ′{1,...,t}补偿修正生成的运动姿态系数，返回VAE编码器，经过多次迭代，直至△ρ′{1,...,t}满足小于0.1的阈值，停止迭代，最终得到补偿修正后的真正头部运动姿态系数ρ。

进一步地，3D面部渲染单元包括外观编码器、典型关键点提取单元、3D人脸识别单元、映射网络以及视频生成器。

给定原始图像，通过外观编码器和3D面部的典型关键点提取单元来生成初步的脸部系数，同时通过人脸识别单元确定图像的初始参考表达系数和初始头部姿态系数，将该系数以及语音信号输入到表达单元和头部姿态生成单元中生成最终视频的表达系数和头部姿态系数。

初始参考表达系数和初始头部姿态系数和生成的最终视频的表达系数和头部姿态系数分别输入到预训练的映射网路中，映射网络输出的3D面部关键点空间与外观编码器、3D面部的典型关键点的输出一起作为输入到视频生成器进行最终视频的生成。

映射网络为卷积神经网络，其输入为表达系数，头部姿态系数，输出为面部关键点，利用真实数据进行训练。

外观编码器包含生成对象静态图像面部外观相关的系数。

3D面部的典型关键点提取模块所提取的典型关键点包括唇部、眼睛等关键部位的系数，这两个系数同3D人脸识别单元得到的参考面部关键点系数和与语音适配的实际面部关键点系数共同加权求和得到每帧的系数，最后直到计算完多帧系数后组成最终的视频。

有益效果：

1：本发明提供的一种基于深度生成对抗网络的文本生成视频系统，是一套文字生成视频的系统。基于神经网络的独立扬声器编码器生成语音系统，学习说话者的说话习惯，进而生成高质量的说话语音。本发明采用独立扬声器编码器对参考语音进行训练，学习说话者的说话习惯，所以可以生成高质量的语音。通过采用独立训练的扬声器编码器网络嵌入说话者的说话习惯解决了生成目标人物语音清晰度不高的问题、通过设计表达单元和头部姿态单元计算3D运动系数实现了自然的头部运动和表情生动的问题，解决了音画不同步问题，提高了合成视频的画质。

2：本发明引入3D运动系数对面部关键点进行表述，从而搭建了表达单元和头部姿态单元对3D运动系数进行计算，从而面部的表情和头部的姿态可以更加生动形象且自然。搭建基于表达单元和头部姿态单元的3D面部渲染模块，采用映射网络将3D运动系数和面部关键点联系起来，可以实现视频的最终生成。该系统能够生成目标人物的清晰语音，并且利用wavlip和3DMM组成的表达单元解决了音画不同步问题，提高了合成视频的画质。

附图说明

图1为本发明提供的基于深度生成对抗网络的文本生成视频系统组成框图；

图2为序列合成器组成框图；

图3为表达单元组成框图；

图4为头部姿态单元组成框图；

图5为3D面部渲染单元组成框图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于深度生成对抗网络的文本生成视频系统，其组成如图1所示，统本发明的文字生成视频系统输入为一段TEXT文字和一张生成对象的图片，输出为一段生成对象的演讲视频。

该系统的由两大部分组成，一部分为语音生成模块，另一部分为视频生成模块。

整个系统的输入有两个：一是文字输入，即想要说的文字；二是图像输入，即生成对象的头部图像数据输入。输出有两个：一是中间输出，即生成的语音；二是生成的最终视频。

该系统的工作流程如下：

第一，输入文字和图像。

第二，预训练的扬声器编码器根据给定的身份标签确定生成对象的参考语音，并输出编码向量到序列合成器中；在此同时，3D人脸识别对输入的图像进行识别，得到初始的参考表达系数和头部姿态系数，将此系数同时分别输入到表达模块、头部姿态模块以及3D面部渲染单元中。

第三，序列合成器将输入的文字和扬声器编码器输出的编码向量进行合成，最终输出Log-Mel声谱图，然后生成的声谱图输出到声码器。

第四，声码器将序列合成器网络输出的合成Log-Mel声谱图转换为时域波形，最终生成语音，然后将其输入到表达单元和头部姿态单元中。

第五，表达单元和头部姿态单元对语音和初始的参考表达系数和头部姿态系数进行训练，生成关联语音的表达系数和头部姿态系数，将生成的系数输入到3D面部渲染单元中。

第六，3D面部渲染单元根据初始参考表达系数、头部姿态系数以及关联语音的表达系数、头部姿态系数生成最终视频。

每个部分具体的实施方式如下：

扬声器编码器

扬声器编码器是一个相对独立的模块，其功能为从参考语音中捕捉对象的语音特性，它被用于根据来自期望目标扬声器(想要达到的语音效果)的参考语音信号来调节合成网络(序列合成器)。扬声器编码器网络由神经网络训练而成，该网络从任意长度的参考语音中计算出Log-Mel(以10为底的对数)的谱图序列，并将其映射到固定维度的嵌入向量中。此训练网络可以优化说话人的声音损失，使得生成的语音与同一人的原始语音具有高度相似性，而与不同人的语音具有很大差异。通过扬声器编码器计算的声音损失来直接调节序列合成器网络，进而优化最终生成的语音。

该模块的训练采用分割成1.6s的语音视频示例和说话者身份标签组成；训练网络为Log-Mel谱图通过多个传输通道到达由多个单元组成的LSTM(长短期记忆递归神经网络)，最终对输出进行归一化。(可以不设置，也可以设置)该网络没有设置优化学习网络，因为它作为序列合成器的嵌入式模块，所以不设置优化迭代反馈。

序列合成器如图2所示。序列合成器由编码器、合成器、解码器组成。序列合成器在对文本转录目标音频上进行训练，在输入端，首先将文本映射成一系列音素(最小语音单位)，这可以更快地收敛，并且可以改善单词和专有名词的发音。然后将这些音素与参考语音经过预训练扬声器编码器的输出的编码向量进行合成，最后将合成的语音编码输入到解码器进行解码最终生成与参考语音相同且高质量的合成Mel声谱图。

声码器

声码器也是一个相对独立的模块，其使用逐样本自回归WaveNet作为声码器，将序列合成器网络输出的合成Mel谱图转换为时域波形。该网络由约30个扩展的卷积层组成，且该网络的输出由扬声器编码器的输出以及序列合成器的输出有关。

表达单元

表达模块如图3所示，音频a{1,...,t}(语音特征)生成通过训练网络生成了t帧的表达系数β{1,...,t}，其中每一帧的音频特征是一个0.2s的Mel声谱图，其中训练网络包括音频编码器和映射网络，音频编码器是基于基于ResNet(残差神经网络，ResNet的核心思想是通过残差连接来学习特征的变化，使得网络可以更容易地优化。这种结构的优势是可以训练更深的网络，而不会导致性能下降，是深度学习中的经典网络模型之一)的，映射网络是一个线性层，用来解码表达系数，映射网络的输入有三个，第一个是音频经过音频编码器后的输出，第二个是来自参考图像的参考表达系数β₀，该系数的作用是降低身份不确定性，第三个是眨眼控制信号z_blink∈[0,1]和相应的眼标损失，目的是防止在训练中仅仅使用嘴唇系数导致最后效果的不真实性，产生可控的眨眼效果。

该训练网络可以用公式表示：

β{1,...,t}＝M{A(a{1,...,t}),z_blink,β₀} (1)

输出为β{1,...,t}，即t帧的表达系数。M为训练网络的，A为音频编码器。

第二路通过Wav2Lip(基于GAN的唇形动作迁移算法，Wav2lip模型实现了口型与输入语音同步)的预训练网络和深度三维重建(同步完成之后，进行唇形的三维重建生成视频)，仅将嘴唇运动系数作为系数目标，音频通过Wav2Lip网络后得到初步的唇形表达系数，初步唇形表达系数，为了使得生成的唇形表达系数更加准确，引入3D人脸识别输出的唇部图像的第一帧I₀作为目标表达式系数，因为它只包含唇相关的运动，减少了姿势变化和唇部运动以外的其他面部表达的影响，以它为目标进行训练可以使得唇部动作更加稳定流畅

随后初步唇形表达系数输入到3DMM(3D Morphable Model，3D可变形模型/参数化模型)系数估计器M1中进行训练，M1是一个单目三维人脸重建模型，用来学习真实的表达系数。M1的输出为更加真实的表达系数，这里的系数被分为两部分，一部分是与唇部表达相关的系数M1(Wav2Lip(I₀,a{1,...,t}))，另一部分为其他系数，令唇部表达相关的系数M1(Wav2Lip(I₀,a{1,...,t}))与第一路训练网络的输出β{1,...,t}进行对比作差，可以得到差异值L_distill，其他系数与第一路训练网络的输出β{1,...,t}一起作为输入经过M2网络(M2网络是无学习参数的可微分三维人脸渲染网络)可以得到眼睛眨动的边界损失L_lks，可以来衡量眼睛眨动的范围和整体表达的准确性。令唇部表达相关的系数M1(Wav2Lip(I₀,a{1,...,t}))与其他系数作为输入经过M2网络可以得到唇系数损失L_read，以保持感知性的唇质。

唇系数损失L_read与M1(Wav2Lip(I₀,a{1,...,t}))相加获得真实唇部表达系数；表达单元的输出是β'{1,...,t}+L_read{1,...,t}。

头部姿态单元

头部姿态单元如图4所示，包括基于VAE(VAE是一种生成模型，它是Autoencoder的变种。VAE通过学习数据的潜在分布来生成新的样本)的编码器和解码器采样模块，目的是学习真实身份风格的头部运动，得到头部运动系数ρ。

VAE编码器和解码器都是两层的MLPs(多层感知器，通常指的是一种人工神经网络模型，它由多个神经元层组成，每个神经元层与其前后的层之间都有全连接。MLPs常用于解决分类和回归问题)，其中输入包含一个连续的t帧头姿态。在VAE解码器中，该网络学习从采样分布中生成t帧姿态的残差。注意，此模块不是直接生成姿态，而是学习第一帧的头部条件姿态ρ₀的残差，所以此方法能够在第一帧的条件下生成更长、稳定、连续的头部运动。

首先将第一帧的头部姿态ρ₀、身份风格标识Z_style、音频a{1,...,t}、残差头部姿态△ρ{1,...,t}＝ρ{1,...,t}-ρ₀输入到VAE编码器中进行编码，得到均值和方差，然后将该均值和方差映射为一个高斯分布，即该高斯分布的均值和方差与前面的均值和方差相等，然后通过对该高斯分布进行采样来获得潜在向量，采样后的潜在向量再经过解码器，就可以生成与原始数据分布相似的新数据。

最终得到一次迭代后的残差△ρ′{1,...,t}，进而通过计算残差△ρ′{1,...,t}补偿修正生成的运动姿态系数并且掌握生成的真实性、稳定性，利用均值和方差获得一个L_KL散度用于测量所产生的头部运动的分布。经过多次迭代，直至△ρ′{1,...,t}满足小于0.1的阈值，停止迭代，最终得到补偿修正后的真正头部运动姿态系数。

3D面部渲染单元

3D面部渲染单元如图5所示，在生成前面比较逼真的运动系数后，通过设计一个3D面部渲染模块渲染最终的视频。

此模块由文献(Ting-Chun Wang,Arun Mallya,and Ming-Yu Liu.One-shotfree-view neural talking-head synthesis for video conferenc-ing.In CVPR,2021)中获得灵感，因为它隐式地从单个图像中学习3D信息。在他们的方法中，使用真实的视频作为运动驱动信号。而我们设计的此模块使用3D运动系数驱动，我们提出了采用映射网络来学习3D运动系数与3D面部关键点之间的关系。映射网络通过几个一维的卷积层构建，使用来自时间窗口的时间系数进行平滑。

给定原始图像，通过外观编码器和典型关键点(3D面部的典型关键点)来生成初步的脸部系数，同时通过人脸识别确定图像的初始参考表达系数和头部姿态系数，将该系数以及语音信号输入到表达模块和头部姿态生成模块中生成最终视频的表达系数和头部姿态系数，将初始系数和生成的系数分别输入到预训练的映射网路中，映射网络输出的3D面部关键点空间与外观编码器、典型关键点的输出一起作为输入到视频生成器进行最终视频的生成。映射网络(卷积神经网络)输入为表达系数，头部姿态系数，输出为面部关键点，利用真实数据进行训练；

外观编码器包含生成对象静态图像面部外观相关的系数，典型关键点包括唇部、眼睛等关键部位的系数，这两个系数同3D人脸识别得到的参考面部关键点系数和与语音适配的实际面部关键点系数共同加权求和得到每帧的系数，最后直到计算完多帧系数后组成最终的视频。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度生成对抗网络的文本生成视频系统，其特征在于，包括语音生成模块和视频生成模块；

所述语音生成模块以生成对象的参考语音信号以及文字部分作为输入，所述语音生成模块包括三个独立训练的神经网络，分别为：

扬声器编码器，从所述生成对象的参考语音信号中计算固定维度的嵌入向量；

序列合成器，以生成对象的所述嵌入向量为条件，根据字素或者音素输入序列为条件来预测梅尔谱图；

自回归WaveNet声码器，用于将所述梅尔谱图转换为时域波形，最终生成语音特征，输入至所述视频生成模块；

所述视频生成模块以生成对象的图片以及所述语音特征作为输入，所述视频生成模块包括3D人脸识别单元、表达单元、头部姿态单元以及3D面部渲染单元；

所述3D人脸识别单元用于根据生成对象的图片进行3D人脸识别，确定初始参考表达系数以及初始参考头部姿态系数；

所述表达单元对所述生成对象的面部的运动系数进行计算，生成关联语音的表达系数；

所述头部姿态单元对头部整体的运动系数进行计算，得到头部姿态系数；

所述3D面部渲染单元利用关联语音的表达系数、头部姿态系数对面部关键点进行映射，生成最终的视频。

2.如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统，其特征在于，所述扬声器编码器，扬声器编码器网络由神经网络训练而成，该网络从任意长度的参考语音信号中计算出Log-Mel的谱图序列，并将其映射到固定维度的嵌入向量中；

所述扬声器编码器在训练过程中，训练样本包括分割成1.6s的语音视频实例和说话者身份标签；训练网络为Log-Mel谱图通过多个传输通道到达由多个单元组成的长短期记忆递归神经网络LSTM，最终对输出进行归一化。

3.如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统，其特征在于，所述序列合成器包含编码器、合成器和解码器；

所述序列合成器的输入在对文本转录目标音频上进行训练，在输入端，首先将文本映射成一系列音素，所述因素为最小语音单位；所述一系列音素与参考语音经过预训练扬声器编码器的输出的编码向量进行合成，最后将合成的语音编码输入到解码器进行解码，最终生成与参考语音相同的合成Mel声谱图。

4.如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统，其特征在于，所述表达单元包括音频编码器、映射网络、Wav2Lip模型以及3DMM系数估计器；

所述音频编码器为残差神经网络ResNet，所述音频编码器的输入为音频，输出为音频编码结果；

所述映射网络为一个线性层，用来解码表达系数，所述映射网络的输入包括三个：第一个是音频经过音频编码器后输出的音频编码结果，第二个是来自参考图像的参考表达系数β₀，第三个是眨眼控制信号z_blink∈[0,1]和相应的眼标损失；所述映射网络的输出为t帧的表达系数；

所述Wav2Lip模型的输入为音频，音频通过Wav2Lip网络后得到初步的唇形表达系数，所述Wav2Lip模型的输出为初步唇形表达系数；初步唇形表达系数输入到3DMM系数估计器；

所述3DMM系数估计器为一个单目三维人脸重建模型，用来学习真实的表达系数。

5.如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统，其特征在于，所述头部姿态单元包括基于VAE模型的VAE编码器和VAE解码器；

VAE模型中的VAE编码器和VAE解码器都是两层的MLPs；

首先将第一帧的头部姿态ρ₀、身份风格标识Z_style、音频a{1,...,t}、残差头部姿态△ρ{1,...,t}＝ρ{1,...,t}-ρ₀输入到VAE编码器中进行编码，得到均值和方差，然后将该均值和方差映射为一个高斯分布，然后通过对该高斯分布进行采样来获得潜在向量，采样后的潜在向量再经过VAE解码器，生成与原始数据分布相似的新数据；

6.如权利要求1所述的一种基于深度生成对抗网络的文本生成视频系统，其特征在于，所述3D面部渲染单元包括外观编码器、典型关键点提取单元、3D人脸识别单元、映射网络以及视频生成器；

给定原始图像，通过外观编码器和3D面部的典型关键点提取单元来生成初步的脸部系数，同时通过人脸识别单元确定图像的初始参考表达系数和初始头部姿态系数，将该系数以及语音信号输入到表达单元和头部姿态生成单元中生成最终视频的表达系数和头部姿态系数；

初始参考表达系数和初始头部姿态系数和生成的最终视频的表达系数和头部姿态系数分别输入到预训练的映射网路中，映射网络输出的3D面部关键点空间与外观编码器、3D面部的典型关键点的输出一起作为输入到视频生成器进行最终视频的生成；

映射网络为卷积神经网络，其输入为表达系数，头部姿态系数，输出为面部关键点，利用真实数据进行训练；

外观编码器包含生成对象静态图像面部外观相关的系数；