版权说明 操作指南
首页 > 成果 > 详情

基于生成式对抗网络的人脸素描图像转换为RGB图像方法

认领
导出
Link by 万方专利
反馈
分享
QQ微信 微博
成果类型:
专利
发明/设计人:
赵辉煌;张丰;孙雅琪;林睦纲
申请/专利权人:
衡阳师范学院
专利类型:
发明专利
语种:
中文
申请时间:
2020-11-17
申请/专利号:
CN202011283698.4
公开时间:
2021-01-26
公开号:
CN112270300A
主申请人地址:
421000 湖南省衡阳市雁峰区黄白路165号
申请地区:
中国湖南
代理人:
徐小淇
机构署名:
本校为其他完成单位
主权项:
1.一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,包括以下步骤: 步骤1,使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源,并对图像数据进行预处理,得到训练集A; 步骤2,构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型,包括生成模型G和判别模型D; 步骤3,将训练集A输入到基于生成式对抗网络的人脸素描图像转换为RGB图像的模型中,并采用单独交替训练方法训练生成模型与判别模型,采用监督性学习方式对生成式对抗网络模型进行训练,得到训练输出集B; 步骤4,利用条件生成式对抗网络模型的损失函数、生成器G损失函数、判别器D损失函数计算生成式对抗网络模型的损失函数,得到基于生成式对抗网络的模型最终的损失函数; 步骤5,重复步骤1,得到测试集C; 步骤6,将测试集C输入训练好的基于生成式对抗网络的模型进行测试,得到测试输出集E; 步骤7,重复步骤3,4,将训练集A进行600次迭代,用于训练模型,再重复步骤6,将测试集C进行5次迭代,得到最终的测试输出集E。 2.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤1中,使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据,首先利用基于深层神经网络的OpenFace人脸检测方法,截取数据集中每张图像的人脸部分,得到彩色人脸图像数据集,再利用OpenCV方法对彩色人脸图像数据集进行归一化,得到大小为256*256的目标数据集即真实的彩色人脸图像集Target,最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像,作为输入图像即人脸素描图像Input,与真实的彩色人脸图像集Target一一配对,并将Input和Target作为训练集A。 3.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤2中,构建边缘增强和生成式对抗网络模型中的生成模型使用U-Net架构,由编码器和解码器组成,编码器中的第i层与解码器中第n-i层之间连通,使得解码器中的通道数变为原来的2倍;其中编码器进行下采样操作,包括8个卷积层,第一层为卷积层,卷积核为4*4,步长为2,第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层;解码器包括8个反卷积层,进行上采样操作,8个标准化层,使反卷积后的值处于[0,1]之间,8个拼接层,用于拼接图像第3维的特征通道,最后返回Tanh函数。 4.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤2中,构建边缘增强和生成式对抗网络模型中的判别模型使用PatchGAN架构,包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层,3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层,其中Dropout的概率为0.5。 5.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤3中,将训练集A输入到模型中,开始交替训练模型: (1)固定判别模型D,训练生成模型G,首先训练生成模型G的编码器和解码器: ①编码器训练 A1.将1张3维256*256的人脸素描图像Input输入到编码器的第1层卷积层中,得到64维128*128像素大小的编码器卷积层输出特征图; B1.将编码器第1层卷积层的输出特征图输入到编码器的第2层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到128个64*64像素大小的编码器卷积层输出特征图; C1.将编码器第2层卷积层的输出特征图输入到生成模型的第3层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到256个32*32像素大小的编码器卷积层输出特征图; D1.将编码器第3层卷积层的输出特征图输入到生成模型的第4层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到512个16*16像素大小的编码器卷积层输出特征图; E1.以此类推,将编码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性LReLU变换、卷积、下采样和批标准化操作,分别得到512个8*8像素大小的特征图、512个4*4像素大小的特征图、512个2*2像素大小的特征图、512个1*1像素大小的特征图; ②解码器训练 A2.将512个1*1像素大小的特征图输入解码器的第1层反卷积层中,依次对其进行非线性的ReLU变换、反卷积、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个2*2像素大小的解码器卷积层输出特征图; B2.将解码器第1层卷积层输出的特征图输入到解码器的第2层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个4*4像素大小的解码器卷积层输出特征图; C2.将解码器第2层卷积层输出的特征图输入到解码器的第3层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个8*8像素大小的解码器卷积层输出特征图; D2.将解码器第3层卷积层输出的特征图输入到解码器的第4层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个16*16像素大小的解码器卷积层输出特征图; E2.以此类推,将解码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性ReLU变换、反卷积、批标准化以及第3通道的Concat操作,第5层到第7层分别得到512个32*32像素大小的特征图、256个64*64像素大小的特征图、128个128*128像素大小的特征图,第8层得到的是1张3维的256*256像素大小的特征图,最后返回Tanh函数; (2)固定生成模型G,训练判别模型D: A3.将一张6维256*256像素大小的彩色人脸图像输入到判别模型D的第1层卷积层中,依次对其进行卷积和非线性LReLU变换操作,得到64个128*128像素大小的判别模型D第1层卷积层输出特征图; B3.将判别模型D第1层卷积层输出的特征图输入第2层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到128个64*64像素大小的判别模型D第2层卷积层输出特征图; C3.将判别模型D第2层卷积层输出的特征图输入第3层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到256个32*32像素大小的判别模型D第3层卷积层输出特征图; D3.将判别模型D第3层卷积层输出的特征图输入第4层全连接层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到512个32*32像素大小的判别模型D第4层卷积层输出特征图; E3.将判别模型D第4层卷积层输出的特征图输入第5层全连接层中,对其进行Reshape操作,调整特征图的维度,输出3维的256*256的彩色人脸图像,最后返回Sigmoid函数。 6.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤4中,生成式对抗网络可以学习从随机噪声向量z到输出图像y,G的映射:G→z;而条件生成式对抗网络模型学习从观察到的图像x和随机噪声向量z到输出图像y,G的映射{x,z}→y;条件生成对抗网络模型的目标函数为: LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1-D(x,G(x,z)))], 其中,LcGAN(G,D)表示真实的彩色人脸图像Targrt与生成的彩色人脸图像Output之间的程度差异,E表示数学期望,logD(x,y)表示判别器对真实的彩色人脸图像Target判定为真实数据的概率,G(x,z)表示生成的彩色人脸图像Output,D(x,G(x,z))表示判别模型D对生成的彩色人脸图像Output的判别结果,log(1-D(x,G(x,z)))表示判别模型D将生成的彩色人脸图像Output判定为虚假图像的概率; 训练生成模型G使得目标函数最小化,而判别模型D使得目标函数最大化,即: 其中表示训练判别模型D时保证生成模型G部分保持不变,使得判别模型G可以准确地判别生成的彩色人脸图像Output,即使得1-D(x,G(x,z))的值接近于1,最大化Ex,y[logD(x,y)]的值; 表示训练生成模型G时保证判别模型D部分保持不变,使得生成的彩色人脸图像Output可以通过判别模型D的判断,即使得D(x,G(x,z))的值接近于1,并且最小化Ex,z[log(1-D(x,G(x,z)))]的值; 式中λ1为权重系数,用来调节生成模型G的损失函数LL1(G)的比重,从而得到更好地输出图像,LL1(G)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的距离,定义为: LL1(G)=Ex,y,z[||y-G(x,z)||1], 其中y-G(x,z)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的差异; 同时为了测试判别模型D的重要性,设计了一个无条件变量普通GAN,目的是只让判别模型D在不观察输入图像x的情况下判断图像是否为真,其损失函数为: LcGAN(G,D)=Ey[logD(y)]+Ex,z[log(1-D(x,z))] 综合得到的目标函数为: 其中λ1和λ2均为权重系数,分别用于调节生成图像中各损失函数的参与强度,EdgeL1(G)为图像边缘增强的损失函数。 7.根据权利要求6所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,基于边缘增强和生成式对抗网络模型的Adam优化算法中,模型设计了与生成模型U-Net结构相同的编码器和解码器结构,用于保存训练生成模型U-Net过程中产生的中间结果。
摘要:
本发明公开了一种基于生成式对抗网络的人脸素描图像转换为RGB图像的方法,该方法针对单幅人脸素描图像转换为RGB图像,首先对数据集进行预处理,其次建立生成式对抗网络模型,并利用预处理后的数据集对其生成模型和判别模型进行交替训练,然后通过优化损失函数,得到训练好的模型,再将测试集输入模型进行测试,输出生成的彩色人脸图像,利用结构相似性(即SSIM)方法与真实的彩色人脸图像进行计算,得到两张图像最终的相似度;本发明填补了生成式对抗网络在人脸图像运用上的空缺,同时网络的泛化能力和鲁棒性更强,少量的数据集也可以作为训练样本,节省了人工搜集图像的时间且能够提高了模型的...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com