402com永利1站:【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)

原标题:用DensePose,教照片里的人学跳舞,系群体鬼畜 | ECCV 2018

原标题:【ECCV
2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)

生成对抗网络是由两个相互竞争的网络组成的深度神经网络架构。

栗子 发自 凹非寺

402com永利1站 1

2014年,Lan Goodfellow和蒙特利尔大学包括Yoshua
Bengio在内的其它研究人员在论文中介绍了生成对抗网络。Facebook的AI研究主管Yann
LeCun称对抗训练是“近10年来最有趣的机器学习”

402com永利1站 2

倒计时**10**天

生成对抗网络具有很大的潜力,因为它们可以学习模拟任何数据的分布。换句话说,在任何领域,我们都可以教生成对抗网络创造出与我们类似的世界:图像,音乐,演说,散文。从某种意义上来说,它们是机器人艺术家,能够创造出令人印象深刻甚至是伤感的东西。

怎样让一个面朝镜头静止不动的妹子,跳起你为她选的舞蹈,把360度身姿全面呈现?

生成算法和判别算法

Facebook团队,把负责感知的多人姿势识别模型DensePose,与负责生成深度生成网络结合起来。

来源:ECCV 2018

为了理解生成对抗网络,首先应该了解生成算法的是如何工作的,为此,现将生成算法和判别算法进行对比以便更好的理解。判别算法试图对输入数据进行分类:即给定一个数据实例的特征,来预测该数据所属的标注或类别。

不管是谁的感人姿势,都能附体到妹子身上,把她单一的静态,变成丰富的动态。

编辑:肖琴

例如:给定一封电子邮件的所有单词,判别算法能够预测该邮件是否为垃圾邮件。垃圾邮件是其中的一种标注,从邮件中收集到的单词则构成了输入数据的特征。用数学表达式表述这一问题,y表示标注,x表示特征,公式p表示“给定x,y的概率”,则该事件可描述为“给定邮件中所包含的单词,邮件为垃圾邮件的概率”。因此,判别算法将特征映射到标注,只关注二者之间的相关性。

402com永利1站 3

【新智元导读】DensePose团队在ECCV
2018发表又一杰作:密集人体姿态转换!这是一个基于DensePose的姿势转换系统,仅根据一张输入图像和目标姿势,生成数字人物的动画效果。

一种理解生成算法的方式是,生成算法做相反的事情。生成算法并不预测给定特征的标注,而是试图预测给定标注的特征。

这项研究成果,入选了ECCV 2018

DensePose 是 Facebook 研究员 Natalia
Neverova、Iasonas Kokkinos 和法国 INRIA 的 Rıza Alp Guler
开发的一个令人惊叹的人体实时姿势识别系统,它在 2D 图像和人体3D
模型之间建立映射,最终实现密集人群的实时姿态识别。

生成算法试图解决的问题是:假设这封电子邮件为垃圾邮件,它的特征可能是什么?判别模型关注y和x之间的关系,而生成模型关注的是如何得到x。这允许你得到p,即给定y,x的概率或给定一个类,特征的概率。(也就是说,生成算法可用作分类器,只不过它不仅仅只是对输入数据进行分类)。

当然不能只有DensePose

具体来说,DensePose 利用深度学习将 2D RPG
图像坐标映射到 3D 人体表面,把一个人分割成许多 UV 贴图(UV
坐标),然后处理密集坐标,实现动态人物的精确定位和姿态估计。

另一种区分判别模型和生成模型的理解方式是:判别模型学习类间的边界,而生成模型模拟各个类的分布。

团队把SMPL多人姿态模型,跟DensePose结合到一起。这样一来,就可以用一个成熟的表面模型来理解一张图片。

402com永利1站 4

生成对抗网络是如何运行的?

这项研究,是用基于表面的神经合成,是在闭环里渲染一张图像,生成各种新姿势。

DensePose
模型以及数据集已经开源,传送门:

生成器,是一个用来生成新的数据实例的神经网络;判别器,则是用来评估其真实性的神经网络。即判别器决定它所检验的每个数据实例是否属于实际的训练数据集。

402com永利1站 5

比方说,我们试图做一些比仿制蒙娜丽莎更平庸的工作。我们从现实世界中获取并生成那些类似在MINST数据集中发现的手写数字,当显示来自真实MINST数据集中的实例时,判别器将其识别为可信。

左为源图像,中为源图姿势,右为目标姿势

最近,该团队更进一步,发布了基于
DensePose 的一个姿势转换系统:Dense Pose Transfer,仅根据一张输入图像和目标姿势,创造出
“数字化身” 的动画效果。

同时,生成器创建传送给判别器的新图像。即便这是假的,我们也视为将其视为真。生成器的目标是生成像样的手写数字,假装不会被发现。判别器的目标是识别生成器中的图像是假的。

照片中人需要学习的舞姿,来自另一个人的照片,或者视频截图。

402com永利1站 6

生成对抗网络的运行步骤如下:

DensePose系统,负责把两张照片关联起来。具体方法是,在一个公共表面UV坐标系
(common surface coordinates) 里,给两者之间做个映射

在这项工作中,研究者希望仅依赖基于表面(surface-based)的对象表示(object
representations),类似于在图形引擎中使用的对象表示,来获得对图像合成过程的更强把握。

1.生成器输入一系列随机数字并返回一张图像。

但如果单纯基于几何来生成,又会因为DensePose采集数据不够准确,还有图像里的自我遮挡
(比如身体被手臂挡住) ,而显得不那么真实。

研究者关注的重点是人体。模型建立在最近的 SMPL 模型和 DensePose
系统的基础上,将这两个系统结合在一起,从而能够用完整的表面模型来说明一个人的图像。

2.将生成的图像和真实数据集中的图像流一起送入判别器。

402com永利1站 7

下面的视频展示了更多生成结果:

3.判别器接受真实图像和假图像,并返回概率值,范围是0~1之间的数字,其中1表示真实性的预测,0表示假的预测。

DensePose提取的质地 (左) vs 修复后的质地 (右)

具体而言,这项技术是通过 surface-based
的神经合成,渲染同一个人的不同姿势,从而执行图像生成。目标姿势(target
pose)是通过一个 “pose donor”
的图像表示的,也就是指导图像合成的另一个人。DensePose
系统用于将新的照片与公共表面坐标相关联,并复制预测的外观。

因此,得到一个双反馈回路:判别器在包含图像真相的反馈回路中;发生器在在判别器的反馈回路中。

那么,团队处理遮挡的方法是,在表面坐标系里,引入一个图像修复(Impainting)
网络。把这个网络的预测结果,和一个更传统的前馈条件和成模型预测结合起来。

我们在 DeepFashion 和 MVC
数据集进行了实验,结果表明我们可以获得比最新技术更好的定量结果。

402com永利1站 8

这些预测是各自独立进行的,然后再用一个细化模块来优化预测结果。把重构损失对抗损失感知损失结合起来,优势互补,得出最终的生成效果。

除了姿势转换的特定问题外,所提出的神经合成与
surface-based
的表示相结合的方法也有希望解决虚拟现实和增强现实的更广泛问题:由于
surface-based
的表示,合成的过程更加透明,也更容易与物理世界连接。未来,姿势转换任务可能对数据集增强、训练伪造检测器等应用很有用。

你可以将生成对抗网络想象成一个伪造者和一个警察在猫和老鼠游戏中的组合,在这里,伪造者正在学习虚假注释,警察正在学习检测他们。二者都是动态的,也就是说警察也在训练中,并且每一方都在不断升级中学习对方的方法。

402com永利1站 9

Dense Pose Transfer

判别器网络是一个可对输入图像进行分类的标准卷积网络——将图像标记为真或假的一个二值分类器。从某种意义上来说,生成器是一个反向卷积网络:标准卷积分类器获取一张图像,采样并输出概率,而生成器则获取随机噪声矢量并将其上采样到一张图像中。前者使用maxpooling这样的下采样技术扔掉数据,后者生成新的数据。

完整的网络结构,就如上图这般。

研究人员以一种高效的、自下而上的方式,将每个人体像素与其在人体参数化的坐标关联起来,开发了围绕
DensePose 估计系统进行姿势转换的方法。

两个网络都试图在零和博奕中优化一个不同且对立的目标函数,或者是损失函数。它本质上就是一个演员-评论模型。随着判别器改变行为,生成器也随之改变,反之亦然。他们的损耗也相互抗衡。

监督学习一下

我们以两种互补的方式利用 DensePose
输出,对应于预测模块和变形模块(warping module),如图 1 所示。

生成对抗网络:自动编码器和变分自编码器(VAE)

模型的监督学习过程,是这样的:

402com永利1站 10

自动编码器将输入数据编码为矢量,创建一个隐藏或压缩的原始数据representation,主要用于降维。也就是说,用作隐藏representation的矢量将原始数据压缩为一个较小的主要纬度。自动编码器可以和解码器配对,可根据其隐藏representation重建输入数据,这和受限玻尔兹曼机相同。

402com永利1站 11

图 1:pose transfer pipeline
的概览:给定输入图像和目标姿势,使用 DensePose 来执行生成过程。

402com永利1站 12

从输入的源图像开始,先把它的每个像素对应到UV坐标系里。这一步是DensePose驱动的迁移网络完成的。

变形模块使用 DensePose
表面对应和图像修复(inpainting)来生成人物的新视图,而预测模块是一个通用的黑盒生成模型,以输入和目标的
DensePose 输出作为条件。

变分自编码器是生成算法,在对输入数据编码的过程中增加了额外约束,即将隐藏表示进行标准化。变分自编码器既可以像自动编码器一样压缩数据,又可以像生成对抗网络那样合成数据。然而当生成对抗网络生成细节数据时,变分自编码器生成的图像往往更加模糊。Deeplearning4j’s包中包括自动编码器和变分自编码器。

然后,负责修复图像的自编码器,就来预测照片中人的不同角度会是什么样子。这步预测,也是在扭曲的坐标系里完成的。

这两个模块具有互补的优点:预测模块成功地利用密集条件输出来为熟悉的姿势生成合理的图像;但它不能推广的新的姿势,或转换纹理细节。

生成算法可分为以下三种类型:

从右边开始,就是生成目标,同样要整合到UV坐标系中。再用损失函数来处理
(上图红字部分) 把结果输入自编码器,帮助模型学习。

相比之下,变形模块可以保留高质量的细节和纹理,允许在一个统一的、规范的坐标系中进行修复,并且可以自由地推广到各种各样的身体动作。但是,它是以身体为中心的,而不是以衣服为中心,因此没有考虑头发、衣服和配饰。

1.给定一个标注,预测相关的特征。

用同一人物 (同样装扮)
多个静态姿势来作监督,替代了360度旋转的人体。

将这两个模块的输出输入到一个混合模块(blending
module)可以得到最好的结果。这个混合模块通过在一个端到端可训练的框架中使用重构、对抗和感知损失的组合,来融合和完善它们的预测。

2.给定一个隐藏表示,预测相关特征(变分自编码器,生成对抗网络)。

训练成果如何

402com永利1站 13

3.给定一些特征,预测其余特征(图像修复,图像插补)。

先来看一下,新加入的图像修复步骤,生成的效果:

图 2:warping stream
上姿势转换的监控信号:通过 DensePose
驱动的空间变换网络,将左侧的输入图像扭曲到固有的表面坐标。

训练生成对抗网络的技巧

402com永利1站 14

402com永利1站 15

训练判别器时,保持生成器的值不变;训练生成器时,则保持判别器不变。比如:这可以让生成器更好的读取它必须学习的梯度变化。同样的道理,在开始训练生成器前,对用于MINST数据集的判别器先进行预训练,可以建立一个更佳清晰的梯度。

把DensePose的质地纹路,修复一下,还是有明显效果的。

图 3:Warping 模块的结果

生成对抗网络的每一方都可以压制另一方。若判别器太好,返回接近0或1的值,发生器将难以读取梯度;若生成器太好,它将不断利用判别器的弱点导致漏报。这可以通过各自的学习率来减轻这种压制。

再来看一下多人视频什么样子:

如图 3 所示,在修复过程(inpainting
process),可以观察到一个均匀的表面,捕捉了皮肤和贴身衣服的外观,但没有考虑头发、裙子或外衣,因为这些不适合
DensePose的表面模型。

注意: Maven
上的Deeplearning4j’s最新版本不包括生成对抗网络,但很快就可以通过自动分化和模型导入来构建和使用,目前这些都可以在Github上额主存储库中获得。

402com永利1站 16

实验和结果

其他机器学习教程

虽然,脸部好像烧焦的样子,但已经很鬼畜了。在下不由得想起:

我们在 DeepFashion
数据集上进行实验,该数据集包含 52712 个时装模特图像,13029
件不同姿势的服装。我们选择了 12029 件衣服进行训练,其余 1000
件用于测试。

神经网络介绍

402com永利1站 17

402com永利1站 18

循环神经网络和长短期记忆网络

另外团队用DeepFashion数据集,对比了一下自家算法和其他同行。

表1:根据结构相似度 (SSIM)、 Inception
Score(IS)[41] 和 detection score(DS)指标,对DeepFashion 数据集的几种
state-of-the-art 方法进行定量比较。

Word2Vec:Java语言实现神经嵌入

结果是,结构相似度(Structural Similarity) ,以假乱真度 (Inception
Score) 以及检测分 (Detection Score)
这三项指标,Facebook家的算法表现都超过了前辈。

我们首先将我们的框架与最近一些基于关键点的图像生成或多视图合成方法进行比较。

受限玻尔兹曼机

402com永利1站 19

表 1 显示,我们的 pipeline
在结构逼真度(structural fidelity)方面有显著优势。在以IS
作为指标的感知质量方面,我们模型的输出生成具有更高的质量,或可与现有工作相媲美。

特征向量,协方差,PCA和熵

各位请持续期待,DensePose更多鬼畜的应用吧。

定性结果如图 4 所示。

神经网络与回归

论文传送门:

402com永利1站 20

卷积神经网络

图 4:与最先进的 Deformable GAN (DSC)
方法的定性比较。

生成对抗网络

顺便一提,教人学跳舞的算法真的不少。

密集人体姿态转换应用

推论:机器学习模型服务器

比如,伯克利舞痴变舞王,优点是逼真,缺点是无法实现多人共舞

在这项工作中,我们介绍了一个利用密集人体姿态估计的
two-stream
姿态转换架构。我们已经证明,密集姿势估计对于数据驱动的人体姿势估计而言是一种明显优越的调节信号,并且通过
inpainting
的方法在自然的体表参数化过程中建立姿势转换。在未来的工作中,我们打算进一步探索这种方法在照片级真实图像合成,以及处理更多类别方面的潜力。

生成对抗网络应用案例

402com永利1站 21

作者:

文本到图像的生成



402com永利1站 22

图像到图像的转换

vs

  • Rıza Alp Güler,INRIA, CentraleSupélec
  • Natalia Neverova,Facebook AI Research
  • Iasonas Kokkinos,Facebook AI Research

图像分辨率的提高

402com永利1站 23

论文:

对视频下一帧的预测

高质量图像的生成

相关文章

Comment ()
评论是一种美德,说点什么吧,否则我会恨你的。。。