蒙娜丽莎一键复活三星AI一张图片就能合成动画-icspec

蒙娜丽莎一键复活三星AI一张图片就能合成动画

来源:电子发烧友网发布时间:2019-05-27

分享至微信

还记得哈利・波特第一次来到霍格沃茨看到墙上那些既会动又会说话的挂画是多么惊讶吗？如果我们可以将挂画 “复活”，和 500 多年前的蒙娜丽莎来场穿越时空的对话会怎样呢？感谢 AI技术，把画 “复活” 不再是梦！

名画《蒙娜丽莎的微笑》，会动了！

梦娜丽莎转过头，嘴里说着话，微微眨了眨眼，脸上带着温婉的微笑。

是的，《哈利·波特》世界中”会动的画“魔法实现了！来自三星AI中心(Samsung AI Center)和莫斯科斯的Skolkovo 科学技术研究所的一组研究人员，开发了一个能将让JPEG变GIF的AI系统。

《哈利·波特》中守卫格兰芬多学院休息室的胖夫人画像

更牛逼的是，该技术完全无需3D建模，仅需一张图片就能训练出惟妙惟肖的动画。研究人员称这种学习方式为“few-shot learning"。当然，如果有多几张照片——8张或32张——创造出来动图效果就更逼真了。比如：

爱因斯坦给你讲物理：

玛丽莲梦露和你 flirt：

本周，三星AI实验室的研究人员发表了一篇题为 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的论文，概述了这种技术。该技术基于卷积神经网络，其目标是获得一个输入源图像，模拟目标输出视频中某个人的运动，从而将初始图像转换为人物正在说话的短视频。

论文一发表马上引起轰动，毕竟这项技术创造了巨大的想象空间！

类似这样的项目有很多，所以这个想法并不特别新颖。但在这篇论文中，最有趣的是，该系统不需要大量的训练示例，而且系统只需要看一次图片就可以运行。这就是为什么它让《蒙娜丽莎》活起来。

3个神经网络，让蒙娜丽莎活起来

这项技术采用“元学习”架构，如下图所示：

图2：“让照片动起来”元学习架构

具体来说，涉及三个神经网络：

首先，嵌入式网络映射输入图像中的眼睛、鼻子、嘴巴大小等信息，并将其转换为向量；

其次，生成式网络通过绘制人像的面部地标(face landmarks)来复制人在视频中的面部表情；

第三，鉴别器网络将来自输入图像的嵌入向量粘贴到目标视频的landmark上，使输入图像能够模拟视频中的运动。

最后，计算“真实性得分”。该分数用于检查源图像与目标视频中的姿态的匹配程度。

元学习过程：只需1张输入图像

研究人员使用VoxCeleb2数据集对这个模型进行了预训练，这是一个包含许多名人头像的数据库。在这个过程中，前面描述的过程是一样的，但是这里的源图像和目标图像只是同一视频的不同帧。