动画,动画就是你让你动,我来画我。

像下面的GIF一样,在左边的静止画面上一点一点地染上颜色的话,右边的GIF也会实时改变颜色。

这是布拉格捷克理工学院和Snap研究所的黑色科技。**只需使用特定的两个框架,就可以实时改变视频中对象的颜色、样式和样式。

当然,更厉害的是前面。

你把你的头像拿过来,随便修改一下。拥有这个图标的话,坐在照相机前面的你,也会实时变化。

并且,一边描绘自己,一边享受自己成为动画的乐趣。

正是这边动,那边画,动画出来了。

此过程不需要长的培训过程,也不需要大规模的培训数据集。

那么,它的效果是如何实现的呢

交互式视频样式

首先,输入由N帧构成的视频序列I。

如下图所示,对于任何帧Ii,都可以选择在遮罩Mi中定义样式过渡区域,还是对整个帧进行样式过渡。

用户需要做的是提供一个样式化的关键帧Sk,该样式以有意义的方式传递给整个视频序列。

与传统方法不同,该样式转换是以随机顺序进行的,因此不需要等待顺序之前的帧先格式化,也不需要从不同的关键帧显式合并样式化的内容。

也就是说,该方法实际上是一种翻译过滤器,它可以快速学习一些手绘示例Sk的样式,并将其“翻译”到视频序列I中的任何帧。

该图像转换框架在u-net中实现。它还采用了一种基于补丁的培训和一种抑制视频闪烁的解决方案来解决少样本培训和时间一致性问题。

基于图像块的训练策略

关键帧是较少的样本数据,为了避免过拟合,研究人员采用了基于图像块的训练策略。

从原始关键帧(Ik)中随机抽取一组图像块(a),并在网络中生成相应的样式化块(b)

接下来,计算从样式化关键帧(Sk)采样的对应图像块的这些样式化的对应块(b)的损失,并反向传播误差。

此类培训计划不限于任何特定的损失函数。本研究采用了L1损失、对抗损失、VGG损失的组合

超参数优化

解决超拟合后的另一个问题是超参数优化。不适当的超参数可能会降低推理质量。

研究人员使用网格搜索法,对超参数四维空间进行采样:Wp——训练图像块大小;Nb——batch中图像块的数量。α——学习率。Nr——ResNet块的数量。

对每个超参数执行(1、规定的时间训练。(2、进行不可见帧的推理。(3、计算推断的帧(O4、和真实值(GT4、之间的损失。

目的是将那个损失最小化。

提高时间的一致性

您可以训练翻译网络在显卡上实时或并行地迁移视频样式。

然而,研究者们发现在很多情况下,视频闪烁还是很清晰的。

第一个原因是原始视频中有时间噪声,因此研究人员采用了在时域工作的双滤波器的运动补偿变奏曲。

第二个原因是样式化内容的视觉模糊。解决方案是提供额外的输入层以提高网络辨别能力。

该层由随机二维高斯分布稀疏集组成,帮助网络识别局部上下文并抑制歧义。

但研究者们也触及到了这种方法的局限性。

当一个没有样式化的新特征出现时,这种方法通常不能产生一致的样式化效果。必须提供其他关键帧以匹配样式。

处理高分辨率(4K等)关键帧很困难

要创建使用运动补偿的双边滤波器或随机高斯混合层,需要获取多个视频帧,需要更高的计算资源,从而影响实时视频流中实时推理的效果。(Demo实时捕获会话不采用提高时间完整性的处理方法)

研究小组

这项研究是由布拉格捷克理工学院计算机图形学和交互系三年级博士生Ondej Texler进行的。

本科和硕士都毕业了。主要研究领域是计算机图形图像处理计算机视觉深度学习

除了一部作品,我们还发现了另一位中国作者——柴蒙磊。博士毕业于浙江大学,现为Snap Research Creative Vision团队资深研究人员。

主要从事计算机视觉和计算机图形学研究,研究人的数字化、图像处理、三维重建、物理动画。

是传送门

项目地址为https://ondrejtexler.github.io/patch-based_training/

-完成-