制作这部电影的人,是否已经跌到了这个地步?

输入一个视频,读一个“咒语”,人工智能可以在瞬间理解它,并在现场重新绘制视频。

它不仅完美地保留了所有的风格,而且最重要的是框架是光滑和光滑的。

即使在像建筑这样的详细视频中,你也很少看到“AI生成”的bug。

目前,无论是拍摄视频还是动画制作,我们都依赖于“关键帧”。如果框架和框架之间没有密切的联系,就会出现这种奇怪的“闪烁画面”。

这是人工智能生成视频的最大瓶颈之一。

现在,南洋理工大学的一个团队终于解决了这个问题,这项研究在Twitter上引起了轰动。

那么,他们是怎么做到的呢?如何让视频不“闪烁”?

人工智能生成的视频会“闪烁”,因为前后帧基本上不一致。

例如,这将从同一个视频中捕获两个帧:

用人工智能“重新绘制”这两帧图像,乍一看几乎没有问题,但在细节上却有很多差异。

例如,在一个框架中,它的头上有一条金色丝带,而在另一个框架中,它消失了。

由此可见,AI生成的数十帧图像样式似乎相似,但细节上的差异也很大,视频容易出现闪烁现象。

为了做到这一点,研究人员提出了一个新的框架,该框架可以提高人工智能生成视频时帧之间的一致性。

该框架包含关键帧翻译(key translation)和全视频翻译(o translation)2个部分。

第一部分基于扩散模型生成关键帧,并基于交叉帧约束来增强关键帧之间的一致性。第二部分使用基于时间识别的匹配算法,将其他帧“连接”到关键帧。

框架的核心在第一部分。

本文提出了一种新的分层跨帧一致性约束方法,利用光的流动来约束帧之间的关系。

第一帧对应于整个视频的“锚点”,并控制整个视频的方向。每个后续帧都使用前一帧作为参考,以防止生成的图像偏离其原始样式、形状、纹理或颜色。

对于视频生成模型,核心使用了稳定扩散+控制网络的组合,但正在进行改进。

如下图所示,红色虚线是原始的稳定扩散模型的采样过程,而黑线则是调整过程。

当然,跨框架约束在采样阶段不同,如形状感知、像素感知等。

与传统的AI视频生成模型相比,该框架的最大优势在于,当新视频被输入时,它不需要在该视频材料上重新训练。这就是零样本学习。

只需输入提示和视频,帧将自动将视频“翻译”为所需的结果。

例如,这是一个团队使用改进的框架来再现相同风格的视频,与改进前的扩散模型相比,几乎没有闪烁。在14秒内生成关键帧

制作一个视频需要很长时间吗?

速度并不慢,至少从帧生成效率的角度来看,关键帧和稳定扩散图的速度大致相同,平均为14.23秒。非关键帧的速度非常快,每帧只有1.49秒。

如果视频不长,或者只有12帧,则需要不到一分钟的时间来完成视频转换。

作者将这一新框架与以前的类(如FateZero、vid2vid-zero、Pxi2Video和Text2Video-Zero)进行了比较,发现它目前最平滑、最少重影。

作者们不仅显示了“视频翻译”,还显示了线索词给视频生成带来的控制效果。

例如,在相同的输入下,通过简单地更改队列中的“关键字”,AI可以生成新的视频,而几乎不改变其他元素。例如,改变发型和风格,用狐狸的头代替狗的头。

此外,作者招募了23名志愿者,他们对新框架生成的视频质量进行了全面评估,并评估了三个指标:线索和输入帧的相关性、时间一致性和视频整体质量。

因此,该框架在“人为得分”方面达到了良好的水平。北中出身人物

这四个人都来自南洋理工大学。

Yang Shuai是南洋理工大学的助理教授,拥有北京大学的学士和博士学位,目前的研究兴趣包括肖像编辑,文本风格化和图像翻译。

Zhou Yifan是南洋理工大学的研究工程师,毕业于北京理工大学,获得ACM-ICPC金牌,研究文本挖掘、基于机器学习的入射光场重构等研究领域。

刘子伟是南洋理工大学助理教授和香港中文大学博士生,研究计算机视觉、机器学习和计算机图形学。

Chen Change Loy是南洋理工大学和香港中文大学的副教授,专注于计算机视觉和深度学习(包括图像、视频恢复和生成以及表示学习)

目前,该项目的代码还不是开源的,但论文指出,“将是”。

当你看到结果时,你可以期待波浪。

项目地址https//anonymous-31415926.github.io/

文件地址https//arxiv. org/abs/2306.07954