当前位置：网站首页> 手机数码

AI视频“闪烁”拼图突破!轻松改变视频风格，北京大学毕业生的作品_ 量子比特

2023-07-27 09:30:36 0次手机数码

制作这部电影的人，是否已经跌到了这个地步？

输入一个视频，读一个“咒语”，人工智能可以在瞬间理解它，并在现场重新绘制视频。

它不仅完美地保留了所有的风格，而且最重要的是框架是光滑和光滑的。

即使在像建筑这样的详细视频中，你也很少看到“AI生成”的bug。

目前，无论是拍摄视频还是动画制作，我们都依赖于“关键帧”。如果框架和框架之间没有密切的联系，就会出现这种奇怪的“闪烁画面”。

这是人工智能生成视频的最大瓶颈之一。

现在，南洋理工大学的一个团队终于解决了这个问题，这项研究在Twitter上引起了轰动。

那么，他们是怎么做到的呢？如何让视频不“闪烁”？

人工智能生成的视频会“闪烁”，因为前后帧基本上不一致。

例如，这将从同一个视频中捕获两个帧：

用人工智能“重新绘制”这两帧图像，乍一看几乎没有问题，但在细节上却有很多差异。

例如，在一个框架中，它的头上有一条金色丝带，而在另一个框架中，它消失了。

由此可见，AI生成的数十帧图像样式似乎相似，但细节上的差异也很大，视频容易出现闪烁现象。

为了做到这一点，研究人员提出了一个新的框架，该框架可以提高人工智能生成视频时帧之间的一致性。

该框架包含关键帧翻译（key translation）和全视频翻译（o translation）2个部分。

第一部分基于扩散模型生成关键帧，并基于交叉帧约束来增强关键帧之间的一致性。第二部分使用基于时间识别的匹配算法，将其他帧“连接”到关键帧。

框架的核心在第一部分。

本文提出了一种新的分层跨帧一致性约束方法，利用光的流动来约束帧之间的关系。

第一帧对应于整个视频的“锚点”，并控制整个视频的方向。每个后续帧都使用前一帧作为参考，以防止生成的图像偏离其原始样式、形状、纹理或颜色。

对于视频生成模型，核心使用了稳定扩散+控制网络的组合，但正在进行改进。

如下图所示，红色虚线是原始的稳定扩散模型的采样过程，而黑线则是调整过程。

当然，跨框架约束在采样阶段不同，如形状感知、像素感知等。

与传统的AI视频生成模型相比，该框架的最大优势在于，当新视频被输入时，它不需要在该视频材料上重新训练。这就是零样本学习。

只需输入提示和视频，帧将自动将视频“翻译”为所需的结果。

例如，这是一个团队使用改进的框架来再现相同风格的视频，与改进前的扩散模型相比，几乎没有闪烁。在14秒内生成关键帧

制作一个视频需要很长时间吗？

速度并不慢，至少从帧生成效率的角度来看，关键帧和稳定扩散图的速度大致相同，平均为14.23秒。非关键帧的速度非常快，每帧只有1.49秒。

如果视频不长，或者只有12帧，则需要不到一分钟的时间来完成视频转换。

作者将这一新框架与以前的类（如FateZero、vid2vid-zero、Pxi2Video和Text2Video-Zero）进行了比较，发现它目前最平滑、最少重影。

作者们不仅显示了“视频翻译”，还显示了线索词给视频生成带来的控制效果。

例如，在相同的输入下，通过简单地更改队列中的“关键字”，AI可以生成新的视频，而几乎不改变其他元素。例如，改变发型和风格，用狐狸的头代替狗的头。

此外，作者招募了23名志愿者，他们对新框架生成的视频质量进行了全面评估，并评估了三个指标：线索和输入帧的相关性、时间一致性和视频整体质量。

因此，该框架在“人为得分”方面达到了良好的水平。北中出身人物

这四个人都来自南洋理工大学。

Yang Shuai是南洋理工大学的助理教授，拥有北京大学的学士和博士学位，目前的研究兴趣包括肖像编辑，文本风格化和图像翻译。

Zhou Yifan是南洋理工大学的研究工程师，毕业于北京理工大学，获得ACM-ICPC金牌，研究文本挖掘、基于机器学习的入射光场重构等研究领域。

刘子伟是南洋理工大学助理教授和香港中文大学博士生，研究计算机视觉、机器学习和计算机图形学。

Chen Change Loy是南洋理工大学和香港中文大学的副教授，专注于计算机视觉和深度学习（包括图像、视频恢复和生成以及表示学习）

目前，该项目的代码还不是开源的，但论文指出，“将是”。

当你看到结果时，你可以期待波浪。

项目地址https//anonymous-31415926.github.io/

文件地址https//arxiv. org/abs/2306.07954

上一篇：他们教你如何快速清除厨房里的烟雾
下一篇：Oppor9splus重新启动会改变什么，不会给Carton留下任何机会

AI视频“闪烁”拼图突破!轻松改变视频风格，北京大学毕业生的作品_ 量子比特

推荐阅读

推荐文章

随机阅读

热门话题

友情链接