每两年举办一次AI峰会ICCV,今年在韩国首尔举行。

论文收录名单公布,大会也进入了上榜的收获。

腾讯旗下顶级视觉研发平台腾讯优图,行业实验室排名靠前13篇论文入选,其中3篇为口头报告(Oral),此类论文占总投稿数的4.3%(200/4323、

ICCV-国际计算机视觉大赛,英文全称International Conference on Computer Vision。

作为计算机视觉领域的三大顶级会议之一而闻名,与CVPR和ECCV并列采用率非常低,其论文集代表了计算机视觉领域最新的发展方向和水平。

此次ICCV共发布论文4323篇,其中1075篇,采用率为25%。

另一方面,优图上榜的13篇论文涉及二维图像多视图生成、人脸照片图像转换等可喜研究。

我们选择了其代表性的两篇初步解析,两篇都有贾加亚教授参与,详细论文见传送门。

两篇论文基于视角无关特征的多视图对抗生成框架

View Independent Generative Adversarial Network for Novel View Synthesis

本文与香港中文大学合作完成,论文入选Oral。

二维图像的多视图生成任务是指基于一张二维图像生成其不同视角下的图像信息。

这样的方法能够在不涉及复杂的三维重建的基础上实现多个视点的信息的合成观察。

例如,提供下图的特定视角的2D图像可以生成其他各视角的图像信息:

本文提出了一种适合于这样的任务的对抗生成框架,其目的在于通过结合与图像对应的摄像机参数信息,实现适用于多种物体的多视点变换框架。

长期来看,就像在电影院看到的3D电影一样,通常的二维视频也有望实现3D观。

现有的多视图生成任务基于生成当前模型的方法,可以预先提取输入图像中不依赖于视角信息的特征,并在该特征上作用与视角信息相关的参数,得到结果。

在本文中,作者使用这样的想法,配合在多个损失函数中的设定,使用摄像机参数添加图像信息,得到与视场角无关的特征。

与传统方法相比,该方法更适合在连续摄影机参数下生成多视图,而不限于某些固定视角。

除了合成视图与监视信息之间的损失函数之外,本文还提出了使用基于循环生成的重建损失函数来提高合成视图的精度,同时参考当前的对抗生成技术,从图像自身的生成分布、图像的姿势精度保证两方面提出了两种不同作用的对抗学习损失,以提高生成图像的质量和合成视图的姿态精度。

此框架可应用于不同类别的对象。

首先,是预先设定的有限数量的视点间的脸的变换结果。左边缘是输入的二维图像,箭头的右侧全部生成,是不同视角下的结果。

对应于其他一般的物体。使用Shape-Net数据集上的多个类别的物体作为数据,得到以下结果:

通过在多个类别的物体上进行多视图生成任务,并使用多个定量定性指标进行评价,证明该方法具有通用性,在多个类别任务中表现良好。

基于属性的光流域非监督图像转换算法

Attribute-Driven Spontaneous Motion in Unpaired Image Translation

◆笑脸表情转换结果图。从左到右:输入、Stargan结果、本论文结果

本文与香港中文大学、哈工大深圳研究院合作完成。

面部照片随着社交软件的普及被广泛应用于各种社交应用,而面部照片的自动编辑一方面作为社交软件的娱乐应用促进了社交用户的交流也有助于用户对人脸照片进行快速的自动化编辑。

由于深度学习的兴起,基于深度神经网络的图像转换技术经常应用于图像编辑任务。

由于现有的图像变换算法主要很少考虑图像之间的几何变形关系,尽管可以生成高分辨率的图像,但变换后的图像往往包含许多伪影和失真,特别是在原图像区域和目标图像区域的几何结构不一致的情况下。

本文提出了一种SPM(自光流模块),希望通过学习不同图像区域之间的光流来解决图像的几何变换问题。

该框架基于使用了用于生成更好的图像的生成器和用于判别生成器生成图像的质量的好坏的判别器的现有的生成器判别器。

此外,为了适应图像变换中的几何变换,对生成器的基础网络结构进行扩展。

扩展的发生器包括两个主要模块:光流模块SPM和微调模块R。

最后,本文还引入了从低分辨率图像到高分辨率的生成方案。

△整体框架图

本文提出的自光流模块通过输入原图像和目标属性,自光流模块以预测光流为目的,利用光流对原图像使用变形操作得到中间结果图像。

本文利用编码解码网络作为模块的主要结构,主要考虑了网络结构、域分类器、微调模块、残差结构和注意力掩码的一些设计。

同时,为了产生更高分辨率的图像,该文采用了一种新颖的粗细神经网络训练策略。

训练低分辨率神经网络会增加中间结果的低分辨率显示。

具体而言,已知低分辨率的自光流域w残差r及注意力掩模m。为了得到它们的高分辨率表示,首先对它们进行双线性插值,采样为分辨率高的w、r、m。

但是双线性插值的上采样得到的结果往往是模糊的,所以对三个变量引入了三个小的增强神经网络来微调上采样的结果。

微调后的高分辨率中间结果可用于处理和转换高分辨率输入图像,最后获得相应的高分辨率转换结果。

如图所示,RaFD数据集上的图像转换结果从左到右依次为:输入、愤怒、惊讶、喜悦(后三者为算法生成结果)

在本文中,通过提出自光流模块,将图像区域之间的几何变换显式地引入到图像变换帧中。算法主要通过CelebA-HQ和RaFD数据集验证,结果比现有算法有一定的提高。

其各部分实验充分证明了该框架的有效性,并取得了良好的图像转换效果。

该框架还可以提供用于解决图像转换中的几何转换问题的新解决方案。

传输门:基于视角无关特征的多视对抗生成帧

http://jiaya.me/papers/vigan_iccv19.pdf

基于属性的光流域非监督图像转换算法

https://arxiv.org/abs/1907.01452