澳门人威尼斯官方唐帆老师指导的2020级硕士研究生魏华鹏的论文A Comparative Study of CNN- and Transformer-based Visual Style Transfer近日被CCF-B类期刊JCST接收,并在CVM2022做口头报告。计算机科学技术学报(JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY)是Springer出版社旗下的CCF推荐B类期刊。魏华鹏目前从事图像处理与图象生成方向的研究工作,本篇文章与中科院自动化所共同完成。
文章简介
第一作者:魏华鹏
通讯作者:唐帆
论文题目:A Comparative Study of CNN- and Transformer-based Visual Style Transfer
论文概述:
近期,基于多头自注意力机制的transformer结构在计算机视觉领域,特别是图像分类、检测等感知任务,取得了显著的进展。相关研究指出,与transformer模型展现出的形状偏好性质相比,传统的卷积神经网络更偏向于纹理建模。目前大部分卷积神经网络与视觉transformer工作多基于图像分类、检测等感知任务,但很少有研究关注二者在生成类任务(如风格迁移)上差异的表型比较及原因。在本工作中,我们专注于从视觉风格迁移(VST)的角度来对比和分析CNN和基于transformer的模型之间的形状偏好差异。通过将三种经典风格迁移方法引入到transformer结构中,我们发现ImageNet数据集上预训练的transformer由于较强的形状偏好不适用于经典风格迁移方法。通过进一步控制transformer编码器和风格迁移算法的训练配置,对比分析的结果表明,transformer可以学到类似于CNN的纹理偏好特征。使用基于卷积神经网络的感知损失训练模型时,我们获得了纹理偏好更强的 Transformer编码器,基于该Transformer编码器的视觉风格迁移方法能够成功地生成风格化图像,并且取得了与原始基于卷积神经网络的视觉风格迁移方法相当的质量。