当前位置: 直线机 >> 直线机优势 >> 华人团队用Transformer做风格迁
机器之心报道
编辑:杜伟
利用神经网络进行风格迁移是一项非常常见的任务,方法也很多,比如基于优化和基于RL的方法。最近,来自百度VIS团队的研究者提出了一种基于Transformer的风格迁移框架,速度快于基线方法,实现效果也不错。然而,研究遭到了网友的质疑,这是为什么呢?
在图像渲染领域,神经绘画(Neuralpainting)指的是为一张给定图像生成一系列笔画(stroke),并借助神经网络对其进行非真实性重建。如下图第一行每张图像的左下角为真实图像,以及重建后的非真实图像;第二行为渐进的绘画过程。
对于神经绘画任务,虽然基于强化学习(RL)的智能体可以一步步地生成笔画序列,但训练一个稳健的RL智能体并不容易。另一方面,笔画优化方法在一个大的搜索空间中迭代地搜索一系列笔画参数。因此,这种低效率的搜索方法极大地限制了基于RL方法的泛化性和实用性。
上个月,在一篇ICCVOral论文中,来自百度VIS团队和罗格斯大学等机构的研究者将神经绘画视作一个集合预测问题,提出了全新的、基于Transformer的框架——PaintTransformer,从而利用前馈网络来预测笔画集合的参数。就其效果而言,研究者提出的模型可以并行地生成一系列笔画,并几乎能够实时地得到尺寸为的重建绘画。
更重要的是,由于训练PaintTransformer没有可用的数据集,研究者设计了一个自训练的pipeline,这样既可以在不使用任何现成数据集的情况下训练,又依然能够实现极好的泛化能力。实验结果表明,PaintTransformer在训练和推理成本更低的情况下,实现了较以往方法更好的性能。