「拖拽」就能实现精准 P 图的 DragGAN，论文作者亲自揭秘技术了

2023-06-12 13:16:15来源：ZAKER科技

在图像生成领域，以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖迭代推理，虽然此方法可以实现具有简单目标的稳定训练，但推理过程需要高昂的计算成本。

(资料图片仅供参考)

在 Stable Diffusion 之前，生成对抗网络（GAN）是图像生成模型中常用的基础架构。相比于扩散模型，GAN 通过单个前向传递生成图像，因此本质上是更高效的。但由于训练过程的不稳定性，扩展 GAN 需要仔细调整网络架构和训练因素。因此，GAN 方法很难扩展到非常复杂的数据集上，这是 GAN 式微的原因之一。

当前，GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性，这通常缺乏灵活性、精确性和通用性。然而，一些研究者看重 GAN 在图像生成上的高效性，做出了许多改进 GAN 的尝试。

其中，来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌等机构的研究者们提出了一种强大的控制 GANs 的方式，即以用户交互的方式拖动图像的任何关键点以精确到达目标点。

为了实现这一点，该研究提出了 DragGAN，它包含两个主要组成部分：1）基于特征的运动监督，用于驱动关键点向目标位置移动；2）一种新的点追踪方法，利用 GAN 的特征来定位关键点的位置。

通过 DragGAN，任何人都可以精确控制像素的移动位置来变形图像，从而操控各种空间属性，如动物、汽车、人类、风景等的姿态、形状、表情和布局。由于这些操控在 GAN 的生成图像流形上进行，因此 DragGAN 可以生成被遮挡的内容和以及保证物体的形变符合物体的结构。定性和定量比较都表明，DragGAN 在图像操控和点追踪任务上优于先前的方法。此外，该研究还展示了通过 GAN 重建操控真实图像的例子。

为了让大家更好的了解这一研究，机器之心最新一期线上分享邀请到了 DragGAN 论文第一作者潘新钢，通过本次分享，大家可以更深入的了解这一项研究。

分享主题：Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

嘉宾简介：潘新钢是南洋理工大学计算机科学与工程学院助理教授。此前他在马克斯普朗克计算机科学研究所从事博士后研究。他于清华大学获得学士学位，于香港中文大学 MMLAB 获得博士学位，师从汤晓鸥教授。他的主要研究方向是生成式 AI。

分享摘要：这次分享将主要介绍 DragGAN，一种新的图像编辑方法。通过 DragGAN，用户可以通过交互的方式拖动 GAN 所生成的图像的任何关键点以精确到达目标点，从而实现对各种空间属性如姿态、形状、表情和布局等的操控。

相关链接

论文链接：https://arxiv.org/abs/2305.10973

项目主页链接：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

直播间：关注机器之心机动组视频号，立即预约直播。

交流群：本次直播设有 QA 环节，欢迎加入本次直播交流群探讨交流。