有手就行?把大象 P 转身只需拖动鼠标,华人一作 DragGAN 爆火_当前观点
2023-05-20 13:28:17来源:ZAKER科技
机器之心报道
编辑:蛋酱、小舟
(相关资料图)
如果甲方想把大象 P 转身,你只需要拖动 GAN 就好了。
在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。
在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比 GAN 方法更易于控制,这是 GAN 式微的原因之一。
当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。
最近,来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN,能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。
论文链接:https://arxiv.org/abs/2305.10973项目主页:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
这种全新的控制方法非常灵活、强大且简单,有手就行,只需在图像上「拖动」想改变的位置点(操纵点),就能合成你想要的图像。
例如,让狮子「转头」并「开口」:
还能轻松让小猫 wink:再比如,你可以通过拖动操纵点,让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片:如果你也接到了「把大象转个身」的 P 图需求,不妨试试:
整个图像变换的过程就主打一个「简单灵活」,图像想怎么变就怎么变,因此有网友预言:「PS 似乎要过时了」。也有人觉得,这个方法也可能会成为未来 PS 的一部分。总之,观感就是一句话:「看到这个,我脑袋都炸了。」当大家都以为 GAN 这个方向从此消沉的时候,总会出现让我们眼前一亮的作品:这篇神奇的论文,已经入选了 SIGGRAPH 2023。研究者表示,代码将于六月开源。那么,DragGAN 是如何做到强大又灵活的?我们来看一下该研究的技术方法。方法概述
该研究提出的 DragGAN 主要由两个部分组成,包括:
基于特征的运动监督,驱动图像中的操纵点向目标位置移动;
一种借助判别型 GAN 特征的操纵点跟踪方法,以控制点的位置。
DragGAN 能够通过精确控制像素的位置对图像进行改变,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。
GAN 有一个很大的优势是特征空间具有足够的判别力,可以实现运动监督(motion supervision)和精确的点跟踪。具体来说,运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标,然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程,直到操纵点达到目标。
DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络,因此它实现了高效的操作,大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑,用户可以对图像进行多次变换更改,直到获得所需输出。
如下图所示,DragGAN 可以有效地将用户定义的操纵点移动到目标点,在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是,本文的变形是在 GAN 学习的图像流形上进行的,它倾向于遵从底层的目标结构,而不是简单地应用扭曲。例如,该方法可以生成原本看不见的内容,如狮子嘴里的牙齿,并且可以按照物体的刚性进行变形,如马腿的弯曲。研究者还开发了一个 GUI,供用户通过简单地点击图像来交互地进行操作。此外,通过与 GAN 反转技术相结合,本文方法还可以作为一个用于真实图像编辑的工具。
一个非常实用的用途是,即使合影中某些同学的表情管理不过关,你也可以为 Ta 换上自信的笑容:
顺便提一句,这张照片正是本篇论文的一作潘新钢,2021 年在香港中文大学多媒体实验室获得博士学位,师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后,并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。这项工作旨在为 GAN 开发一种交互式的图像操作方法,用户只需要点击图像来定义一些对(操纵点,目标点),并驱动操纵点到达其对应的目标点。
这项研究基于 StyleGAN2,基本架构如下:
在 StyleGAN2 架构中,一个 512 维的潜在代码∈ N(0,)通过一个映射网络被映射到一个中间潜在代码∈ R 512 中。的空间通常被称为 W。然后,被送到生成器,产生输出图像 I = ( ) 。在这个过程中,被复制了几次,并被送到发生器的不同层,以控制不同的属性水平。另外,也可以对不同层使用不同的,在这种情况下,输入将是,其中是层数。这种不太受约束的 W^+ 空间被证明是更有表现力的。由于生成器学习了从低维潜在空间到高维图像空间的映射,它可以被看作是对图像流形的建模。实验
为了展示 DragGAN 在图像处理方面的强大能力,该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。
定性评估
图 4 是本文方法和 UserControllableLT 之间的定性比较,展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点,实现了多样化和自然的操纵效果,如改变动物的姿势、汽车形状和景观布局。相比之下,UserControllableLT 不能忠实地将操纵点移动到目标点上,往往会导致图像中出现不想要的变化。
如图 10 所示,它也不能像本文方法那样保持未遮盖区域固定不变图 6 提供了与 PIPs 和 RAFT 之间的比较,本文方法准确地跟踪了狮子鼻子上方的操纵点,从而成功地将它拖到了目标位置。真实图像编辑。使用 GAN inversion 技术,将真实图像嵌入 StyleGAN 的潜空间,本文方法也可以用来操作真实图像。图 5 显示了一个例子,将 PTI inversion 应用于真实图像,然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情:
图 13 展示了更多的真实图像编辑案例:定量评估研究者在两种设置中下对该方法进行了定量评估,包括人脸标记点操作和成对图像重建。
人脸标记点操作。如表 1 所示,在不同的点数下,本文方法明显优于 UserControllableLT。特别是,本文方法保留了更好的图像质量,正如表中的 FID 得分所示。
这种对比在图 7 中可以明显看出来,本文方法打开了嘴巴并调整下巴的形状以匹配目标脸,而 UserControllableLT 未能做到这一点。成对图像重建。如表 2 所示,本文方法在不同的目标类别中优于所有基线。消融实验研究者研究了在运动监督和点跟踪中使用某种特征的效果,并报告了使用不同特征的人脸标记点操作的性能(MD)。如表 3 所示,在运动监督和点跟踪中,StyleGAN 的第 6 个 block 之后的特征图表现最好,显示了分辨率和辨别力之间的最佳平衡。
表 4 中提供了 _1 的效果。可以看出,性能对 _1 的选择不是很敏感,而 _1=3 的性能略好。讨论掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码,图 8 展示了它的效果:
Out-of-distribution 操作。从图 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以创造出训练图像分布之外的图像,例如一个极度张开的嘴和一个大的车轮。研究者同样指出了本文方法现存的局限性:尽管有一些推断能力,其编辑质量仍然受到训练数据多样性的影响。如图 14(a)所示,创建一个偏离训练分布的人体姿势会导致伪影。此外,如图 14(b)和(c)所示,无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此,研究者建议尽可能挑选纹理丰富的操纵点。AI+EDA:引领芯片设计新未来5 月 23 日 19:00-21:00,机器之心联合新思科技与微软带来线上分享,来自新思科技资深产品经理庄定铮与微软全球黑带 - 数据与人工智能资深技术专家陈景忠将就 AI+EDA 这一行业热议话题展开讨论。
识别海报二维码,预约直播。
THE END转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
-
有手就行?把大象 P 转身只需拖动鼠标,华人一作 DragGAN 爆火_当前观点
机器之心报道编辑:蛋酱、小舟如果甲方想把大象P转身,你只需要拖动GAN就好了。在图像生成领域,以StableDi
2023-05-20 -
环球新动态:体验了联网 + 插件大升级后的 ChatGPT,我找到了未来互联网的新入口
大约一个半月前,当ChatGPT首次提出联网和插件计划并放出测试Demo的时候,曾着实让市场惊艳了一把。从当时
2023-05-20 -
当前速看:采用海思 V811 高端“中国芯” 当贝新款旗舰投影当贝 F6 正式发布
近日,IDC发布《2022年第四季度中国投影机市场跟踪报告》。数据显示,2022年中国投影机市场总出货量505万台
2023-05-20 -
体验了联网 + 插件大升级后的 ChatGPT,我找到了未来互联网的新入口
大约一个半月前,当ChatGPT首次提出联网和插件计划并放出测试Demo的时候,曾着实让市场惊艳了一把。从当时
2023-05-20 -
长焦人像成就爱意表达,华为 P60 Pro 助力 520 留最美回忆 焦点滚动
随着520节日的到来,情侣们开始纷纷为这个浪漫的日子做准备,也有很多人会在这天向亲爱的家人朋友表达爱意
2023-05-20
相关阅读
-
有手就行?把大象 P 转身只需拖动鼠标,华人一作 DragGAN 爆火_当前观点
机器之心报道编辑:蛋酱、小舟如果甲方想把大象P转身,你只需要拖动GAN就好了。在图像生成领域,以StableDi
-
抖音房产要警惕成为安居客 当前动态
作者:孙颖莹,编辑:刘宇翔,头图来自:视觉中国如果幸福来得太突然,那么失去也很快。5月5日,抖音旗下房
-
傅聪弟弟傅敏逝世享年86岁 生前所编《傅雷家书》风行40年
2020年傅敏最后一次编《傅雷家书》(四十周年纪念本)和(父子两地书),已经由译林出版社出版。由傅敏先生
-
小冰“数字克隆人”要来了,AI能否搅动直播电商这池春水? 天天新要闻
5月16日,人工智能公司小冰公司宣布启动“GPT克隆人计划”,首批征集300人,将根据他们提供的3—5分钟视...
-
天天百事通!十大汽车保险公司排名是多少?哪一家最好?
据中国保险行业协会发布的数据,截至2023年3月末,十大汽车保险公司排名如下:1 平安保险2 中国太平3 人保
-
“好太太+”背刺好太太
目前市面上究竟有多少“好太太”,恐怕好太太自己也不清楚。近期,全国各地市场监管部门密集查出,各种...
-
生死两全保险是什么意思?有什么特点? 环球新消息
生死两全保险是一种特殊的保险产品。 生死两全保险是一种综合性的寿险产品,它结合了传统的寿险和意外险的
-
人民健康保险公司好不好?有哪些优势?-全球微头条
人民健康作为一家专注于健康保险的公司,具备诸多优势和可靠性,值得购买。无论是个人还是企业,都可以根据
-
天天热文:电动车保险怎么赔偿?有哪些流程?
电动车保险的赔偿范围包括以下几种:1 第三方责任险:保险公司会在被保险人因过失导致第三方财产损失或人身
-
今日最新!人寿大病保险是什么?有什么优点?
人寿大病保险作为一种特殊形式的保险,可以为购买人提供全面的经济保障。相比于其他类型的保险,人寿大病保
-
Instagram计划推出与推特竞争的新产品
据媒体报道,Instagram正计划推出一款基于文本的应用,将与推特展开竞争。根据知情人士透露,该公司目前
-
环球新动态:体验了联网 + 插件大升级后的 ChatGPT,我找到了未来互联网的新入口
大约一个半月前,当ChatGPT首次提出联网和插件计划并放出测试Demo的时候,曾着实让市场惊艳了一把。从当时
-
当前速看:采用海思 V811 高端“中国芯” 当贝新款旗舰投影当贝 F6 正式发布
近日,IDC发布《2022年第四季度中国投影机市场跟踪报告》。数据显示,2022年中国投影机市场总出货量505万台
-
体验了联网 + 插件大升级后的 ChatGPT,我找到了未来互联网的新入口
大约一个半月前,当ChatGPT首次提出联网和插件计划并放出测试Demo的时候,曾着实让市场惊艳了一把。从当时
-
我国首座!“海油观澜号”并网投产_当前通讯
5月20日,中国海油发布消息,我国首座深远海浮式风电平台海油观澜号成功并入文昌油田群电网,正式开启了为
-
中国中化成立中央研究院,下设 21 个专业研究中心!
为践行科学至上理念,打造科技创新驱动的世界一流综合性化工企业,近日,中国中化研究决定,成立中国中化中
-
又有高价水果大降价!一斤直降 30 元,商家 3000 多斤一夜卖光
五月的天,刚诞生的夏天。身处在夏日前奏曲中的我们,不知不觉地也迎来了一场水果盛宴,樱桃、荔枝等…...
-
儿童医疗保险网上缴费流程是什么?还有哪些缴费方式? 当前热议
儿童医疗保险网上缴费是指家长通过互联网在线支付平台进行保费支付的行为。具体操作流程如下:1 登录保险公
-
事故误工费保险公司赔吗?赔付标准是什么?_环球动态
事故误工费保险赔吗。要依据不同的保险产品、保单和公司而有所区别。一般来说,保险公司会要求被保险人提供
-
公司保险怎么查询?一般包括哪些保险?-全球最资讯
查询公司购买的保险情况可以通过多种途径,如询问人力资源部门、查阅工资条或社保缴纳单,或直接向保险公司
-
什么是意外保险?值不值得参保?
意外保险是指在被保险人在合同约定范围内因意外事故而导致身体伤残或死亡时,由保险公司按照合同规定支付一
-
什么是意外保险的范围?范围有哪些? 视讯
意外保险的范围指的是被保险人可以获得意外保险公司的保障和赔偿的范围,作为人身保险的一种,对于个人和家
-
三星发布《奇幻夜狂想曲》微电影 用S23 Ultra拍摄
凤凰网科技讯(作者 阎烁)5月20日,三星在阿那亚电影周首映微电影《奇幻夜狂想曲》,该影片由三星和上海迪
-
每日快看:第四范式「式说」大模型入选北京市首批7家模型伙伴
鞭牛士报道 5月19日,北京市经信局联合市科委中关村管委会、市发改委共同启动“北京市通用人工智能产业
-
环球微头条丨高质量发展调研行丨“大国重器” 驶向全球 跟随记者探访江苏先进造船工厂
江苏作为制造业大省,不断实施“产业强链补链”计划,实体经济呈现出良好的发展态势。
-
世界观速讯丨叫板微软!谷歌宣布将正式推出 AI 写代码功能
自从去年ChatGPT发布以来,关于生成式AI的话题讨论一直都是沸沸扬扬,隔一段时间就有几家厂商拿着自己的看
-
长焦人像成就爱意表达,华为 P60 Pro 助力 520 留最美回忆 焦点滚动
随着520节日的到来,情侣们开始纷纷为这个浪漫的日子做准备,也有很多人会在这天向亲爱的家人朋友表达爱意
-
环球今头条!配备 V4 发动机,杜卡迪发布全新大魔鬼 Diavel V4
钛媒体App5月19日消息,杜卡迪发布了全新巡航车大魔鬼DiavelV4,并在北京国际摩托车展览会公开亮相。全新杜
-
【独家焦点】3.5 元买不到了?肥宅快乐水,夏天涨价“警告”!
快乐水不快乐了?在很多人看来,在可口可乐进入中国的40多年里,可口可乐很少涨价,尤其近十几年,可口可乐
-
腾讯、阿里、抖音都参加的大会,减碳 197 吨_全球最资讯
文|周愚编辑|雪小顽苏建勋把展厅搬上云端,布置环保会场,一场公益峰会也是一次低碳实践。5月20日,2023中
精彩推荐
阅读排行
精彩推送
- 万达辟谣:网传万达大规模裁员消...
- 散文‖夏始未央
- 传核心团队解散,格力手机走到梦...
- 阿里组织变革中的人事浮沉,半年...
- 山姆猛开店,疯狂关卖场的沃尔玛...
- 世界视点!安盛天平保险公司简介...
- 天天看点:60岁老人买什么保险最...
- 少儿一生幸福保险97版是什么?好...
- 富德生命人寿保险公司简介是什么...
- 保险公司能不能倒闭?倒闭了保险...
- 阿里虚拟对话专利可实现共情对话...
- 腾讯专利可发送有声表情消息
- 蔚来旗下第三品牌萤火虫申请商标...
- 每日热文:石头智能洗地机 A10...
- 天天热头条丨格力手机核心团队已...
- 通讯!亏麻了!38 亿买入,如今...
- 每日热闻!疫情形势会变化吗 二...
- 全球热资讯!平安百万医疗赔付比...
- 全球富豪涌入迪拜买房,房价三年...
- 百万医疗险交费表在哪看?有哪些...
- 天天即时看!工银安盛人寿保险可...
- 百万医疗保险的弊端有哪些?好处...
- 百万医疗有保单吗?在哪里查看?
- 普源精电(688337)5月19日主力...
- 视点!对话唐亮:用科技温度唤醒...
- 苹果公布首份 App Store 透明...
- 抖音电商再进化:但比 GMV 增...
- 格力手机核心团队已解散?格力电...
- 呼和浩特市文化和旅游高质量发展...
- 乘客待在网约车上超 24 小时拒...