让 GAN 再次伟大!拽一拽关键点就能让狮子张嘴 & 大象转身,汤晓鸥弟子的 DragGAN 爆火,网友:R.I.P. Photoshop
2023-05-21 15:05:33来源:ZAKER科技
这两天,一段 AI 修图视频在国内外社交媒体上传疯了。
不仅直接蹿升 B 站关键词联想搜索第一,视频播放上百万,微博推特也是火得一塌糊涂,转发者纷纷直呼 "PS 已死 "。
怎么回事?原来,现在 P 图真的只需要 " 轻轻点两下 ",AI 就能彻底理解你的想法!
【资料图】
小到竖起狗子的耳朵:
大到让整只狗子蹲下来,甚至让马岔开腿 " 跑跑步 ",都只需要设置一个起始点和结束点,外加拽一拽就能搞定:不止是动物的调整,连像汽车这样的 " 非生物 ",也能一键拉升底座,甚至升级成 " 加长豪华车 ":这还只是 AI 修图的 " 基操 "。要是想对图像实现更精准的控制,只需画个圈给指定区域 " 涂白 ",就能让狗子转个头看向你:
或是让照片中的小姐姐 " 眨眨眼 ":甚至是让狮子张大嘴,连牙齿都不需要作为素材放入,AI 自动就能给它 " 安上 ":如此 " 有手就能做 " 的修图神器,来自一个 MIT、谷歌、马普所等机构联手打造的DragGAN新模型,论文已入选 SIGGRAPH 2023。没错,在扩散模型独领风骚的时代,竟然还能有人把GAN玩出新花样!目前这个项目在 GitHub 上已经有5k+ Star,热度还在不断上涨中(尽管一行代码还没发)。所以,DragGAN 模型究竟长啥样?它又如何实现上述 " 神一般的操作 "?拽一拽关键点,就能修改图像细节这个名叫 DragGAN 的模型,本质上是为各种 GAN 开发的一种交互式图像操作方法。
论文以StyleGAN2架构为基础,实现了点点鼠标、拽一拽关键点就能 P 图的效果。
具体而言,给定 StyleGAN2 生成的一张图像,用户只需要设置几个控制点(红点)和目标点(蓝点),以及圈出将要移动的区域(比如狗转头,就圈狗头)。
然后模型就将迭代执行运动监督和点跟踪这两个步骤,其中运动监督会驱动红色的控制点向蓝色的目标点移动,点跟踪则用于更新控制点来跟踪图像中的被修改对象。这个过程一直持续到控制点到达它们对应的目标点。
不错,运动监督和点跟踪就是我们今天要讲的重点,它是 DragGAN 模型中最主要的两个组件。先说运动监督。在此之前,业界还没有太多关于如何监督 GAN 生成图像的点运动的研究。
在这项研究中,作者提出了一种不依赖于任何额外神经网络的运动监督损失(loss)。
其关键思想是,生成器的中间特征具有很强的鉴别能力,因此一个简单的损失就足以监督运动。
所以,DragGAN 的运动监督是通过生成器特征图上的偏移补丁损失(shifted patch loss)来实现的。
如下图所示,要移动控制点 p 到目标点 t,就要监督 p 点周围的一小块 patch(红圈)向前移动的一小步(蓝圈)。
再看点跟踪。先前的运动监督会产生一个新的 latent code、一个新特征图和新图像。
由于运动监督步骤不容易提供控制点的精确新位置,因此我们的目标是更新每个手柄点 p 使其跟踪上对象上的对应点。
此前,点跟踪通常通过光流估计模型或粒子视频方法实现。
但同样,这些额外的模型可能会严重影响效率,并且在 GAN 模型中存在伪影的情况下可能使模型遭受累积误差。
因此,作者提供了一种新方法,该方法通过最近邻检索在相同的特征空间上进行点跟踪。
而这主要是因为 GAN 模型的判别特征可以很好地捕捉到密集对应关系。
基于这以上两大组件,DragGAN 就能通过精确控制像素的位置,来操纵不同类别的对象完成姿势、形状、布局等方面的变形。
作者表示,由于这些变形都是在 GAN 学习的图像流形上进行的,它遵从底层的目标结构,因此面对一些复杂的任务(比如有遮挡),DragGAN 也能产生逼真的输出。
单张 3090 几秒钟出图
所以,要实现几秒钟 " 精准控图 " 的效果,是否需要巨大的算力?
nonono。大部分情况下,每一步拖拽修图,单张 RTX 3090 GPU在数秒钟内就能搞定。
具体到生成图像的效果上,实际评估(均方误差 MSE、感知损失 LPIPS)也超越了一系列类似的 "AI 修图 " 模型,包括 RAFT 和 PIPs 等等:如果说文字的还不太直观,具体到视觉效果上就能感受到差异了:值得一提的是,DragGAN 的 " 潜力 " 还不止于此。一方面,如果增加关键点的数量,还能实现更加精细的 AI 修图效果,用在人脸这类对修图要求比较严格的照片上,也是完全没问题:
另一方面,不止开头展示的人物和动物,放在汽车、细胞、风景和天气等不同类型的图像上,DragGAN 也都能精修搞定。除了不同的照片类型,从站到坐、从直立到跑步、从跨站到并腿站立这种姿势变动较大的图像,也能通过 DragGAN 实现:也难怪网友会调侃 " 远古的 PS 段子成真 ",把大象转个身这种甲方需求也能实现了。不过,也有网友指出了 DragGAN 目前面临的一些问题。例如,由于它是基于 StyleGAN2 生成的图像进行 P 图的,而后者训练成本很高,因此距离真正商业落地可能还有一段距离。
除此之外,在论文中提到的 " 单卡几秒钟修图 " 的效果,主要还是基于256 × 256分辨率图像:至于模型是否能扩展到 256 × 256 以外图像,生成的效果又是如何,都还是未知数。有网友表示 " 至少高分辨率图像从生成时间来看,肯定还要更长 "。
实际上手的效果究竟如何,我们可以等 6 月论文代码开源后,一测见真章。团队介绍
DragGAN 的作者一共 6 位,分别来自马克斯普朗克计算机科学研究,萨尔布吕肯视觉计算、交互与 AI 研究中心,MIT,宾夕法尼亚大学和谷歌 AR/VR 部门。
其中包括两位华人:一作潘新钢,他本科毕业于清华大学(2016 年),博士毕业于香港中文大学(2021 年),师从汤晓鸥教授。
现在是马普计算机科学研究所的博士后,今年 6 月,他将进入南洋理工大学担任助理教授(正在招收博士学生)。
另一位是Liu Lingjie,香港大学博士毕业(2019 年),后在马普信息学研究所做博士后研究,现在是宾夕法尼亚大学助理教授(也在招学生),领导该校计算机图形实验室,也是通用机器人、自动化、传感与感知 ( GRASP ) 实验室成员。值得一提的是,为了展示 DragGAN 的可控性,一作还亲自上阵,演示了生发、瘦脸和露齿笑的三连 P 图效果:是时候给自己的主页照片 " 修修图 " 了(手动狗头)。论文地址:
https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf
项目地址(代码 6 月开源):
https://github.com/XingangPan/DragGAN
参考链接:
[ 1 ] https://weibo.com/1727858283/N1iKl4zVG
[ 2 ] https://twitter.com/_akhaliq/status/1659424744490377217
[ 3 ] https://twitter.com/mrgreen/status/1659482594516377601
责任编辑:hnmd003
相关阅读
-
让 GAN 再次伟大!拽一拽关键点就能让狮子张嘴 & 大象转身,汤晓鸥弟子的 DragGAN 爆火,网友:R.I.P. Photoshop
这两天,一段AI修图视频在国内外社交媒体上传疯了。不仅直接蹿升B站关键词联想搜索第一,视频播放上百万,
2023-05-21 -
哲库首席 SoC 架构师:3nm 第二代 SoC 设计完成,原本预计 2025 年发布
IT之家5月21日消息,哲库科技首席SoC架构师NhonQuach博士通过海外版领英发布信息,公布了哲库研发的手机SoC
2023-05-21 -
ChatGPT App 运行有限制引发用户不满,仅 23 款 iPhone 可用
IT之家5月20日消息,据LTNNews消息,OpenAI已经在美国AppStore率先上架适用于iPhone和iPad的ChatGPTApp。然
2023-05-21 -
苹果 WWDC 2023 部分日程公开:特别晚间活动或是史上最重磅新品
苹果WWDC2023已经官宣在6月6日至6月10日举行,由于取消了春季发布会,因此6月将是苹果今年首次亮相。目前,
2023-05-21 -
最新资讯:2999 元!雷神上架新款 MIX 迷你主机:12 代酷睿 i7+32G+1T
雷神已经推出最新款的迷你主机MIX,这款主机搭载了高性能的i7-12650H处理器、32GB大内存和1TBSSD,到手价为
2023-05-21 -
ChatGPT App 运行有限制引发用户不满,仅 23 款 iPhone 可用
IT之家5月20日消息,据LTNNews消息,OpenAI已经在美国AppStore率先上架适用于iPhone和iPad的ChatGPTApp。然
2023-05-21
相关阅读
-
让 GAN 再次伟大!拽一拽关键点就能让狮子张嘴 & 大象转身,汤晓鸥弟子的 DragGAN 爆火,网友:R.I.P. Photoshop
这两天,一段AI修图视频在国内外社交媒体上传疯了。不仅直接蹿升B站关键词联想搜索第一,视频播放上百万,
-
三大领域投资增速均放缓 下阶段走势如何 当前热门
三大领域投资增速均放缓下阶段走势如何今年以来重大项目加快开工建设、基建投资稳健增长,但受制造业投资改
-
离岸人民币年内首度破“7” 专家呼吁“平常心”看待
离岸人民币年内首度破“7”专家呼吁“平常心”看待5月17日上午,离岸人民币兑美元汇率跌破“7”,当日下...
-
银行理财存续规模回升 市场扩容有空间|环球观焦点
银行理财存续规模回升市场扩容有空间近期调研了解到,在存款利率下调的背景下,部分投资者重新开始关注理财
-
电竞生态系统概述:Apex Legends 微资讯
近日,APEX电竞引起了一波不大不小的关注。4月29日,中国两只由主播自建的APEX战队(DF、MDYW)闯入世界线下
-
哪家航司最壕:土耳其航空净赚27亿,新加坡航空发8个月工资当奖金|环球看点
在疫情期间如履薄冰的民航空业,终于迎来复苏。经历了2020年的裁员减薪、2021年的补贴维持,多家国际航司在
-
国际金价一路飙升,谁淘到了“真金”?-环球快看点
近期持续霸屏的热词,肯定是黄金。热,体现在飙涨的价格。今年以来,国际金价显著上涨,伦敦金现货价格盘中
-
全球讯息:万达电影:今年计划新建直营影院10-20家 新开业轻资产影院50-60家
万达电影股份有限公司在业绩说明会上表示,今年公司计划新建直营影院10-20家,新开业轻资产影院50-60家。
-
哲库首席 SoC 架构师:3nm 第二代 SoC 设计完成,原本预计 2025 年发布
IT之家5月21日消息,哲库科技首席SoC架构师NhonQuach博士通过海外版领英发布信息,公布了哲库研发的手机SoC
-
ChatGPT App 运行有限制引发用户不满,仅 23 款 iPhone 可用
IT之家5月20日消息,据LTNNews消息,OpenAI已经在美国AppStore率先上架适用于iPhone和iPad的ChatGPTApp。然
-
苹果 WWDC 2023 部分日程公开:特别晚间活动或是史上最重磅新品
苹果WWDC2023已经官宣在6月6日至6月10日举行,由于取消了春季发布会,因此6月将是苹果今年首次亮相。目前,
-
最新资讯:2999 元!雷神上架新款 MIX 迷你主机:12 代酷睿 i7+32G+1T
雷神已经推出最新款的迷你主机MIX,这款主机搭载了高性能的i7-12650H处理器、32GB大内存和1TBSSD,到手价为
-
ChatGPT App 运行有限制引发用户不满,仅 23 款 iPhone 可用
IT之家5月20日消息,据LTNNews消息,OpenAI已经在美国AppStore率先上架适用于iPhone和iPad的ChatGPTApp。然
-
哲库首席 SoC 架构师:第二代 SoC 设计完成,原本预计 2025 年发布
IT之家5月21日消息,哲库科技首席SoC架构师NhonQuach博士通过海外版领英发布信息,公布了哲库研发的手机SoC
-
面对交付难关,深蓝 S7 能否闯出生路?|今日讯
差不多也是去年的这个时候,长安深蓝发布了首款车型,并展示了其全新的EPA1电动平台。而日前,作为深蓝品牌
-
门店排起长龙!华为 P60 Pro 在马来西亚开启首销 全球即时看
【手机中国新闻】北京时间5月20日,华为官方宣布,华为P60Pro在马来西亚迎来首销,众多消费者开售第一时间
-
全球消息!ChatGPT App 运行有限制引发用户不满,仅 23 款 iPhone 可用
IT之家5月20日消息,据LTNNews消息,OpenAI已经在美国AppStore率先上架适用于iPhone和iPad的ChatGPTApp。然
-
第九届“曹灿杯”曹灿培训学校展示点精彩集锦第二弹|焦点播报
2023年5月13日,第九届“曹灿杯”青少年朗诵展示活动北京展示区曹灿培训学校展示点进行初级展示,共有30...
-
环球精选!保险交多少年最划算?多少年才能领退休金?
从普遍的经济学角度来看,多数人建议至少要交5年以上的保险。这是因为,保险是一种长期的投资方式,涉及到
-
重大疾病百万医疗保险是什么?怎么样?
重大疾病百万医疗保险是一种专门针对大病风险的保险产品。具体来说,它可以在被保险人确诊罹患某些特定的疾
-
大房企跌倒,区域房企吃肉:千万年薪高管再起炉灶,日化巨头转型做产业园
半年多前,明星经理人庄青峰辞去珠江投资副总裁一职,回到山东老家创业。近日,他在朋友圈官宣成立山东义得
-
百万医疗可以抵扣个税么?个税扣除标准是什么?_新要闻
对于许多人来说,除了关注百万医疗的报销范围之外,他们还更加关注百万医疗是否可以抵扣个税。根据我国税收
-
百万医疗多家投保行吗?可以多家报销吗?_每日热议
如果已经在一家保险公司进行了理赔,那么其他保险公司将不会再次进行理赔。如果被保险人在不同的时间段内出
-
百万医疗性价比高吗?靠谱吗?|每日消息
百万医疗作为一种医疗保险形式,是具有很高实用价值和重要性的。它可以为被保险人提供全面的医疗费用支持,
-
不用农药化肥 江苏戴庄蹚出生态农业新路
培育农田里的生物多样性——这正是戴庄探索生态农业的生动写照。在农技专家看来,水稻田是一个湿地生态...
-
对话哥伦比亚大学教授俞舟:人工智能公司的竞争,到最后还是产品和服务的竞争-当前短讯
机器之心报道编辑:杨德泽在对谈中,俞舟不像其他创业者那样大谈ChatGPT对于行业的巨大影响力,她更加关注
-
在消费的漫长冬季,红杉想打个能引起共鸣的响指 环球速讯
文|徐牧心编辑|刘旌火花的意义在与面前这位创始人约见后,红杉中国合伙人胡若笛定好了闹钟,只要对方的产品
-
全球快消息!AIGC 培训狂热:把“搞钱”写在招生广告里,上两天课即可就业?
中新经纬5月21日电(常涛牛朝阁)ChatGPT、AIGC、大模型与搞钱风口已到?下一个高薪行业AIGC,月薪3W+!百分
-
珀莱雅卷入虚假营销丑闻,利用原料浓度误导消费者或为行业潜规则 头条
日前,成于大单品的珀莱雅,却翻车于大单品上。这家2003年诞生于杭州的美妆品牌,最早起步于日化渠道,初期
-
不唯产值看潜质 不重优惠重“环境”——从“西洽会”看西部投资高质量发展之变
新华社重庆5月20日电 题:不唯产值看潜质 不重优惠重“环境”——从“西洽会”看西部投资高质量发展之...
精彩推荐
阅读排行
精彩推送
- paic是哪家保险公司?有哪些险种?
- 全球最新:大家财产保险公司怎么...
- 人寿保险可以退保吗?退保需要多...
- 金域医学重磅发布“产学研融合”...
- 全球速读:重大疾病保险退保可以...
- 【时快讯】中国人寿养老保险哪个...
- AI歌手如何走得更远?优质版权内...
- 女子入职1个月查出怀孕被辞退,...
- 天津港集团发布全球首台氢电混合...
- 世界首条充电公路来了:Good id...
- 对手“送礼”,曼城队提前实现英...
- 工伤保险费用由谁承担?一个月多...
- 昆仑健康保险可靠吗?如何投保?
- 给新生儿买保险哪种好?具体流程...
- 众安保险理赔快吗?需要什么资料...
- 新华保险多倍保可靠吗?怎么买?...
- 世界关注:店员称衣服掉地上摔个...
- 【焦点热闻】天津港集团发布全球...
- 佳能即将发布 R100 及 RF28mm...
- 市值蒸发万亿之后,全球仿制药巨...
- 违规!致歉!这两款车型,停售!...
- 世界今头条!华鑫证券:给予新益...
- 健康无忧c款新华保险怎么样?怎...
- cpic是什么保险公司?最好的险种...
- 【焦点热闻】人寿保险种类有哪些...
- 环球快资讯:英大泰和财产保险公...
- 小孩买的保险怎么查询?小孩保险...
- 天天最资讯丨SpaceX 顺利完成今...
- 外媒称微软成美核聚变能源首位客...
- 非激素疗法再创新,为绝经女性“...