热门:用 GPT-4 实现可控文本图像生成,UC 伯克利 & 微软提出新框架 Control-GPT
2023-05-31 13:11:32来源:ZAKER科技
机器之心报道
(相关资料图)
编辑:小舟、梓文
扩散模型虽好,但如何保证生成的图像准确高质量?GPT-4 或许能帮上忙。
文本到图像生成领域近两年取得了很大的突破,从 GAN 到 Stable Diffusion,图像生成的速度越来越快,生成效果越来越好。然而,AI 模型生成的图像在细节上还有很多瑕疵,并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像,现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作,因此非常低效。
最近,来自加州大学伯克利分校(UC 伯克利)和微软研究院的研究者从编程的角度思考了这个问题。当前,用户能够使用大型语言模型较好地控制代码生成,这让该研究看到了编写程序来控制生成图像细节的可能,包括物体的形状、大小、位置等等。基于此,该研究提出利用大型语言模型(LLM)生成代码的功能实现可控型文本到图像生成。
论文地址:https://arxiv.org/pdf/2305.18583.pdf该研究提出了一个简单而有效的框架 Control-GPT,它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 ( c ) 所示,程序草图(programmatic sketch)是按照准确的文本说明绘制的,随后这些草图被输入 Control-GPT。Control-GPT 是 Stable Diffusion 的一种变体,它能接受额外的输入,例如参考图像、分割图等等。这些草图会充当扩散模型的参考点,使扩散模型能够更好地理解空间关系和特殊概念,而不是仅仅依赖于文本 prompt。这种方法使得 prompt 工程和草图创建过程不再需要人为干预,并提高了扩散模型的可控性。
我们来看一下 Control-GPT 方法的具体细节。方法
对图像生成来说,训练过程的一个较大挑战是缺乏包含对齐文本和图像的数据集。为了解决这个难题,该研究将现有实例分割数据集(例如 COCO 和 LVIS)中的实例掩码转换为多边形的表示形式,这与 GPT-4 生成的草图类似。
然后,该研究构建了一个包含图像、文本描述和多边形草图的三元数据集,并微调了 ControlNet。该研究发现这种方法有助于更好地理解 GPT 生成的草图,并且可以帮助模型更好地遵循文本 prompt 指令。
ControlNet 是扩散模型的一种变体,它需要额外的输入条件。该研究使用 ControlNet 作为基础图像生成模型,并通过编程草图和 grounding token 的路径对其进行扩展。
框架
如下图 2 所示,在 Control-GPT 中,首先 GPT-4 会根据文本描述生成 TikZ 代码形式的草图,并输出图像中物体的位置。然后该研究用 LATEX 编译 TikZ 代码,将草图转换为图像格式,再将编程草图、文本描述和物体位置的 grounding token 提供给经过调优的 ControlNet 模型,最终生成符合条件的图像。
使用 GPT-4 生成的草图训练 ControlNet 是必要的,因为预训练的 ControlNet 不理解生成的草图,不能将其转换为现实图像。为了 prompt GPT-4,该研究要求用户遵循如下的 prompt 样本,以让 GPT-4 请求 TikZ 代码片段的结构化输出,以及相关物体的名称和位置。然后,该研究使用 GPT-4 的输出来编译草图图像并获得 grounding token。LLM 绘制草图的准确性如何Control-GPT 的精度取决于 LLM 生成草图时的准确性和可控性。因此,该研究对 LLM 在草图生成方面的性能进行了基准测试。实验结果表明 GPT 系列模型在草图生成方面明显优于 LLaMa 等开源模型,并且 GPT-4 在遵循文本指令方面表现出惊人的高准确性(约 97%)。
该研究对 Control-GPT 和一些经典模型的生成结果进行了人工评估,结果表明当图像中包含两个不相关的罕见物体组合时,一些模型的生成效果比较差,而 Control-GPT 的生成结果相对较好,如下表 2 所示:
查询 LLMs,生成一个 TikZ 代码片段来描述给定的文本,进而检查 LLMs 的性能。如下表 1 所示,GPT-series 模型的大多数代码片段都可以编译为有效的草图,而 LLaMA 和 Alpaca 的输出要么是空的,要么不可运行。在 GPT-series 模型中,最新的 GPT-4 在 95 个查询中只有 3 次失败,这些查询成功地生成了有效草图,在遵循文本指令方面的成功率大约有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微调版本,其性能明显低于原始 GPT-3.5。在调优过程中,聊天能力和代码生成之间可能存在着权衡。在下图 4 中,研究者提供了一个来自 GPT 系列模型的可视化草图例子。虽然生成的草图不如照片那样逼真,但它们往往能捕捉到语义,并正确推理出物体的空间关系。生成的草图经常出人意料地通过简单的代码片断来正确处理物体形状。下图最后一行展示了 GPT-4 的一个失败案例,即模型无法生成物体形状,而 GPT-3.5 却能给出一个正确的草图。GPT-4 在草图生成方面的高精度带来的启发是:可以使用它来提高图像生成模型的可控性。
实验基于 Visor 数据集,研究者对 Control-GPT 进行了一系列实验设置的评估,测试其在空间关系、物体位置和大小方面的可控性。他们还将评估扩展到多个物体和分布外的 prompt。广泛的实验表明,Control-GPT 可以大大提升扩散模型的可控性。
下表 3 中列出了定量评估结果。可以看到,Control-GPT 模型可以在给定的一些规格下更好地控制物体的大小和位置。与几乎无法控制物体位置和尺寸的 Stable Diffusion 模型(SD-v1.5)相比,Control-GPT 将总体精度从 0% 提高到 14.18%。与现成的 ControlNet 相比,Control-GPT 在所有指标上也取得了更好的表现,获得了从 8.46% 到 4.18% 的整体改善。这些结果展示了本文的 LLM 集成框架在更细化和精确控制图像生成过程方面的潜力。
视觉化。下图 6 展示了定性评估结果,可以看到,ControlGPT 可以按照物体位置和尺寸的规范绘制物体。相比之下,ControlNet 也能遵循,但却很难生成正确的物体,而 Stable Diffusion 则无法遵循规范。对空间关系的消融实验。研究者还探讨了模型是否对不同类型的空间关系(如左 / 右 / 上 / 下)有偏好,作为空间关系基准分析的一部分。从下表 4 中可以看出,Control-GPT 在 Visor Score 和物体准确性方面一直比所有的基线模型工作得更好。多个物体之间的关系。研究者对 Control-GPT 生成多个物体的能力进行了进一步的评估,这些物体的空间关系由 prompt 指定。下图 7 展示了一些例子,Control-GPT 能理解不同物体之间的空间关系,并在 GPT-4 的帮助下将它们放入布局中,表现出了更好的性能。可控性与图像逼真度。通常,在生成逼真图像与遵循精确布局之间往往存在着妥协,特别是对于分布外的文字 prompt。如下图 8 所示,(a)是一个例子,生成的图像完全遵循布局,但这导致了图像中的一些伪影;而在(b)中,照片往往看起来很逼真,但没有很好地遵循草图。更多研究细节,可参考原论文。THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
-
热门:用 GPT-4 实现可控文本图像生成,UC 伯克利 & 微软提出新框架 Control-GPT
机器之心报道编辑:小舟、梓文扩散模型虽好,但如何保证生成的图像准确高质量?GPT-4或许能帮上忙。文本到
2023-05-31 -
焦点播报:OPPO K11x 今晚正式开售!1 亿超清影像 4 年持久流畅
【手机中国新闻】全新OPPOK11x将于今晚(5月31日)20点在各大平台开售。新机配备了1亿像素超清影像、67W超
2023-05-31 -
世界快讯:DSCC 预测苹果 MR 头显屏幕规格:4000PPI,亮度超 5000 尼特
近日,DSCC联合创始人兼首席执行官RossYoung预测,苹果MR头显可能会提供4000ppi的显示器,显示屏尺寸为1 41
2023-05-31 -
Niantic 推出教育类 MR 应用《Wol》:基于 AI 对话玩法_环球今亮点
近日,《PokémonGO》开发商Niantic推出了首个由8thWall平台MetaversalDeployment和AI技术打造的教育类MR应
2023-05-31
相关阅读
-
热门:用 GPT-4 实现可控文本图像生成,UC 伯克利 & 微软提出新框架 Control-GPT
机器之心报道编辑:小舟、梓文扩散模型虽好,但如何保证生成的图像准确高质量?GPT-4或许能帮上忙。文本到
-
华为 MateBook 数字系列 2023 新品笔记本保姆级选购指南|环球微资讯
——ZAKER,个性化推荐热门新闻,本地权威媒体资讯
-
英伟达太贵了? 天天头条
隔夜美股,英伟达再次发力,市值一度突破万亿美元大关,而且乘着AI的东风,其股价今年已累计上涨超过170%,
-
虚拟账户什么意思?虚拟账户与银行账户的关系
虚拟账户什么意思?虚拟账户是银行开立的模拟账户。虚拟账户一般在国内的商业保理业时是使用。虚拟账户需...
-
养老保险账户余额怎么查询?养老保险账户的钱能取出来吗?
养老保险账户余额怎么查询?1、社保窗口或者自助机终端查询我们可以带着自己的身份证件以及社保卡,然后...
-
兴城农商行54.6%股权二度流拍!曾陷1.28亿骗贷风波,前八大股东均被刑事立案
5月31日,阿里司法拍卖平台显示,辽宁兴城农村商业银行股份有限公司(下称“兴城农商行”)合计约5 46...
-
专访广州基金房鑫淼:以更高的格局看待产业投资,用发展化解矛盾与泡沫 通讯
编者按近几年,国际环境越发复杂,不确定因素日益增多,各种声音此起彼伏。时代财经联合新周刊硬核读书会,
-
618手机厂商杀疯了?荣耀CEO赵明:没有创新的产品,大家不会买单!
618,被称为上半年商家最后的冲刺,手机厂商也摩拳擦掌,欲借这个年中大促,冲一波销量。近日,赶在618年中
-
百万医疗保险都报销什么?报销需要什么材料? 动态焦点
住院费用、门诊费用、特殊疾病费用、门急诊医疗费用、住院前后的康复费用;住院费用包括住院治疗费用、手术
-
重疾险和百万医疗险有必要都买吗?可以同时报销吗?_全球速递
有必要,因为重疾险和百万医疗险之间有很大的区别。百万医疗险只能在我们接受治疗后报销部分治疗费用,并避
-
天天看点:百万医疗免赔额是多少?一万是累计的吗?
许多百万医疗险的免赔额都是1万,但也有一些产品出于吸引客户的目的而设置更低的免赔额,如5000元或者是0元
-
百万医疗护工费报销吗?怎么报销?-环球热消息
住院期间的护理费用是可以报销的。护理费用指的是由护士提供的照顾您的费用,根据病人的病情严重程度及自理
-
百万医疗险能报销几次?怎么报销? 热点聚焦
可以多次报销,没有次数限制。百万医疗险在保险期间内通常不会对报销次数进行限制,而是规定报销的金额上限
-
理想CEO李想评FF91:首批新势力中最前沿、最大胆的车型 没有之一
凤凰网科技讯5月31日消息,法拉第未来(Faradayfuture)今日召开发布会,法拉第未来创始人贾跃亭在会上宣布
-
世界微资讯!从产品出口到技术输出,吉利迈进“全链”出海新阶段
从产品出口到技术输出,吉利迈进“全链”出海新阶段通过品牌、产品、供应链、工厂、销售链等全球化布局...
-
焦点精选!日野与三菱扶桑计划合并 或在2024年底前完成
日野与三菱扶桑计划合并或在2024年底前完成5月30日,丰田汽车和戴姆勒卡车控股发布联合声明称,计划将丰田
-
哪吒汽车第30万台量产车下线
哪吒汽车第30万台量产车下线5月末,哪吒汽车好消息不断。继日前其位于上海市普陀区的全球总部正式启用后,5
-
该配合你演出的我尽情配合 该配合你演出的我_最资讯
今天来聊聊关于该配合你演出的我尽情配合,该配合你演出的我的文章,现在就为大家来简单介绍下该配合你演出
-
挡风玻璃裂痕修复 ,千万别去4S店花冤枉钱
在车辆使用时,玻璃发生破损的情况屡见不鲜。当玻璃受到外伤破裂时,有些车主为了贪图省事,凑合用了。但是
-
2023携程文旅产业联盟南海大会成功举办
本次大会上,南海区共推出了83项文旅产业招商项目(载体),包括粤港澳电竞产业中心、叠滘圩、诗意海寿、有
-
焦点播报:OPPO K11x 今晚正式开售!1 亿超清影像 4 年持久流畅
【手机中国新闻】全新OPPOK11x将于今晚(5月31日)20点在各大平台开售。新机配备了1亿像素超清影像、67W超
-
世界快讯:DSCC 预测苹果 MR 头显屏幕规格:4000PPI,亮度超 5000 尼特
近日,DSCC联合创始人兼首席执行官RossYoung预测,苹果MR头显可能会提供4000ppi的显示器,显示屏尺寸为1 41
-
Niantic 推出教育类 MR 应用《Wol》:基于 AI 对话玩法_环球今亮点
近日,《PokémonGO》开发商Niantic推出了首个由8thWall平台MetaversalDeployment和AI技术打造的教育类MR应
-
斯莫格 618,马上到! 当前快播
-热点:大疆Inspire3尼康Z8松下S5M2X富士X-S20-相机镜头:松下索尼富士佳能尼康适马永诺-镜头:盘点松下14-
-
当前看点!华硕推出 ROG Swift OLED PG49WCD 游戏显示器:双 2K 屏,配备智能 KVM 功能
之前ROG产品线里,已经出现了多款OLED游戏显示器,包括ROGSwiftOLEDPG27AQDM、ROGSwiftOLEDPG42UQ和ROGSwif
-
快消息!漯河银保监分局多项举措保障夏粮抢收工作
漯河银保监分局积极采取措施,督促辖内农业保险承办机构优化保险服务,有针对性开展风险管控与风险减量工作
-
【世界独家】时尚行业如何向“可持续”性转型?
5月27日,“时尚·可持续”青年设计师沙龙暨2023中意青年未来时尚设计大赛北京媒
-
阿里裁员,满城风雨:一天吃两顿散伙饭,网约车司机也提前三小时下班|环球微动态
图源:pixabay“广阔天地,大有可为。”在杭州阿里园区1号门口,一位在职员工如此安慰身旁“提前毕业”...
-
马斯克访华点燃新能源板块新期待 基金经理再次自购100万树信心
新能源板块再迎好消息。不少专业人士也呼吁投资者从长期投资视角出发,关注新能源板块底部布局机遇。华夏新
-
实习生意外险是什么?如何投保?
实习生意外险是指专门为实习生提供的一款保险产品,它主要针对实习生在工作期间因意外事故导致身体伤害或财
精彩推荐
阅读排行
精彩推送
- 1个月倒计时 Kindle中国电子书...
- 重疾和百万医疗先买哪个?在哪里...
- 贾跃亭9年造车梦圆 FF91量产车...
- 正颌手术百万医疗能报销吗?报销...
- 遭同行高管炮轰“以次充好”,极...
- FF 91 2.0开启第一阶段交付 今日热门
- 长城汽车将在泰国新设电池包工厂...
- 典当行抵押贷款上征信吗?典当行...
- 原子能电池最多一次可以工作多长...
- psp电池能用多长时间?psp电池充...
- 便携式设备有哪些?便携式设备的...
- 当前视点!明智医疗全资子公司与...
- 速讯:星昊医药北京证券交易所IP...
- 凌科药业完成2亿人民币C1轮融资...
- 雷达 RD6 试驾:确认!不是皮...
- 全球消息!刘慈欣:科幻作家未来...
- 30.9 万美元,FF 91 2.0Futurist 售价公布
- 环球时讯:亚马逊提示 Kindle ...
- 鸿海正在与英伟达合作进行自动驾...
- 当前视讯!欲复刻欧元 巴西总统...
- 世界热资讯!“股神”本月再出手...
- 什么是铠装电缆?铠装电缆和普通...
- 来电显示555是什么号码?来电显...
- 环球速递!拔上牙和拔下牙的区别...
- cf非法模块怎么回事?cf非法模块...
- 超声波液位计和雷达液位计有什么...
- 什么是高频逆变电源?高频逆变电...
- 导电滑环怎么接线?导电滑环寿命...
- 拆机镜头什么意思?拆机镜头和原...
- 英文输入法不见了怎么恢复?英文...