280 万条多模态指令 - 响应对,八种语言通用,首个涵盖视频内容的指令数据集 MIMIC-IT 来了
2023-06-11 13:16:53来源:ZAKER科技
机器之心报道
编辑:蛋酱
(相关资料图)
在包含 280 万条多模态上下文指令 - 相应对的数据集上训练之后,Otter 展现出了优秀的问答能力,并在 ChatGPT 及人类的两项评估中获得了很高的评价。
近段时间来,AI 对话助手在语言任务上取得了不小的进展。这种显著的进步不只是基于 LLM 强大的泛化能力,还应该归功于指令调优。这涉及到在一系列通过多样化和高质量指令的任务上对 LLM 进行微调。
借助指令调优获得零样本性能的一个潜在原因是,它内化了上下文。这很重要,特别是当用户输入跳过常识性的上下文时。通过纳入指令调优,LLM 获得了对用户意图的高度理解,即使在以前未见过的任务中也能表现出更好的零样本能力。
然而,一个理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得一个多样化和高质量的多模式指令跟随数据集。比如,LLaVAInstruct-150K 数据集(也被称为 LLaVA)就是一个常用的视觉 - 语言指令跟随数据集,它是使用 COCO 图像、指令和从 GPT-4 中获得的基于图像说明和目标边界框的响应构建的。但 LLaVA-Instruct-150K 具有三个局限性:有限的视觉多样性;使用图片作为单一视觉数据;上下文信息仅包含语言形态。
为了推动 AI 对话助手突破这些限制,来自新加坡南洋理工大学、微软雷蒙德研究院的学者们提出了多模态上下文指令调优数据集 MIMIC-IT,这是一个包含 280 万条多模态上下文指令 - 相应对的数据集,涵盖各种现实生活场景。
论文地址:https://arxiv.org/pdf/2306.05425.pdf此外,为了高效地生成指令 - 响应对,研究者还介绍了「Sythus」,这是一个受 self-instruct 方法启发的指令 - 响应注释的自动化 pipeline。Sythus 采用系统信息、视觉注释和上下文中的例子来指导语言模型(GPT-4 或 ChatGPT)根据视觉语境生成指令 - 响应对,针对视觉语言模型的三个基本能力:感知、推理和规划。此外,英文的指令和响应被译成七种语言,以支持多种语言的使用。
特别值得注意的是,研究者在 MIMIC-IT 上训练了基于 OpenFlamingo 的多模态模型「Otter」。通过 ChatGPT、人类两个方面的评估,Otter 的多模态能力超越了近期的其他视觉 - 语言模型。
在一系列 Demo 中,研究者展示了 Otter 的多模态问答能力:
Q:接下来出哪张牌?
A:八筒。这样你就能留着四条和五条,等着凑成顺子。
Q:我想着陆了,怎么操作?A:按一次左下按钮,左转,要着陆时拉右边的手刹。
Q:接下来怎么办?A:把球传到中路,跑到球门,寻找进球机会。
接下来,让我们看看研究细节。MIMIC-IT 数据集
MIMIC-IT 数据集包括 280 万个多模态指令 - 响应对,涵盖了基本能力:感知、推理和计划。每个指令都伴随着多模态的对话背景,使在 MIMIC-IT 上训练的 VLM 能够在交互式指令中表现出很好的熟练度,并能进行零样本的概括。
相比于 LLaVA,MIMIC-IT 的特点包括:( 1 ) 多样化的视觉场景,包含了一般场景、自我中心视角场景和室内 RGB-D 图像等不同数据集的图像和视频;
( 2 ) 多个图像(或一个视频)作为视觉数据;
( 3 ) 多模态的上下文信息,包括多个指令 - 响应对和多个图像或视频;
( 4 ) 支持八种语言,包括英文、中文、西班牙文、日语、法语、德语、韩语和阿拉伯语。
下图进一步展示了二者的指令 - 响应对对比(黄色方框为 LLaVA):
如表 1 所示,MIMIC-IT 的数据源来自七个数据集:COCO、Spot-the-diff ( SD ) 、ScanNetV2 ( SN ) 、VisualStorytelling ( VIST ) 、DenseCaption/Activity caption(DC)、TVCaption(TVC)和 Ego4D(E4D)。「上下文」这一列的「lang.」表示语言,「vis.」表示视觉。Sythus:自动化指令 - 响应对生成 pipeline同时,研究者提出了 Sythus(图 3),这是一个自动化 pipeline,用于生成多种语言的高质量指令 - 响应对。在 LLaVA 提出的框架基础上,研究者利用 ChatGPT 来生成基于视觉内容的指令 - 响应对。为了确保生成的指令 - 响应对的质量,该 pipeline 将系统信息、视觉注释和上下文中的样本作为 ChatGPT 的 prompt。系统信息定义了所生成的指令 - 响应对的预期语气和风格,而视觉注释则提供了基本的图像信息,如边界框和图像描述。上下文中的样本帮助 ChatGPT 在语境中学习。
由于核心集的质量会影响后续的数据收集过程,研究者采用了一个冷启动策略,在大规模查询之前加强上下文中的样本。在冷启动阶段,采用启发式方法,仅通过系统信息和视觉注释来 prompt ChatGPT 收集上下文中的样本。这个阶段只有在确定了令人满意的上下文中的样本后才结束。在第四步,一旦获得指令 - 响应对,pipeline 会将它们扩展为中文(zh)、日文(ja)、西班牙文(es)、德文(de)、法文(fr)、韩文(ko)和阿拉伯语(ar)。进一步的细节,可参考附录 C,具体的任务 prompt 可以在附录 D 中找到。
经验性评估随后,研究者展示了 MIMIC-IT 数据集的各种应用以及在其上训练的视觉语言模型 ( VLM ) 的潜在能力。首先,研究者介绍了使用 MIMIC-IT 数据集开发的上下文指令调优模型 Otter。而后,研究者探索了在 MIMIC-IT 数据集上训练 Otter 的各种方法,并讨论了可以有效使用 Otter 的众多场景。
图 5 是 Otter 在不同场景下的响应实例。由于在 MIMIC-IT 数据集上进行了训练,Otter 能够为情境理解和推理、上下文样本学习、自我中心的视觉助手服务。
最后,研究者在一系列基准测试中对 Otter 与其他 VLM 的性能进行了比较分析。ChatGPT 评估
下表 2 展示了研究者利用 MMAGIBench 框架 [ 43 ] 对视觉语言模型的感知和推理能力进行广泛的评估。
人类评估Multi-Modality Arena [ 32 ] 使用 Elo 评级系统来评估 VLM 响应的有用性和一致性。图 6 ( b ) 显示 Otter 展示了卓越的实用性和一致性,在最近的 VLM 中获得了最高的 Elo 评级。
少样本上下文学习基准评估
Otter 基于 OpenFlamingo 进行微调,OpenFlamingo 是一种专为多模态上下文学习而设计的架构。使用 MIMIC-IT 数据集进行微调后,Otter 在 COCO 字幕 ( CIDEr ) [ 27 ] 少样本评估(见图 6 ( c ) )上的表现明显优于 OpenFlamingo。正如预期的那样,微调还带来了零样本评估的边际性能增益。
图 6:ChatGPT 视频理解的评估。讨论
缺陷。虽然研究者已经迭代改进了系统消息和指令 - 响应示例,但 ChatGPT 容易出现语言幻觉,因此它可能会生成错误的响应。通常,更可靠的语言模型需要 self-instruct 数据生成。
未来工作。未来,研究者计划支持更多具体地 AI 数据集,例如 LanguageTable 和 SayCan。研究者也考虑使用更值得信赖的语言模型或生成技术来改进指令集。
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
相关阅读
-
280 万条多模态指令 - 响应对,八种语言通用,首个涵盖视频内容的指令数据集 MIMIC-IT 来了
机器之心报道编辑:蛋酱在包含280万条多模态上下文指令-相应对的数据集
-
iPhone 两秒出图,目前已知的最快移动端 Stable Diffusion 模型来了
机器之心专栏机器之心编辑部StableDiffusion(SD)是当前最热门的文本
-
太平隽泰年金保险讲解?保险好处有哪些?
太平隽泰年金保险是由太平保险公司推出的一种养老保险产品,主要针对中
-
全球速讯:盛世御享年金保险2018可靠吗?优点是什么?
可靠。盛世御享年金保险2018由国内知名的保险公司提供,受到监管机构的
-
幸福喜乐3.0版年金保险好处是什么?保障哪些方面? 全球快消息
具有宽广的投保年龄范围:幸福喜乐3 0版年金保险的适用范围涵盖出生满3
-
实时:人保年金险有哪些保险产品?怎么投保?
中国人保的美满金生是一款短期年金险,定位明确。消费者可以选择搭配万
-
世界焦点!年金保险多少年回本?好处有哪些?
看实际的情况决定。通常情况下,是交完保费的第三到五年回本。这里说的
-
即时看!帮助作文500字左右_帮助作文
1、学会帮助别人当丛飞从容地捐出所有财产资助贫困学生的一刻,泪水再
-
厌恶风险的年轻人,选择跨城存钱赚利息
6月3日,本该是个该睡懒觉的周六,海小姐却在清晨五点就被闹铃吵醒,因
-
共享游戏主机,占领商场却困在“围城”
不算场地租金、电费这些,光加盟费和买设备就快10万元了,分摊下来每台
-
被年轻人喜爱的“剩菜盲盒”,能走得更远吗? 焦点观察
最近很多年轻人,开始流行起了吃剩菜。这里的剩菜,并非客人吃剩的残羹
-
今日热闻!3000 元冲性能旗舰机,iQOO Neo8 Pro 配么?
对于手机厂商来说,今年可以称作第一代骁龙8+元年。第一代8+虽然已经是
-
东方集团:高杠杆收购“输血”大股东-看点
东方集团倾囊收购大股东资产,进一步绷紧了本就脆弱的资金链。薛宇 文
-
国寿福临门年金保险可靠吗?好处有哪些?
可靠。国寿福临门年金保险的承保公司是中国人寿保险公司,作为我国最大
-
国寿稳态团体年金保险怎么样?保障些什么?
很不错。国寿稳态团体年金保险是一种以团体为单位,为团体成员提供养老
-
育英年金保险条款是什么?优势是什么?_世界观点
身故保障:被保险人因意外或一年后因病身故,可以领取基本保险金额身故
-
每日观点:职业年金补充养老保险可靠吗?好处有哪些?
可靠。职业年金补充养老保险是指事业机关单位为员工提供的一种补充养老
-
保险公司年金理财骗局是什么?有什么好处? 今日观点
其实是信息的误差。保险公司年金理财骗局的本质是保险公司通过虚假宣传
-
2023年全国射击锦标赛(步手枪项目)落幕 环球时快讯
国际射联近期再度对巴黎奥运会射击项目规则进行调整,这意味着运动员们
-
米哈游去年赚了 161 亿!网友:够再开发十个《原神》了|聚焦
米哈游到底赚了多少钱?这个一度引来各方猜测的问题随着《光明日报》的
-
苹果 Vision Pro 头显国内要改名?华为 4 年前已注册商标-天天播报
IT之家6月11日消息,苹果公司在本周的WWDC23开发者大会上正式推出了其
-
世界资讯:卢伟冰透露小米 618 最受欢迎产品 “真的是卖爆了”
【手机中国新闻】今年的618正在火热进行中,各大手机厂商也是使出了浑
-
产业链人士:华为上调 2023 年手机出货量目标至 4000 万部
钛媒体App6月11日消息,从产业链人士处获悉,华为近期已上调2023年手机
-
评测惠普 4.5mm 电源转接器:支持 80W+ 输出,DC 适配器再次发挥_报道
前言随着PD快充的普及,越来越多的设备搭载了Type-C接口,原本一些专用
-
凝心聚力迎战2023:品佳品食品“铁血军魂”训练营 滚动
5月26-28日,品佳品(深圳)实业发展有限公司“铁血军魂”训练营,在广州
-
季后赛生涯得分新高!戈登15中11砍27分6板6助2断&正负值高达+29 快播报
NBA总决赛,掘金108-95力克热火,大比分3-1领先。本场比赛,阿隆-戈登
-
programer_program-焦点消息
1、report释义:2、n 报告;报道;成绩单3、vt 报告;报导;使报到4、
-
中韩乐享财富年金保险可靠吗?值得买吗? 环球短讯
可靠。对于投资者来说,选择一个可靠的年金保险产品至关重要。根据市场
-
微资讯!富德生命人寿保险年金保险可靠吗?好处有哪些?
可靠。富德生命人寿保险是一家经过国家保险监管部门批准的保险公司,具
-
我为什么不买年金保险?买年金保险要注意什么? 独家
费用高昂:在购买年金保险时,需要缴纳一定的保费,其费用较为昂贵。对
精彩推荐
阅读排行
精彩推送
- 每日观察!国寿鑫盈年金保险靠谱...
- 福临门年金保险少儿版可靠吗?保...
- 今热点:“新包头 新青年”作品...
- 抗议公司打压第三方应用,Reddit...
- 多名女主播穿“牵手门”同款碎花...
- 世界观点:马斯克重申:特斯拉市...
- 环球热推荐:米哈游去年赚了 16...
- 微软 2023 年工作趋势指数揭示...
- 被年轻人喜爱的“剩菜盲盒”,能...
- 我,“绝版”毕业生,专业读着读...
- 厌恶风险的年轻人,选择跨城存钱...
- “从不晚点”的山航,要退市了-焦点
- 百万 UP 主人设崩塌背后:精致...
- 得不到就毁掉!租客拿到6万补偿...
- 房企补仓、 集中土拍带热5月...
- 焦点速讯:“带押过户”常态化重...
- 【共同缔造安全江夏⑫】做好安全...
- 儿童教育年金保险是什么?值得购...
- 世界热推荐:理财险和年金险的区...
- 环球热点评!年金保险需要交税吗...
- 金生永泰年金保险可靠吗?特点有...
- 【热闻】福多寿年金保险可靠吗?...
- 蔚来李斌:下半年有望实现平均月...
- 市档案馆开展国际档案日系列活动...
- 春坤山旅游直通车开通|世界快播报
- 包马抢“鲜”跑
- 保护传承历史文化赋能城市高质量...
- 土右旗:打造“家庭会客厅”大学...
- 青山山外青山楼外楼下一句_山外...
- 重磅:最新中国 5G 主设备市场...