3 天近一万 Star,无差体验 GPT-4 识图能力,MiniGPT-4 看图聊天、还能草图建网站|全球动态
2023-04-21 08:28:21来源:ZAKER科技
机器之心报道
(资料图片仅供参考)
机器之心编辑部
GPT-4 已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学的研究者推出了类似产品 —— MiniGPT-4,大家可以上手体验了。
对人类来说,理解一张图的信息,不过是一件微不足道的小事,人类几乎不用思考,就能随口说出图片的含义。就像下图,手机插入的充电器多少有点不合适。人类一眼就能看出问题所在,但对 AI 来说,难度还是非常大的。
GPT-4 的出现,开始让这些问题变得简单,它能很快的指出图中问题所在:VGA 线充 iPhone。其实 GPT-4 的魅力远不及此,更炸场的是利用手绘草图直接生成网站,在草稿纸上画一个潦草的示意图,拍张照片,然后发给 GPT-4,让它按照示意图写网站代码,嗖嗖的,GPT-4 就把网页代码写出来了。
但遗憾的是,GPT-4 这一功能目前仍未向公众开放,想要上手体验也无从谈起。不过,已经有人等不及了,来自阿卜杜拉国王科技大学(KAUST)的团队上手开发了一个 GPT-4 的类似产品 —— MiniGPT-4。团队研究人员包括朱德尧、陈军、沈晓倩、李祥、Mohamed H. Elhoseiny,他们均来自 KAUST 的 Vision-CAIR 课题组。
论文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf论文主页:https://minigpt-4.github.io/
代码地址:https://github.com/Vision-CAIR/MiniGPT-4
MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。
MiniGPT-4 看图说话不在话下
MiniGPT-4 效果到底如何呢?我们先从几个示例来说明。此外,为了更好的体验 MiniGPT-4,建议使用英文输入进行测试。
首先考察一下 MiniGPT-4 对图片的描述能力。对于左边的图,MiniGPT-4 给出的回答大致为「图片描述的是生长在冰冻湖上的一株仙人掌。仙人掌周围有巨大的冰晶,远处还有白雪皑皑的山峰……」假如你接着询问这种景象能够发生在现实世界中吗?MiniGPT-4 给出的回答是这张图像在现实世界并不常见,并给出了原因。
接着,在来看看 MiniGPT-4 图片问答能力。问:「这棵植物出现了什么问题?我该怎么办?」MiniGPT-4 不但指出了问题所在,表示带有棕色斑点的树叶可能由真菌感染引起,并给出了治疗步骤:几个示例看下来,MiniGPT-4 看图聊天的功能已经非常强大了。不仅如此,MiniGPT-4 还能从草图创建网站。例如让 MiniGPT-4 按照左边的草稿图绘制出网页,收到指令后,MiniGPT-4 给出对应的 HTML 代码,按照要求给出了相应网站:借助 MiniGPT-4,给图片写广告语也变得非常简单。要求 MiniGPT-4 给左边的杯子写广告文案。MiniGPT-4 精准的指出了杯子上有嗜睡猫图案,非常适合咖啡爱好者以及猫爱好者使用,还指出了杯子的材质等等:MiniGPT-4 还能对着一张图片生成菜谱,变身厨房小能手:解释广为流传的梗图:根据图片写诗:此外,值得一提的是,MiniGPT-4 Demo 已经开放,在线可玩,大家可以亲自体验一番(建议使用英文测试):Demo 地址:https://0810e8582bcad31944.gradio.live/
项目一经发布,便引起网友广泛关注。例如让 MiniGPT-4 解释一下图中的物体:
下面还有更多网友的测试体验:方法简介
作者认为 GPT-4 拥有先进的大型语言模型(LLM)是其具有先进的多模态生成能力的主要原因。为了研究这一现象,作者提出了 MiniGPT-4,它使用一个投影层将一个冻结的视觉编码器和一个冻结的 LLM(Vicuna)对齐。
MiniGPT-4 由一个预训练的 ViT 和 Q-Former 视觉编码器、一个单独的线性投影层和一个先进的 Vicuna 大型语言模型组成。MiniGPT-4 只需要训练线性层,用来将视觉特征与 Vicuna 对齐。
MiniGPT-4 进行了两个阶段的训练。第一个传统的预训练阶段使用大约 5 百万对齐的图像文本对,在 4 个 A100 GPU 上使用 10 小时进行训练。第一阶段后,Vicuna 能够理解图像。但是 Vicuna 文字生成能力受到了很大的影响。为了解决这个问题并提高可用性,研究者提出了一种新颖的方式,通过模型本身和 ChatGPT 一起创建高质量的图像文本对。基于此,该研究创建了一个小而高质量的数据集(总共 3500 对)。
第二个微调阶段使用对话模板在此数据集上进行训练,以显著提高其生成可靠性和整体可用性。这个阶段具有高效的计算能力,只需要一张 A100GPU 大约 7 分钟即可完成。
其他相关工作:
VisualGPT: https://github.com/Vision-CAIR/VisualGPT
ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner
此外,项目中还使用了开源代码库包括 BLIP2、Lavis 和 Vicuna。
THE END
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
-
3 天近一万 Star,无差体验 GPT-4 识图能力,MiniGPT-4 看图聊天、还能草图建网站|全球动态
机器之心报道机器之心编辑部GPT-4已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学
2023-04-21 -
热点!清洁工花三个月工资给孩子买 iPhone 14 Pro 店家:现在孩子怎么了
月薪三千,你会给家人买接近万元的iPhone14Pro吗?据无限金华报道,4月20日,上海一家手机专卖店里,来了一
2023-04-21 -
环球速读:Moderna 与 IBM 合作将人工智能、量子计算于应用于 mRNA 疫苗研发中
品玩4月21日讯,据新浪财经报道,Moderna和IBM两家公司周四宣布,正在合作使用人工智能和量子计算来推进mRN
2023-04-21 -
SpaceX “星舰”发射任务失败 星舰未能与重型助推器分离|全球视讯
品玩4月20日讯,SpaceX的星舰于美国中部时间4月20日8:33左右成功点火发射升空。但随后SpaceX宣布,星舰和推
2023-04-20 -
大小两款折叠屏 + 平板,vivo 发布多款新品_新要闻
vivoXFlip钛媒体App4月20日消息,vivo推出了新一代大折叠vivoXFold2和首款小折叠vivoXFlip以及旗舰平板电脑
2023-04-20
相关阅读
-
3 天近一万 Star,无差体验 GPT-4 识图能力,MiniGPT-4 看图聊天、还能草图建网站|全球动态
机器之心报道机器之心编辑部GPT-4已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学
-
热点!清洁工花三个月工资给孩子买 iPhone 14 Pro 店家:现在孩子怎么了
月薪三千,你会给家人买接近万元的iPhone14Pro吗?据无限金华报道,4月20日,上海一家手机专卖店里,来了一
-
环球速读:Moderna 与 IBM 合作将人工智能、量子计算于应用于 mRNA 疫苗研发中
品玩4月21日讯,据新浪财经报道,Moderna和IBM两家公司周四宣布,正在合作使用人工智能和量子计算来推进mRN
-
澳门赛女单16强出炉!国乒五席日本三人,王艺迪有望再战伊藤美诚|天天通讯
澳门赛女单16强出炉!国乒五席日本三人,王艺迪有望再战伊藤美诚,国乒,王艺迪,单晓娜,孙颖莎,奥运会,澳门赛
-
焦点要闻:报告关注中国数字经济发展进入新阶段 建言数字经济企业高质量发展
中新网北京4月20日电(刘一 张素)近日发布的一份报告认为,从“东数西算”“数据二十条”等一系列工程和...
-
专精特新“小巨人”百强榜:企业平均发明专利181个,3年净利复合增长率超60%!-每日热文
来源|时代商学院作者|陈佳鑫编辑|孙一鸣专精特新“小巨人”企业通常在细分行业内市场份额领先,且研发投...
-
特斯拉利润下滑股价暴跌近10% 市值蒸发3800亿
马斯克说还可能降价。凤凰网科技讯北京时间4月21日消息,在发布了净利润下滑逾20%的第一季度财报后,特斯拉
-
世界滚动:2023年上海车展:理想汽车宣布进军纯电市场,发布纯电解决方案
2023年上海车展:理想汽车宣布进军纯电市场,发布纯电解决方案众所周知理想汽车从成立以来,一直坚持增程式
-
古普塔:以软件驱动,2030年日产电驱化车型占比80%-环球报道
古普塔:以软件驱动,2030年日产电驱化车型占比80%“到2026年,日产汽车会在中国市场推出7款电驱化车型;到20
-
丰田将在巴西投资3.38亿美元,生产新型混合动力汽车
丰田将在巴西投资3 38亿美元,生产新型混合动力汽车盖世汽车讯据外媒报道,日本汽车制造商丰田汽车公司在4
-
一图解码:金盛海洋沪市主板IPO 深耕海洋化工领域 业绩呈波动_世界今头条
近日,金盛海洋披露了招股书,计划在上交所主板挂牌上市;东兴证券为主承销商。金盛海洋是一家综合利用海水
-
环球热推荐:特斯拉大跌近 10%,市值一夜蒸发 3835 亿元!
美东时间4月20日,特斯拉(TSLA)报162 99美元,大跌9 75%,最新市值5165 7亿美元。其市值一夜蒸发558亿美
-
天天速读:网传“深圳取消二手房参考价”?部分中介 APP 目前仅显示房源挂牌价
4月20日下午,有关深圳将取消二手房指导价的消息在网上流传。为此,《每日经济新闻》记者联系了深圳多家银
-
会议通知| 2023长沙国际工程机械展览会(CICEE)土木工程绿色低碳高质量发展论坛
点击蓝字关注我们上海市土木工程学会END往期回顾资质获奖盛会新刊视界关注我们点击图片,识别二维码微信公
-
拥有三款折叠屏的我,如何看待 vivo X Fold2 “生产力”? 看点
这几天专家又冒出来了一个神言论:专家称折叠屏可能取代电脑,这个话题在微博上讨论得火热。一派胡言图源:
-
重点聚焦!元旦吃什么传统东西_元旦吃什么传统食物
欢迎观看本篇文章,小柴来为大家解答以上问题。元旦吃什么传统东西,元旦吃什么传统食物很多人还不知道,现
-
打印机拒绝访问无法打印怎么处理_打印机拒绝访问 全球视点
1、问题分析解决: 解决方法参考一: 以下内容来自微软官方参考资料(电脑软硬件应用网稍作修改整理
-
全球动态:最新!教育部公布21种本科新增专业
教育部日前公布2022年度普通高等学校本科专业备案和审批结果,并发布最新《普通高等学校本科专业目录》。
-
当前头条:vivo推出新一代折叠屏手机vivo X Fold2和首款小折叠vivo X Flip
证券时报e公司讯,4月20日,vivo推出了新一代大折叠手机vivoXFold2和首款小折叠vivoXFlip。其中,vivoXFold
-
纹理烫早上起来怎么打理 纹理烫一觉醒来_环球即时
1、先洗头发,或者用半干的毛巾擦湿头发。2、将头发完全吹干后,再吹蓬松,单手拿吹风机,另一只手插头发中
-
环球实时:lol没有声音怎么办_有什么方法解决
欢迎观看本篇文章,小升来为大家解答以上问题。lol没有声音怎么办,有什么方法解决很多人还不知道,现在让
-
环球资讯:IBMG聚焦丨谈谈超市品类管理与定价策略,如何科学合理地赚钱?
超市经营商品的定价策略至关重要,一方面有价格形象建设的需要,另一方面又会普遍遇到价格竞争问题。品类管
-
马寨镇王庄社区:组织开展防汛应急演习
汛期将至,为进一步提高王庄村防汛应急救援能力,增强广大干部群众的防汛抗灾意识,提高救灾能力,确保辖区
-
“双智天花板” 问界M5智驾版震撼登场,全新HUAWEI ADS 2. 世界观点
4月17日,AITO问界M5(参数|询价)系列华为高阶智能驾驶版(AITO问界M5智驾版)正式上市。华为常务董事、终端
-
Apple Card国内怎么申请
最近有关AppleCard引起不少小伙伴的关注,尤其是有在使用苹果产品的用户也在关心AppleCard最新的政策变化。
-
焦点精选!联想控股(03396.HK):4月20日南向资金减持4.76万股
4月20日北向资金减持4 76万股联想控股(03396 HK)。近5个交易日中,获南向资金减持的有4天,累计净减持70
-
每日观察!美国加息对大宗商品是利好还是利空?
美国加息对大宗商品是利好还是利空,没有一个绝对的答案,加息对大宗商品市场的影响比较复杂,不同的商品可
-
河北工业职业学院是公办还是民办_河北工业职业学院
1、看你学什么专业了,后者在河北省专科类院校排第二,工科类专业不错。2、不过有些文科专业也不如政法,。
-
华为P60 Pro成专业“夜视望远镜”,长焦微距轻松实现全天候清晰拍摄 焦点热议
如何将手机影像玩出精彩花样?4月20日,华为官方发布《探索微小生命,见证万物生长》长焦微距延时视频,用
-
如何定义负责任的消费金融机构?
如何定义负责任的消费金融机构?,贷款,信贷,消费金融机构
精彩推荐
阅读排行
精彩推送
- 什么?!南通男人更容易被骗?
- “浑水罩鱼”哪家强?这场比赛让...
- 快资讯:樊振东国乒搭档官宣喜讯...
- 你满意吗?英记:本赛季至今英超...
- 自贡泸州和重庆争火锅起源地 四...
- 全球快播:车展E快评 | 补足驾...
- 4·21南京见,密码“1911”|全球聚看点
- 网上群众工作新路径如何走?这个...
- 全媒传播新探索 这场发布会值得...
- SpaceX “星舰”发射任务失败 ...
- 大小两款折叠屏 + 平板,vivo...
- 中年男人的幸福居家三件套:电视...
- 热点在线丨算力资源统一调度!上...
- 引发自动扶梯事故的原因有哪些?...
- 【热闻】《灌篮高手》上映首日票...
- 南京前首富栽了!造假120亿,罚...
- 燕京啤酒一季度净利增70倍,净利...
- 天天新消息丨剑指特斯拉Model 3...
- 又一个新势力品牌发布!瞄准年轻...
- 香飘飘冲泡板块一季度增长近四成...
- 报道:焦点访谈:“老广交”新成色
- vivo X Fold 2 折叠屏手机正...
- 世界实时:vivo X Flip 折叠...
- 勇敢的选择 动态体验哪吒双门 GT 跑车
- 当前滚动:国宝画重点丨来看看这...
- 全球聚焦:4月86款国产网络游戏...
- 环球关注:华为宣布成功实现Meta...
- 马斯克:星舰约在37分钟后发射
- 江波龙:正在有序导入DDR5的RDIM...
- 速读:美国太空探索技术公司(Sp...