【速看料】比 OpenAI 更快一步,最新开源的 MiniGPT-4 模型可让开发者提前感受 GPT-4 识图能力!
2023-04-19 18:11:46来源:ZAKER科技
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
迄今为止,GPT-4 凭借多模态能力已经成为 AI 领域备受关注的大模型,不过值得注意的是,OpenAI 在推出 GPT-4 时虽然引入了对图像理解的能力,但并没有在除了 Be my Eyes(针对盲人或弱视人士的应用程序和服务)应用程序之外的任何地方提供此功能。
(资料图片)
GPT-4 对图像理解能力的示例详见:
用户:这幅画有什么好笑的地方?逐一描述它的板块。
图片来源:https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/GPT-4:图片显示的是一个 "Lightning Cable " 适配器的包装,有三个板块:
板块 1:一部智能手机,VGA 连接器(通常用于电脑显示器的大型蓝色 15 针连接器)插在其充电端口。
板块 2:"Lightning Cable " 适配器的包装上有一张 VGA 接口的图片。
板块 3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。
这张图片的幽默感来自于将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。
近日,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队推出了一款名为 MiniGPT-4 的新模型,以开源的形式提供了此功能。
研究人员还透露,MiniGPT-4 具有许多类似于 GPT-4 所展示的功能,下文我们也将分享相关的实例。
可执行复杂的视觉语言任务的 MiniGPT-4
该团队发现尽管 GPT-4 表现出非凡的能力,但是其特殊能力背后的方法并不为众人所熟知。因此,他们提出「GPT-4 具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)」这一想法。
为了验证这一想法,他们便提出了 MiniGPT-4 模型。
根据研究团队发布的论文显示,为了构建 MiniGPT-4,研究人员使用了基于 LLaMA 构建的 Vicuna 作为语言解码器,并使用 BLIP-2 视觉语言模型作为视觉解码器。
其中,Vicuna 和 BLIP-2 都是开源的。这意味使用开源软件可以用较少钱进行训练和微调,并且没有海量数据和开销,这也是为什么这个模型加上了 "mini" 的前缀。
在实验中,该团队发现只对原始图像 - 文本对进行预训练会产生不自然的语言输出,包括重复和零散的句子,缺乏连贯性。为了解决这个问题,其在第二阶段策划了一个高质量、一致性好的数据集,利用对话模板对此模型进行微调,这一步被证明对提高模型的生成可靠性和整体可用性至关重要。具体来看,研究团队分两个阶段训练了 MiniGPT-4 模型。
第一阶段,研究团队首先在四张 NVIDIA A100 显卡上利用了大约 500 万个对齐的图像 - 文本对,让 MiniGPT-4 进行了十个小时的训练。在第一阶段之后,Vicuna 能够理解图像。但是 Vicuna 的生成能力受到了很大的影响。
为了解决这个问题并提高可用性,研究人员提出了一种通过模型本身和 ChatGPT 一起创建高质量图像文本对的新方法。因此,展开了第二阶段的微调训练,该模型使用 MiniGPT-4 和 ChatGPT 之间的交互生成的 3,500 个高质量文本图像对进行了改进。ChatGPT 更正了 MiniGPT-4 生成的不正确或不准确的图像描述。
这一步显著提高了模型的可靠性和可用性,MiniGPT-4 能够连贯地和用户友好地谈论图像,并且只需要在单个 NVIDIA A100 上进行七分钟的训练。让研究人员自己都感到惊讶的是,这个阶段的计算效率很高。
MiniGPT-4 架构MiniGPT-4 Vicuna 的语言模型遵循 "Alpaca 公式 ",使用 ChatGPT 的输出来微调 LLaMA 系列的 Meta 语言模型。据说 Vicuna 与 Google Bard 和 ChatGPT 相当,同样只需相对较小的训练工作量。
当前,该研究团队已经将 MiniGPT-4 的代码、预训练的模型和收集的数据集在 GitHub 上开源:https://minigpt-4.github.io/。
拥有和 GPT-4 相似的图片解析功能
正如开头所述,该研究团队推出的 MiniGPT-4 拥有和 GPT-4 相似的功能。譬如:
给它一张图,便能生成详细的图像描述:
也能讲出图片中搞笑、有趣的部分:「星期一通常被认为是一周中最令人恐惧的一天」。还能在进一步交互中发现不寻常的内容,如:虽然仙人掌有可能在寒冷的气候条件下生长,但很少看到仙人掌生长站在冰冻的湖泊中间。此外,水面上形成的大冰晶也不是常见的现象。于是,MiniGPT-4 给出了自己的见解:这张图片很可能是数字创作或操控的。
当然,和 GPT-4 演示的一样,MiniGPT-4 也能根据手绘草图生成网站:识别图像中的问题并提供解决方案:以及创造诗歌或说唱歌曲的灵感:此外,也能根据图片续写故事,给产品做广告,对图像展现的画面进行评论、检索与图片有关的事实,以及当给定一张准备好的菜肴照片时,该模型可以输出(可能)与之匹配的食谱或者生成一个适合视障人士的图像描述。开源类 GPT-4 模型层出不穷鉴于 OpenAI 没有透露太多关于 GPT-4 架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法的细节,强大的 LLM 的开源 MiniGPT-4 可能在研究方面具有重要意义。
对于 MiniGPT-4 的到来,也引发了一些 HN 网友的热议,有网友表示:
在技术层面上,这个研究团队正在做一些非常简单的事情 -- 将 BLIP2 的 ViT-L+Q-former,用一个线性层连接到 Vicuna-13B,并在一些图像 - 文本对的数据集上只训练这个小层。
但结果是相当惊人的。它完全打败了 Openflamingo 和甚至原始的 blip2 模型。最重要的是,它比 OpenAl 的 GPT-4 图像模态更早到达。(这是)开源人工智能的真正胜利。
也有媒体评价到,「MiniGPT-4 是开源社区在很短时间内取得快速成功的另一个案例。前几天,推出,使用从志愿者那里收集的指导数据进行训练,并打算最终成为一个 ChatGPT 的开源平替。这表明纯 AI 模型公司的护城河可能没有那么高。在这种趋势下,对于 OpenAI 公司而言,首先应该专注于使用 ChatGPT 插件为 GPT-4 建立一个合作伙伴生态系统,而不是现在就训练 GPT-5,这是有意义的。」
事实上,除了 OpenAssistant、MiniGPT-4 之外,GitHub 上也有网友盘点了近段时间来诞生的许多开源模型(https://github.com/nichtdax/awesome-totally-open-chatgpt),如 Databricks 推出的 Dolly 模型、类 ChatGPT 的 PaLM-rlhf-pytorch、OpenChatKit 等等,为此,你认为开源大模型在此趋势下会迎来什么样的发展机遇?欢迎留言分享你的看法。
关于 MiniGPT-4 模型的更多内容可参考:
项目地址:https://minigpt-4.github.io/
GitHub 地址:https://github.com/Vision-CAIR/MiniGPT-4
论文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
参考:
https://the-decoder.com/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/
责任编辑:hnmd003
相关阅读
-
【速看料】比 OpenAI 更快一步,最新开源的 MiniGPT-4 模型可让开发者提前感受 GPT-4 识图能力!
整理|屠敏出品|CSDN(ID:CSDNnews)迄今为止,GPT-4凭借多模态能力已经成为AI领域备受关注的大模型,不...
2023-04-19 -
【世界播资讯】消息称苹果在 iPhone 15 系列研发早期曾测试闪电接口版 但很快放弃
【TechWeb】4月19日消息,据外媒报道,外界普遍预计,苹果今年下半年推出的iPhone15系列智能手机,将放...
2023-04-19
相关阅读
-
【速看料】比 OpenAI 更快一步,最新开源的 MiniGPT-4 模型可让开发者提前感受 GPT-4 识图能力!
整理|屠敏出品|CSDN(ID:CSDNnews)迄今为止,GPT-4凭借多模态能力已经成为AI领域备受关注的大模型,不...
-
看完钉钉的土味炫技,我的职场恐惧症好多了_环球速递
我遇到麻烦了。我是一名2023年的应届毕业生,经过简历筛选、性格测试、笔试、群面、二面、HR面……共九...
-
知网:有不法分子冒用知网名义行骗,将保留追责权利
知网发布关于警惕假冒知网工作人员、伪造知网公告行骗的声明:近期,知网接到举报,有不法分子以知网工...
-
每日快看:众安保险报销比例多少?能报多少钱?
可能为60%或者是100%,还是要看我们所购买的众安保险产品的情况的。比如如果是买众安旗下的百万医疗,就...
-
焦点消息!600百万医疗保险是不是真的?怎么买?
肯定是真的!这样的产品是真真实实的可以提供最高600万的医疗费用报销额度的产品,是一类在2016年才正式...
-
众安保险600万医疗保险每月1元是真的吗?好不好?|全球热点
是真的!不过这个每月1元是特指的产品的首月缴费金额,也可以说是首期缴费金额,它们是可以按照月度缴费...
-
百万医疗险到底有没有用?购买时需要注意什么?
有用。 由于医疗费用的不断上涨和医疗保障体系的不完善,许多人在生病时需要支付高额的医疗费用,这对于...
-
世界报道:经营不善、展台冷清,盘点那些上海车展的失意者
4月的上海,天气开始变得炎热,上海车展的举办则让申城更显热情。作为后疫情时代首次A级车展,上海车展...
-
全球速看:众安百万医疗险人工客服电话是多少?可靠吗?
人工客服热线有两个,通过拨打10109955或者是4009999595都可以联系上众安保险公司。用于咨询跟旗下百万...
-
孟晚舟:预计2025年55%经济增长来自于数字驱动|环球观焦点
凤凰网科技讯4月19日消息,2023华为全球分析师大会今日在深圳举行。本届大会将以“跃升数字生产力,加速...
-
视点!货运平台被指“大数据杀熟”? 满帮回应:不存在也没必要
凤凰网科技讯4月19日消息(作者 季倩)近日,有网友通过网络短视频发布、改编有关“运满满”找货的内容...
-
全球热资讯!五一出游需求爆发,飞猪:国内游预订量已超2019年
今日,飞猪发布《2023年“五一”出游风向标》,距离“五一”假期不
-
华为战略研究院院长周红:AI发展还面临三个重要挑战:世界消息
第20届华为全球分析师大会于4月19日至4月20日在深圳举办。华为战略
-
知网:有不法分子冒用知网名义行骗,将保留追责权利
知网发布关于警惕假冒知网工作人员、伪造知网公告行骗的声明:称近
-
头条:外贸平台诋毁阿里国际站被罚40万
天眼查App显示,近日,宁波中茂网络科技有限公司因商业诋毁行为,被
-
热议:兖煤澳大利亚:一季度平均价格为347澳元╱吨 同比升35%
兖煤澳大利亚(03668 HK)发布公告,2023年第一季度,按100%基准计,原煤产量为1120万吨。按100%基准计,...
-
41家中国厂商入围全球手游发行商收入榜Top 100:全球速读
SensorTower发布了2023年3月中国手游发行商在全球AppStore和GooglePlay的收入排名,本期共有41家中国厂...
-
“高启强”成小米手机代言人_当前快播
截至去年末,小米全球智能手机用户规模创新高。
-
宜明细胞完成1.5亿元C+轮融资,多支基金出手
宜明细胞生物科技有限公司(简称:宜明细胞)近日宣布完成1 5亿元人民币C+轮融资。本轮融资由国泰君安...
-
视点!生工生物获20亿首轮战略融资,德福资本领投
生工生物工程(上海)股份有限公司(“生工生物”)宣布正式引进首轮战略融资,融资规模20亿。本轮融资...
-
西门子与小鹏汽车签署战略合作协议:今日视点
品玩4月19日讯,据西门子中国官方微信,4月18日,西门子与小鹏汽车签署战略合作协议。旨在共同打造柔性...
-
特斯拉被曝扣发员工奖金惊动马斯克!新工厂还能招到人吗?
本文来源:时代周报作者:齐鑫特斯拉工厂凭借诱人的薪资成为不少打工人的梦中情厂,然而现在似乎翻车了...
-
内斗升级!被开除高管曾暂停给员工发工资,爆料宝宝树涉嫌造假上市?
本文来源:时代周报作者:梁春富母婴社区电商平台宝宝树(01761 HK)高层内斗升级。宝宝树4月17日晚披...
-
平安金鑫盛17这个产品怎么样?值得购买吗?
整体性价比水平一般,从产品优势来看,不外乎还是平安的品牌优势、服务优势等,但是产品不足是比较凸显...
-
世界微头条丨特斯拉被曝扣发员工奖金惊动马斯克!新工厂还能招到人吗?
特斯拉工厂凭借“诱人”的薪资成为不少打工人的“梦中情厂”,然而现在似乎翻车了。据媒体报道,上周晚...
-
平安福19终身寿险咋样?适合谁?
还不错。 平安福19终身寿险作为一款综合性的保险产品,具备多重保障。其等待期内保险理赔返还保险费用的...
-
怡宝马拉松推广大使基普乔格官宣!
4月17日,怡宝官宣马拉松世界纪录保持者&马拉松奥运冠军—埃鲁德·基普乔格成为其马拉松推广大使。怡宝...
-
医疗保险哪家保险公司比较好?买哪种好?
不同人就保险公司的选择是不同的,并不存在哪家保险公司医疗险好的标准答案。因为不同的人群侧重的保险...
-
寻路可持续发展,腾讯微保联合复旦大学发布《2023惠民保健康发展十问十答》-全球观焦点
保障覆盖2 98亿人次,超过80家保险公司运营共263款惠民保产品。其中,运营时间最长的惠民保项目已在深...
-
世界头条:少儿重疾保险是30年好还是终身好?怎么买更划算?
一般人群会更推荐选择30年的少儿重疾险,推荐这样的产品原因包括了价格水平更低,产品杠杆更足,而且这...
精彩推荐
阅读排行
精彩推送
- 环球热头条丨江苏徐州写成浙江徐...
- 全球微头条丨众安百万医疗险可以...
- 华为换届完成工商变更 董事阎力...
- Omdia:全球显示面板厂家2023年...
- 今日精选:马斯克再谈人口危机:...
- 爱奇艺诉电信及快手侵权 案件即...
- 民事诉讼法是公法还是私法?公法...
- 大众汽车集团将投资约10亿欧元在...
- 12生肖婚姻最佳配对是什么?最旺...
- 诉讼离婚的流程是怎么进行的?离...
- 分居多久可以自动解除婚姻关系?...
- 婚姻出现问题怎么修复?夫妻走到...
- 垃圾股有几种?为什么垃圾股会被...
- 垃圾股是什么意思?垃圾股和股票...
- 股票买入和卖出都要交手续费吗?...
- 创业板上市需要什么条件?创业板...
- 股票dr开头是什么意思?股票dr好...
- 惠凯医疗完成数千万A+轮投资
- 世界关注:上海10家银行向30家民...
- 上海车展|东风风神启动1258“e启...
- 焦点速讯:惠凯医疗完成数千万A+...
- 五粮液10亿元跨界新能源_全球新动态
- 今日关注:熬过了三年“寒冬”,...
- 【世界播资讯】消息称苹果在 iP...
- 世界要闻:积极应对恶劣天气 守...
- 炒股票怎么开户?注册股票开户的...
- 中签的股票什么时候可以卖?中签...
- 要闻速递:成都金融城“上新”,...
- 成都3宗宅地总收金20.36亿元,且...
- 怎么申购新股?每天都可以申购新...