环球短讯!跑分达 ChatGPT 的 99%,人类难以分辨!开源「原驼」爆火,iPhone 都能微调大模型了
2023-05-25 14:17:25来源:ZAKER科技
自动测试分数达到ChatGPT 的 99.3%,人类难以分辨两者的回答……
(资料图片仅供参考)
这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。
更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从 >780GB 降低到 <48GB。开源社区直接开始狂欢,相关论文成为 24 小时内关注度最高的 AI 论文。
以 Meta 的美洲驼 LLaMA 为基础,得到原驼650 亿参数版只需要 48GB 显存单卡微调 24 小时,330 亿参数版只需要 24GB 显存单卡微调 12 小时。24GB 显存,也就是一块消费级 RTX3090 或 RTX4090 显卡足以。
不少网友在测试后也表示,更喜欢它而不是 ChatGPT。
英伟达科学家 Jim Fan 博士对此评价为:大模型小型化的又一里程碑。先扩大规模再缩小,将成为开源 AI 社区的节奏。
而新的高效微调方法 QLoRA 迅速被开源社区接受,HuggingFace 也在第一时间整合上线了相关代码。GPT-4 做裁判,原驼得分达到 ChatGPT 的 99.3%论文中,团队对原驼总共做了三项测试,自动评估、随机匹配和人类评估。
测试数据来自小羊驼 Vicuna 和 Open Assistant。
自动评估由大模型天花板 GPT-4 当裁判,对不同模型的回答进行打分,以 ChatGPT(GPT3.5)的成绩作为 100%。
最终原驼 650 亿版得分达到 ChatGPT 的 99.3%,而 GPT-4 自己的得分是 114.5%,谷歌 Bard 是 94.8%。
随机匹配,采用棋类专业比赛和电子竞技同款的 Elo 记分机制,由 GPT-4 和人类共同做裁判。原驼 650 亿和 330 亿版最终得分超过 ChatGPT(GPT3.5)。
人类评估,则是把原驼 650 亿版的回答和 ChatGPT 的回答匿名乱序放在一起,人类来盲选哪个最好。论文共同一作表示,研究团队里的人都很难分辨出来,并把测试做成了一个小游戏放在 Colab 上,开放给大家挑战。
这里节选其中一个问题(附中文翻译),你能分辨出哪个是 ChatGPT 回答的吗?问题:How can I improve my time management skills?(如何提高时间管理技能?)
(完整测试地址在文末)总的来说,原驼的优势在于不容易被问题中的错误信息误导,比如能指出地球从来没有被科学界认为是平的。
以及擅长心智理论(Theory of Mind),也就是能推测理解他人的心理状态。但原驼也并非没有弱点,团队发发现它不太擅长数学,以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。也有网友表示,虽然一个模型能在某个数据集上无限接近 ChatGPT,但像 ChatGPT 那样通用还是很难的。全新方法 QLoRA,iPhone 都能微调大模型了原驼论文的核心贡献是提出新的微调方法QLoRA。
其中 Q 代表量化(Quantization),用低精度数据类型去逼近神经网络中的高精度浮点数,以提高运算效率。
LoRA 是微软团队在 2021 年提出的低秩适应(Low-Rank Adaptation)高效微调方法,LoRA 后来被移植到 AI 绘画领域更被大众熟知,但最早其实就是用于大语言模型的。
通常来说,LoRA 微调与全量微调相比效果会更差,但团队将 LoRA 添加到所有的线性层解决了这个问题。
具体来说,QLoRA 结合了 4-bit 量化和 LoRA,以及团队新创的三个技巧:新数据类型 4-bit NormalFloat、分页优化器(Paged Optimizers)和双重量化(Double Quantization)。最终 QLoRA 让4-bit的原驼在所有场景和规模的测试中匹配 16-bit 的性能。
QLoRA 的高效率,让团队在华盛顿大学的小型 GPU 集群上每天可以微调 LLaMA 100 多次……最终使用 Open Assistant 数据集微调的版本性能胜出,成为原驼大模型。
Open Assistant 数据集来自非盈利研究组织 LAION(训练 Stable Diffusion 的数据集也来自这里),虽然只有 9000 个样本但质量很高,经过开源社区的人工仔细验证。
这 9000 条样本用于微调大模型,比 100 万条指令微调(Instruction Finetune)样本的谷歌 FLAN v2 效果还好。
研究团队也据此提出两个关键结论:
数据质量 >> 数据数量
指令微调有利于推理,但不利于聊天
最后,QLoRA 的高效率,还意味着可以用在手机上,论文共同一作 Tim Dettmers 估计以iPhone 12 Plus 的算力每个晚上能微调 300 万个单词的数据量。
这意味着,很快手机上的每个 App 都能用上专用大模型。
论文:https://arxiv.org/abs/2305.14314
GitHub:
https://github.com/artidoro/qlora
与 ChatGPT 对比测试:
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb
330 亿参数版在线试玩:
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi
参考链接:
[ 1 ] https://twitter.com/Tim_Dettmers/status/1661379376225697794
[ 2 ] https://huggingface.co/blog/4bit-transformers-bitsandbytes
责任编辑:hnmd003
相关阅读
-
环球短讯!跑分达 ChatGPT 的 99%,人类难以分辨!开源「原驼」爆火,iPhone 都能微调大模型了
自动测试分数达到ChatGPT的99 3%,人类难以分辨两者的回答……这是开源大模型最新成果,来自羊驼家族的...
2023-05-25 -
比 ChatGPT 大 5 倍!英特尔官宣 1 万亿参数 AI 大模型,计划 2024 年完成
整理|郑丽媛出品|CSDN(ID:CSDNnews)眼看着ChatGPT持续爆火了几个月,期间微软、谷歌、Meta等科技巨头接
2023-05-25 -
天天最资讯丨iOS 17 要来了 苹果 WWDC23 大会日程出炉:6 月 6 日开幕
【TechWeb】5月25日消息,据外媒报道,周二,苹果公司正式公布了年度开发者大会(WWDC23)的日程,包括主题
2023-05-25 -
热消息:“大家都在抢我们的芯片!”英伟达发布强劲财报,股价飙升至历史新高
这一波AI浪潮的大火,让全球AI算力龙头英伟达的股价再一次噌噌地坐上了火箭。英伟达今天发布了截至2023年4
2023-05-25
相关阅读
-
环球短讯!跑分达 ChatGPT 的 99%,人类难以分辨!开源「原驼」爆火,iPhone 都能微调大模型了
自动测试分数达到ChatGPT的99 3%,人类难以分辨两者的回答……这是开源大模型最新成果,来自羊驼家族的...
-
不薅血亏!荣耀手机推出免费贴膜活动 换屏最低打 3 折-全球消息
【手机中国新闻】对于智能手机用户而言,贴膜带壳属于最基本的操作,但膜和壳毕竟不耐用,因此需要频繁更换
-
理想智驾提速:感知换帅,芯片提速,高层赴美招人 环球观热点
品玩5月25日讯,据36氪报道,近期理想汽车一些核心高管如理想汽车高级副总裁范皓宇、智能驾驶副总裁郎咸朋
-
比 ChatGPT 大 5 倍!英特尔官宣 1 万亿参数 AI 大模型,计划 2024 年完成
整理|郑丽媛出品|CSDN(ID:CSDNnews)眼看着ChatGPT持续爆火了几个月,期间微软、谷歌、Meta等科技巨头接
-
小鹏汽车,等待拐点
图片来源@视觉中国文|深途,作者|黎明,编辑|艾小佳正处于自我变革中的小鹏汽车,发布了2023年一季度财报。
-
环球快看点丨堪比光刻机的冷冻电镜,采购量年年提升,何时才能国产化?
图片来源@视觉中国文|vb动脉网冷冻电镜+清华大学=CNS?在网络上时常能看见冷冻电镜+清华大学=CNS(Cell+Nat
-
今日讯!日系车,正在被时代抛弃
图片来源@视觉中国文|锌财经,作者|路世明,编辑|大风省油、耐用、保值,这是中国消费者对日系车多年以来的
-
新能源“下沉”,打不起“价格战”
图片来源@视觉中国文|科技新知站在北上广等一线城市的高架桥上,放眼望去,十辆汽车中最少有一半都是绿牌;
-
环球讯息:合生创展旧改“野心”难以实现?多个项目 10 年仍未动工
「核心要点」在广东地产圈,合生创展曾经是华南五虎之一。与其他四家开发商的风格不一样,合生创展不搞快周
-
iphone13运行内存多少?运行内存越大手机越流畅吗?
iphone13运行内存多少?iphone13的运行内存为4GB。苹果13系列中,iPhone13 mini和iPhone13的内存为4GB,...
-
什么是ppt?ppt怎么让图片一张一张出来?
什么是ppt?PPT是由微软公司推出的一款图形演示文稿软件,全称为PowerPoint,,大家都喜欢说成英文PPT,...
-
兰州金城中心董事长(刘钰 兰州金城扛把子信息科技有限公司总经理)
当前大家对于刘钰兰州金城扛把子信息科技有限公司总经理都是颇为感兴趣的,大家都想要了解一下刘钰兰州金城
-
iphone12是双卡吗?苹果12第二个卡槽在哪?
iphone12是双卡吗?iphone12是双卡双待手机,iPhone 12全系列包括iPhone 12、iPhone 12 Pro、iPhone 12 Pro Max,iPhone 12 mini、
-
微信旁边有个小雨伞是什么意思?微信小雨伞怎么关?
微信旁边有个小雨伞是什么意思?这是微信的青少年模式。微信青少年模式开启后便会显示小雨伞,使用者将会...
-
长城举报比亚迪污染物排放不达标!长城新能源和比亚迪新能源哪个好?
长城举报比亚迪污染物排放不达标!长城汽车举报比亚迪。5月25日,长城汽车发布声明,4月11日,长城汽车向...
-
微信二维码怎么用?微信二维码怎么改图案?
微信二维码怎么用?我们打开微信。点击右下角的我点击支付按钮,在最上边有一个收付款,我们点开。这个时...
-
理财起息是什么意思?理财起息日当天还能购买吗?
理财起息是什么意思?理财起息指的是购买理财产品后开始计算利息的时间。因为理财产品上市之后一般都有产...
-
支付宝提现时间多久到账?支付宝提现怎么免手续费?
支付宝提现时间多久到账?1、一般有三种到账模式,分别是预计2小时内到账、预计当日24点前到账以及预计明...
-
富德生命百万医疗怎么样?如何投保?
富德生命百万医疗保险是一款非常好的保险产品,因为它提供了全面的保障,包括住院医疗、门诊医疗、重疾保障
-
时讯:百万医疗保险怎样买?有必要买吗?
有必要。百万医疗保险作为医疗保险中的一种,其主要目的是为被保险人提供百万元以上的医疗保障。在现如今医
-
速腾保险一年多少钱?购买速腾车保险要注意什么?
速腾车型的保险费用取决于多个因素,包括被保险人的性别、年龄、驾龄、车型、车龄等。如果您选择投保速腾车
-
今日热讯:百万医疗多少可以报销?如何报销?
一般来说,不同保险公司的百万医疗保险合同中规定的报销金额也不尽相同。在国内市场上,百万医疗保险的报销
-
平安百万医疗的优缺点是什么?如何购买?-环球即时
1 优点(1)保障全面:平安百万医疗保险是一款全面覆盖的医疗保险产品,可以为被保险人提供住院、手术、门
-
SID 2023:京东方独占“C位”精彩
当60岁的SID展会遇见30岁的京东方,会擦出怎样的火花。这对全球半导体显示行业的“黄金组合”,以相互致...
-
当前热文:AI前哨|ChatGPT捧红OpenAI创始人:追随者仰慕 抗议者怒斥其诈骗
凤凰网科技讯《AI前哨》北京时间5月25日消息,ChatGPT的火爆俨然让OpenAICEO萨姆·阿尔特曼成了一位大明星
-
热点评!刷掌支付“试水”交通场景应用 大范围推广仍待时日
日前,“微信刷掌支付接入北京大兴机场线”的话题一度冲上热搜。记者注意到,对于这类生物识别支付方式...
-
iOS 17要来了 苹果WWDC23大会日程出炉:6月6日开幕_焦点热讯
【TechWeb】5月25日消息,据外媒报道,周二,苹果公司正式公布了年度开发者大会(WWDC23)的日程,包括主题
-
百度何俊杰:用AI原生思维“刷新”百度APP、搜索、文库、电商等产品 环球最资讯
【TechWeb】5月25日消息,在2023万象·百度移动生态大会上,百度集团资深副总裁、百度移动生态事业群组(ME
-
现货黄金如何交易?现货黄金是谁来控制价格的?
现货黄金如何交易?现货黄金交易的方式为涨跌双向操作,保证金,T+0制度,不需要使用100%的资金,现在很...
-
股票配售是好是坏?股票配售的可转债怎么申购?
股票配售是好是坏?股票配售是股票行业的术语,配股是指上市公司在获得必要的批准后,向其现有股东提出配...
精彩推荐
阅读排行
精彩推送
- 招商银行一卡通属于几类卡?招商...
- 股票生命线是几日线?股票生命线...
- 瓜熟蒂落近义词成语_瓜熟蒂落近...
- 未决赔款准备金是什么?未决赔款...
- 民生银行积分怎么获得?民生银行...
- 郑州市上街区打造养老服务“上街...
- 天天最资讯丨iOS 17 要来了 ...
- 热消息:“大家都在抢我们的芯片...
- 荣耀逆周期:一次抢滩、一场加码...
- 环球观焦点:张文宏,有新身份!
- 35 万的宝马直降 10 万!这个...
- 世界速递!中国出海“四小龙”想...
- 比亚迪回应长城汽车举报:检测报...
- 赢得互联网出海的第三次胜利,中...
- 招商银行信用贷款需要什么条件?...
- 不到300的半入耳主动降噪耳机!i...
- 百万医疗有税优识别码吗?在哪里?
- 百万医疗和重疾有什么区别?靠谱...
- 百万医疗险陷阱是真的吗?值得买...
- 如e康悦百万医疗c款怎么样?靠谱...
- 脑肠轴再添力证,调节肠道菌群或...
- 平安百万医疗保险对比其他医疗保...
- Stellantis或减少向美国出口汽油车型
- 北京制定工作指南,明确养老志愿...
- 天天亮点!小米业绩超预期!Q1净...
- 全球热推荐:波音:正利用 AI ...
- BatLoader 在路过式网络攻击中...
- 索尼:持续加大在中国的研发投入...
- 世界速讯:Reno 交融了 Find,...
- AI 行情不是泡沫!研究机构和美...