碾压 LLaMA 的最强开源大模型居然来自阿联酋,OpenAI 和 HuggingFace 为它吵了起来
2023-06-02 10:13:48来源:ZAKER科技
这两天 hugging face 的榜单出现了一个异数。一个名为 Falcon 40B 的模型,突然成为了 hugging face" 开源 " 大模型排行榜的第一名。
这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的 LLaMA、新晋明星独角兽 Stability AI 等公司。其中,LLaMA 的模型规模甚至更大,达到了 65B ——比 Falcon-40B 大出了 50%。
(相关资料图)
按照 Hugging Face 方面表示,其整个榜单使用 Eleuther AI Harness 的评估框架,被分成四个标准:
25 个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10 个样本的尝试推理测试(HellaSwag)、5 个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)
而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的 instruct 版本中,诚实性能力也跟上来了。
Falcon 备受外界关注,原因主要有几点。一方面,如果仅以这个榜单数据来看,Falcon 相比于友商的提升幅度很大。LLaMA-65B 之后的排序的分差往往在 0.3 分以内,但 Falcon-instruct 直接提升了 3.4 分。
另一方面,Falcon 与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon 背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。
TII 的背后则是阿布扎比先进技术研究委员会 ( ATRC ) ,因此是阿联酋政府官方扶持技术创新项目。
而根据阿联酋通讯社的报道,Falcon-45B 使用了 1 万亿个 token 进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于 OpenAI GPT-3 训练计算的 75%,DeepMind Chinchilla 人工智能的 40%,谷歌 PaLM-62B 训练计算的 80%。
阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B 的出现:
" 强化了阿联酋作为全球 AI 领导者的角色 "。
目前来说,Falcon-40B 虽然是开源大模型的第一名,但是和 " 不 Open" 的 OpenAI 相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon 获得 " 开源大模型第一 " 其实也算是 " 捡了个漏 "。不过很快有从业者发推特质疑 Hugging Face 的评价体系。有 Inflection AI 员工发推认为 Hugging Face 得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉 AI 负责人、OpenAI 元老级人物(founding member)Andrej Karpathy 跟进评论:
" 这就是我目前避免评论 falcon 的原因 "。
Andrej Karpathy 曾经是李飞飞的高徒、全球顶尖的 AI 科学家,对 OpenAI 的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉 autopilot 之父。当他对 hugging face 的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。
果然 hugging face 联合创始人 Thomas Wolf 闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。这其中诡异的点在于,hugging face 的榜单不是一天发出的,Eleuther AI Harness 也是一个主流的评价体系。但当 Falcon 冲榜后,却出现了两位对评价体系 " 不理解 "、" 不确定 " 的 " 外宾 "。看来硅谷还不是很适应来自中东的神秘科技力量,对这种 " 新鲜事物 " 条件反射地用审视的眼光去打量。
不过,Falcon-40B 最大的争议或许不是来自于能力,而是来自于其对 " 开源 " 事业的 " 诚心 "。
因为 Falcon 对商业化开源留了一个 " 后手 ",虽然使用者原则上免费,但如果收入超过 100 万美金,依然需要缴纳 10% 的授权费用。
但由于 falcon 的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果 falcon 拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的 " 开源 "。
大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。
而根据 TII 方面的消息,阿联酋方面预计将很快发布新的 Falcon-108B 的千亿级大模型。
无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。
图片来源:网络
责任编辑:hnmd003
相关阅读
-
碾压 LLaMA 的最强开源大模型居然来自阿联酋,OpenAI 和 HuggingFace 为它吵了起来
这两天huggingface的榜单出现了一个异数。一个名为Falcon40B的模型,突然成为了huggingface开源大模型排行
2023-06-02 -
天天热点!Bing Chat 再次放宽限制,提高单次会话上限
品玩6月2日讯,微软搜索和人工智能副总裁JordiRibas今天在推特上表示,BingChat再次放宽用户的使用限制。Ri
2023-06-02 -
iPhone 15 Pro 系列设计细节曝光:1.55mm 极窄边框 + 弧边处理手感完美 环球报道
【Techweb】按照惯例,苹果将继续在今年9月举办一年一度的秋季新品发布会,届时全新的iPhone15系列将正式与
2023-06-02 -
算力还是不够!OpenAI 自曝发展受到 GPU 限制 百事通
5 29日,OpenAI的CEO-SamAltman在一次采访中,透露了OpenAI当下遇到的问题与未来1-2年内的发展计划。OpenAI
2023-06-02
相关阅读
-
碾压 LLaMA 的最强开源大模型居然来自阿联酋,OpenAI 和 HuggingFace 为它吵了起来
这两天huggingface的榜单出现了一个异数。一个名为Falcon40B的模型,突然成为了huggingface开源大模型排行
-
「小白」moto razr 40 Ultra 测评:这外屏是要当主力么? 微资讯
——ZAKER,个性化推荐热门新闻,本地权威媒体资讯
-
天天热点!Bing Chat 再次放宽限制,提高单次会话上限
品玩6月2日讯,微软搜索和人工智能副总裁JordiRibas今天在推特上表示,BingChat再次放宽用户的使用限制。Ri
-
聚焦:销售火爆!价格上涨 3 倍!批发商拿不到货,珍珠市场为何如此火爆?价格“狂飙”背后是什么原因
据央视财经6月2日消息,深圳水贝市场,是中国黄金珠宝消费的晴雨表,其中,珍珠贸易和镶嵌加工占到国内大约
-
天天动态:武汉新房成交坐“过山车”,“降价跑量”成常态,有楼盘最高跌价达 5 成
5月举行的第40届武汉春季房地产交易会,无疑给武汉楼市点了一把火。就在5月31日,武汉房交会组委会宣布,为
-
天天热门:亚马逊员工大罢工抗议重返办公室
亚马逊员工大罢工抗议重返办公室出处:北京商报作者:北京商报综合报道网编:武杉2023-06-02当地时间周三下
-
存够 300 万,够不够你体面养老
作为独生子女+少子化+延迟退休的一代,80后、90后正面临高难度的退休挑战。作者|郑依妮题图|《彩虹老人院》
-
买二手房,中介费“砍”一半!文件连夜被撤销,协会致歉:有悖上级精神,造成较大负面影响 环球热闻
福州打响调整中介费第一枪后却又熄火了。6月1日下午,福州市房地产中介行业协会发布《关于合理调整二手房产
-
死刑如何执行?死刑立即执行能活几天?
死刑如何执行?根据《刑事诉讼法》第二百六十三条,人民法院在交付执行死刑前,应当通知同级人民检察院派...
-
拉萨市城关区人社局联合西藏大学举行校园招聘会
近日,拉萨市城关区人社局和西藏大学招生就业处联合举办“校园启航遇见‘位’来”校园招聘会,为毕业生...
-
今年高考拉萨考区将重防手机作弊
近日,记者从拉萨市召开的2023年招生考试工作联席会上了解到,今年高考,拉萨市将把防范手机作弊作为高考安
-
天天快报!拉萨市城关区纳金街道征集群众微心愿爱心义卖暖人心
近日,拉萨市城关区纳金街道第一届“大工委爱心义卖市集,小力量凝聚大爱”活动在东郊万达广场开展。纳...
-
地役权人是什么意思?地役权人有哪些权利和义务?
地役权人是什么意思?地役权一般涉及两个地块,供役地和需役地,且这两块土地分属于两个所有权人,需役地...
-
世界视讯!话剧《老西藏》将于7月与观众见面
近日,西藏自治区文化厅党组书记肖传江一行深入话剧《老西藏》排练现场,看望慰问主创团队和全体演职人员,
-
职务犯罪包括哪些罪名?如何预防职务犯罪?
职务犯罪包括哪些罪名?职务犯罪一般包括贪污罪、受贿罪、滥用职权罪、玩忽职守罪、徇私舞弊减刑、假释、...
-
行政法规是谁制定的?行政法规和部门规章的区别
行政法规是谁制定的?行政法规的制定主体是国务院,行政法规根据宪法和法律的授权制定。法律依据:《中华...
-
图片版权登记应该怎么进行申请?图片版权登记的法律依据
图片版权登记应该怎么进行申请?版权登记的申请流程:一、提交申请版权登记的作品:向国家版权局提交自己...
-
医患之间有什么法律关系?医患关系如何处理?
医患之间有什么法律关系?医患之间的法律关系包括以下:(1) 医患合同关系;(2)医患无因管理关系;(3)医患...
-
全球动态:首届中国绿色算力大会将于7月1日在内蒙古呼和浩特举办
中新社北京6月1日电(记者乌娅娜)首届中国绿色算力大会将于7月1日在内蒙古呼和浩特举办。 首届中国绿色算力
-
投标保证金的收取比例是多少?投标保证金递交时间
投标保证金的收取比例是多少?工程施工、货物采购类:投标保证金一般不超过投标报价的2%,最高不得超过80...
-
女子出嫁被取消村民资格无权分土地怎么办?村民资格认定由谁决定?
女子出嫁被取消村民资格无权分土地怎么办?河南郑州岗李村女子张亚平因为结婚,被取消村民资格,无权分得...
-
股东表决权可以约定吗?股东表决权是以股份数还是人数?
股东表决权可以约定吗?股东表决权可以自由约定。股东可以在公司章程中自由约定行使表决权的方式。如果公...
-
军人出轨军人怎么处理?军人婚内出轨有什么处罚?
军人出轨军人怎么处理?军人出轨的属于违背社会公德,军人配偶可以到部队进行投诉,请求部队帮助。根据《...
-
资本运作是传销吗?资本运作与传销的区别
资本运作是传销吗?资本运作不是传销,资本运作和传销是两码事。资本运作又称资本经营、消费投资、连锁销...
-
关爱百万长期医疗险怎么样?怎么买吗?
还是不错的。关爱百万长期医疗险是一款长期医疗保险产品,它可以为您提供全面的医疗保障,包括住院医疗、手
-
djpc是什么保险公司?官方电话是多少?
是指大家保险。大家保险保险公司成立于2019年,总部位于北京。在保险行业快速发展的背景下,大家保险凭借其
-
全球最大的保险公司排名前十有哪些?哪个好?-全球播资讯
根据相关数据统计,全球保险公司收入排名,排名前十的保险公司分别是:中国人寿、安盛保险、太平洋人寿、美
-
百万医疗报销自费药吗?报销靶向药吗?
可以报销。 百万医疗的报销是没有医保范围限制的,只要是在免赔额以上的医疗费用花费,都是可以报销掉的。
-
泰康百万医疗报销比例是多少?报销流程是什么?
住院医疗费用最高报销比例为90%,最高报销金额为100万元。门诊医疗费用最高报销比例为80%,最高报销金额为1
-
中国核电拟3亿元收购三一重能风电资产
6月1日晚间,中国核电发布公告,公司控股子公司中核汇能拟与三一重能(688349)签订股权转让协议,以3 19亿元
精彩推荐
阅读排行
精彩推送
- 30元包月 小冰AI“克隆人”瞄上...
- 赛力斯:5月新能源汽车销量8562...
- 速看:今日看点 | 第七届世界...
- 小i机器人美股涨11.76%
- OPPO人像轻旗舰开卖,10分钟销售...
- 符合性测试是什么意思?符合性测...
- 百度网盘下载慢怎么解决?百度网...
- 一键清理垃圾bat有用吗?一键清...
- 触摸IC是什么意思?手机触摸ic坏...
- 什么是非晶磁环?非晶磁环和铁氧...
- 充电ic坏了还能充电吗?充电ic芯...
- 高锰酸钾制取氧气装置图示_高锰...
- 冷凝器的作用是什么?冷凝器脏了...
- “天涯社区”暂停访问引关注 如...
- iPhone 15 Pro 系列设计细节...
- 算力还是不够!OpenAI 自曝发展...
- GPU 短缺情况至少会持续到明年
- AITO 问界 M5 智驾版体验,听...
- 赛力斯张兴海:走好“软件定义汽...
- 天天热门:全区学生资助政策来了...
- 【天天时快讯】1至4月我市社会消...
- 市场监管部门五方面精准发力赋能...
- 今年首趟“京藏号”旅游列车抵达...
- 西藏自治区各地庆“六一”活动丰...
- 拉萨机关警力下沉 支援一线路面...
- 浪涌抑制器是什么?浪涌抑制器的...
- 专业代工做膏药的有哪些公司? ...
- 阻焊油墨是什么?阻焊油墨的化学...
- 品质因数q是什么?品质因数q值一...
- 电磁炮是什么?电磁炮按其结构的...