中国最强 AI 研究院的大模型为何迟到了
2023-06-11 13:08:55来源:ZAKER科技
作者|齐健
编辑|陈伊凡
头图|FlagStudio
(资料图片仅供参考)
"OpenAI 会再开源大模型吗?"
当智源研究院理事长张宏江向线上参加 2023 年智源大会的 OpenAI 首席执行官 Sam Altman 问及开源问题时,Sam Altman 微笑表示,OpenAI 未来会开放更多代码,但没有具体的开源时间表。
这样的讨论来自这次智源大会的话题之一——开源大模型。
6 月 9 日,2023 年智源大会在北京举行,座无虚席。在大会现场," 算力 "、" 大模型 "" 生态 " 等与 AI 相关的词时不时出现在参会者的聊天中,还有这个产业链上的各家公司。
本次大会上,智源研究院发布了全面开源的悟道 3.0。包括视觉大模型系列 " 视界 ",语言大模型系列 " 天鹰 ",以及独创的大模型评测体系 " 天秤 "。大模型开源,就意味着公开模型代码,供 AI 开发者研究。悟道 3.0 中的 " 天鹰 " 基础层语言模型还是一款可商用的模型,每个人都可以免费使用这款大模型。
" 目前,国际上有三家机构在 AI 领域处在前沿地位,微软的深度合作伙伴 OpenAI,谷歌,以及 BAAI。" 微软总裁 Brad Smith 在不久前的一次采访中,曾提到一家与 OpenAI、谷歌齐名的中国 " 最强 "AI 研究机构 BAAI,这家机构就是北京智源人工智能研究院。这样一家研究院举办的人工智能大会,被众多业内人士视为行业的风向标。
被微软总裁高度认可的智源研究院,早在 2020 年 10 月已启动了 AI 大模型 " 悟道 " 项目,并先后发布了悟道大模型 1.0 和 2.0 两个版本。其中悟道 2.0 官方公布的参数规模达到 1.7 万亿。彼时,OpenAI 公布 1750 亿参数的 GPT-3 模型也才一年时间。
不过,就是这样一个 AI 大模型的先行者,在最近半年的 AI 大模型热潮中,却异常低调。
当大厂和创业公司中,大模型层出不穷时,智源在过去三个多月里,对外一直保持 " 静默 " 状态,除了 4 月上旬与 Meta 的抠图 AI"SAM" 撞车的 "SegGPT",几乎没有向公众透露任何有关 AI 大模型的信息。
对此,AI 行业内外的很多人都有疑问,在 AI 大模型领域领先的智源研究院,为什么在大模型的高潮时刻似乎来迟了?
开源模型要拆了 OpenAI 的护城河吗?
" 虽然现在的大模型竞争火热,但无论是 OpenAI 还是谷歌,都没有护城河,因为‘开源’正在 AI 大模型领域崛起。"
在一份谷歌泄露的文件中,谷歌内部研究人员认为,开源模型或将引领大模型发展的未来,这份文件中提到 "开源模型的迭代速度更快,可定制性更强,更有私密性,而当免费的、不受限制的替代品质量相当时,人们不会为受限制的模型付费。" 这或许也是智源选择开发开源大模型的原因之一。
目前,开源的商用大模型并不多,智源研究院对目前已发布的部分 AI 大模型进行了一个调查,在国外发布的 39 个开源语言大模型中,可商用的大模型有 16 个。国内已发布的 28 个大语言模型中,开源模型有 11 个,其中开源可商用的模型仅有 1 个。
智源此次发布的大语言模型是开源且可商用的模型,也是目前为数不多的可商用开源大语言模型之一,这也决定了这样的模型在发布之前需要更加谨慎。
" 就智源来说,肯定不希望开源模型太难看,所以会谨慎发布。" 智源大会现场的一位 AI 研究员表示,开源模型难免要被反复验证,被大量开发者挑 bug,为了保证开源模型的质量,智源的研发进度可能被 " 开源 " 拖慢了一些。
智源研究院院长黄铁军认为,目前我国市场上大模型的开源开放力度远远不够,"我们应该进一步加强开源开放。开源开放也是竞争,真有水平、真有好算法,拿出来评测、去比,才能证明技术水平。"
目前国内的大模型技术透明度不高,不少国内厂商在大模型发布之初,都曾被质疑模型是否自研。有人说他们是 API 调用 ChatGPT,也有人说他们用 Meta 泄露的 LLaMA 模型 +ChatGPT 的答案数据训练而来,开源模型则从源头上断绝了这些质疑。
不过,开源模型,提高技术透明度并不是为了自证清白,而是真的要 " 集中力量办大事 "。据智源数据显示,天鹰大语言模型每天的训练成本在 10 万元以上,而在国内 " 百模大战 " 甚至 " 千模大战 " 的大势下,很多行业中都在进行大量不必要的重复训练,导致的重复开支可能是个天文数字。
而开源模型可以减少重复训练,对于有模型需求的企业来说,直接利用开源可商用的 AI 大模型,结合自身数据进行训练,或许是 AI 落地和行业应用的最优解。
开源的另一方面考虑,在于前期积累用户和开发者,以便构建良好生态,并实现未来的商业化。一位国内大模型公司创始人告诉虎嗅,"OpenAI 的 GPT-1 和 GPT-2 都是开源的大模型,这是为了积累用户,提高模型的认可度。等到 GPT-3 的模型能力涌现出来,就会开始考虑商业化,模型也会逐渐走向封闭。因此,开源模型一般不会允许商用,这也是出于后续商业化的考虑。"
但显然,智源作为非营利的研究机构,在开源问题上,并没有商业化的考虑。对于智源而言,在模型开源方面,一方面是希望通过对底层模型等开源开放,促进 AI 大模型行业的科研创新,加速产业落地。另一方面,或许也是想要基于开源模型积累更多的用户反馈,提升大模型在工程上的可用性。
不过,模型开源也并非 " 完美 "。
一位大厂 AI 技术总监告诉虎嗅,目前的 AI 大模型的商业化市场可以分为三层,第一层是完全具备自研模型能力的头部大玩家,第二层是需要根据特定场景训练专有模型的企业,第三层则是只需要通用模型能力,使用 API 接口调用即可满足需求的中小客户。
在这个背景下,开源模型对于有自研能力的头部玩家来说,可以帮助他们省去了大量研发模型的时间和成本。但对于第二层和第三层企业来说,则需要他们自己组建技术团队去对模型进行训练和调优,而这对于很多技术实力不那么雄厚的企业来说,反而把落地流程变得更加复杂了,开源对他们来说似乎有一些 " 免费的东西最贵 " 的感觉。
此 " 悟道 " 已非彼 " 悟道 "
智源的悟道 3.0,是一套完全重新开发的大模型系列,这也是其 " 迟发 " 的原因之一。
既然已经有了悟道 2.0 的基础,智源为什么要重新开发一套模型体系?一方面是模型的技术方向调整,另一方面则是由于模型底层训练数据的 " 换血 "。
" 悟道 2.0 的研发是在 2021 年,所以无论是语言模型(如 GLM)还是文生图模型(如 CogView),其所基于的算法架构从现在来看是比较早的。在过去一年多,相关领域的模型架构已经有了更多的验证、或演进。例如,语言模型中采用 decoder only 的架构,已经证实,加以更高质量的数据,可以在大规模参数的基础模型中,获得更好的生成性能。在文生图模型中,我们改用了基于 difussion 来进行进一步的创新。所以在悟道 3.0 中,我们对语言大模型、文图生成大模型等都采用了这些更新的架构来重新开发。" 在智源研究院副院长兼总工程师林咏华表示,基于过去模型的研究,悟道 3.0 在很多方向进行了重构。
另外,悟道 3.0 还对底层模型的训练数据进行了全面优化升级,训练数据中使用了更新的悟道中文数据,包括 2021 年到现在的,并进行了更严格的质量清洗;另一方面,增加了大量的高质量中文,包括中文书籍、文献等;此外还增加了高质量的代码数据集等,因此基础模型也发生了很大的改变。
在此之前,很多国内模型对中文理解能力不行的问题,就源自底层模型训练的数据不是原生中文。国外的 AI 大模型,以及部分国内模型都采用了大量国外开源数据进行训练。其中主要的来源包括著名的开源数据集 Common Crawl。
智源对 100 万条 Common Crawl 网页数据进行分析,可以提取出中文的网页有 39052 个。从站源角度来看,可以提取出中文的网站共有 25842 个,其中 IP 在中国内地的,只有 4522 个,占比仅为 17%。这样不仅中文数据的准确性大打折扣,安全性也很低。
" 训练基础模型的语料很大程度会影响 AIGC 应用、微调后的模型等内容生成的合规、安全和价值观。" 林咏华表示,天鹰基础模型的中文能力不是简单的翻译,而是把足够多中文的知识 " 压到这个模型里 ",它的中文互联网数据 99% 来自国内网站,企业可以放心地基于它做持续训练。
同时,通过大量对数据、数字的精细化处理和清洗,达到用少的数据量来训练出一样性能甚至性能更好的模型,这个数据甚至低到 30%、40% 的数据量就能赶上或者超过现有的开源模型了。
如今看来,这条路径对于智源来说,也许是个更优解。因为在训练数据方面,智源与互联网厂商相比存在短板。互联网大厂不仅拥有大量来自用户侧的交互数据,还拥有很多可用于训练的版权数据。就在不久前,阿里达摩院刚刚发布来一款视频语言数据集 Youku-mPLUG,其中的所有内容均来自阿里旗下的视频平台优酷。
由于智源没有深厚的用户基础,所以在训练数据方面,只能通过与版权方协商获得授权,并通过一些公益数据项目一点点采集积累。
但是,目前智源的中文数据集还只能做到部分开源,其主要原因是,中文数据的版权分散在各个机构手中,目前智源的训练数据是在多方协调下,获得的针对开源模型研究开放的使用权限。大部分数据只能应用到智源的模型中,而没有开放二次使用的权利。
"国内很有必要建立针对数据集的产业联盟,把版权所有方联合在一起,对人工智能方面的训练数据进行统一规划,但这需要顶层设计的智慧。" 林咏华告诉虎嗅。
国内大模型行业的黄埔军校
悟道 3.0 正在讲一个与悟道 2.0 不同的故事,研发团队的变化是其中之一。作为 AI 大模型行业的先驱,智源研究院就像是国内 AI 大模型的黄埔军校。上到智源学者,下至基层工程师,在今天的大模型热潮中,都成了行业里的香饽饽,智源的原始团队中,也孵化了几个大模型的创业团队。
在悟道 3.0 之前,一个大模型系列是由多个外部实验室联合发布的研究成果的组合,而这次的悟道 3.0 是由智源团队完全自研的系列模型。
2021 年发布的悟道 2.0 模型,其中包括:文源、文澜、文汇、文溯。其中,两个核心模型分别由清华的两个实验室主力完成。而如今这两个团队都已成立了自己的创业公司,并沿着 CPM 和 GLM 的研发路径形成了自己的独立产品。
其中,GLM 的主力研发团队清华大学知识工程研究室(KEG),就与智谱 AI 一同推出了开源模型 ChatGLM-6B,并得到了业界的广泛认可;CPM 的主力研发团队,清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)中的部分成员组成的深言科技,成立一年就受到了各家资本的青睐,今年的两轮融资中分别出现了腾讯投资、红杉中国、奇绩创坛等基金的身影。
有接近智源研究院的人士告诉虎嗅,自从国内 AI 大模型升温以来,智源团队成为了人才大战的 " 围猎目标 "," 整个研发团队都被其他公司或猎头盯上 "。
当下国内 AI 大模型行业,最不缺的是钱,最缺的就是人。在猎聘、脉脉、BOSS 直聘三个平台搜索 ChatGPT,硕博学历职位的月薪普遍高于 3 万,最高达 9 万。" 在薪酬方面 IT 大厂并不会占多少便宜,AI 大模型的研发都是高举高打,创业公司给出的薪酬可能更有竞争力。" 西湖心辰 COO 俞佳对虎嗅表示,人才大战在 AI 行业里将会越来越激烈。
" 薪酬 double,在智源的很多员工看来根本就没有竞争力。因为现在都是拿着五倍甚至十倍工资来挖人。即使你再有理想,对未来再有规划,也很难顶住过百万年薪的诱惑。" 一位接近智源的人士告诉虎嗅,由于智源是一家非营利研究机构,薪酬水平很难与互联网大厂或者是背后有大量资本支持的创业公司相比。
虎嗅从猎头处了解到 NLP(自然语言识别)研究专家的年薪目前起步都会超过 100 万。对于一些工作年限长,工资不高的员工来说,面对几倍的薪水很难不动摇。
不过,从目前智源的公开数据来看,智源研究院的各个核心项目团队带头人,多数还在全职负责智源研究院的研发项目。
"悟道 3.0 的模型全部是智源自己的研究人员开发的,包括天鹰、天秤,以及视界。" 林咏华表示,智源研究院目前的研发实力在行业中一直是顶尖的。
责任编辑:hnmd003
相关阅读
相关阅读
-
中国最强 AI 研究院的大模型为何迟到了
出品|虎嗅科技组作者|齐健编辑|陈伊凡头图|FlagStudioOpenAI会再开
-
280 万条多模态指令 - 响应对,八种语言通用,首个涵盖视频内容的指令数据集 MIMIC-IT 来了
机器之心报道编辑:蛋酱在包含280万条多模态上下文指令-相应对的数据集
-
iPhone 两秒出图,目前已知的最快移动端 Stable Diffusion 模型来了
机器之心专栏机器之心编辑部StableDiffusion(SD)是当前最热门的文本
-
太平隽泰年金保险讲解?保险好处有哪些?
太平隽泰年金保险是由太平保险公司推出的一种养老保险产品,主要针对中
-
全球速讯:盛世御享年金保险2018可靠吗?优点是什么?
可靠。盛世御享年金保险2018由国内知名的保险公司提供,受到监管机构的
-
幸福喜乐3.0版年金保险好处是什么?保障哪些方面? 全球快消息
具有宽广的投保年龄范围:幸福喜乐3 0版年金保险的适用范围涵盖出生满3
-
实时:人保年金险有哪些保险产品?怎么投保?
中国人保的美满金生是一款短期年金险,定位明确。消费者可以选择搭配万
-
世界焦点!年金保险多少年回本?好处有哪些?
看实际的情况决定。通常情况下,是交完保费的第三到五年回本。这里说的
-
即时看!帮助作文500字左右_帮助作文
1、学会帮助别人当丛飞从容地捐出所有财产资助贫困学生的一刻,泪水再
-
厌恶风险的年轻人,选择跨城存钱赚利息
6月3日,本该是个该睡懒觉的周六,海小姐却在清晨五点就被闹铃吵醒,因
-
共享游戏主机,占领商场却困在“围城”
不算场地租金、电费这些,光加盟费和买设备就快10万元了,分摊下来每台
-
被年轻人喜爱的“剩菜盲盒”,能走得更远吗? 焦点观察
最近很多年轻人,开始流行起了吃剩菜。这里的剩菜,并非客人吃剩的残羹
-
今日热闻!3000 元冲性能旗舰机,iQOO Neo8 Pro 配么?
对于手机厂商来说,今年可以称作第一代骁龙8+元年。第一代8+虽然已经是
-
东方集团:高杠杆收购“输血”大股东-看点
东方集团倾囊收购大股东资产,进一步绷紧了本就脆弱的资金链。薛宇 文
-
国寿福临门年金保险可靠吗?好处有哪些?
可靠。国寿福临门年金保险的承保公司是中国人寿保险公司,作为我国最大
-
国寿稳态团体年金保险怎么样?保障些什么?
很不错。国寿稳态团体年金保险是一种以团体为单位,为团体成员提供养老
-
育英年金保险条款是什么?优势是什么?_世界观点
身故保障:被保险人因意外或一年后因病身故,可以领取基本保险金额身故
-
每日观点:职业年金补充养老保险可靠吗?好处有哪些?
可靠。职业年金补充养老保险是指事业机关单位为员工提供的一种补充养老
-
保险公司年金理财骗局是什么?有什么好处? 今日观点
其实是信息的误差。保险公司年金理财骗局的本质是保险公司通过虚假宣传
-
2023年全国射击锦标赛(步手枪项目)落幕 环球时快讯
国际射联近期再度对巴黎奥运会射击项目规则进行调整,这意味着运动员们
-
米哈游去年赚了 161 亿!网友:够再开发十个《原神》了|聚焦
米哈游到底赚了多少钱?这个一度引来各方猜测的问题随着《光明日报》的
-
苹果 Vision Pro 头显国内要改名?华为 4 年前已注册商标-天天播报
IT之家6月11日消息,苹果公司在本周的WWDC23开发者大会上正式推出了其
-
世界资讯:卢伟冰透露小米 618 最受欢迎产品 “真的是卖爆了”
【手机中国新闻】今年的618正在火热进行中,各大手机厂商也是使出了浑
-
产业链人士:华为上调 2023 年手机出货量目标至 4000 万部
钛媒体App6月11日消息,从产业链人士处获悉,华为近期已上调2023年手机
-
评测惠普 4.5mm 电源转接器:支持 80W+ 输出,DC 适配器再次发挥_报道
前言随着PD快充的普及,越来越多的设备搭载了Type-C接口,原本一些专用
-
凝心聚力迎战2023:品佳品食品“铁血军魂”训练营 滚动
5月26-28日,品佳品(深圳)实业发展有限公司“铁血军魂”训练营,在广州
-
季后赛生涯得分新高!戈登15中11砍27分6板6助2断&正负值高达+29 快播报
NBA总决赛,掘金108-95力克热火,大比分3-1领先。本场比赛,阿隆-戈登
-
programer_program-焦点消息
1、report释义:2、n 报告;报道;成绩单3、vt 报告;报导;使报到4、
-
中韩乐享财富年金保险可靠吗?值得买吗? 环球短讯
可靠。对于投资者来说,选择一个可靠的年金保险产品至关重要。根据市场
-
微资讯!富德生命人寿保险年金保险可靠吗?好处有哪些?
可靠。富德生命人寿保险是一家经过国家保险监管部门批准的保险公司,具
精彩推荐
阅读排行
精彩推送
- 我为什么不买年金保险?买年金保...
- 每日观察!国寿鑫盈年金保险靠谱...
- 福临门年金保险少儿版可靠吗?保...
- 今热点:“新包头 新青年”作品...
- 抗议公司打压第三方应用,Reddit...
- 多名女主播穿“牵手门”同款碎花...
- 世界观点:马斯克重申:特斯拉市...
- 环球热推荐:米哈游去年赚了 16...
- 微软 2023 年工作趋势指数揭示...
- 被年轻人喜爱的“剩菜盲盒”,能...
- 我,“绝版”毕业生,专业读着读...
- 厌恶风险的年轻人,选择跨城存钱...
- “从不晚点”的山航,要退市了-焦点
- 百万 UP 主人设崩塌背后:精致...
- 得不到就毁掉!租客拿到6万补偿...
- 房企补仓、 集中土拍带热5月...
- 焦点速讯:“带押过户”常态化重...
- 【共同缔造安全江夏⑫】做好安全...
- 儿童教育年金保险是什么?值得购...
- 世界热推荐:理财险和年金险的区...
- 环球热点评!年金保险需要交税吗...
- 金生永泰年金保险可靠吗?特点有...
- 【热闻】福多寿年金保险可靠吗?...
- 蔚来李斌:下半年有望实现平均月...
- 市档案馆开展国际档案日系列活动...
- 春坤山旅游直通车开通|世界快播报
- 包马抢“鲜”跑
- 保护传承历史文化赋能城市高质量...
- 土右旗:打造“家庭会客厅”大学...
- 青山山外青山楼外楼下一句_山外...