4 个月搓出 3 款大模型,王小川偷了大厂的“家”
2023-08-12 16:08:01来源:ZAKER科技
文 | 惊蛰研究所,作者 | 小满
(资料图片仅供参考)
今年 4 月,沉寂一年多的王小川宣布进入 AI 大模型领域再次创业,与 COO 茹立云联合成立大语言模型公司百川智能。在媒体沟通会上,王小川发布了未来 20 年借助语言 AI 要完成的目标,包括构建中国最好的大模型底座,在搜索、多模态、教育和医疗等方面增强,帮助大众轻松、普惠地获取世界知识和专业服务。
令人意想不到的是,仅仅过了 4 个月,百川智能就接连推出 Baichuan-7B、Baichuan-13B 系列、Baichuan-53B 三款大模型。其中 8 月 8 日发布的 Baichuan-53B 参数量级达到 530 亿,如期完成了王小川 " 在今年三季度发布一款参数量级在 500 亿以上的大规模产品 " 的 KPI。
从离开大众视野到重回创业舞台,以及选择大模型这一时下最热门的风口赛道,王小川的复出很难不吸引人们的关注。而眼下随着百川智能以惊人的效率不断进行产品迭代与更新,人们在大厂云集的大模型赛场上,也开始多了一些与众不同的期待。
" 迟到 " 的百川智能
作为曾经的天才少年以及大众印象中典型的 " 理工男 ",王小川做事向来审慎, 而在选择大模型创业这件事情上,他却罕见地表现出狂热的情绪。
今年 2 月,美团联合创始人王慧文在朋友圈发布了自己的 " 人工智能宣言 ",宣布个人出资 5000 万美元设立北京光年之外科技有限公司,将打造中国 Open AI。而据极客公园媒体报道,王小川在看到王慧文的高调宣言后,也曾准备对外宣布入局大模型领域。
王小川的激动不无道理。科技创业赛道通常存在时间窗口,特别是对于大模型这类新兴技术而言,越早公开项目越容易争夺到有限的技术人才和资金资源。而且大模型对数据和训练量有着极大的需求,抢先发布产品能够吸引合作机构和用户参与内测,为大模型提供充足的数据并不断训练模型,推动算法迭代和产品更新。所以当王慧文拿出 5000 万美元,并宣布已有顶级 VC 以 2.3 亿美元认购下轮融资的 " 英雄帖 " 时,无疑加剧了大模型创业团队的人才争夺。颇为有趣的是,在王慧文宣布大模型创业一个月后,被称为 " 搜狗输入法之父 " 的马占凯随即在社交平台上宣布加入光年之外。而百川智能在筹备阶段,也吸引了搜狗原有班底以及其他大厂领军人物的加入。
尽管情绪上有些激动,4 月份官宣的百川智能还是比光年之外晚了将近 2 个月,相比光年之外的 2.3 亿美金融资,百川智能 5000 万美元的启动资金也显得有些单薄。但 " 迟到 " 并不意味着落后,相反这 2 个月让王小川想清楚了很多事情。
从 Open AI 的发展历程中可以看到,虽然前后融资超过了 100 亿美金,但 Open AI 真正开始 " 烧钱 " 也是在 GPT-3 正式发布开始大规模训练之后。据国盛证券估算,GPT-3 的单次训练成本高达 140 万美元,一些更大的 LLM(大型语言模型)的训练成本则介于 200 万美元至 1200 万美元之间。因此,对于刚刚起步的百川智能来说,5000 万美元足以完成项目初期从 0 到 1 的产品设计。
其实在资金之外,大模型项目更关键的还是人才积累问题。Open AI 的 736 名员工中,就有 123 名来自于谷歌、Meta 以及苹果公司的核心人才,半数以上员工曾在硬件或软件公司工作。技术人才的积累,是 Open AI 在研发方面保持着一流水平的主要原因。而百川智能在最近 4 个月里,已经将团队规模翻倍。
4 月份接受采访时,王小川透露到月底团队成员将达到 50 人。而截至目前,百川智能的员工规模已经达到 113 人左右。其中,技术人员的比例占 70%-80%。作为一家成立不到半年的创业公司,百川智能的官宣或许有些 " 迟到 ",但从结果来看,一切都在按照王小川的计划进行。
王小川的自信从何而来?
虽然起步晚,但百川智能 4 个月发布 3 款大模型的惊人效率,表现出了后发制人的竞争意识,并且每一款产品的体验方面也呈现出了差异化的优势。
早前 Baichuan-7B 和 Baichuan-13B 的跑分成绩就曾令圈内人士眼前一亮。在清华大学、上海交大、爱丁堡大学联合创建的评测标准 C-Eval 中,Baichuan-7B 经过 52 个学科的测评,最终获评 34.4 分,在同量级产品中排名第一。
国际中 / 英文权威评测数据集 ( 2023 年 6 月 15 日 )Baichuan-13B 则在自然科学、医学、艺术、数学等领域大幅领先 LLaMA-13B 等同量级的大语言模型,在社会科学、人文科学等领域超过了 ChatGPT。而在 MMLU 基准上,Baichuan-13B 超过了所有同量级开源模型。
对于最新发布的 Baichuan-53B,王小川给出的评价是文科能力更好,也就是说 Baichuan-53B 能够很好地理解语言泛化背后的含义,具备理解古诗、生成风格化文章的能力。对此,惊蛰研究所使用 Baichuan-53B 内测版进行了测试。
在连续面对 " 请写一首以夏天为主题的五言绝句 " 的要求时,Baichuan-53B 给出的 4 首诗文存在明显的重复。其中,4 首绝句的最后一句都是 " 荷花盛开满池塘 ",3 首的前两句都是 " 夏日炎炎列日照,绿树成荫鸟儿叫。" 并且每首诗相同的段落描写的都是相同的意象,似乎是按照同一个模板排列组合而成。类似的现象,惊蛰研究所在使用百度的文心一言进行对比测试时,并没有发生。
对于生成风格化文章的能力,惊蛰研究所要求 Baichuan-53B 分别以徐志摩、卡夫卡和柯南 · 道尔的风格 " 写一条朋友圈,讲述我今天吃了肯德基这件事 "。从结果来看,虽然内容结构上也非常相似,但 Baichuan-53B 很好地抓住了三位作家的写作风格。
最令人惊喜的是,在 " 扮演 " 柯南 · 道尔写作的文案中,Baichuan-53B 还提到作者的代表《福尔摩斯探案集》以及其中的贝克街,让人感觉到 AI 不是在单纯地模仿作家风格生成内容,而是在生成作家自己的 " 朋友圈 "。
由此看来,Baichuan-53B 在内容生成方面不仅仅具备一定的理解能力,能够模仿不同的文学风格,在表述上也更像是人,而不是基于大数据和算法对现有数据进行排列组合。这也难怪王小川会自信地表示," 我们这个模型在文科领域走前列。"" 百模大战 " 刚刚开场
ChatGPT 问世以来,大模型风口吸引了越来越多的玩家,从科技大厂到创业公司都开始将大模型作为自身的最大亮点,竭力追逐行业热点。基于这一行业背景,王小川在官宣以创业的形式入局大模型时遭到了质疑,不少网友都表示当前大模型赛道大厂林立,独立团队很难有机会。坦白说,截至目前,整个行业都还停留在 " 外行看热闹 " 的阶段,这也反映了国产大模型团队仍然游离在 B 端和 C 端市场之间的现状。
一个典型的现象是,OpenAI 借助 ChatGPT 成为全球顶尖 AI 公司后,国内一众科技公司纷纷宣布推出类似 ChatGPT 的 " 聊天机器人 "" 图片生成器 ",并且学习 Meta 等科技大厂将大模型开源免费商用。但从实际效果来看,这种 " 百模大战 " 更像是为了抢关注、挣流量。
大模型开放免费商用之后,给谁用、怎么用,谁又真的会用?这一连串的问题没有人问,真正使用了免费大模型的企业也不会主动宣扬。" 聊天机器人 " 的出现,很大程度上只是为了证明科技公司具备一定的技术能力,而现阶段大模型的商业化手段,仍然以 B 端市场为主。
例如百度的文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系,广泛应用于电力、燃气、金融等产业领域;腾讯的混元大模型,则主要是帮助腾讯生态实现降本增效 ,在广告领域可以自动生成广告文案和视频;阿里的通义大模型,能够跟人类进行多轮的交互,拥有文案创作能力,能够续写小说、编写邮件等;华为盘古大模型则基于其训练出的 2000 亿参数以中文为核心的预训练生成语言模型,发布了盘古气象大模型、盘古矿山大模型、盘古 OCR 等多个行业大模型。
透过上述大模型的功能可以看到,科技大厂的大模型体现的是其背后在算法、算力、深度学习方面的技术实力,而这些技术能力服务的首要对象,自然是 B 端客户。此前,华为昇腾计算业务总裁张迪煊就曾表示,华为已经帮助孵化了 20 多个基础大模型," 中国大模型中约一半由昇腾 AI 支撑 "。而 B 端市场用户可以在通用大模型的基础上,定向开发出符合自己需求的专用大模型辅助企业经营,也可以针对 C 端市场开发大模型应用产品。
在王小川选择大模型创业被质疑机会渺茫这件事情上,大厂在行业赛道抢先卡位,并不代表其已经掌握行业竞争的决胜权。过去因为对 B 端市场以及自身业务的过度关注,使得大厂在技术创新方面缺乏一些主动性。比如 2016 年开始就将 AI 作为战略重心的百度,本就拥有开发 ChatGPT 类语言模型的底层技术,甚至还具备绝无仅有的中文搜索场景,但直到 ChatGPT 爆火之后,百度才在今年 3 月份推出文心一言。
如同王小川对 5000 万美元启动资金的判断一样,大模型的决胜盘在于训练阶段。在给大模型投喂数据这一关键性的成长环节,高素质训练人才提供的高质量数据集是大模型快速成熟、迭代的关键。比如 ChatGPT 早期就利用菲律宾的大学教授进行数据标注,而国内进行数据标注的人才数量和水平均未能满足行业所需。
因此,国产大模型市场虽然已有 " 百模大战 " 的态势,但在最关键的训练环节上,大多数仍在同一起跑线上。王小川之所以有信心参与这一轮行业变革,想必也是看透了大模型不是大力出奇迹的发明创造,而是在底层技术之外,持续投入不断迭代的产品革新。
关于国内科技公司抢滩大模型的行业现象,知名投资人朱啸虎和猎豹创始人傅盛曾在朋友圈激烈交锋。朱啸虎认为行业泡沫明显,甚至断言绝大多数都会在年底死掉。而王小川在 4 月份成立百川智能时表示," 年底前我们会发布对标 GPT-3.5 的大模型,有信心今年年底做到国内最好。"
王小川的百川智能会是国产大模型的希望吗?不如把悬念留到年底,到时再看国产大模型又是怎样一番新局面。
责任编辑:hnmd003
相关阅读
相关阅读
-
4 个月搓出 3 款大模型,王小川偷了大厂的“家”
图片来源@视觉中国‍‍‍‍‍‍文|惊蛰研究所,作者
-
沪上阿姨欲 IPO,6900 家店估值仅 40 多亿?
图片来源@视觉中国文|零售商业财经,作者|正敏,编辑|鹤翔8月11日,嘉
-
再度升起的瑞幸,正面临前后夹击
图片来源@视觉中国文|一点财经编辑部南非总统曼德拉有一句名言,生命中
-
小米手环 8 Pro 预热:续航最长 14 天,升级“双通道监测模组”
IT之家8月12日消息,小米智能生态继续对小米手环8Pro进行预热,宣称续
-
医药反腐重在标本兼治
经济观察报社论医药反腐持续升级。据经济观察报不完全统计,2023年以来
-
药企巨震,一年 3200 亿花哪儿了?
医药反腐风暴正在进行,一系列连锁反应也将陆续开启。在这背后,A股一
-
靠科技,茫茫戈壁瓜果飘香
戈壁炎风,伴着漫漫黄沙,吹得人睁不开眼,燥得人嗓子冒烟。“20多年前
-
随心骑摩托车意外险怎么样?怎么报销?
随心骑摩托车意外险是一款针对摩托车骑手的保险产品,其保障内容包括意
-
支付宝的少儿重疾险怎么样?可靠吗?
支付宝的少儿重疾险是一款综合性的保险产品,主要针对儿童的重大疾病风
-
重疾险的等待期是多长时间?过了就可以理赔吗?
重疾险的等待期根据不同的保险公司和产品而有所不同。一般来说,等待期
-
终身寿险怎么买?一年多少钱?
终身寿险是一种保险产品,它为被保险人提供终身保障,无论何时发生意外
-
人身意外险是短期保险吗?保险范围有哪些?
不一定。人身意外险的保险期限通常为一年或更短的时间,因此很多人认为
-
涉嫌贪腐、被带走调查?邓亚萍:纯属造谣污蔑
乒乓球奥运冠军邓亚萍今日通过个人微博“小个邓亚萍”发布严正声明称,
-
Vlog|缤纷夏日 重庆“多巴胺”打卡攻略来了
02:17这个夏天,重庆许多色彩斑斓的建筑,因为“多巴胺”元素丰富吸引
-
正值俄乌冲突时期,展示国家技术实力,俄罗斯时隔47年重启探月
当地时间8月11日2时10分许,俄罗斯“月球-25”号探测器搭乘“联盟-2 1b
-
Cortana 退出舞台:微软 Win11 普通用户已无法使用该应用
IT之家8月12日消息,根据国外科技媒体WindowsCentral更新报道,不少用
-
为了争夺下沉市场,刘强东准备打三场硬仗!
图片来源@视觉中国文|商隐社,作者|第二人生,编辑|齐马自3月6日京东上
-
充电桩涨价,谁是韭菜?谁在卷?
图片来源@视觉中国文|新能源行业观察,作者|和畅,编辑|秋水我国新能源
-
任正非驱散“寒气”,华为开启大反攻
作者|曹安浔、柴旭晨编辑|刘宝丹去年8月,任正非在内部信中,称华为面
-
消息称 OPPO、vivo 的大模型产品将于“稍晚时候”落地
IT之家8月12日消息,微博博主@数码闲聊站今日发文称,继华为鸿蒙4 0接
-
为了争夺下沉市场,刘强东准备打三场硬仗!
图片来源@视觉中国文|商隐社,作者|第二人生,编辑|齐马自3月6日京东上
-
人多难管,为啥城市还爱演唱会?
网红城市西安又出圈了。这一次是因为一场演唱会。8月6日,TFBOYS十周年
-
暑期档,终于恢复了三年前的热闹
《孤注一掷》的火爆让2023年暑期档又吃下一颗定心丸。目前影片票房已有
-
7 月信贷数据创近 14 年新低,居民贷款成最大拖累,专家预计降准或在三季度落地
本文来源:时代财经作者:李益文7月社融和金融数据引起广泛关注和讨论
-
专访北大国发院李玲:居民医保应按收入水平缴纳个人费用
经济观察报记者田进按照7月29日发布的《关于做好2023年城乡居民基本医
-
平安意外保险理赔流程是什么?理赔范围有多大?
1 报案:被保险人在遭受意外伤害后,应立即向保险公司报案。报案时需要
-
平安鑫盛重疾险买满20年退多少钱?如何续保?
平安鑫盛重疾险的退保政策相对灵活,买满20年后可以选择全额退保或部分
-
意外保险多少钱?怎么报销?
意外保险的价格因保险公司、保险计划和购买者的个人情况而异。一般来说
-
太平洋金诺优享重大疾病保险能返本金吗?能返本金吗?
太平洋金诺优享重大疾病保险并不返还本金。保险合同约定了具体的保险金
-
平安中老年人综合意外险怎么买?怎么报销?
购买平安中老年人综合意外险非常简单,可以通过多种途径进行。首先,可
精彩推荐
阅读排行
精彩推送
- 飞凡汽车&悟空出行·白龙马智行3...
- 脸蛋洗干净的方法 脸蛋怎么洗
- 7月产销同比增长超三成,新能源...
- 已 10 年未更新,Linux 6.6 ...
- 小米高管:小米平板 6 Max 内...
- 消息称三星 Galaxy S24 Ultra...
- 30 岁后重读本科:花光嫁妆,没...
- 2023 款红旗 H9 车型上市:增...
- 沪上阿姨欲 IPO,6900 家店估...
- “突破千元”涨价不止 经济型酒...
- 奇瑞转身:傍上华为,能否撕掉低...
- 注册制后 IPO 变慢了吗?
- TikTok 要在美国重新洗牌了?
- 看了费翔的腹肌,我和我妈都笑了
- 游客意外险必须购买嘛?怎么买?
- 百万保额医疗险是真的吗?保额是...
- 百万医疗险和重大疾病险哪个好?...
- 社保局能查到意外险吗?怎么查询?
- 公司意外险一个月交多少钱?怎么...
- 7月信贷数据创近14年新低,居民...
- 别瞧不上国产千元机,贵不一定就...
- 济宁高新区王因街道开展“奉献爱...
- 重疾险的受益人可以变更么?一般...
- 医疗保险交满多少年就可以终身享...
- 婚嫁险靠谱吗?有什么好处?
- 中国人保2019无忧人生重大疾病保...
- 儿童需要买重疾险吗?买重疾险的...
- 纪录片|风雨落坡岭:K396次列车...
- 开发者为 iPhone 系列手机带来...
- “小龙虾刺客”难救预制菜