世界快报:大模型掀起诸神之战，我们更需要人人可用的“普惠模型”

2023-04-17 16:24:44来源：ZAKER科技

大模型行业越来越热闹。国外，马斯克为 Twitter 抢购 1 万块 GPU 筹备大模型项目、亚马逊大力投资大型语言模型和生成式 AI、OpenAI 推出了 ChatGPT iOS 版本；国内，百度发布文心一言、阿里发布通义千问，王小川、王慧文、闫俊杰等 " 有背景 " 的创业者跑步进场。相较于深度学习而言，大模型让 AI 的认知能力更上一层楼，进而实现所谓的 " 智能涌现 "，催生出 ChatGPT、AutoGPT、AIGC 等新型应用，让 AI 全面进入工业化大生产阶段。英伟达创始人、CEO 黄仁勋说：AI 的 "iPhone 时刻 " 来临。在激动人心的 "iPhone 时刻 "，行业缺什么？

百模大战

AI 的门槛一下变高了

跟当年的 AI 创业以及互联网创业生态不同，大模型成为 " 头号玩家 " 的游戏，活跃的玩家要么是大厂，要么是有资金加持的 " 有背景 " 创业者，" 草根创业者 " 尚未出现。

(资料图片)

大模型具有 " 巨量数据、巨量算法、巨量算力 " 三大 " 巨量 " 特征，对任何企业包括巨头来说，打造一个大模型都不是一件容易的事情，需要收集海量数据、需要采买海量算力、需要进行大量研发，金钱、时间、人力投入同样 " 巨量 "。ChatGPT 是创业公司 OpenAI 做的，这家公司在 2015 年成立后低调耕耘 8 年，且有微软等巨头 / 大佬支持，底层硬件投入高达 10 亿美元以上，每次训练消耗的电力足够 3000 辆特斯拉汽车每辆跑 20 万英里。

" 巨量 " 特征让大模型研发门槛极高，但任何技术生态要走向繁荣都离不开社会化创新。移动互联网的崛起源自于 iOS 和安卓的出现，但也离不开应用市场数百万开发者的创新。同理，大模型上 " 长出 " 的应用也都得靠开发者来定义，让 AI 大模型为所有开发者（技术服务商、企业、组织、个体开发者等）所用，是加速大模型产业发展的关键。

截至目前，大模型还处在 " 只听其声不闻其人 " 的阶段，大厂的大模型已在开放，但需要使用者有较高的人才、算力等资源配置，当下市面上急缺一款让开发者乃至大学生等群体 " 人人可用 " 的大模型。

62 亿参数规格

大模型也能 " 小而美 "

最近我在朋友圈看到有人分享了一个轻量级开源大模型：中英双语对话模型 ChatGLM-6B，它的最大特点是轻量化，支持在单张消费级显卡上进行部署推理使用，这让它具备人人可用的基础——千亿规格的大模型往往需要成百上千张显卡才能部署。

ChatGLM-6B 来自智谱 AI 这家公司，它由清华技术成果转化而来。2022 年 8 月，智谱 AI 旗下的千亿级参数模型 GLM-130B 中英双语稠密模型正式向研究界和工业界开放—— "130B" 是 130 billion 的缩写，即 1300 亿参数。据官网介绍称，GLM-130B 与 BERT、GPT-3 和 T5 有着不同的架构，是一个包含多目标函数的自回归预训练模型，具有双语支持、高精度和快速推理等特性。

2022 年 11 月，斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测，GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中，评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B ( davinci ) 接近或持平，鲁棒性和校准误差在所有千亿规模的基座大模型（作为公平对比，只对比无指令提示微调模型）中表现不错。2023 年 3 月 14 日，智谱 AI 基于 GLM-130B 推出的千亿对话模型 ChatGLM 开始内测，ChatGLM 对标 ChatGPT，具备问答和对话功能且针对中文进行了优化，第三方评测显示其具备 ChatGPT3.5 至少 70% 的能力水平。同一天，智谱 AI 还开源了 62 亿参数的 ChatGLM-6B 模型。根据官方 Blog 显示，ChatGLM-6B 采取跟 GLM-130B 一样的架构与技术，其将参数规格从千亿精简到 62 亿，具有如下特征：

第一，轻量级。结合模型量化技术，ChatGLM-6B 参数大幅精简，INT4 量化级别下最低只需 6GB 显存，支持在单张消费级显卡上进行本地部署，部署门槛与推理成本大幅降低。

第二，中英双语对话。进行了充分的中英双语预训练，经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等训练方式，它更能对齐人类意图，进而拥有不错的智能表现。

第三，国产自主。GLM-130B 对国产信控生态有较好的支持，可在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。ChatGLM-6B 作为国产自主的轻量级大模型也支持信控平台，可助力我国 AI 技术特别是大模型自主化。

截至目前 ChatGPT、文心一言、通义千问的体验门槛都很高，而 ChatGLM-6B 支持公众体验（http://open.bigmodel.ai/trialcenter），简单注册后，我体验了一下它的能力。对近期 AI 型圈沸沸扬扬的口水战，它回答得很得体：

我打算做一个华为最新折叠屏手机 Mate X3 的评测，让 ChatGLM-6B 帮忙写一个提纲，结果中规中矩，思路没问题：写诗这样的常规任务不在话下：商业文案创作比如取名、想广告词都可以做，" 喝蜜雪，不舔盖 "，很有创意了：体验中大部分时候 ChatGLM-6B 的表现相比 ChatGPT、文心一言、通义千问并不逊色，考虑到它是一个只有 62 亿参数的 " 轻量版 " 大模型，哪怕 " 逊色 " 也都可以原谅了。特别值得一提的是，智谱 AI 针对取标题、写文章等不同场景进行了调优，让它在满足对应 AIGC 需求时有更出色的表现：ChatGLM-6B 的参数规格只有 62 亿，因此也存在一些不容回避的问题，比如在面对许多事实性知识任务时可能会生成不正确的信息，不擅长逻辑类问题（如数学、编程）的解答，对多轮对话的支持很一般。

要真正拥有人的智商，AI 大模型依然任重道远。AI 大模型的完整称呼是 "AI 预训练大模型 "，" 预训练 " 的字面意思很容易理解：预先训练好，这样应用开发者可得到相对现成的训练结果，基于此直接开发 AI 应用，不再需要从 0 到 1 训练数据、建立模型。它通过堆叠数据集 " 贪婪式 " 地训练模式，拥有较强的通用性，理论上可泛化到多种应用场景，而小样本或零样本的技术实现，则可让应用开发者快速基于其构建工程应用。

显而易见，ChatGLM-6B 的出现体现出了大模型预训练与泛化通用的精髓，它的理念是 " 有舍才有得 "，弱化一些能力，但降低了部署门槛，让开发者、研究者在本地计算机上进行大模型的微调、部署、训练成了可能，进而可更好地支持大模型落地到海量场景。

在前几天的一次公开活动上，智谱 AI CEO 张鹏曾表达一个观点，"AIGC 产业基座是预训练大模型，原因在于两个方面：第一、通用泛化能力，为 AI 研发降本增效，这是非常关键的特性；第二，融入更多知识，让大模型能更好模拟人的智能。但与此同时也面临着一些挑战，比如成本高昂、训练数据巨大，周期长等。"ChatGLM-6B 的开源正是智谱 AI 实现通用泛化、降低 AI 研发门槛与成本的实践。

ChatGLM-6B 让大模型技术 " 人人可用 "

ChatGLM-6B 通过轻量化的模式实现大模型的通用泛化，解决了大模型 " 高不可攀 " 这一开发者的痛点。在日益蓬勃的大模型产业中，有着独特占位的 ChatGLM-6B 将在 AI 技术普惠中扮演重要角色。具体来说，它将给大模型产业带来如下好处：

1、降低大模型使用门槛。更多开发者可轻松部署大模型，一方面， ChatGLM-6B 是开源的，开发者可深入大模型底层一探究竟，只有搞清楚大模型的运转机制才能更好地利用好大模型技术。另一方面，开发者可基于 ChatGLM-6B 进行上层应用创新，开发出我们今天想都想不到的创新 AI 应用，在工业化阶段再切换到 GLM-130B 这样的千亿级大模型上。

2、降低大模型的训练成本。大模型训练成本高昂且耗能，基于开源的 ChatGLM-6B，开发者不再需要搭建庞大的算力体系，在训练推理时也不需要耗费惊人的电力资源、所需时间周期将大幅缩短，进而更高效、低碳、经济地应用大模型技术，加速 AI 工业化大生产。

3、有利于大模型的教育普及。乔布斯当年曾说人人都要会编程，未来人人则要学会使用 AI 工具。在教育场景，计算机相关专业的大学生以及对编程有兴趣的青少年，只要有一台搭载显卡的计算机就能轻松地部署 ChatGLM-6B，可以尽早了解并学会应用大模型这一基础技术。

个人觉得，"ChatGLM-6B+GLM-130B" 的组合模式给 AI 大模型产业落地提供了一个新的范式：轻量级大模型扮演普惠的角色，让更多人轻松 " 入门 "，学习、理解、熟悉大模型技术，进行创新应用的开发、验证、测试等。到了应用阶段，如有必要再使用 GLM-130B 这样的千亿级工业化大模型部署产品，面向客户与用户提供商业化服务。

写在最后：

AI 大模型技术掀起新一轮产业革命，人类社会的生产力、生产资料与生产关系都将被重新定义，人们的生活与工作方式、企业的经营模式以及社会的治理方式都在被重构。在这样的大变局下，AI 大模型已成为 " 国之重器 "。

在技术浪潮涌来时，国际形势正波诡云谲，大国竞争日益激烈，科技是核心角力场，不论是十四五规划纲要还是二十大均明确要增强科技创新引领作用，实现高水平科技自立自强。在这样的时代背景下，大模型成了跟芯片一样的制高点，我国必须要有自己的底层大模型技术，更需要有自己的完整的大模型应用与产业生态。

这几天，王小川与百度的口水战在大模型行业引发热议，其实争论 " 我国大模型距离 ChatGPT 的差距究竟是 2 个月还是 2 年 " 没什么意义，我国大模型技术距离 GPT 还有客观的差距，推动大模型技术精进和产业落地，是大模型玩家们的责任，行业更需要 ChatGLM-6B 这样的可落地的解决方案，它大幅降低了 AI 开发门槛，未来还可结合低代码等技术实现 " 人人都会大模型开发 "，这才是 AI 大模型技术普惠的必经之路，也是我国 AI 大模型实现赶超的关键。

在官方博客上，ChatGLM 团队有一段朴素的文字：

" 我们一直在探索、尝试和努力，GLM 系列模型取得了一丝进展，但我们离国际顶尖大模型研究和产品（比如 OpenAI 的 ChatGPT 及下一代 GPT 模型）都还有明显差距。中国大模型研究在原创算法、AI 芯片和产业上的追赶与突破需要大家的一起努力，更需要我们对下一代 AI 人才的培养与锻炼。很幸运的是，GLM 团队在过去几年探索的过程中，有一群有情怀、有能力、有格局的年轻人加入我们并肩作战，快乐开卷，大家一起焦虑，一起熬夜，一起成长，一起创造。通用人工智能探索，我们一直在路上，努力前行。"

我觉得还是很扎心的。大模型热潮中，浑水摸鱼、蹭热点、搞炒作的玩家不少，但也有一些脚踏实地的团队正在研发大模型技术，想方设法在推动大模型落地，只争朝夕地追赶先行者，他们，值得被尊敬。

世界快报:大模型掀起诸神之战，我们更需要人人可用的“普惠模型”

相关阅读

相关阅读

精彩推荐

阅读排行

精彩推送

推荐阅读