区块链是开启人工智能大时代的关键变量
2023-06-27 09:24:36来源:ZAKER科技
AI 大模型时代或已走向终局,前路未知
(资料图)
2022 年 11 月 30 日,人工智能公司 OpenAI 推出了 AI 聊天机器人 ChatGPT,在短短两个月的时间里,活跃用户数突破一亿,成为史上用户数增长最快的消费级应用。ChatGPT 成功背后是 OpenAI 训练的 1750 亿参数模型 GPT-3。一时间 AI 大模型迅速成为时代焦点,微软百亿美元投资 OpenAI,谷歌、特斯拉、百度、阿里、小米等国内外互联网巨头在几个月的时间内纷纷推出自己的 AI 大模型,OpenAI 迅速迭代出 GPT-4,几乎每个月都至少有一家科技大公司入局训练大模型,人工智能成为当前最炙手可热的赛道。
然而就在这样一个市场狂欢、科技巨头纷纷 " 走火入模 " 的时刻,AI 大模型的领军者,OpenAI,却给市场浇了一盆冷水。2023 年 4 月 18 日在麻省理工学院的活动中,OpenAI 的 CEO Sam Altman 在演讲中警告称:"我们已经处在大模型时代的尾声",并表示如今的 AIGC 发展中,将数据模型进一步做大,塞进更多数据的方式,已经是目前人工智能发展中最后一项重大进展,并且还声称目前还不清楚未来的发展方向何去何从。
如果抛开过热的市场预期和浮躁的跟风模仿去分析问题的本质,Altman 对未来 AI 的发展方向是清晰而准确的。其说法侧面道出了 OpenAI 乃至整个 AI 赛道参与者目前所面临的现实困境:
1. 可用数据枯竭带来的数据瓶颈
OpenAI 最早的语言模式是 GPT-2,于 2019 年公布,发布时就有 15 亿参数,此后随着 OpenAI 研究人员发现扩大模型参数数量能有效提升模型完善程度,真正引爆 AI 行业浪潮的 GPT-3.5 发布时,参数数量已经达到了 1750 亿。但人类互联网历史上被保留下来的各种高质量语料,已经在 GPT-3 以及后续发布的 GPT-4 的学习中被消耗殆尽。大模型参数数量仍然可以继续膨胀下去,但对应数量的高质量数据却越来越稀缺,因此增长参数数量带来的边际效益愈发降低。
2. 算力爆炸导致边际收益递减带来的经济效益瓶颈
AI 三大核心要素是数据、算法和算力,而算力的发展是最为迅速的一环。2020 年 OpenAI 就发布分析报告,从 2012 年开始,AI 训练所用的计算量呈现指数增长,平均每 3.43 个月便会翻倍,远高于摩尔定律的 18 个月翻倍的速度。大模型正是在这一背景下诞生的。依托飞速发展的算力,简单粗暴地堆砌参数是提升模型能效的捷径。机器学习先驱 Richard S. Sutton 著名的文章《苦涩的教训》里开篇就曾说道:"70 年的人工智能研究史告诉我们,充分利用计算能力的一般方法最终是最有效的方法。"OpenAI 秉承这一简单甚至原始的理念,3 年内将模型参数从 15 亿(在当时这已经是一个天文数字)提高到 1750 亿,足足拉高了 116 倍。
参数的爆炸式增长带来的直接后果就是模型成本的指数级上升。2019 年以前,人工智能还是个百家争鸣的大众赛道,而大模型带来的投入成本门槛迅速把这个赛道变成了资本聚集、大厂统治的游戏。据业界估计,GPT-3 仅训练一次的费用就高达 500 万美元,行业估计 GPT-4 的研发加运营成本突破数亿美元。
在如此高昂的成本之下,AI 如何商业化落地成为业界难题。尽管 GPT-4 已经表现出了较高的智能化水平,但其局限性也很明显。支持大规模商业化应用所需要的是 GPT-X,即模型的场景化和快速更新。面对极度高昂的训练成本,难以形成充分的市场化竞争,类似 OpenAI 这样的市场寡头也面临投入成本边际效应递减严重的问题,缺乏持续研发迭代的经济激励。这正是 Altman 所说的 " 大模型已至终局 " 而前路未知的根本原因。3. 数据合规、隐私保护、AI 伦理层面的风险不确定
AI 的道德风险始终是行业发展中不可规避的话题。在 GPT-4 发布几日内,特斯拉首席执行官埃隆 · 马斯克在内的 1748 人签署公开信,呼吁暂停训练比 GPT-4 更强大的人工智能系统至少 6 个月,以评估潜在的 AI 道德风险。与此同时,专注于人工智能技术伦理的 AI 和数字政策中心(CAIDP)要求美国联邦贸易委员会(FTC)调查 OpenAI 是否违反了消费者保护规则,认为其推出的 AI 文本生成工具 " 存在偏见、具有欺骗性,并且对公共安全构成风险 "。3 月 31 日,意大利国家隐私监管机构正式下令封禁 ChatGPT,并指控 OpenAI「非法收集个人数据」。值得注意的是,该「临时禁令」将一直生效,直到 OpenAI 能够尊重欧盟具有里程碑意义的隐私法——通用数据保护条例(GDPR)。
基于价值互联网的 AI 新时代三范式
当一项颠覆性技术陷入瓶颈期时,往往需要另一项更加具有颠覆性的技术的介入来突破瓶颈。区块链技术和人工智能作为 21 世纪数字化技术突破的代表,一直处于平行发展但偶尔交叉的状态。关于区块链与人工智能的结合业界多有讨论,但大多只停留在表层,例如区块链为 AI 提供分布式数据治理,AI 为区块链提供智能化自动执行工具。但随着两项技术的快速迭代发展,各自领域均不断涌现出突破性应用,二者结合所带来的想象空间其实是被远远低估的。
在应用层面,区块链技术发展的速度要远远领先于人工智能。它所创造出的最辉煌应用,就是 Web3。
Web3 是下一代价值互联网由区块链特有的激励机制打造的数字资产应用为 Web3 赋予万亿美元经济价值,成为数字时代的新经济体。Web3 是数据所有权的变革,而数据要素是 AI 的核心生产力。这一内生联系使区块链和人工智能产生了巨大的交互空间,而这交互的核心就是数据要素化。数据要素化包含确权、加工和共享三个核心环节,在数据确权层面,区块链提供用户与建设者拥有并信任的互联网基础设施;在数据加工层面,区块链构建安全可信的价值互联网;在数据共享层面,区块链创造用户与建设者共建共享的新型经济系统。以数据为核心,区块链可为 AI 发展提供技术底座、经济模型和商业化场景。在此我们提出基于价值互联网的 AI 新时代三范式:
(一)支撑 AI 生产力的是去中心化数据基础设施
数据是数字时代的生产要素,也是 AI 的核心生产力。OpenAI 发布 ChatGPT 之后,百度迅速发布 " 文心一言 ",但对比之下效果却不甚理想。很多人说原因是 GPT 的语料库是全球互联网,而 " 文心一言 " 的是百度知道和百度贴吧。这当然是言过其实的调侃,但深思其背后的逻辑却是成立的,即大模型的成功依赖于数据来源的广度和开放度。仅从一两个平台获取数据进行训练,必然只会做出有 " 偏见 " 的模型。
ChatGPT 在这一点上做得很好,依靠互联网的开放度尽可能多地收集了数据,但其主要来源仍然是中心化的数据平台,这也是 Web2 互联网范式下的数据困境,它会在数据应用层面带来两大问题:
1. 数据源枯竭
依赖中心化平台所产生的数据无法保证有稳定持续的数据源来训练升级模型。Altman 提到的互联网语料已被 GPT 穷尽只是问题的冰山一角。更严重的问题是,缺少数据激励会导致新的优质数据越来越少,甚至出现 AI 无数据可用的问题。
让我们想象这样一个场景。如果说 ChatGPT 逐渐完善成为唯一的知识平台,Quora、Stackoverflow、知乎等一众知识平台必将失去生存空间,而它们却又是 ChatGPT 训练的主要数据来源,那未来的 ChatGPT 又要用什么数据来训练呢?
2. 数据质量低下
对于 AI 来说,平台有自己的应用场景,不会考虑 AI 训练的需求。平台不会对所谓的 " 数据质量 " 做审核,例如知乎上分享的不一定是知识,也可能是刚编的故事。同时根据不同平台的使用人群不同还会产生内容偏见。这也是为什么 ChatGPT 经常会给出一些明显错误甚至荒谬的回答。
以上问题的核心是平台数据并没有完成数据要素化。用户作为数据的生产者无法对数据进行确权,导致数据全部归平台所有;平台作为数据的加工者缺乏激励,不会对数据进行应有的加工;模型公司作为数据的使用者与数据生产加工环节严重割裂。而去中心化数据基础设施正是这些问题的解决方案。在《区块链托管重塑数据要素权益分配机制》一文中,我们提到了 Web3 是数据要素革命,是数据主权的 " 还数于民 "。在 AI 新时代里,去中心化数据基础设施将为 AI 模型提供全生命周期数据解决方案,包括:
1)数据确权:用户数据通过自主数字身份确权,数据生产者直接参与模型建设周期并获得对等激励;
2)数据加工:数据加工者(例如模型数据标注、数据质量评价)通过去中心化数据基础设施参与模型建设并获得对等激励;
3)数据共享:数据生产者通过去中心化数据托管共享数据给数据使用者(例如建模公司),建模公司可以通过智能合约自动化数据获取和建模流程,实现快速模型升级。
(二)支撑 AI 商业化的是 DataFi
Web3 的成功在于区块链技术所提供的优秀激励模型和可持续的经济系统。去中心化金融(DeFi)已经创造出了繁荣的数字经济生态和万亿美元的市场价值,以数据资产为核心的数据金融(DataFi)将成为支撑 AI 商业化的全新商业模式。
在 DataFi 中,数据作为生产要素会实现通证化。数据的产生、加工、存储和使用都会依照去中心化经济模型自主产生或消耗数据资产通证。数据循环会被充分激励并产生净价值。AI 模型的全生命周期都会以一种更加分布式的形式呈现,包括去中心化算力供应商、去中心化数据标注和基于去中心化数据基础设施的数据托管服务商。模型训练不再具有高门槛。
在 DataFi 中,数据通证会创造出以数据资产为核心的衍生品交易市场。AI 生态参与方可以充分挖掘自身的数据价值或服务价值,参与以数据资产为核心的金融衍生品交易、质押、抵押贷款等创新金融服务。数据资产的使用效率得到充分释放。
(三)支撑 AI 规范性的是分布式数字身份
除了上文提到的数据确权,分布式数字身份也将成为支撑 AI 合规发展的关键监管技术。分布式数字身份为用户赋予了数据自主权,打破数据控制者对数据的天然垄断,也提升了用户在算法面前的自主权。在 AI 新时代中,分布式数字身份包含三个主要应用场景:
1. 用户分布式数字身份
用户通过分布式数字身份参与 AI 构建周期,通过数据确权和自主数据主权保护数据隐私,并实现对等数据激励。在合规层面,通过分布式数字身份为用户提供了 100% 的数据主权,用户对自己的隐私数据拥有完全控制权,能够自主决定数据的披露对象和使用场景,并且结合零知识证明等技术,实现最小化隐私披露,天然符合《数据安全法》《个保法》的相关规定。通过将个人作为数据共享的载体,是《个保法》中个人信息可携带权的体现,结合自主身份使得个人数据可以遵从本人意愿向数据使用方(例如建模公司),严格符合 GDPR 等国际数据共享法律法规。
2. 模型分布式数字身份
在 AI 新时代中,模型独立且唯一的数字身份。用户可以通过数字身份像选择商品一样选择模型,并且通过模型数字身份解决使用量证明、版权纠纷和版本管理等问题。
3. 数字人和 AIGC 分布式数字身份
对于 AI 构建出来的实体(例如数字人)颁发唯一数字身份,并在法律层面规范其标准与权利范围,实现 AI 的合规和可控。
基于分布式技术的强 AI 时代蓝图
理查德 · 费曼(Richard Feynman)在 1985 年的一次讲座中第一次提出了 " 强人工智能 " 的概念,为我们描绘了一个全知全能的 AI 时代。后世人们不断讨论这个概念,但对强 AI 的具体定义和未来图景众说纷纭。斯蒂芬 · 霍金将强 AI 称为对人类的最大威胁,马斯克称研究强 AI 就是在 " 召唤魔鬼 ",但人类仍然对它趋之若鹜。有人说是因为结束人工智能研究则意味着放弃了改善人类状况的机会,也就是使人类文明更加美好或者维持下去的机会。那么如果采用了区块链技术,强 AI 时代蓝图会有什么不同?
强 AI 时代不是指一个全知全能的 AI 出现,而是无数个 AI 的产业大繁荣。区块链使产业高度去中心化,每一个个人都可以同时成为模型的使用者和训练方。每一个模型都拥有自己的数字身份,高度智能也相互独立。模型的使用场景高度细化,使用方式由智能合约定义。
强 AI 时代模型训练成本极低而迭代速度极快。通过去中心化网络串联模型全生命周期参与方,数据使用效率达到极致。在很多业务场景,模型可以根据实时业务需求实现毫秒级生成和毫秒级迭代,一次性模型成为可能," 模型流 " 成为模型主流应用方式。
强 AI 时代控制权通过数据绑定在人类手中。Web3 实现数据自主拥有,AI 可以自迭代算法,但数据所有权牢牢掌握在人类手中。"AI 控制人类 " 的末世传说不会实现。
本文系未央网专栏作者 :汪德嘉 发表,内容属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
责任编辑:hnmd003
相关阅读
相关阅读
-
区块链是开启人工智能大时代的关键变量
AI大模型时代或已走向终局,前路未知2022年11月30日,人工智能公司Open
-
拆解报告:HONOR 荣耀 100W 超级快充充电器 HN-200500C05
前言本次拆解的是一款荣耀的100W超级快充充电器,这款充电器为白色机身
-
每日讯息!普里戈任发表录音讲话:瓦格纳7月1日停止运作
俄罗斯雇佣兵组织瓦格纳集团(WagnerGroup)首脑普里戈任(YevgenyPrig
-
极兔,只用一天跻身中国快递前五 快播
作者|Eastland头图|ICphoto2023年6月16日,港交所官网披露了极兔速递
-
即将消失的匿名社交
图片来源:视觉中国知乎与亿欧创始人黄渊普的纠纷折射出匿名社交的困境
-
北京体育局发警示提醒,为孩子暑期校外体育培训支招
为保障孩子们度过一个安全愉快的暑假,2023年6月21日,北京市体育局发
-
天天速讯:西藏开展青少年禁毒实践教育体验进校园活动
在“6·26”国际禁毒日之际,由共青团西藏自治区委员会主办,西藏青少
-
西藏羌塘野生动物乐园 藏羚羊悠然自得
近日,在羌塘国家级自然保护区那曲片区,野保员在巡逻中,用第一视角记
-
世界微速讯:西藏普通高等学校招生录取最低控制分数线公布 对成绩有异议 可于6月28日18:30前申请复查
6月26日,记者从西藏自治区教育考试院获悉,经自治区招生考试委员会6月
-
西藏山南市交通运输事业发展亮点纷呈:大道纵横天地阔-天天最新
国道219隆子机场改线工程建成通车,国道349线和省道509线大中修工程全
-
半年线是多少天?半年线年线怎么显示出来?
半年线是多少天?半年线是指120天线。是按照股市120个交易日收盘点数相加的总和除于120而来。在日常观察K...
-
建行手机银行怎么转账?建行手机银行一天可以转账多少钱?
建行手机银行怎么转账?首先打开建行手机客户端,登录账号。点击转账汇款。选择我要转账。输入收款户名、...
-
个人所得税可以抵扣房贷吗?多少工资要交个人所得税?
一、多少工资要交个人所得税个人所得税的起征点是5000元,如果个人收入超过5000元就要缴纳个人所得税。...
-
大宗交易制会为市场带来哪些方便?为什么会有大宗交易制度?
大宗交易,又称为大宗买卖。一般是指交易规模,包括交易的数量和金额都非常大,远远超过市场的平均交易规...
-
媒体:高考满屏高分是错觉和误导!高考满分多少分?
媒体:高考满屏高分是错觉和误导!又到高考放榜时,各种查分短视频再度刷屏。冲上热搜的可谓个个高分,700...
-
三无产品赔偿标准是怎样的?产品质量法第五十四条规定内容是什么?
一、什么是三无产品(三)无产品一般是指无生产日期、无质量合格证以及无生产厂家,来路不明的产品。另一...
-
中华人民共和国宪法第三条的内容是什么?中华人民共和国的一切权力属于人民
我国制定宪法的主体是人民,因为中华人民共和国的一切权力属于人民。全体人民享有制宪权,是制宪主体,...
-
持仓均价是什么意思?持仓均价怎么计算?
持仓均价是什么意思?持仓均价是指投资者前一日持有的投资品种的结算价,也就是投资者前一交易日持有的投...
-
什么国际贸易术语?贸易术语在国际贸易中起着积极的作用主要表现在哪几个方面?
国际贸易术语可以划分为13种,分别是工厂交货(EXW)、货交承运人(FCA)、船边交货(FAS)、船上交货(FOB)、...
-
淘宝车险怎么买?在淘宝上买车险靠谱吗?
淘宝车险怎么买?点击淘宝平台。找到登陆口,进行登陆操作。找到登陆口后,输入淘宝账号 与密码,点击登陆,...
-
应税车辆的计税价格按照哪些规定确定?车辆购置税的免税、减税的范围是什么?
一、购置税如何计算,计算方式有哪些购置税的计算:汽车购置税的计算公式是:应纳税额=计税价格×...
-
从有序用电到负荷管理 发生了什么?_当前播报
从有序用电到负荷管理发生了什么?上月,国家发改委同时印发了两份管理
-
大盘怎么看?大盘是谁操作的涨跌?
大盘怎么看?1 上证指数前面我们说了,看大盘,必看上证指数,上证指数我们主要利用技术分析进行判断,...
-
年假的计算方法和时间怎样的?带薪休假的享有范围是什么?
一、年假的计算方法和时间是怎样的(一)年假的计算从请假的当日起算,不包含节假日。(二)年假的时间:1、...
-
如何购买指数基金?指数基金和ETF基金区别
如何购买指数基金?①选择标的指数:目前我国可供参照的指数主要有上证指数,深证成指,上证180指数,上...
-
三种利率的换算公式是什么?年利率一般是怎么计算的?
年利率一般指的是一年的存款利率表或者贷款利率。其中年利率会牵涉到一个利息率的问题,而这个利息率就...
-
以年为计息周期进行计算的利息是什么?年利率和年化收益的区别和联系是什么?
年利率是以年为计息周期进行计算的利息,简单理解就是指一年的存款利率。年利率、月利率和日利率相互之...
-
银证转帐有限额吗?银证转帐时间
银证转帐有限额吗?没有,银证转账是通过绑定的银行卡进行转账的,当天转入的当天可以转出,要注意的是当...
-
印花税计税依据是否包含增值税?2019印花税计税金额为多少?
一、印花税的计税依据怎么算按金额比例贴花的应税凭证,未标明金额的,应按照凭证所载数量及国家牌价计...
-
离职原因怎么写?离职申请书怎么写?
一、离职原因怎么写(一)以家庭原因辞职的理由1、家里孩子太小,离不开。2、家里准备盖房子。3、家里庄稼...
精彩推荐
阅读排行
精彩推送
- 怎么办理基金定投?基金定投有手...
- 公司注册的法律依据是什么?企业...
- 工商银行增额终身寿险靠谱吗?如...
- 百万医疗豁免保费什么意思?一般...
- 世界动态:百万医疗得交多少年?...
- 乳腺结节不能买百万医疗吗?买百...
- 百万医疗险如果意外身亡会理赔吗...
- 我国现行宪法有五个修正案具体包...
- 景区回应“乐山大佛被卖”!乐山...
- 微速讯:【国际快讯】特斯拉Q2交...
- 【新要闻】宝沃靠不住,小米要自...
- 时讯:G6向卷而生与小鹏汽车的二...
- 全球关注:本田CR-V插混全系降2...
- 上汽集团官方回应“MG印度公司丧...
- 流动资金是什么意思?流动资金包...
- 农村宅基地的赔偿方式是什么?结...
- 天天新动态:共享单车不文明骑行...
- 护航未成年人成长|市少先队校外...
- 陈鸿福:“画”好城市节水蓝图 ...
- 最爱包头绿
- 青山区开展防汛应急处突演练-世...
- 什么是创业板股票?688和300开头...
- 我怀着孕男方出轨了怎么办?民法...
- 社会保险法第十六条的内容是什么...
- 高速免费通行的时间范围是怎么样...
- 股票底部特征怎么形成的?怎样判...
- 6月26日基金净值:交银经济新动...
- 银行利息税是什么意思?银行利息...
- 长沙同寝两考生成绩被屏蔽!高考...
- 【新要闻】B 站陈睿:将以视频...