基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界看热讯
2023-06-22 14:23:08来源:ZAKER科技
机器之心报道
编辑:马梓文
本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。
(相关资料图)
随着大型语言模型(LLM)在使用和部署方面的不断增加,打开黑箱并了解它们的内部工作原理变得越来越重要。更好地理解这些模型是如何做出决策的,这对改进模型和减轻其故障(如幻觉或推理错误)至关重要。
众所周知,最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习能力通常归功于 Transformer 架构,特别是自注意力块的使用,其能够仔细选择输入序列,进而推理出可信的下一个 token。此外,预测可能需要全局知识,如语法规则或一般事实,这些可能不会出现在上下文中,需要存储在模型中。
我们不禁会疑问,为什么基于 Transformer 的模型非常擅长使用它们的上下文来预测新的 token,这种能力是如何在训练中产生的?带着这些问题,来自 Meta AI 的研究者进行了深入的研究。他们通过研究合成设置下 Transformer 的学习机制,揭示了其全局和上下文学习的平衡,并将权重矩阵解释为联想记忆,为理解和优化 Transformer 提供了基础。
论文地址:https://arxiv.org/pdf/2306.00802.pdf首先要了解的是在训练过程中 Transformer 是如何发现这些能力的。为此,该研究引入了一个合成数据集,该数据集由二元语言模型生成的序列组成。然后,模型需要依靠上下文学习来对特定的二元序列进行良好的预测,而全局二元可以根据当前 token 的全局统计数据进行猜测。虽然单层的 Transformer 无法可靠地预测上下文二元,但该研究发现通过开发感应头(induction head)机制的双层 Transformer 取得了成功,即拥有两个注意力头的 circuit,其允许 Transformer 从上下文 [ , a, b,, a ] 中预测 b,并且在 Transformer 语言模型中似乎无处不在。这种感应头(induction head)机制在 Transformer 语言模型中是普遍存在的,并且取得了成功。
更进一步的,为了更好的了解上下文机制是怎样出现在训练过程中的,该研究在随机初始化时冻结了一些层(包括嵌入和值矩阵)来进一步简化模型架构。这样一来研究重点转移到注意力和前馈机制,同时避免了学习表征的困难。与此同时,这种简化还为单个权重矩阵引入了一个自然模型作为联想记忆。自然模型可以通过它们的外积存储输入 - 输出或键 - 值对嵌入。随机高维嵌入由于其接近正交性而特别适合这种观点。
总结而言,该研究的贡献可概括为:
本文引入了一种新的合成设置来研究全局和上下文学习:序列遵循二元语言模型,其中一些二元在序列中变化,而另一些不会。
本文将 Transformer 的权重矩阵视为学习存储特定嵌入对的联想记忆,并以此为任务推导出一个简化但更可解释的模型。
本文对训练动态进行了细致的实证研究:首先学习全局二元,然后以自上而下的方式学习适当的记忆,形成感应头。
本文给出了训练动力学的理论见解,展示了如何通过在噪声输入中找到信号,在种群损失上进行一些自上而下的梯度步骤来恢复所需的联想记忆。
方法介绍
接着该研究介绍了合成数据设置,这样能够仔细研究感应头机制在训练过程中的发展以及 Transformer 如何学习利用上下文信息的。
双元数据模型:模型序列由一个通用的双元语言模型(即马尔可夫链)组成,每个序列的生成方式如下:
下图 2 可视化了测试序列上的注意力图,这表明该模型已经学习了感应头机制。接着该研究介绍了 Transformer 联想记忆观点:因为几乎正交的嵌入,权重矩阵表现为联想记忆,将成对的嵌入存储为其外积的加权和。研究引入了一个具有固定随机嵌入的简化 Transformer 模型,将用这种想法产生对学习动力学的精确理解。此外,该研究提出了一个有用的观点,将 Transformer 中的模型权重视为高维嵌入向量的联想记忆。感应头机制可以通过以下外积矩阵作为记忆来获得,而其他所有权重则固定为随机初始化状态:
实验图 3 研究了在迭代 300 次之前冻结不同层对训练动态的影响。
全局 vs 上下文学习。从图 4(左 / 右)可以看出,当联合训练所有层时,全局二元统计的学习速度往往比感应头更快,这可以从早期迭代中的 loss 和 KL 的快速下降中看出。此外,从图 4(左)中看到,数据分布的变化会对上下文机制的学习速度产生重大影响。该研究观察到以下情况可能会使上下文学习减慢: ( i ) 较少数量的触发器 K, ( ii ) 仅使用少有的固定触发器,以及 ( iii ) 使用随机触发器而不是固定触发器。
该研究还在图 4(中间)中显示,在训练时将输出 token 分布更改为二元分布会降低准确率,这表明,使用更多样化的训练分布可以产生具有更好泛化准确率的模型,并且只需少量的额外训练成本。
更多研究内容,请参考原论文。THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
相关阅读
-
基于 Transformer 的大模型是如何运行的?Meta 从全局和上下文学习揭秘|世界看热讯
机器之心报道编辑:马梓文本文旨在更好地理解基于Transformer的大型语
-
ResponsibleTA 提升 LLM 可靠性,任务完成更安全、更高效 即时看
机器之心专栏机器之心编辑部AI智能助手照进现实。近几个月,ChatGPT、G
-
大地震下如何存活,苹果三份 1986 年文档公开(附下载地址)_即时看
IT之家6月22日消息,苹果公司在主推iPhone和Mac的过程中,也制造了很多
-
信息:佳能即将发布 V100 相机,主打 vlog 市场?
根据网络上的最新传闻,佳能即将扩展其V系列视频记录相机。目前产品线
-
小长假第1天,A股迎来2个利好!节后的方向定了?|新动态
行情,没有好坏,只有节奏,不要盯着大盘指数了,虽然我知道大多数人都
-
端午临近 市场消费升温
传统习俗带动端午花束热卖,用艾草叶、玉簪叶、菖蒲叶等组成的装饰花、
-
【世界新视野】氢稳富氢水杯 H1 华为商城开启众测 快速科技制氢
【宅秘新闻】近日,氢稳富氢水杯H1在华为商城开启众测活动,正式发售价
-
环球速讯:内地买家搅动香港楼市,冯小刚离场净赚 6000 万港元,豪宅成交量大涨
本文来源:时代财经作者:林心林内地豪客再次搅动了香港楼市。图片来源
-
全球今热点:全国首部渐冻人康复系列片之《言语障碍康复》在崇川首发
交汇点讯6月16日下午,凝聚了崇川区幸福街道暖“冻”爱心联盟所有成员
-
针对中国,一场“疯狂骗局”在澳上演
在政府、右翼智库、军火工业和操纵公众思维的媒体的共同压制下,异见声
-
iPhone SE 4 遥遥无期,平价 5G 苹果手机或绝迹?_今热点
巴克莱银行分析师布莱恩柯蒂斯(BlayneCurtis)和汤姆奥马利(TomO & 039;Malle
-
聚焦:白色手机消失了?安啦,数量不多,但还是有的
手机的配色越来越丰富,各种颜色和材质的搭配让手机变得更加个性化和时
-
诺兰专访:AI 不是原子弹,但将其捧上神坛最危险
这可能是英国著名导演克里斯托弗·诺兰,发布新片最好的时机,没有之一
-
河北格力旗舰店 618 盛大开业 充分展现了渠道改革下的市场活力-今日观点
关注雷科技(leitech),这里有深扒爆料,这里有酷玩评测,还有良心家电I
-
天天新动态:特斯拉的美国友商们入华,会被中国新势力“卷”回老家吗?
图片来源@视觉中国文|电车通瘦田无人耕,耕开有人争。继本月初曝出美国
-
每日资讯:只买百万医疗险有意义吗?一年交多少钱?
有意义。虽然百万医疗险在提供医疗保障方面具有一定的价值,够买百万医
-
团体意外险怎么购买?多少钱?
购买团体意外险通常需要以下几个步骤:选择保险公司:首先,您需要选择
-
扎克伯格不服马斯克嘲讽,两大科技领袖将上演笼斗大戏|消息
IT之家6月22日消息,在埃隆马斯克最近在推特上发文说他愿意和扎克伯格
-
微软确认 Xbox Series X 和 XGP 订阅服务即将涨价
钛媒体App6月22日消息,当地时间周三,微软全球传播主管KariPerez在向
-
对话蓝晶微生物:科学家建工厂,要做 game changer 就别无选择
访、文|凌梓郡卫诗婕编辑|卫诗婕江苏盐城滨海区矗立着高大的白色风车
-
推特恢复向谷歌支付云服务费用 每日速讯
钛媒体App6月22日消息,据市场消息,推特已经恢复向谷歌云支付服务费用
-
高盛上调日本股市目标位,预计半年度财报可能有惊喜 热资讯
高盛上调日本股市目标位,称对于日本企业改革的预期以及相对于海外市场
-
全球热讯:苹果宣布推出 visionOS 软件开发包,开发者下月可在 Vision Pro 硬件上测试 app
苹果公司北京时间6月22日宣布推出visionOS软件开发包(SDK),支持开发
-
视焦点讯!微软在香港正式推出 Bing 聊天机器人
6月22日,据《香港经济日报》报道,微软在香港正式推出Bing聊天机器人
-
美股牛市不稳?高盛:若美经济步入衰退 标普 500 料大跌 23%|全球滚动
财联社6月22日讯(编辑黄君芝)高盛(GoldmanSachs)在最新报告中表示
-
《秀我中国 | 新时代中国乡村志(第四集):千年梯田 十年新生》
松花江网,是经国家互联网信息办公室批准的国家一类新闻网站,吉林省重
-
华贵人寿保险可信吗?怎么买? 天天时讯
可信。监管合规性:华贵人寿保险严格遵守监管机构的规章制度,按照法律
-
增额终身寿险定义是什么?有什么用?-焦点观察
增额终身寿险是一种寿险,它与传统的终身寿险相比,在保障的基础上增加
-
太平百万医疗优缺点有哪些?一年交多少钱?-环球速讯
优点:全面保障:太平百万医疗保险提供了全面的医疗保障,覆盖住院医疗
-
环球看热讯:泰康健康有约终身重大疾病保险H款怎么样?靠谱吗?
泰康健康有约终身重大疾病保险H款是一款特定类型的重大疾病保险产品。
精彩推荐
阅读排行
精彩推送
- 商业意外险的赔偿范围有哪些?一...
- 天玑曲面屏之王!vivo X90s 上...
- 谷歌幽默新广告嘲笑 iPhone 过...
- 全球球精选!保护中国海外投资利...
- 天天信息:贾跃亭发文致歉!
- 天天快资讯丨微软在香港正式推出...
- “超市界海底捞”董事长宣布退休...
- 高新区召开危化品重大事故隐患专...
- 每日消息!美国文学亨利詹姆斯课...
- 最新:百万医疗保险购买流程是什...
- 速讯:泰康人寿逸安卫年金险亮点...
- 平安百万医疗电话是多少?电话投...
- 福禄康瑞2018重疾险20年后可以拿...
- 世界速读:国寿康宁终身重大疾病...
- 周浩 在创新路上奋勇前行
- 今日播报!电力微网格织出居民“...
- 世界最资讯丨端午出游好去处,OP...
- 环球热点!通用机器人里程碑?谷...
- 通讯!中国柔性 OLED 市占首超...
- 福特 CEO 嘲讽特斯拉 Cybertr...
- 三年亏损 614 亿,东航“玩不...
- 理想吹响城市 NOA 号角:激光...
- 共享按摩椅,我一秒钟都不想坐|...
- 每日看点!华为爆出大动作!将有...
- “中国天眼”发现迄今轨道周期最...
- 哪种百万医疗险保证续保?续保流...
- 泰康人寿逸安卫有什么投保规则?...
- tomo放疗百万医疗可以报销吗?百...
- 少儿百万医疗保险推荐?有必要买...
- 每日资讯:水滴百万医疗险保障范...