此「错」并非真的错:从四篇经典论文入手,理解 Transformer 架构图「错」在何处 环球时讯
2023-06-13 14:22:38来源:ZAKER科技
选自 Ahead of AI
作者:Sebastian Raschka
(资料图片)
机器之心编译
编辑:马梓文
从四篇论文入手,Sebastian 再谈 Transformer 架构图。
前段时间,一条指出谷歌大脑团队论文《Attention Is All You Need》中 Transformer 构架图与代码不一致的推文引发了大量的讨论。
对于 Sebastian 的这一发现,有人认为属于无心之过,但同时也会令人感到奇怪。毕竟,考虑到 Transformer 论文的流行程度,这个不一致问题早就应该被提及 1000 次。
Sebastian Raschka 在回答网友评论时说,「最最原始」的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,但同时没有更新架构图。这也是造成「不一致」讨论的根本原因。
随后,Sebastian 在 Ahead of AI 发布文章专门讲述了为什么最初的 Transformer 构架图与代码不一致,并引用了多篇论文简要说明了 Transformer 的发展变化。
以下为文章原文,让我们一起看看文章到底讲述了什么:几个月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,积极的反馈非常鼓舞人心!因此,我添加了一些论文,以保持列表的新鲜感和相关性。
同时,保持列表简明扼要是至关重要的,这样大家就可以用合理的时间就跟上进度。还有一些论文,信息量很大,想来也应该包括在内。
我想分享四篇有用的论文,从历史的角度来理解 Transformer。虽然我只是直接将它们添加到理解大型语言模型的文章中,但我也在这篇文章中单独来分享它们,以便那些之前已经阅读过理解大型语言模型的人更容易找到它们。
On Layer Normalization in the Transformer Architecture ( 2020 )
虽然下图(左)的 Transformer 原始图(https://arxiv.org/abs/1706.03762)是对原始编码器 - 解码器架构的有用总结,但该图有一个小小的差异。例如,它在残差块之间进行了层归一化,这与原始 Transformer 论文附带的官方 ( 更新后的) 代码实现不匹配。下图(中)所示的变体被称为 Post-LN Transformer。
Transformer 架构论文中的层归一化表明,Pre-LN 工作得更好,可以解决梯度问题,如下所示。许多体系架构在实践中采用了这种方法,但它可能导致表征的崩溃。
因此,虽然仍然有关于使用 Post-LN 或前 Pre-LN 的讨论,也有一篇新论文提出了将两个一起应用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在实践中是否有用还有待观察。
图注:图源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右)Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )
这篇文章推荐给那些对历史花絮和早期方法感兴趣的人,这些方法基本上类似于现代 Transformer。
例如,在比 Transformer 论文早 25 年的 1991 年,Juergen Schmidhuber 提出了一种递归神经网络的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),称为 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一个前馈神经网络,它通过梯度下降缓慢学习,来编程另一个神经网络的快速权值的变化。
这篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 将其与现代 Transformer 进行类比,如下所示 :
在今天的 Transformer 术语中,FROM 和 TO 分别称为键 ( key ) 和值 ( value ) 。应用快速网络的输入称为查询。本质上,查询由快速权重矩阵 ( fast weight matrix ) 处理,它是键和值的外积之和 ( 忽略归一化和投影 ) 。由于两个网络的所有操作都是可微的,我们通过加法外积或二阶张量积获得了端到端可微主动控制的权值快速变化。因此,慢速网络可以通过梯度下降学习,在序列处理期间快速修改快速网络。这在数学上等同于 ( 除了归一化之外 ) 后来被称为具有线性化自注意的 Transformer ( 或线性 Transformer ) 。
正如上文摘录所提到的,这种方法现在被称为线性 Transformer 或具有线性化自注意的 Transformer。它们来自于 2020 年出现在 arXiv 上的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv.org/abs/2009.14794)。
2021 年,论文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明确表明了线性化自注意力和 20 世纪 90 年代的快速权重编程器之间的等价性。
图源:https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2Universal Language Model Fine-tuning for Text Classification ( 2018 )
这是另一篇从历史角度来看非常有趣的论文。它是在原版《Attention Is All You Need》发布一年后写的,并没有涉及 transformer,而是专注于循环神经网络,但它仍然值得关注。因为它有效地提出了预训练语言模型和迁移学习的下游任务。虽然迁移学习已经在计算机视觉中确立,但在自然语言处理 ( NLP ) 领域还没有普及。ULMFit(https://arxiv.org/abs/1801.06146)是首批表明预训练语言模型在特定任务上对其进行微调后,可以在许多 NLP 任务中产生 SOTA 结果的论文之一。
ULMFit 建议的语言模型微调过程分为三个阶段 :
1. 在大量的文本语料库上训练语言模型;
2. 根据任务特定的数据对预训练的语言模型进行微调,使其能够适应文本的特定风格和词汇;
3. 微调特定任务数据上的分类器,通过逐步解冻各层来避免灾难性遗忘。
在大型语料库上训练语言模型,然后在下游任务上对其进行微调的这种方法,是基于 Transformer 的模型和基础模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。
然而,作为 ULMFiT 的关键部分,逐步解冻通常在实践中不进行,因为 Transformer 架构通常一次性对所有层进行微调。
Gopher 是一篇特别好的论文(https://arxiv.org/abs/2112.11446),包括大量的分析来理解 LLM 训练。研究人员在 3000 亿个 token 上训练了一个 80 层的 2800 亿参数模型。其中包括一些有趣的架构修改,比如使用 RMSNorm ( 均方根归一化 ) 而不是 LayerNorm ( 层归一化 ) 。LayerNorm 和 RMSNorm 都优于 BatchNorm,因为它们不局限于批处理大小,也不需要同步,这在批大小较小的分布式设置中是一个优势。RMSNorm 通常被认为在更深的体系架构中会稳定训练。除了上面这些有趣的花絮之外,本文的主要重点是分析不同规模下的任务性能分析。对 152 个不同任务的评估显示,增加模型大小对理解、事实核查和识别有毒语言等任务最有利,而架构扩展对与逻辑和数学推理相关的任务从益处不大。
图注:图源 https://arxiv.org/abs/2112.11446原文链接:https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
-
此「错」并非真的错:从四篇经典论文入手,理解 Transformer 架构图「错」在何处 环球时讯
选自AheadofAI作者:SebastianRaschka机器之心编译编辑:马梓文从四篇
2023-06-13
相关阅读
-
此「错」并非真的错:从四篇经典论文入手,理解 Transformer 架构图「错」在何处 环球时讯
选自AheadofAI作者:SebastianRaschka机器之心编译编辑:马梓文从四篇
-
网上查车辆违章记录的方式是什么?道路交通安全违法行为处理程序规定第十九条是什么?
在网上查到车辆违章的记录的方法:进入浏览器搜索车辆违章记录查询,打开相应网页后,点击查找违章查询...
-
全球今亮点!代理数字人年入百万?真商机还是「割韭菜」
「核心提示」可无限复制的数字人,能给直播间构筑护城河吗?数字人直播
-
速递!一图解码:安凯微开启申购 深耕芯片设计领域 估值逾 190 倍
6月13日,安凯微(688620 SH)开启申购,发行价达10 68元 股,发行市盈率
-
金坤稀土永磁磁铁助力三星 Galaxy Z Fold3 折叠屏手机实现稳定固定和任意角度旋停
磁铁是一种可以吸引金属的磁石,在我们的日常生活中多用于吸附固定,另
-
创新引领未来,安保迪 HID 荣获两项行业大奖
深耕行业多年,安保迪HID与时俱进、锐意创新。在此,十分荣幸地与您分
-
Neuralink 估值 355 亿,脑机接口没有第二个“马斯克” 环球快看点
(图片来源:mixed-news)脑机接口技术又重新火爆了起来。埃隆·马斯克
-
买房送奔驰 中介转诈骗!韩国房地产市场愈发狰狞|短讯
财联社6月13日讯(编辑马兰)全球房地产市场都在经历震荡调整,而其中
-
美国 CPI 将迎历史性回落?今晚请收好通往美联储议息夜的“门票”!|每日简讯
财联社6月13日讯(编辑潇湘)尽管美联储今日起就将正式拉开为期两天的
-
快看点丨美 ONE 批量制造“李佳琦”
图片来源@视觉中国文|天下网商,作者|杨洁,编辑|黄天然我是李佳琦,你
-
看热讯:怀疑被偷拍的川大女生,犯了什么法
这类案件中,女性的维权成本确实比较高,需要更全面、更有智慧地考虑问
-
设立有限责任公司应当具备哪些条件?注册公司的步骤是什么?
注册公司的步骤如下:1、确定公司的形式是有限责任公司还是股份有限公司;2、确定公司的营业场所;3、撰写...
-
新公司注册流程及步骤是什么?新公司注册流程是什么?
新公司注册流程是:1、先向公司登记机关申请名称预先核准;2、全体股东指定的代表或者共同委托的代理人向...
-
工伤保险条例第二十三条是什么内容?申请劳动能力鉴定的流程是什么?
工伤认定下来以后那么就应该申请劳动能力鉴定,可以由用人单位、员工本人或者近亲属向劳动能力鉴定委员...
-
社保怎么办理?办社保卡的流程是怎么样的?
办社保卡的流程:用人单位在社会保障网上申报系统或社会保险经办机构业务窗口核对信息;在职人员通过用人...
-
“建”证真实力:山西榆次建投·文华公馆再领一城热度
央广网北京6月13日消息山西榆次建投·文华公馆自开盘以来,备受市场欢
-
中华人民共和国劳动合同法第十七条是什么?劳动合同应当具备哪些条款?
劳务合同必须具备以下条款才有效:1 用人单位相关信息;2 劳动者的身份信息;3 劳动合同期限;4 工作内...
-
icp经营许可办理流程是什么?icp许可证的网上办理流程是什么?
icp许可证的办理流程如下:1、先登录官网进行网上申请增值电信业务经营许可证并说明类别;2、网上申请ICP...
-
申请专利的审核流程是怎么样的?初步审查需要多长时间审核完毕?
专利审查流程如下:1、初步审查,自申请日起满十八个月审查完毕;2、初步公告;3、实质审查,自申请日起三...
-
湖南食品经营许可证网上申请流程是什么?中华人民共和国食品安全法第三十五条内容
湖南食品经营许可证网上申请流程:打开湖南省食品药品监督管理局食品经营许可管理系统,提交申请材料,...
-
申请普通护照都需要哪些材料?办理护照的流程是什么?
办理护照的流程是:1、公民携带本人的居民身份证、户口簿、近期免冠照片以及申请事由的相关材料;2、向公...
-
马斯克pick的天才少年:14岁成SpaceX最年轻工程师,岗位年薪百万,2岁启蒙11岁上大学 要闻速递
以及10-11岁这两年,他还一直是他所在的社区大学的助教和STEM导师,并
-
外资公司注册流程是怎么样的?中华人民共和国外商投资法第三十一条内容是什么?
外资企业设立流程:1、核准公司的名称;2、申领外商投资企业批准证书;3、办理工商注册登记,领取营业执照...
-
住房公积金管理条例第二十四条是什么内容?职工符合哪些情形可以提取公积金?
提取北京市住房公积金的条件:1、职工需要购买、建造、翻建、大修自住住房的;2、职工正常离休、退休的;3...
-
营业执照延期办理流程是什么?中华人民共和国公司登记管理条例第二十九条内容
营业执照到期应当提交申请书,营业执照的正本以及副本等相关资料。根据相关法律规定,公司的营业执照的...
-
当前快讯:泰康尊享一生年金保险f款可靠吗?保障哪些方面?
可靠。泰康尊享一生年金保险f款是一款具有以下几个特点的保险产品:长
-
泰康尊悦人生年金保险产品计划可靠吗?有什么保障?
可靠。泰康尊悦人生年金保险由泰康人寿保险股份有限公司提供,并已获得
-
富德生命理财三号年金保险万能型可靠吗?好处有哪些? 环球看点
可靠。富德生命理财三号年金保险万能型是由富德生命人寿推出的一款长期
-
支付宝福满e生年金保险怎么样?保障是什么?
还不错。从承保公司来看,福满e生年金保险由太平人寿保险股份有限公司
-
泰康财富人生c款终身年金保险条款有哪些?优点是什么?
投保要求:这款年金保险适用于出生满30天到55周岁的健康人群,只需要通
精彩推荐
阅读排行
精彩推送
- 当前速读:微软游戏业务主管:为...
- 今日热议:锦江电子科创板递交申...
- Powered by AI
- 新款 15 英寸 MacBook Air 首发体验新款
- 越闹越僵 这回欧盟打算起诉谷歌...
- 环球最资讯丨亚马逊在中国推出其...
- 英国投资 1 亿英镑,成立 AI...
- 2023年广州黄埔区单位整租公租房...
- 全球微头条丨信泰如意永享的养老...
- 世界资讯:信泰如意鑫享养老年金...
- 中邮年年好邮保一生c款年金保险...
- 环球新消息丨泰康永福人生年金保...
- 每日热议!人寿国寿鑫尊宝年金保...
- 抖音旗下幸福里负责人王潇已前往...
- 国道之行 从雪山奔向大海丨珠峰...
- 辅助生殖将正式进医保
- 热点聚焦:嫦娥六号将搭载欧方、...
- 华为开发者大会定档 8 月 4 ...
- 速讯:红米机皇?Redmi K60 Ul...
- Win32k 特权提升漏洞 PoC 公布
- 端午假期去香港?那你这篇文章你...
- 央行公开市场操作利率下降 10 ...
- 环球时讯:隔夜国际油价大跌拖累...
- FED 目标是错的!诺奖得主:美...
- 互联网泡沫破灭不会重演!知名投...
- 深圳网红盘海德园第三次“日光”...
- 迁安生活垃圾焚烧发电项目SCR脱...
- 小状元年金险哪里买?有什么不足...
- 天天时讯:渤海人寿i宝贝教育金...
- 渤海人寿i宝贝怎么样?购买渠道...