GPT-4震撼发布,有哪些变化?
2023-03-15 14:31:59来源:TechWeb
今天凌晨OpenAI正式推出了NLP大作,GPT-4。目前,ChatGPT的Plus订阅用户已经可以使用GPT-4,其他用户需要排队申请内测。我们根据GPT-4官方提供的技术文档,来看看都有哪些变化。
(资料图片仅供参考)
本文将以OpenAI GPT-4 技术报告为基础,介绍GPT-4的特征和训练信息。
GPT-4是一个多模态大型语言模型,即支持图像和文本输入,以文本形式输出;扩写能力增强,能处理超过25000个单词的文本;更具创造力,并且能够处理更细微的指令。
我们从官网上就可以看到,ChatGPT和GPT-4的示范,效果貌似已经显著拉开了。谁更智能一目了然…
问:
Andrew:上午11点-下午3点有空
Joanne:中午-下午2点有空、下午3点半-下午5点有空
Hannah:中午有半小时的时间,下午4-6点有空
给这仨人安排个30分钟的会议,有哪些选择?
答:
ChatGPT:会议可以在下午4点开始
GPT-4:会议可以在中午12点开始
报告指出了GPT-4的发展进度,这是一个大规模、多模态的模型,它可以接受图像和文本输入,并产生文本输出。虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟的律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的分数则在后10%左右。
GPT-4是一个基于Transformer的模型,经过预先训练,可以预测文档中的下一个标记。训练后的调整过程使对事实的遵守程度得到改善。
这个项目的一个核心部分是开发基础设施和优化方法,让这些方法在广泛的范围内有可预测的行为。这使我们能够准确地预测GPT-4在某些方面的性能,其基础是用不超过GPT-4的1/1000的计算量所训练的模型。
1.介绍
技术报告介绍了GPT-4,这是一个大型多模态模型,能够处理图像和文本输入并产生文本输出。这类模型是一个重要的研究领域,因为它们有可能被用于广泛的应用中,如对话系统、文本总结和机器翻译。因此,近年来它们一直是人们关注的对象,并取得了很大的进展。近年来,它们一直是人们关注的焦点。
开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和细微的情况下。为了测试其在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,它表现得相当好,并且经常超过绝大多数人类应试者的分数。
例如,在模拟律师资格考试中,GPT-4的成绩在考生中排名前10%。这与GPT-3.5形成鲜明对比,GPT-3.5的得分排在后10%。
在一套传统的NLP基准测试中,GPT-4的表现超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。
在MMLU基准测试中,GPT-4不仅在英语考试中以相当大的优势超过了现有的模型,而且在其他语言方面也表现出了强大的性能。
本报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些方法在广泛的范围内表现出可预测性。这使我们能够预测GPT-4的预期性能(基于以类似方式训练的小型运行)。这使我们能够对GPT-4的预期性能进行预测(基于类似的训练方式的小运行),并与最终的运行进行测试,以增加对我们训练的信心。
尽管有这样的能力,GPT-4与早期的GPT模型有类似的局限性:它并不完全可靠(例如,可能出现 "幻觉"),有一个有限的上下文窗口,并且没有习得经验。在使用GPT-4的输出时应谨慎行事,特别是在对可靠性要求很高的情况下。
GPT-4的能力和局限性带来了重大的、新的安全挑战,我们相信鉴于其潜在的社会影响,仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡,描述了我们所预见的一些风险。围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面预见了一些风险。它还描述了我们为减轻部署GPT-4的潜在危害所采取的干预措施。包括聘请领域专家进行对抗性测试,以及一个模型辅助的安全管道。
2.技术报告的范围和局限性
本报告的重点是GPT-4的能力、局限和安全性能。GPT-4是一个基于Transformer的模型,它预先进行了训练,以预测文档中的下一个标记,使用公开的数据(如互联网数据)和第三方供应商授权的数据。
该模型然后使用来自人类反馈的强化学习(RLHF)对模型进行微调。鉴于GPT-4这样大规模模型的竞争状况和安全影响,报告中不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。
OpenAI致力于对技术进行独立审计,并分享了一些这方面的初步措施和想法。并计划向更多的第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑与科学价值的关系提供建议。
3.可预测的扩展
GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练运行,要做大量针对模型的调整是不可行的。
为了解决这个问题,我们开发了基础设施和优化方法,在多个尺度上有非常可预测的行为。这些改进使我们能够可靠地从使用1,000倍-10,000倍计算量训练的较小模型中预测GPT-4的某些方面的性能。
3.1 损失预测
正确训练的大型语言模型的最终损失被认为可以通过训练模型所用的计算量的幂律来很好地接近训练模型所使用的计算量的规律。
为了验证OpenAI的优化基础设施的可扩展性,OpenAI预测了GPT-4的最终损失,在OpenAI的内部代码库(不是训练集的一部分)上预测GPT-4的最终损失,方法是通过拟合一个带有不可减少的损失项的比例法则(如Henighan等人的做法):L(C) = aCb + c, 来自使用相同方法训练的模型,但使用的计算量比GPT-4最多少10,000倍。
这一预测是在运行开始后不久做出的,没有使用任何部分结果。拟合的比例法高度准确地预测了GPT-4的最终损失。
3.2 在HumanEval上扩展能力
在训练前对模型的能力有一个认识,可以改善有关调整的决策、安全和部署。
除了预测最终损失外,我们还开发了方法来预测能力的更多可解释性指标,其中一个指标是HumanEval数据集的通过率。
OpenAI成功地预测了HumanEval数据集的一个子集上的通过率,其方法是从训练的模型中推断出来的训练出来的模型进行推断,其计算量最多减少1,000倍。
对于HumanEval中的单个问题,性能可能偶尔会随着规模的扩大而变差。尽管有这些挑战,我们发现一个近似的幂律关系--EP [log(pass_rate(C))] = α?C-k。
相信准确预测未来的能力对安全很重要。展望未来,OpenAI计划在大型模型训练开始之前,完善这些方法并记录各种能力的性能预估。并且,OpenAI希望这成为该领域的一个共同目标。
4、能力
这简直就是个考试小能手
GPT-4典型的成绩包括:
SAT(美国高考): 1410/1600(前 6%)。
美国统一律师资格考试(MBE+MEE+MPT):298/400(前 10%)。
AP(美国大学预科考试):生物学、微积分、宏观经济学、心理学、统计学和历史的大学预修高中考试:100% (5/5)。
OpenAI在一系列不同的基准上对GPT-4进行了测试,包括模拟最初为人类设计的考试。考试题目包括多项选择题和自由回答题,综合分数由多项选择题和自由回答题的分数结合决定,GPT-4在大多数专业和学术考试中都有与人类水平相当的表现。值得注意的是,它通过了统一律师考试的模拟版本,分数在应试者中排名前10%。
就测试的结果来看,GPT-4模型在考试中的能力似乎主要来自于预训练过程,并没有受到RLHF的明显影响。在多选题上,基础的GPT-4模型和RLHF模型的表现相当。
OpenAI还在传统的基准上评估了预先训练好的基础GPT-4模型,这些基准是为评估语言模型而设计的。
就在考试测试中的表现来看,GPT-4的性能大大超过了现有的语言模型,以及此前最先进的系统,这些系统通常有针对的基准或额外的训练协议。
针对现有的许多机器学习基准测试都是用英语编写的,很难体现在其他语言中的表现,为了初步了解GPT-4在其他语言中的功能,他们也将一套涵盖57个主题的多项选择题的基准测试,采用相关的应用程序转换成了其他语言,并进行了测试,最终结果显示GPT-4的表现要优于GPT 3.5和现有语言模型对测试的大多数语言的语言性能,包括低资源语言。
能看懂一些图的笑点了
GPT-4在理解用户意图的能力方面较此前的模型有明显改善。
GPT-4可以说已经能看懂一些图梗了,不再仅仅是对话助手。当然离大家期待的看懂视频还有一段距离。现在能看懂图片的笑点,比如这张…
左一:一台iPhone插上了带有VGA的连接器
右一:“Lightning Cable”适配器的包装,上面有VGA连接器的图
右二:VGA连接器的特写,上面有VGA连接器的图片,但可以看到,头是个Lightning的…
笑点在于将VGA端口插在iPhone上的荒谬…很冷吧…搞机圈博主们的压力大不大…
4.1 视觉输入
对GPT-4而言,训练后的对齐(Alignment)是提高性能和改善体验的关键。从技术上看,人类反馈强化学习(RLHF)微调仍然是GPT-4的要点。考虑到LLM领域的竞争格局和 GPT-4 等大型模型的安全隐患,OpenAI暂时还未公布GPT-4的模型架构、模型大小、训练技术。
这张图片:GPT-4认为,不同寻常的地方在于,一名男子正在行驶中的出租车车顶上的熨衣板熨衣服…
再比如这个,这到底是鸡块?还是地图?还是用鸡块拼成的世界地图?
GPT-4接受由图像和文本组成的提示,这与纯文本设置平行,让用户指定任何视觉或语言任务。具体来说,该模型生成的文本输出给出由任意交错的文本和图像组成的输入。在一系列领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。
为语言模型开发的标准测试时间技术(如少量提示、思维链等),使用图像和文本时也同样有效。
在一组狭窄的学术视觉基准上的初步结果可以在GPT-4博客中找到,计划在后续工作中发布更多关于GPT-4的视觉能力的信息。
5、局限性
尽管GPT-4功能强大,但它与早期GPT模型一样,有相似的局限性。最重要的是,它仍然不完全可靠(它会“幻觉”事实并犯推理错误),应非常小心。
在使用语言模型输出时,特别是在高风险的上下文中,使用准确的协议(例如人工审查,附加上下文,或完全避免高风险使用满足特定应用的需求。
GPT-4在TruthfulQA等公共基准上取得了进展,该基准测试模型的测试能将事实从一组不正确的陈述中分离出来,与统计上有吸引力的事实错误的答案相匹配。GPT-4基本型号为在这项任务上只比GPT-3.5略胜一筹。然而,在RLHF训练后,较GPT-3.5有很大的改进,GPT-4抗拒选择一些常见的谚语,但仍然会错过一些微妙的细节。
GPT-4有时会使简单的推理出现错误,似乎不符合在这么多领域的能力,或者轻信用户明显的虚假陈述。它可能像人类一样在困难的问题上失败,例如在产生的代码中引入安全漏洞。
GPT-4也可能在其预测中轻易的犯错,在可能犯错的时候不注意反复检查。虽然预训练的模型是高度校准的,但在后期的训练过程中,校准度降低了。
GPT-4在其输出中存在各种偏差,OpenAI已经在努力纠正,但这需要一定的时间,他们的目标是使GPT-4同我们建立的其他系统一样,有合理的默认行为,以反映广大用户的价值观,允许这些系统在一些广泛的范围内进行定制,并获得公众对这些范围的意见。
6.风险和缓解措施
GPT-4具有与小型语言模型类似的风险,例如,产生有害的建议、有缺陷的代码或不准确的信息。
聘请领域专家进行对抗性测试:为了了解这些风险的程度,OpenAI聘请了来自长期人工智能(AI)校准风险、网络安全、生物风险和国际安全领域的50多位专家对该模型进行对抗性测试。从这些专家那里收集的建议和培训数据为OpenAI制定缓解措施和对该模型进行改进提供了参考。
模型辅助的安全管道:与之前的GPT模型一样,OpenAI利用来自人类反馈的强化学习(RLHF)对该模型的行为进行微调,以产生更符合用户意图的回复。在RLHF之后,该模型在不安全的输入上仍然是脆弱的,并且有时在安全输入和不安全输入上都表现出不受欢迎的行为。此外,该模型在安全输入方面也可能变得过于谨慎。
安全指标的改进:OpenAI的缓解措施已经大大改善了GPT-4的许多安全性能。与GPT-3.5相比,该公司将GPT-4对不允许内容请求做出响应的倾向降低了82%,而GPT-4根据OpenAI的政策对敏感请求的响应频率提高了29%。
OpenAI正在与外部研究人员合作,以改善其理解和评估潜在影响的方式,以及建立对未来系统中可能出现的危险能力的评估。该公司将很快发布关于社会可以采取的步骤的建议,以准备应对人工智能的影响。该公司将很快公布关于社会为应对人工智能影响可以采取的措施的建议,以及预测人工智能可能产生的经济影响的初步想法。
7.总结
GPT-4是一个在某些困难的专业和学术基准上具有人类水平表现的大型多模态模型。它在一系列NLP任务上的表现优于现有的大型语言模型,并且超过了绝大多数已报道的最先进的系统(这些系统通常包括针对特定任务的微调)。
GPT-4由于性能的提高而带来了新的风险,我们讨论了一些方法和结果,以了解和提高其安全性和一致性。虽然还有很多工作要做,但GPT-4代表着朝着广泛有用和安全部署的人工智能系统迈出了重要一步。
责任编辑:hnmd003
相关阅读
-
全球新动态:叮当健康午后跳水跌超23% 预计2022财年净亏损同比扩大不少于83%
3月15日消息,叮当健康午后跳水跌超23%,现报5 66港元,此前公布预计2022财年净亏损同比扩大不少于83%...
2023-03-15 -
当前时讯:GPT-4来了:支持图生文,多项测试“超越”90%的人类
在内部评估中,它产生正确回应的可能性比GPT-3 5高40%。??OpenAI表示,新模型将产生更少的错误答案,更...
2023-03-15 -
环球观焦点:制造业景气度持续回升,机器人行业发展将提速,机构一致看好的高增长机器人概念股出炉
数据是个宝数据宝炒股少烦恼近日,《上海市智能机器人标杆企业与应用场景推荐目录》首批入围名单公布。...
2023-03-15 -
下架!债圈巨震,交易员上演大迁徙,什么情况?已有平台紧急应对,影响多大?数万固收员忙"加群"
数万名实名固收交易员连夜从一个平台迁徙到一些社交群的壮观景象上演了。3月14日固收圈爆出重磅消息货币...
2023-03-15
相关阅读
-
GPT-4震撼发布,有哪些变化?
今天凌晨OpenAI正式推出了NLP大作,GPT-4。本文将以OpenAIGPT-4技术报告为基础,介绍GPT-4的特征和训练...
-
全球新动态:叮当健康午后跳水跌超23% 预计2022财年净亏损同比扩大不少于83%
3月15日消息,叮当健康午后跳水跌超23%,现报5 66港元,此前公布预计2022财年净亏损同比扩大不少于83%...
-
【天天报资讯】未履行母校捐款成老赖,当事人道歉:会想办法落实捐款
近日,中国矿业大学90后校友吴幽因未履行1100万元捐赠承诺,被母校
-
当前报道:玉蕾等多家腌制菜生产商被查封,多家电商平台已下架相关产品
据媒体报道,3月14日晚,广东广播电视台曝光了汕头市知名橄榄菜企业
-
全球热推荐:奔驰EQC被曝不到半年出现核心部件故障
据凤凰网财经消息,近日,来自北京的奔驰车主张先生爆料称,他购买
-
世界报道:报道称飞猪上订酒店现多个假定位,或因内部人员与商家串通造假
据第一帮帮团视频,称在飞猪上订酒店,出现该酒店定位与实际不符情
-
环球微动态丨吉野家吃出蟑螂后执法检查又发现43只,被罚款6.5万元
天眼查App显示,3月14日,北京吉野家快餐有限公司昌平奥莱餐厅因违
-
315曝光:“大师”荐股,90人骗了2个亿!上海警方破获280余起经济案
3月15日,上海市公安局发布了涉消费者权益案件办理情况及案件特点。上游新闻(报料邮箱:cnshangyou@163...
-
汽车315:新车竟自带“晒伤妆” 东风日产轩逸车主投诉不断
刚买回来的新车,竟发现部分漆面发黄、发暗,甚至带有橘皮纹?近日,广东茂名的东风日产轩逸车主周先生(...
-
直播间售卖鹿鞭丸 送检后发现“西地那非”
安徽省潜山市一企业在鹿鞭丸产品中添加伟哥成分的行为,被职业打假人送检后曝光。此前,这款产品在视频...
-
聚焦315:“腐菜”变“美味” 知名橄榄菜企业生产环境触目惊心
一直以来,潮汕腌制菜以独特的风味广受好评,被誉为潮汕三宝之一,是连结海内外潮人的思乡菜,也是很多...
-
聚焦315:网络购物合同纠纷案件过去五年增长近2倍 最高法发布典型案例
今天是国际消费者权益日,最高人民法院召开新闻发布会,就网络消费纠纷情况和典型案例进行介绍。最高人...
-
汽车商业险包括哪些?汽车商业险可以不买吗?
汽车商业险包括哪些?汽车商业保险一般包括有车辆损失险、第三者责任险、盗抢险、车上人员责任险:1、汽...
-
st股票会退市吗?st股票为什么不能买入?
st股票会退市吗?所谓st股票,也就是特别处理的股票,针对的是那些财务状况或其他状况出现异常的上市公司...
-
银行借记卡是什么?银行借记卡有效期多长时间?
银行借记卡是什么?银行借记卡是指发卡银行向持卡人签发的,没有信用额度,需要持卡人先存款后使用的银行...
-
贵金属投资有哪些风险?贵金属投资的三大特点
贵金属投资有哪些风险?1 平台风险想要在贵金属市场顺利盈利,首先要面对的贵金属投资风险就是平台风险...
-
工商银行网上基金怎么赎回?工商银行网上基金怎么卖出?
工商银行网上基金怎么赎回?【1】首先需要用户登录工商银行手机银行,找到手机银行里面的投资理财;【2】...
-
怎样买车险便宜又实惠?价格会不会变化?
直接找保险公司买车险:购买车险的渠道有很多,特别是很多4s店都有购买保险的权利,但是其实直接找保险...
-
意外险和商业险的区别是什么?保费是多少?
意外险和商业险在保险对象、保障范围、保费、理赔方式等方面存在明显的差异。意外险主要是针对个人的人...
-
好医保防癌医疗险怎么样?等待期有多久?
是正规的保险,有对应的优缺点,需要根据自己的情况选择。 优点:该保险是一款互联网保险,投保的门槛...
-
环球实时:一年出2次车险增加多少钱?都能报销吗?
20%左右。 一般来说一年内出险一次并不会影响车险价格,但是一年出现超过两次,价格就会上调,
-
【新视野】医保卡过期了还能正常使用吗?怎么换卡呢?
要看情况。 有的时候医保卡过期了还是可以正常刷卡,不影响正常使用,但是有的医保卡过期了就不能刷出...
-
当前时讯:GPT-4来了:支持图生文,多项测试“超越”90%的人类
在内部评估中,它产生正确回应的可能性比GPT-3 5高40%。??OpenAI表示,新模型将产生更少的错误答案,更...
-
环球观焦点:制造业景气度持续回升,机器人行业发展将提速,机构一致看好的高增长机器人概念股出炉
数据是个宝数据宝炒股少烦恼近日,《上海市智能机器人标杆企业与应用场景推荐目录》首批入围名单公布。...
-
如何炒白银?炒白银稳赚的技巧
如何炒白银?白银和黄金一样,都属于贵金属。而且白银因为价格低廉、投资门槛低,还一度被称为穷人的黄金...
-
本田将雅阁生产转移至印第安纳州_世界最新
本田将雅阁生产转移至印第安纳州本田表示,马里斯维尔工厂将把两条生产线合并为一条,以使其能够开始建...
-
网上银行充话费怎么没到账?网上银行充话费充错了怎么办?
网上银行充话费怎么没到账?1、月初或月末属于充值高峰时段且属于运营商出账期,话费到账可能会延迟2-24...
-
存折有年费吗?存折上面的余额怎么看?
存折有年费吗?银行存折不收取年费。对于银行卡有的银行有做相关规定,如果账户存款金额较少,是需要收取...
-
支付宝养老金值得买吗?支付宝养老金收益率多少?
支付宝养老金值得买吗?支付宝终身保全民养老金,第一个优势就在于,缴费方式更加灵活,不仅可以一次性交,也...
-
信用社借款有哪几种贷款?信用社信用贷款额度一般多少?
信用社借款有哪几种贷款?1、从期限上来分,农村信用社贷款主要分三种:短期贷款,指贷款期限在1年以内(...
精彩推荐
阅读排行
精彩推送
- 农行怎么贷款?农行贷款利率2023...
- 余额宝本金会减少吗?余额宝本金...
- 环球黑卡怎么办理?环球黑卡有什...
- 股票身怀六甲是什么意思?股票身...
- 交行沃尔玛信用卡值得办吗?交行...
- 上海信用卡取现多久到账?上海信...
- 蓝筹ETF是什么意思?蓝筹etf基金...
- 住房公积金个人怎么提取?可以贷...
- 养老保险是什么时候开始交的?需...
- 少儿金典人生重大疾病保险怎么样...
- 国寿乐盈一生终身寿险3年多久可...
- 工资3000五险交多少?五险有哪些...
- 焦点关注:3·15“危险的出行”...
- 天天播报:3·15“投诉曝光”|蝴...
- 工信部:开展5G网络运行安全能力...
- 今日要闻!宁德时代与北汽集团签...
- 大量采用碳纤维 兰博基尼LB744...
- 个人买社保怎么买合适?多少钱一...
- 全球消息!中国太平洋车险在线报...
- 四川医保卡初始密码是多少?医保...
- 北京医保卡丢了怎么补办?补办需...
- 全球讯息:个人养老金账户怎么算...
- 下架!债圈巨震,交易员上演大迁...
- 创新金融服务共建美好生活,轻松...
- 网红西餐厅蓝蛙被爆后厨乱象:过...
- 上汽大众开启ID.纯电大促,至高...
- 搭DiSus-C智能阻尼悬架 腾势N8...
- 快捷支付签约交易有危险吗?如何...
- 庄家能看到散户持仓吗?庄家与散...
- 交行私人银行是什么银行?交行私...