Bing Chat 越来越“傻”,可微软却解决不了这个问题
2023-08-16 15:28:02来源:ZAKER科技
(资料图片仅供参考)
随着时间的推移,AI 聊天机器人越来越不好用这件事,似乎已经成为了全球用户的共同体验。其中例如微软的 Bing Chat,即使有着 GPT-4 的支持、并打开了创造力模式,也经常会出现经常回避问题或是无法给出回复的情况。在海外社交媒体 Reddit 上,就有诸多网友吐槽 Bing Chat 已经变得没有乐趣可言,回答的内容不再风趣、不再快乐,让人感觉是冷冰冰、没有人性的机器。
更有甚者,在有用户试图要求 Bing Chat 围绕某个虚构人物进行演绎时,在明知相关讨论是无害的情况下,Bing Chat 居然认为这一行为存在风险。事实上,微软方面也承认了 Bing Chat 性能下降的事实,并在给出的相关回复中表示,正在积极监测用户的反馈,并计划在不久的将来做出改变、以解决相关问题。其实自今年 2 月初内测以来,New Bing 已经经过了大大小小的几次更新,从一开始的 " 牛 Bing"、到后来被 " 赛博阉割 " 成 "New 病 ",再到现在提供精准、平衡、创造力三种模式,微软方面一直在试图做一款让所有人满意的 AI 大模型。但现在看来,似乎有点适得其反了,而 ChatGPT 这类大语言模型(下文简称为 LLM)之所以能够在 2022 年秋季开始走红,在 AI 热退烧之后重新点燃外界对于其未来的热情,靠的就是 ChatGPT 比以往任何同类产品都更智能,或者说更像人。
无独有偶,ChatGPT 如今也开始被用户吐槽逐渐出现了速度变慢、回复冗长重复、聊天主题单一无趣等问题。其实这类聊天机器人产品性能下降并非孤立事件,在不同厂商的 LLM 中都有发生。事实上,业界也早已关注到这一现象。例如为了验证 ChatGPT 的行为如何随时间变化,斯坦福大学和加州大学伯克利分校的研究人员就测试了 GPT-4 在今年 3 月和 6 月的两个版本,测试内容横跨数学问题、回答敏感问题、代码生成和视觉推理四个部分。
最终的测试结果也确实证明了 ChatGPT 能力的衰减,例如在数学和视觉推理部分,研究人员使用了思维链(chain-of-thought,CoT)技术,让 LLM 来模拟人类思考的过程,并帮助其生成一个推理路径,将复杂的推理问题分解为多个简单的步骤,而不仅仅只是从语料库中直接拟合出最终答案。
然而结果显示,GPT-4 的性能发生了显著的漂移,从 3 月到 6 月,GPT-4 关于数学问题的准确率一路从 97.6% 降至 2.4%,同时回答长度也减少了超过 90%。而在视觉推理方面,6 月的 GPT-4 在部分此前在 3 月曾正确回答的查询上,反而又出现了错误。即对于 3 月能给出正确结果的问题,6 月反而就做不到了。
如今相当多程序员每天都在使用的 AI 编写代码,但研究人员发现,在 3 月时 GPT-4 输出的代码中有超过 50% 是可直接执行的,可这一数字到了 6 月就仅有 10%。而且这还不是最夸张的,在回答敏感问题方面,GPT-4 的直接回答率已经从 21% 降至 5%,甚至在拒绝回答不当问题时,6 月版本的 GPT-4 也倾向于不向用户提供解释。
通常来说,事物的发展往往是呈螺旋形上升,具体到信息技术领域更呈现出了跨越式前进的状态," 今不如古 " 的情况可以说是绝无仅有。那么问题就来了,出现 " 科研靠考古 " 这种情况只有一种可能,那就是行业整体曾崩溃过、如今又在重建。但 AI 大模型可是纯粹的前沿科技,并不存在类似的问题,所以这其中肯定是有蹊跷的。目前在网络上最主流的声音,是 ChatGPT、Bing Chat 能力下降是为了平衡用户体验的结果。毕竟 ChatGPT 生成的内容是需要消耗算力的,用户越多需要的算力就会随之增加,但 OpenAI、微软购买算力资源的速度在这半年以来,却无法与用户增长相匹配,所以就导致了响应速度的下降,用户得排队向这类产品提问,而且提问数量被限制的情况也早已发生。所以在这种情况下,降低性能来平衡响应速度就是不难想到的一种解决方案。
当然,更深层次的核心矛盾是 AI 伦理问题,也就是数月前曾引起诸多讨论的 "AI 可能给人类带来灭绝风险 ",对于 AI 的担忧甚至让 OpenAI 创始人奥特曼走上了美国参议院的听证会,更让他这几个月来一直在全球各地 " 布道 "。不受控制的 AI 会成为毁灭人类文明的罪魁祸首,这无疑是科幻小说的一个重要题材,因此对于 AI 失控的担忧也是这一技术自诞生以来就存在的。由此也衍生出了一个控制 AI 的概念 "AI 对齐 ",即要求 AI 系统的目标要与人类的价值观和利益对齐,使其符合设计者的利益预期,不会产生意外的有害后果,比如生成各种不当言论等内容。事实上,微软、OpenAI 这列企业搞 AI 对齐是必然,例如微软在 2016 年发布的聊天机器人 Tay 就曾出现过发表种族歧视内容的情况,也直接导致它出师未捷身先死。
但强行让 AI 遵守人类的价值观本身就是反直觉的事情,想要让 AI 与人类对齐,开发者就需要指定正确的目标函数,需要证实应当提供什么样的反馈才能正确引导 AI。此外甚至还需要证明提供这些反馈是合理的,而这无疑堪称是当下难以解决的技术难题。那么问题也就来了,如果想要让一个人不胡思乱想,并矫正其思维模式,最直接的方式是什么?当然是诺贝尔奖中的黑历史前脑叶白质切除术了,直接就把人类的思维能力从物理层面消灭。回到 AI 领域也是一样,由微软研究院发布的一篇论文证实对 AI 大模型所进行的任何 AI 对齐行为,都会损失其准确性和性能,因为 ChatGPT 这类产品是基于人类反馈的强化学习来构建智能,人工强行干预的 AI 对齐会阻碍大模型对任务理解的真实程度。所以自然而然的,AI 大模型的性能就出现了开局即巅峰的情况。
但无论是算力紧张、还是 AI 伦理限制,短时间来看几乎都是无解的,因此用户体验高开低走也是必然,相关企业也不太可能解决得了这一问题。【本文图片来自网络】
责任编辑:hnmd003
相关阅读
相关阅读
-
Bing Chat 越来越“傻”,可微软却解决不了这个问题
随着时间的推移,AI聊天机器人越来越不好用这件事,似乎已经成为了全球
-
3 年投入 10 亿,淘宝天猫死磕互联网家装
淘宝天猫联合菜鸟加码家居供应链对阿里来说,互联网家装这块骨头,再硬
-
消息称富士康开始在印度生产苹果 iPhone 15 手机
IT之家8月16日消息,据媒体报道,苹果公司的代工厂富士康已经在印度南
-
“宁王”竞拍落败的 63 小时,锂电行业已变了天!
图片来源@视觉中国文|华夏能源网上次竞拍如此激烈,恐怕还是在房地产如
-
波音任命柳青为波音中国总裁
IT之家8月16日消息,波音公司今日宣布柳青将担任波音中国总裁,该任命
-
反腐风暴下的医药 IPO:年内 13 家企业终止上市,ipo 进度放缓,规则调整
本文来源:时代周报作者:金子莘一场声势浩大的医药反腐风暴正席卷全国
-
股民不买账!吉比特拟 10 派 70 元,真是大手笔吗?
追踪市场热点,欢迎关注中新经纬《董秘请回答》栏目中新经纬8月16日电(
-
高端新能源车集体降价!Model Y 长续航版杀入 30 万以内,不到 27 万能买极氪 001
本文来源:时代周报作者:王贺没人能买到最便宜的特斯拉。8月14日,特
-
短剧涌向小程序
图片来源@视觉中国文|文娱价值官,作者丨刘娜娜,编辑丨美圻短视频平台
-
8 月 16 日 A 股分析:沪指跌 0.82%,房地产板块逆势走强
2023年8月16日,截止收盘,沪指跌0 82%,报收3150 13点;深成指跌0 94%
-
小孩子意外险怎么报销?报销要注意什么?
当孩子发生意外事故后,家长需要第一时间将孩子送往医院进行治疗,并在
-
重疾险和社保的区别是什么?重疾险应该怎么买?
重疾险和社保是两种不同的保险制度,它们在保障范围、保障金额、理赔条
-
支付宝重疾险怎么买最合适?怎么样?
首先,购买支付宝重疾险前,我们需要了解自己的保险需求。不同的人有不
-
儿童保险报销需要哪些资料?报销多久到账?
在进行儿童保险报销时,家长需要准备一些必要的资料。首先,需要提供孩
-
横琴一号增额终身寿险有风险吗?在哪买?
任何一种投资都存在一定的风险,横琴一号增额终身寿险也不例外。但是相
-
谁能实现造车梦?贾跃亭亲手交付一辆车,恒大汽车中东“金主”三年零营收
8月14日,命运多舛的法拉第未来(FF)与恒大汽车双双传来消息。法拉第
-
特斯拉中国ModelS/X再降价,最高优惠7万
特斯拉中国ModelS X再降价,最高优惠7万8月16日,从特斯拉官方处获悉,
-
阿联酋金主身份被起低,恒大汽车5亿美金战投水月镜花
阿联酋金主身份被起低,恒大汽车5亿美金战投水月镜花8月14日宣布对中国
-
高温下,那些奋战一线的“劳动剪影”
立秋已过,多地气温仍居高不下。许多劳动者默默奋战在岗位一线,用坚守
-
茶百道向港交所提交上市申请
截至2023年8月8日,茶百道在全国共有7117家门店,遍布全国31个省市,实
-
特斯拉再降价,纯电市场再现“价格战”
特斯拉将年初掀起的价格战延续到了下半年。8月14日,特斯拉宣布对旗下
-
00 后暑假打工生存指南:一小时 4 块钱,玩转资本家
图片来源@视觉中国文|五环外OUTSIDE,作者|刘奕然,编辑|车卯卯经济独
-
134 亿岁,天文学家测量 Maisie 星系生成于大爆炸 3.9 亿年后
IT之家8月16日消息,詹姆斯韦伯太空望远镜于2022年6月发现了Maisie星系
-
比亚迪汽车鼓励举报腐败行为,奖金可达 500 万元甚至更高
IT之家8月16日消息,廉洁比亚迪公众号今日发布消息称,公司鼓励全体员
-
腾讯音乐付费用户破亿,直播风险管控使社交娱乐收入大幅下滑
图片来源:视觉中国用户为音乐版权的付费的意识正在增强,无论是在为他
-
传承文明之光,陶醉魅力东方!仰韶彩陶坊酒登陆CCTV1-《大国品牌》!
8月15日,仰韶酒业品牌片正式登陆CCTV-1。仰韶品牌故事片集中展现了
-
业界认为有兑付风险的信托公司仍是少数
近期,部分上市公司持有的中融信托产品逾期兑付事件持续发酵。一家信托
-
最近一个月 19 只基金大额赎回
8月15日,又有基金公告旗下产品出现大额赎回,华富恒利C宣布提高净值精
-
上半年 20 万场演出,票房收入 170 亿, “演唱会经济”还不止这些
图片来源@视觉中国文|镜象娱乐,作者丨栗子酒2023年,井喷的演唱会彻底
-
比亚迪审计监察处:鼓励举报腐败行为 最高奖 500 万元
比亚迪审计监察处通过廉洁比亚迪微信公众号发文称,公司鼓励全体员工、
精彩推荐
阅读排行
精彩推送
- “宁王”竞拍落败的 63 小时,...
- Zb建模blender绑定(zb建模)
- 保荐机构“撤单” 大洋世家冲击...
- 如何替父母查询养老保险?如何查...
- 中英人寿重疾保险有哪些类别?银...
- 60岁可以买商业养老保险吗?怎么买?
- 一年意外险保费多少?保障范围有...
- 瑞泰超级玛丽重疾险怎么样?购买...
- Lordstown与Karma达成4,000万美元和解协议
- 恒大回应许家印离婚传闻:不清楚...
- 你每天用来打卡的钉钉,居然藏着...
- 中国足协开罚单:锁喉对手,辱骂...
- 宏利重疾险保什么?报销范围有哪...
- 国泰健康福重疾险怎么样?怎么买?
- 团建意外险怎么买?赔偿多少?
- 男公务员有没有生育险?怎么报销?
- 意外险作用和功用有哪些?如何选...
- 反腐风暴下的医药IPO:年内13家...
- 又来了一个新品牌
- 国机重装:公司在柬埔寨拥有售电...
- 华大基因2023中报解读:营收净利双降
- 阳光100中国:海通国际证券针对...
- 贾跃亭:FF 品牌永远不会推出低...
- 天天问我七夕礼物送什么,抄我同...
- 华为 MateBook 众多新品升级 ...
- 央视曾锐评视觉中国:知识产权市...
- 印度不再从中国进口智能手机 “...
- 水井坊,解决渠道库存已到关键时...
- 子弹上膛!“全球货币保卫战”正...
- 腾讯音乐:罕见暴雷,又回磨底期