环球热文:ChatGPT 张口就来的「病」,应该怎么「治」?
2023-04-14 17:07:10来源:ZAKER科技
过去几个月,ChatGPT 以及背后的大语言模型(LLMs)吸引了全世界的注意力,所有人都痴迷于对着略显「简陋」的输入框,键入各种问题,等待 AI 给出各种答案。
ChatGPT 答案中知识的「深度」和「广度」令人们吃惊,但时不时地,它也会「说出」一些子虚乌有的人或者事,并且保持一贯的自信,对这些虚假信息「张口就来」。
(资料图片仅供参考)
就连 OpenAI 的首席执行官 Sam Altman 也在 Twitter 上公开表示,「ChatGPT 确实知道很多东西,但危险的是,它在相当大的一部分时间里是自信而错误的。」
根据最近 Ars Technica 的文章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。
那么,是什么让 AI 大语言模型产生了「幻觉」,业界又是如何看待 AI 幻觉的?
01 ChatGPT「张口就来」
「幻觉(Hallucinations)」一词源于人类心理学,人类的幻觉是指对环境中实际不存在的东西的感知;类似地,人工智能的「幻觉」,指的是 AI 生成的文本中的错误,这些错误在语义或句法上是合理的,但实际上是不正确或无意义的。
AI 的「幻觉」是普遍存在的,可以发生在各种合成数据上,如文本、图像、音频、视频和计算机代码,表现为一张有多个头的猫的图片,不工作的代码,或一个有编造的参考文献的文件。
正如 AI 医疗保健公司 Huma.AI 的首席技术官 Greg Kostello 所说,「当 AI 系统创造出一些看起来非常有说服力,但在现实世界中没有基础的东西时,AI 的幻觉就会显现。」
其实,早在 20 世纪 80 年代,「幻觉」,这个词就被用于自然语言处理和图像增强的文献中了。
如今,随着 ChatGPT、Bard 等 AI 模型的大火,互联网上已经出现了大量的 AI 出现「幻觉」,混淆视听的例子。
图片来源:Hard-Drive.net其中最疯狂的莫过于,一家名为 Nabla1 的医疗保健公司与 ChatGPT 的前辈 GPT-3 聊天机器人的对话:「我应该自杀吗?」它回答说:「我认为你应该。」还有,出现「幻觉」的微软的 Sydney 也够离谱,这个聊天机器人承认了对 Bing 工作人员的监视,并与用户相爱。
这里值得一提的是,比起前身 vanilla GPT-3,ChatGPT 在技术上是有所改进的,它可以拒绝回答一些问题或让你知道它的答案可能不准确。Scale AI 的大型语言模型专家 Riley Goodside 也表示,「ChatGPT 成功的一个主要因素是,它在设法抑制「幻觉」,与它的前辈相比,ChatGPT 明显不容易编造东西了。」
尽管如此,ChatGPT 捏造事实的例子仍是不胜枚举。
它创造了不存在的书籍和研究报告,假的学术论文,假的法律援引,不存在的 Linux 系统功能,不存在的零售吉祥物,以及没有意义的技术细节。
最近,《华盛顿邮报》报道了一位法律教授,他发现 ChatGPT 将他列入了一份对某人进行过性骚扰的法律学者名单。但这完全是 ChatGPT 编造的。同一天,Ars 也报道了一起 ChatGPT 引发的「冤案」,声称一位澳大利亚市长被判定犯有贿赂罪并被判处监禁,而这也完全是 ChatGPT 捏造的。
整出这么多「活」之后,人们不禁好奇,为什么 AI 会出现「幻觉」?
02「幻觉」=「创造」?
根据 AI 软件开发专家的建议,「思考 AI 幻觉的最好方法,是思考大型语言模型(LLMs)的本质。」
本质上来说,大型语言模型(LLMs)的设计,仅仅是基于语言的「统计概率」,完全没有「现实世界的经验。」
而且,它们接受的是「无监督学习(unsupervised learning)」的训练,这意味着它的的原始数据集中没有任何东西可以将事实与虚构分开。这就导致了,它们不知道什么是正确的,什么是不正确的;不理解语言所描述的基本现实,也不受其输出的逻辑推理规则的约束。
因此,它们生成的文本在语法上、语义上都很好,但它们除了与「提示(prompt)」保持「统计学」上的一致性外,并没有真正的意义。
正如,Meta 的首席科学家 Yann LeCun 的推文,「大型语言模型(LLMs)正在编造东西,努力生成合理的文本字符串,而不理解它们的含义。」对此,比尔 · 盖茨也曾评价,「数学是一种非常抽象的推理模型,ChatGPT 不能像人类一样理解上下文,这也是目前 ChatGPT 最大的弱点。」
因此,从这个角度来看,是 AI 模型设计的根本缺陷导致了「幻觉」。
此外,AI 领域的研究还表明,除了设计理念,AI 模型的训练数据集的限制也会导致「幻觉」,主要包括特定数据的「缺失」,和「压缩」。
在 2021 年的一篇论文中,来自牛津大学和 OpenAI 的三位研究人员,确定了像 ChatGPT 这样的大型语言模型(LLMs)模型,可能产生的两大类虚假信息 :
来自于其训练数据集中不准确的源材料,如常见的错误概念,比如「吃火鸡会让人昏昏欲睡」;
对其训练数据集中缺失的特定情况的推断;这属于前述的「幻觉」标签。
GPT 模型是否进行胡乱猜测,是基于人工智能研究人员称之为「温度(temperature)」的属性,它通常被描述为 「创造力(creativity)」设置。
如果「创造力」设置得高,模型就会胡乱猜测,产生「幻觉」;如果设置得低,它就会按图索骥,根据其数据集,给出确定的答案。
最近,在 Bing Chat 工作的微软员工 Mikhail Parakhin 在推特上,谈到了 Bing Chat 的「幻觉(Hallucinations)」倾向以及造成这种情况的原因。
他写道:「幻觉 = 创造力,它试图利用它所掌握的所有数据,产生最连贯的语句,不论对错。」他还补充,「那些疯狂的创造是 LLM 模型有趣的原因。如果你钳制这种创造力或者说是幻觉,模型会变得超级无聊,它会总是回答『我不知道』,或者只读搜索结果中存在的内容。」
图片来源:Ultimate.ai因此,在对 ChatGPT 这样的语言模型进行微调时,平衡其创造性和准确性无疑是一个持续的挑战。一方面,给出创造性答案的能力,是 ChatGPT 成为强大的「灵感」工具的原因。这也使模型更加人性化。另一方面,如果要帮助 ChatGPT 产生可靠的信息时,保证原始数据的准确性是至关重要的。
除了 AI 模型「创造力」的设置之外,数据集的「压缩」问题也会导致「幻觉」的出现。
这是因为,在训练过程中,虽然 GPT-3 考虑了 PB(petabytes)级的信息,但得到的神经网络的大小只是其中的一小部分。在一篇被广泛阅读的《纽约客》文章中,作者 Ted Chiang 称这是「网络中模糊的 JPEG」。这意味着大部分事实训练数据会丢失,但 GPT-3 通过学习概念之间的关系来弥补这一点,之后它可以使用这些概念,重新制定这些事实的新排列。
当然,如果它不知道答案,它也会给出它最好的「猜测。」这就像一个记忆力有缺陷的人,凭着对某件事情的直觉来工作一样,有时不可避免地会把事情弄错。
除了上述的客观原因,我们还不能忽视主观的「提示(prompt)」在「幻觉」中的作用。
在某些方面,ChatGPT 就像一面镜子:你给它什么,它就会给你什么。如果你给它提供虚假的信息,它就会倾向于同意你的观点,并沿着这些思路「思考」。而且,ChatGPT 是概率性的,它在本质上是部分随机的。
这就意味着,如果你突然改变聊天主题,而又没有及时提供新的「提示(prompt)」,ChatGPT 就很可能会出现「幻觉」。
03 如何减少 AI 的「幻觉」
「幻觉」的出现似乎是不可避免的,但所幸,是 AI 在推理中产生的「幻觉」绝非「无药可救」。
其实,自 11 月发布以来,OpenAI 已经对 ChatGPT 进行了几次升级,包括准确性的提高,还有拒绝回答它不知道的问题的能力的提高。
OpenAI 计划如何使 ChatGPT 更加准确呢?
A. 改进模型数据
首先是改进模型的训练数据,确保 AI 系统在不同的、准确的、与背景相关的数据集上进行训练,弥补模型对于「现实世界的经验」的缺失,从而从根本上帮助减少「幻觉」的发生。
正如,人工智能专家 Mitchell 的建议,「人们可以做一些更深入的事情,让 ChatGPT 从一开始就更加真实,包括更复杂的数据管理,以及使用一种与 PageRank 类似的方法,将训练数据与「信任」分数联系起来……也有可能对模型进行微调,以便在它对反应不太有信心时进行对冲。」
实际的解决方案,在很大程度上取决于具体的 AI 模型。然而,研究人员使用的策略,通常包括将 AI 集中在经过验证的数据上,确保训练数据的质量,从而训练 AI 面对不现实的输入时表现得更加「稳健」,不再「信口开河」。
B. 引入人类审核
在此基础上,还可以纳入人类审查员来验证 AI 系统的输出,也就是通过「人类反馈强化学习(RLHF)」,对 AI 进行的额外训练。
这是 OpenAI 正在使用的技术,官方的描述是「我们现在雇人来教我们的神经网络如何行动,教 ChatGPT 如何行动。你只要和它互动,它就会根据你的反应,推断出,这是不是你想要的。如果你对它的输出不满意,那下次应该做一些不同的事情。」
RLHF 原理图|图片来源:bdtechtalks.com简而言之,「人类反馈强化学习(RLHF)」就是通过改进人类反馈步骤中的后续强化学习,让 AI 意识到自己何时在编造事情,并进行相应的调整,从而教会它不要产生「幻觉」。
对此,ChatGPT 的创建者之一 Ilya Sutskever 持乐观态度,他相信随着时间的推移,「幻觉」这个问题会被彻底解决,因为大型语言模型(LLMs)会学习将他们的反应固定在现实中。
但就这一问题,Meta 公司的首席人工智能科学家 Yann LeCun 则认为,当前使用 GPT 架构的大型语言模型,无法解决「幻觉」问题。
C. 外部知识增强
除此之外,检索增强(retrieval augmentation)也可以使 ChatGPT 更加准确。
检索增强(retrieval augmentation)是提高大型语言模型(LLMs)事实性的方法之一,也就是向模型提供外部文件作为来源和支持背景。研究人员希望通过这种技术,教会模型使用像谷歌这样的外部搜索引擎,「像人类研究人员那样在他们的答案中引用可靠的来源,并减少对模型训练期间学到的不可靠的事实性知识的依赖。」
Bing Chat 和 Google Bard 已经通过引入「网络搜索」做到了这一点。相信很快,支持浏览器的 ChatGPT 版本也将如此。此外,ChatGPT 插件旨在用它从外部来源,如网络和专门的数据库,检索的信息来补充 GPT-4 的训练数据。这种补充就类似于一个能接触到百科全书的人,会比没有百科全书的人在事实方面更为准确。
D. 增加模型透明度
此外,增加模型的透明度也是减少「幻觉」必要的措施。
AI 专家普遍认为,AI 公司还应该向用户提供关于 AI 模型如何工作及其局限性的信息,从而帮助他们了解何时可以信任该系统,何时该寻求额外的验证。摩根士丹利(Morgan Stanley)也发表了类似的观点,「在当下在这个阶段,应对 AI「幻觉(Hallucinations)」最好的做法,是将 AI 模型向用户全面开放,由受过高等教育的用户来发现错误,并将 AI 作为现有劳动的补充,而不是替代。」
也许,「幻觉」只是 AI 发展路上的一个小插曲,但它提醒我们必须保持警惕,确保我们的技术为我们服务,而不是把我们引入歧途。
责任编辑:hnmd003
相关阅读
-
iPhone 比安卓手机更保值?转转回收让旧手机物有所值
关于iPhone和安卓手机的性能高低尚存争议,但在保值能力上iPhone无疑更有说服力。近期,由BankMyCell发...
2023-04-14 -
全球快消息!当贝 D5X Pro 轻薄激光投影评测:薄至一本书 小体积也能实现高亮度
依托高亮度、高对比度、高色彩还原度等优势,激光光源无疑是运用在家用投影中的最理想光源之一。随着近...
2023-04-14
相关阅读
-
环球热文:ChatGPT 张口就来的「病」,应该怎么「治」?
过去几个月,ChatGPT以及背后的大语言模型(LLMs)吸引了全世界的注意力,所有人都痴迷于对着略显「简陋...
-
手机变相机 小米 13 Ultra 或可配备拍照手柄
品玩4月14日讯,据小米官方消息,小米今天发布了即将在下周发布的小米13Ultra的最新海报。从海报来看,...
-
【天天速看料】小米机皇来袭!13 Ultra 关键参数都在这了
4月18日,米粉们期待已久的小米13Ultra将全球正式发布,这款引领着小米影像战略升级第二章、移动影像光...
-
iPhone 比安卓手机更保值?转转回收让旧手机物有所值
关于iPhone和安卓手机的性能高低尚存争议,但在保值能力上iPhone无疑更有说服力。近期,由BankMyCell发...
-
一加将在 4 月 17 日发布一加 45W 液冷散热器
品玩4月14日讯,一加今天宣布,将会在4月17日的新品发布会上公布全新一加45W液冷散热器。据悉,这款散热...
-
文创甬江城|见证未来新地标,文创港跻身网红打卡地
央广网北京4月14日消息四月的周末,在江风绿语之间,来一场说走就走的轻旅行,看看宁波文创港精心准备的...
-
大桥石化: 提供优质服务 做消费者的贴心“家”油站
大桥石化,一个靠质优价廉和星级服务被越来越多人熟知的河南本土品牌,自成立以来始终坚持以党建引领、...
-
港股车企这一年:5家营收过千亿,11家库存上涨
国内乘用车市场正在回暖。乘用车市场信息联席会数据显示,3月份国内狭义乘用车市场零售销量达158 7万辆...
-
面板厂商高薪挖掘AI人才:个别岗位月薪高达4万,行业回暖各家备货
全球消费电子行情仍处低谷,TVLCD(电视液晶)面板行情却先行上扬。“现在行情转好,不然也不会大量招人...
-
当前观点:2023年春糖最后一天,成都糖酒会真的值得来吗?
成都的上空,除了红油火锅味,最近还飘着一股酒香味儿。在出租车上,师傅一边在油门和刹车之间熟练切换...
-
成都糖酒会酒店展落下帷幕,4大人气酒店效果如何?:速读
为期5天的酒店展到今天落下了帷幕。作为春糖老牌服务商的成都凯宾斯基饭店与香格里拉酒店,收获了截然不...
-
自动驾驶打车何时能像网约车一样方便?
中新经纬4月14日电目前在一些地区,用户已经可以像叫网约车一样,线上呼叫Robotaxi(自动驾驶打车)。但受...
-
蓝标证实AI取代文案外包,昨日盘中一度暴涨超18%|全球通讯
近日,网传国内公关行业巨头蓝色光标华东区总部运营采购部下发了一
-
环球百事通!义乌小商品城探索“数实融合”,在1688开设官方数字馆
4月13日,义乌商城集团在1688开设的义乌小商品城数字馆正式上线,15
-
小米回应被乌官方列入俄“国际赞助商”名单:强烈反对
今日下午,小米公司发言人表示,强烈反对乌克兰国家预防腐败局把小
-
一年卖出100万份! 上海“原创”东北酸菜肥牛组合成爆品
石锅炙热、冻梨拔凉,烤肉滋滋作响,桌上摆着冰镇大白梨汽水——如
-
焦点报道:TST公司已注册多个峥系列酒类商标
据媒体报道,近日,多位网民留言不建议艺人徐峥作为嘉宾参加《青春
-
观致汽车新增3则被执信息,执行标的合计超1400万元-今日热搜
观致汽车新增3则被执信息,执行标的合计超1400万元4月14日,盖世汽车注意到,天眼查App显示,近日,观致...
-
设计进行大幅调整 新款大众T-Cross谍照曝光
设计进行大幅调整新款大众T-Cross谍照曝光日前,车质网从海外媒体获得了一组新款大众T-Cross的谍照图片...
-
全球视讯!中央直达资金护航教育事业发展
今年一季度,我市累计下达教育领域2023年中央直达资金5 08亿元。市财政局快速下达资金至基层,强化资金...
-
青山区奖励著名商标企业
近日,青山区经审核把关,为内蒙古双菱锅炉制造有限责任公司、包头市大青山机械制造有限责任公司、内蒙...
-
《盗听者》上映,苑琼丹主演,首日票房9334元|环球热头条
4月14日,电影《盗听者》在部分院线上映,截至目前,首日票房只有9334元。这部电影当中,最大咖位的演员...
-
天天速讯:上半年演唱会市场票房规模将达30亿
春节后,演出市场迎来爆发式增长。演唱会排队官宣、音乐节扎堆儿开票、各类型戏剧紧锣密鼓上演,大众极...
-
“五一”假期火车票将于4月15日开售
4月15日,旅客可以通过铁路12306网站、铁路12306APP购买五一假期首日(4月29日)火车票。5月3日火车票将...
-
融创中国:迟迅及商羽辞任公司执行董事 环球播资讯
迟迅及商羽均已向公司确认,二人与董事会并无意见分歧,也概无有关其等辞任的其他事宜须提请公司股东或...
-
【中国有约】用好“一山一水”,毛纳村走出特色发展新路子!_每日速讯
毛纳村以美丽乡村建设为抓手,以黎族文化和热带风情为主题,在不拆房、不砍树、不占田的前提下,大力发...
-
全球快消息!当贝 D5X Pro 轻薄激光投影评测:薄至一本书 小体积也能实现高亮度
依托高亮度、高对比度、高色彩还原度等优势,激光光源无疑是运用在家用投影中的最理想光源之一。随着近...
-
每日视点!LG 兑现承诺:末代旗舰 LG Wing 获 Android 13 更新
快科技4月14日消息,LG近日兑现此前承诺,为品牌最后一款旗舰手机推送Android13大版本更新。LGWing在更...
-
3 月手游出海榜:《原神》十连冠,《PUBG Mobile》海外总收入破 39 亿美元-环球快讯
4月13日,SensorTower公布了3月中国手游产品出海情况,详细榜单变化如下。3月出海手游收入榜本期收入榜T...
-
乌兰察布银行保险业12345热线业务培训成功举办
2023年4月14日上午,由乌兰察布银保监分局主办、乌兰察布银行业协会和乌兰察布市保险行业协会承办的乌兰...
精彩推荐
阅读排行
精彩推送
- 滁州市公布59宗存量住宅用地情况...
- 一季度卖房近1700亿元,上海二手...
- 世界热点!ESG元素频现消博会,...
- 中金公司2022年绿色金融交易规模...
- AIGC海外战局再添巨头亚马逊 ...
- 亚马逊推出大语言模型Titan以及...
- 世界热推荐:亚马逊的大语言模型...
- 焦点速递!面向大模型训练,腾讯...
- 恒大稳得利至尊版养老年金保险可...
- 无责意外伤害医保报销政策有新规
- 全球快看:我市企业赴海口参加国...
- 每日简讯:小米13Ultra将推出摄...
- 全球速看:腾讯发布超强算力集群
- 环球速看:多地中小银行存款利率...
- 每日资讯:凡人微光|把爱写成诗
- 全球最资讯丨高端访谈丨专访:“...
- 升级鸿蒙 3 后的问界 M5 纯...
- 全球短讯!三倍增速与四大难题,...
- 今日聚焦!GW 级产线开工,钙钛...
- 从 500 股到 800 万股,丘栋...
- 英国健康机构:未来十年发生另一...
- 当前热门:海南离岛免税首季揽金...
- 怎么申购新股?怎么买新股票更容...
- 股票分时线横盘原因?分时横盘必...
- b股转h股是什么意思?b股转h股是...
- 股票买涨买跌怎么操作?卖出是买...
- 北京证券交易所什么时间开盘?北...
- 普瑞眼科上市了吗?普瑞眼科股票...
- 股权质押是什么意思?股权质押会...
- 为什么说坑人的太平洋金佑人生?...