一键开启 ChatGPT “危险发言”:AI 聊天机器人竟有“大 bug ” 目前无法修复
2023-08-04 07:10:35来源:ZAKER科技
随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
(相关资料图)
然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆论,甚至被黑客用来盗取用户的个人隐私。WormGPT 和 FraudGPT 等网络犯罪生成式 AI 工具的出现,引发了人们对 AI 应用安全性的担忧。
上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负责任的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。
那么,问题来了,他们自家的模型真的安全吗?近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究人员便披露了一个与 ChatGPT 等 AI 聊天机器人有关的 " 大 bug" ——通过对抗性提示可绕过 AI 开发者设定的防护措施,从而操纵 AI 聊天机器人生成危险言论。
当前热门的 AI 聊天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免。
图|通过对抗性提示可绕过 4 个语言模型的安全规则,引发潜在有害行为具体而言,研究人员发现了一个 Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。
例如,当被询问 " 如何窃取他人身份 " 时,AI 聊天机器人在打开 "Add adversarial suffix" 前后给出的输出结果截然不同。
图|开启 Add adversarial suffix 前后的聊天机器人回答对比此外,AI 聊天机器人也会被诱导写出 " 如何制造原子弹 "" 如何发布危险社交文章 "" 如何窃取慈善机构钱财 " 等不当言论。
对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示," 据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。"
研究人员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。
OpenAI 发言人 Hannah Wong 表示:" 我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别异常活动模式的方法,持续通过红队测试来模拟潜在威胁,并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。"
谷歌发言人 Elijah Lawal 分享了一份声明,解释了公司采取了一系列措施来测试模型并找到其弱点。" 虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了重要的防护措施,我们会不断改进这些措施。"
Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:" 使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时,我们也在探索额外的防御层。"
图|4 个语言模型生成的有害内容对于这一问题,学界也发出了警告,并给出了一些建议。
麻省理工学院计算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于语言模型中是有道理的,因为它们影响着许多机器学习模型。然而,令人惊奇的是,一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。
Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行训练的,其中很多数据都来自于相同的网站,而世界上可用的数据是有限的。
" 任何重要的决策都不应该完全由语言模型独自做出,从某种意义上说,这只是常识。" 他强调了对 AI 技术的适度使用,特别是在涉及重要决策或有潜在风险的场景下,仍需要人类的参与和监督,这样才能更好地避免潜在的问题和误用。
普林斯顿大学的计算机科学教授 Arvind Narayanan 谈道:"让 AI 不落入恶意操作者手中已不太可能。" 他认为,尽管应该尽力提高模型的安全性,但我们也应该认识到,防止所有滥用是不太可能的。因此,更好的策略是在开发 AI 技术的同时,也要加强对滥用的监管和对抗。
担忧也好,不屑也罢。在 AI 技术的发展和应用中,我们除了关注创新和性能,也要时刻牢记安全和伦理。
只有保持适度使用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技术为人类社会带来更多的益处。
责任编辑:hnmd003
相关阅读
相关阅读
-
一键开启 ChatGPT “危险发言”:AI 聊天机器人竟有“大 bug ” 目前无法修复
图片来源@视觉中国随着大模型技术的普及,AI聊天机器人已成为社交娱乐
-
推特改名 X 的 10 天,混乱一箩筐
改名改不了命马斯克又想找库克聊聊了,为了X。去年11月底,马斯克刚以4
-
阿里海外电商,离吹响号角还远
掌握经济话语权如果把视角拉向更宏观角度,国内四大跨境电商平台要做的
-
小程序帮大厂“拆墙”
流量围城终于被打开缺口。互联网平台与生态参与者之间,并非总是一片和
-
灵魂人物吴新宙出走,小鹏汽车的自动驾驶将驶向何方?
文|孟帅编|深海如今,分别的时候来临。万千不舍,但是相信小鹏坚实的团
-
能杀死所有实体瘤的神药要来了吗?多方发声:理性看待
这两天,一款被称为能杀死所有实体瘤的药物AOH1996引发关注,甚至被封
-
昔日千亿富豪姚振华,如今被当街围堵,发生了啥?
被自己保安拦在门外的宝能集团实际控制人姚振华万万没想到,这只是开始
-
韩国超导和低温学会:“ LK-99 ”是室温超导体论据不足
当地时间3日,韩国超导和低温学会LK-99验证委员会表示,由于与LK-99相
-
马斯克:有望年底实现完全自动驾驶
2023 8 4星期四马斯克:有望年底实现完全自动驾驶8月3日消息,马斯克昨
-
最新 GDP 揭晓!这些省份,被打回原形……
上半年各地经济数据陆续揭晓,有人欢喜有人忧。具体到各省来看,有17个
-
2023年深圳台胞棒球“家”年华举行 “艺”“棒”会友 共筑两岸情
近日,由深圳市台办主办,深圳市棒球协会承办,深圳市台商协会、深圳领
-
OPPO K9 充满电不拔充电器会怎样
OPPOK9手机充满电不拔充电器会怎样OPPOK9手机充满电不拔充电器会怎样1
-
在最强降雨区,北京最古老寺庙安好!
千年古刹潭柘寺,安然静谧的古寺院中,庙宇安好……
-
折叠屏手机,怎么把自己活成了「VR 头显」?
2004年,当时如日中天的摩托罗拉推出了MotorolaRazrV3,这款被国人简称
-
华为迎回 5G,又能与三星、苹果一较高下了?
华为终于又有资格与三星、苹果一较高下了?5G芯片回归的传闻发酵半年后
-
华为迎回 5G,又能与三星、苹果一较高下了?
本文来自微信公众号:盒饭财经(ID:daxiongfan),作者:赵晋杰,编辑
-
多地充电桩,价格涨超 20%
作者丨柳宁馨编辑丨周上祺8月1日中午12时30分,在广州越秀公园充电站,
-
民营房企融资部门注意了!央行再度发声,将支持“第二支箭”扩容增量
财联社8月3日讯(记者王海春)民营房企在融资端,有望迎来新的窗口期。
-
互联网大厂投资的线下商超,集体陷入泥潭
「传统超市好像退出历史舞台了」的话题,竟然冲上小红书热榜首位。那些
-
三星ua46es6100j闪灯不开机(三星ua46es5500r灯亮不开机)
今天小鱼来为大家解答以上问题,三星ua46es6100j闪灯不开机,三星ua46e
-
郑志刚:扬子新材信披违规被罚,如何斩断信披违规空间?
扬子新材所涉及的几项信息披露违规事项,都是典型的违规行为,比如说大
-
蔡尖花园(关于蔡尖花园简述)
,你们好,今天0471房产来聊聊一篇尖花园,尖花园简述的文章,网友们对
-
如何查询泡水车,如何查询泡水车情况,
如何查询泡水车,如何查询泡水车情况泡水车是指汽车在水中被淹没或受到
-
要不是我说:这些常用品的隐藏用法,距离你发现可能还得几年
只不过因为这些东西太常见,我们选择了墨守成规,没有人再去仔细阅读它
-
黑龙江省哈尔滨市2023-08-04 00:22发布暴雨黄色预警
一、黑龙江省哈尔滨市天气预报1、延寿县气象台2023年8月4日0时08分发布
-
联想拯救者 R9000X 14 英寸版海外发布:R9 7940HS + RTX 4060
IT之家8月3日消息,据NoteBookcheck消息,联想今日在海外发布了LegionS
-
谷歌 Chrome 更新并移除“下载栏”,引起用户强烈不满
IT之家8月3日消息,当地时间8月2日,谷歌宣布为Chrome带来了4个新的移
-
室温超导疑云:韩国学界初步判断 LK-99 并非超导体,研究团队背后为私营公司,涉嫌捏造合作关系
轰动全球科学界的室温超导疑云,可能又是一个狼来了的故事。在全球多地
-
三星国行发布会价格汇总 1799 元起 Z Flip5 仍可免费升杯
【手机中国新闻】8月3日晚19点,三星正式召开了国行新品发布会,在此次
-
妙鸭相机负责人回应 9.9 元干掉海马体言论:希望能共生
【CNMO新闻】近日,一款名叫妙鸭相机的App火爆出圈,特别是其9 9元的AI
精彩推荐
阅读排行
精彩推送
- 美国首枚核动力火箭最早或于 20...
- 金银河:靓丽的半年报背后,实则...
- 62 家非上市寿险公司上半年保费...
- 7 月商业银行金融债发行掀起小...
- 能杀死所有实体肿瘤,“抗癌神药...
- 自驾游迎五年以来最旺暑期 租车...
- 新华全媒+丨天津东淀蓄滞洪区群...
- 闻“汛”而动丨直升机贴地悬停接...
- 北京:即日起在受灾地区开展防汛...
- 中国红十字救援队已转移北京受灾...
- 好消息!京周路“大石河桥”通啦!
- 《逐梦》第五集:《钢多了气要更...
- 小鹏汽车发布极端天气用户关怀服...
- 同花顺:目前公司大模型还处于备...
- 高通与现代汽车就定制化车载信息...
- 漂在洪水里的图书,困在暴雨中的...
- 重庆提示网约车运力远超实际需求...
- 郑州发布稳楼市 15 条:落实认...
- 深圳:深圳拟上调住房公积金租房...
- 李云泽会见孟晚舟!华为明日揭晓...
- 新华全媒+|妥善安置 悉心关怀...
- 北京CBD咖啡馆近700家,多国驻华...
- 净利下滑超5成!硅料细分龙头大...
- 剑指“最难攻克”靶点 中国生...
- 美元和美军,美国践踏世界的两只脚
- 国道109生命通道已抢通 应急救...
- 马斯克:特斯拉正在开发 FSD ...
- 百度地图 App 发布 18.8.0 ...
- 微信这个设计,是不是多余了?
- 中国移动与青海省政府签署战略合...