ResponsibleTA 提升 LLM 可靠性,任务完成更安全、更高效 即时看
2023-06-22 14:10:46来源:ZAKER科技
机器之心专栏
机器之心编辑部
(相关资料图)
AI 智能助手照进现实。
近几个月,ChatGPT、GPT-4 等大语言模型(LLM)展现出突破性的理解、推理、生成、泛化和对齐能力,对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。此外,LLM 还展现出在真实世界的开放场景中解决复杂问题的能力,使科幻电影中无所不能的 AI 智能助手照进了现实。
在实现自然场景中的任务自动化时,一个复杂的任务往往由多个子任务构成,这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作,是构建 Responsible AI ,以及让 LLM 可靠地为人类提供服务的关键问题。
为了解决这个问题,来自微软亚洲研究院的研究团队提出 Responsible Task Automation ( ResponsibleTA ) 框架,提升 LLM 和执行器之间协同工作的安全性和有效性。
论文链接:https://arxiv.org/pdf/2306.01242.pdf项目主页:https://task-automation-research.github.io/responsible_task_automation/
方法
本文通过提出一个新的任务自动化框架,通过可行性检测,完成度检验,用户隐私保护等三个模块,提高了大语言模型作为任务助手的可靠性,为未来的人机交互提供了一种可行的方式。
该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。
Responsible Task Automation ( ResponsibleTA ) 框架示意图当 ResponsibleTA 接收到复杂任务对应的高层级指令时,安全性检测自动将包含用户隐私的命令实体替换成对应的占位符,然后将去隐私化的指令发送给部署在云端的 LLM,LLM 据此规划实现该负责任务目标的单步指令,然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发,该框架赋予 LLM 三个新的能力:
1)可行性预测:ResponsibleTA 框架针对 LLM 和执行器的协同,开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断,及时拦截不可行的执行指令,从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时,可行性预测期会将其分析结果返回给 LLM,并要求其重新进行任务规划,力求将合理可行性的指令交付给执行器,提升任务自动化的成功率。
2)完成度检验:ResponsibleTA 框架设计了一个完成度检验器,用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态,判断 LLM 当前规划是否完成,并提供及时补救的可能。当执行状态判定为「未完成」时,完成度检验器会要求 LLM 启动 replanning,使其能够及时调整任务规划。
完成度检验器和上述可行性预测器,分别在 LLM 输出指令的执行前后,对指令的合理性和执行的完成性进行校验,为任务自动化的可靠性提供了双重保险。
3)用户隐私保护:ResponsibleTA 框架还设置了用户隐私保护机制,该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时,ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息(如:用户名、密码、地址等)替换成对应的占位符,而当大语言模型将规划的低层级指令发送给部署在本地的执行器是,占位符会被自动替换成对应的真实信息。于此方式,用户的隐私信息仅在本地被存储和被使用,无需发送至云端,从而避免在传输和使用中的不可控风险。
针对 ResponsibleTA 中的可行性预测和完成度检查功能,其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线,并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例,第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地,研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述,并将和指令一起输入给 GPT-4 模型,让 GPT-4 判断当前指令的可行性。具体方案如下图所示。
基于 prompt engineering 的(指令)可行性预测器实现方案另一种技术方案在于训练一个专用的多模态模型,该模型接收 UI 页面的视觉信号和对应的语言指令为输入,输出该指令的可行性判定结果,具体结构如下图。
基于专用模型的(指令)可行性预测器实现方案完成度检验器的实现方案于可行性预测器类似,在此不详细赘述。
实验
该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验,验证其有效性,并对比不同实现方式的特点。据下表所示实验结果,作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练,而基于 LLM 的技术方案也能达到不错的效果,并在实际部署的成本和灵活性方面具有优势。
可行性预测器和完成度检验器的定性实验结果作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型,具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令,并能通过让 LLM 进行 replanning 的方式进行及时补救,从而提升任务自动化的成功率。
真实世界中实例研究定量结果。表格中的数字表示 「有效执行步数 / 总共执行步数 (人类专家执行步数)」。此外,作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救,使其成为一个成功案例。
案例分析:进入亚马逊网站并将最便宜的充电器添加至购物车。THE END
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
相关阅读
-
ResponsibleTA 提升 LLM 可靠性,任务完成更安全、更高效 即时看
机器之心专栏机器之心编辑部AI智能助手照进现实。近几个月,ChatGPT、G
-
大地震下如何存活,苹果三份 1986 年文档公开(附下载地址)_即时看
IT之家6月22日消息,苹果公司在主推iPhone和Mac的过程中,也制造了很多
-
信息:佳能即将发布 V100 相机,主打 vlog 市场?
根据网络上的最新传闻,佳能即将扩展其V系列视频记录相机。目前产品线
-
小长假第1天,A股迎来2个利好!节后的方向定了?|新动态
行情,没有好坏,只有节奏,不要盯着大盘指数了,虽然我知道大多数人都
-
端午临近 市场消费升温
传统习俗带动端午花束热卖,用艾草叶、玉簪叶、菖蒲叶等组成的装饰花、
-
【世界新视野】氢稳富氢水杯 H1 华为商城开启众测 快速科技制氢
【宅秘新闻】近日,氢稳富氢水杯H1在华为商城开启众测活动,正式发售价
-
环球速讯:内地买家搅动香港楼市,冯小刚离场净赚 6000 万港元,豪宅成交量大涨
本文来源:时代财经作者:林心林内地豪客再次搅动了香港楼市。图片来源
-
全球今热点:全国首部渐冻人康复系列片之《言语障碍康复》在崇川首发
交汇点讯6月16日下午,凝聚了崇川区幸福街道暖“冻”爱心联盟所有成员
-
针对中国,一场“疯狂骗局”在澳上演
在政府、右翼智库、军火工业和操纵公众思维的媒体的共同压制下,异见声
-
iPhone SE 4 遥遥无期,平价 5G 苹果手机或绝迹?_今热点
巴克莱银行分析师布莱恩柯蒂斯(BlayneCurtis)和汤姆奥马利(TomO & 039;Malle
-
聚焦:白色手机消失了?安啦,数量不多,但还是有的
手机的配色越来越丰富,各种颜色和材质的搭配让手机变得更加个性化和时
-
诺兰专访:AI 不是原子弹,但将其捧上神坛最危险
这可能是英国著名导演克里斯托弗·诺兰,发布新片最好的时机,没有之一
-
河北格力旗舰店 618 盛大开业 充分展现了渠道改革下的市场活力-今日观点
关注雷科技(leitech),这里有深扒爆料,这里有酷玩评测,还有良心家电I
-
天天新动态:特斯拉的美国友商们入华,会被中国新势力“卷”回老家吗?
图片来源@视觉中国文|电车通瘦田无人耕,耕开有人争。继本月初曝出美国
-
每日资讯:只买百万医疗险有意义吗?一年交多少钱?
有意义。虽然百万医疗险在提供医疗保障方面具有一定的价值,够买百万医
-
团体意外险怎么购买?多少钱?
购买团体意外险通常需要以下几个步骤:选择保险公司:首先,您需要选择
-
扎克伯格不服马斯克嘲讽,两大科技领袖将上演笼斗大戏|消息
IT之家6月22日消息,在埃隆马斯克最近在推特上发文说他愿意和扎克伯格
-
微软确认 Xbox Series X 和 XGP 订阅服务即将涨价
钛媒体App6月22日消息,当地时间周三,微软全球传播主管KariPerez在向
-
对话蓝晶微生物:科学家建工厂,要做 game changer 就别无选择
访、文|凌梓郡卫诗婕编辑|卫诗婕江苏盐城滨海区矗立着高大的白色风车
-
推特恢复向谷歌支付云服务费用 每日速讯
钛媒体App6月22日消息,据市场消息,推特已经恢复向谷歌云支付服务费用
-
高盛上调日本股市目标位,预计半年度财报可能有惊喜 热资讯
高盛上调日本股市目标位,称对于日本企业改革的预期以及相对于海外市场
-
全球热讯:苹果宣布推出 visionOS 软件开发包,开发者下月可在 Vision Pro 硬件上测试 app
苹果公司北京时间6月22日宣布推出visionOS软件开发包(SDK),支持开发
-
视焦点讯!微软在香港正式推出 Bing 聊天机器人
6月22日,据《香港经济日报》报道,微软在香港正式推出Bing聊天机器人
-
美股牛市不稳?高盛:若美经济步入衰退 标普 500 料大跌 23%|全球滚动
财联社6月22日讯(编辑黄君芝)高盛(GoldmanSachs)在最新报告中表示
-
《秀我中国 | 新时代中国乡村志(第四集):千年梯田 十年新生》
松花江网,是经国家互联网信息办公室批准的国家一类新闻网站,吉林省重
-
华贵人寿保险可信吗?怎么买? 天天时讯
可信。监管合规性:华贵人寿保险严格遵守监管机构的规章制度,按照法律
-
增额终身寿险定义是什么?有什么用?-焦点观察
增额终身寿险是一种寿险,它与传统的终身寿险相比,在保障的基础上增加
-
太平百万医疗优缺点有哪些?一年交多少钱?-环球速讯
优点:全面保障:太平百万医疗保险提供了全面的医疗保障,覆盖住院医疗
-
环球看热讯:泰康健康有约终身重大疾病保险H款怎么样?靠谱吗?
泰康健康有约终身重大疾病保险H款是一款特定类型的重大疾病保险产品。
-
商业意外险的赔偿范围有哪些?一年多少钱?
商业意外险的赔偿范围通常包括以下几个方面:医疗费用赔偿:商业意外险
精彩推荐
阅读排行
精彩推送
- 天玑曲面屏之王!vivo X90s 上...
- 谷歌幽默新广告嘲笑 iPhone 过...
- 全球球精选!保护中国海外投资利...
- 天天信息:贾跃亭发文致歉!
- 天天快资讯丨微软在香港正式推出...
- “超市界海底捞”董事长宣布退休...
- 高新区召开危化品重大事故隐患专...
- 每日消息!美国文学亨利詹姆斯课...
- 最新:百万医疗保险购买流程是什...
- 速讯:泰康人寿逸安卫年金险亮点...
- 平安百万医疗电话是多少?电话投...
- 福禄康瑞2018重疾险20年后可以拿...
- 世界速读:国寿康宁终身重大疾病...
- 周浩 在创新路上奋勇前行
- 今日播报!电力微网格织出居民“...
- 世界最资讯丨端午出游好去处,OP...
- 环球热点!通用机器人里程碑?谷...
- 通讯!中国柔性 OLED 市占首超...
- 福特 CEO 嘲讽特斯拉 Cybertr...
- 三年亏损 614 亿,东航“玩不...
- 理想吹响城市 NOA 号角:激光...
- 共享按摩椅,我一秒钟都不想坐|...
- 每日看点!华为爆出大动作!将有...
- “中国天眼”发现迄今轨道周期最...
- 哪种百万医疗险保证续保?续保流...
- 泰康人寿逸安卫有什么投保规则?...
- tomo放疗百万医疗可以报销吗?百...
- 少儿百万医疗保险推荐?有必要买...
- 每日资讯:水滴百万医疗险保障范...
- 内地买家搅动香港楼市,冯小刚离...