姚期智,徐立和杨植麟们在一起聊了什么?中国 AI 老中青三代的一场对话
2023-07-06 21:13:35来源:ZAKER科技
在 2023 上海世界人工智能大会开幕式上,商汤科技董事长兼 CEO 徐立联合图灵奖得主姚期智、清华大学交叉信息学院助理教授袁洋、清华大学交叉信息研究院助理教授杨植麟和 DragGAN 第一作者潘新钢举办了一场以《创想共论 · 智变可能》的圆桌论坛。
(相关资料图)
论坛中,四位嘉宾分享了自己在人工智能发展、多模态补齐、大模型幻觉以及图像生成模型等方向的看法。
金句汇总:1、在 ChatGPT 之后,下一个非常重要的目标是让 AI 成为拥有视觉、听觉等多种感知能力的机器人,能够在各种不同的环境里面,自主地学习新技能。
2、面对大模型实际应用中的挑战,需要更系统的去将底层的共通问题抽象出来,回到更本质的一个层面去解决。
3、将 GAN 和 Diffusion 模型两种路线各自优势互补,是未来研究的方向。
以下为圆桌论坛实录:
徐立:
各位嘉宾好,很荣幸今天能在这场做主持,因为这场有我们计算机界的泰斗姚院士,以及我们三位非常年轻的学术之星,可以说这三位代表了我们人工智能的一些新的发展方向,所以话不多说,我开始简单地来介绍一下。
我们知道姚院士是图灵奖得主,并且是在清华创办了交叉信息学院。其实现在大模型发展的速度非常的快,我想请教一下姚院士,在大模型发展的今天这个节点上,有没有一些基础理论的突破,以及接下来有些哪些发展的方向?
姚期智:
我们中国的科学家在现代的 AI 的发展上做了很多突破性的贡献,我们有一位年轻的高阳老师,他在一年多以前做了一个非常重要的在算法突破上的贡献,受到很多的国际关注,它能够把现在非常主流的强化学习,加快数百倍。
我来解释一下,在 ChatGPT 以后,下一个非常重要的目标就是让 AI 变成有视觉、听觉等多种感知能力的机器人,它能够在不同的环境里面,自主地学习各种的新技能。但是现在的强化学习的方法,太慢了,对于这些新的技术常常要几个月的时间才能够学好。高阳老师他的一个突破就使得强化学习,能够在几个小时内就能够做到。
所以这些智能机器人将来的发展里面一定会要把刚才这个工作能够放进去,同时它不仅是一个实用的问题,而且它有一个理论的贡献。
在过去的六七年里面,人工智能方面有一个路线之争,就是我们现在依赖着强化学习这条路线是不是正确,有很多的争论。
我想高阳教授他一年多以前的这一个突破,把天平方向倾向了另外一边,我们应该坚持我们现在这条路,对于通用人工智能的完善还有很长的路要走。
OpenAI 联合创始人在不久之前的一个 interview 里面,就把高阳老师的工作当做近年来强化学习里面最重要的亮点之一。我现在只是在做一个广告,明天,期智研究院要主办一个分论坛,那里面大家可以遇见高洋老师,同时还有其他很多的中外的在基础理论跟框架上的贡献。
好,谢谢姚院士,我们也期待强化智能,在人工智能的领域上面能够有更大的成就和突破。接下来我们这三位教授是非常年轻,两位是清华大学交叉信息学院的教授,一位是 NTU 的教授,我想起人工智能当时起来的时候五六年时候那篇 proposal,其实 4 位学者的平均年龄是 33 岁,我看了一下我们这三位教授的平均年龄还不到 33 岁了。
接下来想请问一下袁洋教授,在大模型的演进发展过程当中,这些交叉学科对模型的发展有没有什么进一步的帮助?
袁洋:
我觉得现在大家特别强调大模型要能够用到一些交叉的行业里面,能够落地应用起来,大家会讲到多模态。这个事情肯定是很重要的,但是我觉得大家对多模态的东西的理解可能比较粗糙,大家往往想到的多模态是他能够看图片、看文字、有触觉、有温度的感觉,但是我觉得要真正做到一个具体行业,能够解决行业里的问题,多模态需要做得更细致一些。
比如说我举个例子,像一会儿潘老师可能要讲的 DragGAN,我们如果只是考虑文本到图片的一个生成,你说一句话要画一只狗,然后它生成一个狗的图片,这样你很可能会发现生成狗的图片不是你想要的姿态或者模式,然后通过 DragGAN 你可以用鼠标来拖动一下,修改一下。
鼠标拖动的这种方式,在我看来这就是一种新的模态,用户用一种比较好的方式把自己想要表达的内容告诉大模型,让他能够理解。
虽然它可能只是一种鼠标拖动,但这种多模态的输入,我觉得在具体应用中非常重要,到更具体的一些行业,比如说医疗法律教育,我觉得我们不应该只是把文本或者图像喂给模型,让它有一些专业的数据,就希望它能够解决专业的问题,我们应该去深耕这个行业,去找到它里面最核心的问题是什么,然后再去找在这个问题里面,我们到底需要什么样的模态的数据,什么样的信息能够精准表达我们想要解决的问题,这个我称为是一种模态的补全。
然后模态补全之后,我们需要在补全模态的基础之上收集足够的数据,做好模态的对齐,模态补全模态对齐做好之后,我相信它能够赋予大模型更强大的能力,来解决更核心的一些交叉领域的问题。
模态补齐之后,可以相当于是这方面的 Know How 对于后面的发展是有很大的帮助。我们来问一下杨植麟,杨植麟也是誉为说天才少年,然后我看过他很多的工作,包括他也参与到大语言模型非常早期的一些工作。
我想现在大语言模型应用很广泛,但是也会在实际当中会遇到一些问题,比如我们经常提到的幻觉等等的一系列的挑战,所以想请问一下说在大语言模型的实际使用当中,我们有哪些困难和挑战,或者要注意哪一些方面上的具体的点。
杨植麟:
现在确实有很多大模型方面的还没有解决问题,比如说安全性怎么让它做到非常可控、如何去避免它产生这种幻觉,不去编造一些很不存在的东西以及他现在其实也没有办法像科学家一样去创造新的知识,或者说在很多行业里面像最顶级的销售、产品开发这些工作可能现在都还没办法做,我认为这里面很重要的一个点,是我们在思考这些问题的时候,不应该每个问题去单点思考。
比如说今天我想解决幻觉的问题,不是去头痛医头,而是更系统的向这些问题之间底层都是什么样共通的问题,回到更本质的层面去解决,因为毕竟是通用的模型,我们希望它能够在这些方面都能够一举一反三,所以我觉得其实还是要去做更规模化的高效的压缩,比如说去用更好的更适合分布式训练的这种框架,类似比如 MOE 或者是支持更长的上下文的框架,包括在这里面怎么样去更好地分配算力,对更高质量的数据分配更多的算力,就类似这样的问题,我觉得其实可以更根本地去解决我们刚才可能聊到的现在 AI 的存在一些局限性。
还是从理论层面上去解决,可能讨不得巧。然后今天我们的圆桌的背景都是用我们用算法生成的,其实都是基于 Diffusion Model 的,但是新钢是以一己之力又把 GAN 重新拉回到大家的视野当中,他 DragGAN 这篇文章是网上说爆款,说有手就行,大家就能来制作内容,所以也想听听新钢来讲说比如说算法当中 GAN 和 Diffusion Model 之争,算法本身路线选择有没有什么好坏,或者说在这之后再看生成内容的时候这两者哪一个有更强的延展性。
潘新钢:
好,谢谢主持人的提问。 GAN 和 Diffusion Model 现在是图像生成的两个主要的生成模型,尤其是 Diffusion Models 在近期也显然有盖过 GAN 的势头。我觉得他们由于生成模型的框架以及优化目标的不同,主要有三个差异:
第一个是性能与效率的 Trade off,显然扩散模型在生成的过程中,它的需要的算力更大,它的迭代式的计算所需要的 influence 的时间和训练的都显著高于干。
与此同时更大的计算开销也带来了更高的图像生成的性能,它所生成的图像不会受限于 GAN 的 mode claps 的问题,它的真实性和多样性都显著优于 GAN,所以我相信扩散模型它的上限一定是要高于 GAN 的,在性能允许的情况下,它对于质量和多样性方面的优势是非常明显,并且应用价值应用前景更广的,但是如果说在一些特定场合,例如 mobile device,这些对于性能或者计算开销有限制的情况下,GAN 仍然是这样一种妥协的选择。
第二点是他们 Latent Space 的差异,我们知道 GAN 是将一个 Compact Latent Vector 映射到图像,但是扩散模型是将一个和图像分辨率一样的 noise map 映射,逐映射逐渐去噪,映射成为图像。实践中,扩散模型的这种 noise map 对于图像内容的影响常常表现出来为比较随机,不具有结构化的特性。但是 GAN 的 Compact latent code 可以非常有效地去编辑图像中的 high level 的属性。
比如说人的表情或者动物的姿态之类的,这也是为什么我们选择将 GAN 作为 drag 这种编辑方式的第一个生成模型去 study。
但我相信之后如何去拓展到扩散模型,也是一个非常值得探索的问题。
第三点就是他们生成图像的空间的连续性上,由于这两个模型在设计的时候,他的 Lipschitz constraint 不同,所以体现出来扩散模型的图像空间较为不连续,GAN 的图像空间非常延续自然,所以我们用扩散模型进行 Latent Space 编辑或者视频的编辑时候,常常会观察到跳变的情况。
GAN 他表现出来比较流畅,看起来像动画,所以这也是 GAN 的一个优势,将来如何把这两个模型各自的优势互补会是非常有趣的研究问题。
就是 Gan 在前端或者连续视频上面有优势,然后 Diffusion 其实在性能上会更好一些,希望有一个更好的结合。我再问一下最后一个问题,结合咱们的研究方向,各位觉得大语言模型在接下来哪个垂直领域里面,可能最北被看好?
我想最容易的就是文书工作,有了大模型的语言以后,更多的工作可以变得由这些机器来做,我想这是一个直接的表现。
袁洋:
我觉得是医疗,因为当然不光是因为我是做智能医疗的,还有一个原因是因为我觉得大模型现在是基于预训练的这种范式。预训练的本质其实在学数据与数据之间的关系,医疗里面有大量的这种关系。比如说,患者的症状之间关系与药物之间关系,吃了药之后会变成什么样子的这些关系,这些关系其实人类不一定能够学习地刻画得很好,我觉得在这方面大模型有可能做得比机器更好,所以我比较看好这个方向。
我觉得比较重要的一个场景是 AI 将来应该会跟人一样有共同的记忆,比如说今天我们去用一个 AI 的话,还是需要每天给大家重新去灌输一些东西,给他提供很多上下文,把人能看到的所有东西其实 AI 都能看到,通过这种方式,其实我觉得可以在个人的使用上有非常大的想象的这个空间。
我是做视觉内容生成的。现在图像生成已经很好了,而之后视频和三维内容生成也有非常大的前景,它可以帮助设计师、帮助艺术家,帮助动画制作者、影视特效师等人,去更好更高效地创作更高内容的更高质量的内容。
责任编辑:hnmd003
相关阅读
相关阅读
-
姚期智,徐立和杨植麟们在一起聊了什么?中国 AI 老中青三代的一场对话
在2023上海世界人工智能大会开幕式上,商汤科技董事长兼CEO徐立联合图
-
涌现 4 倍 5 倍牛股的光模块还有多少后劲?全方位比较两大龙头,新易盛能笑到最后?
你相信光吗?是相信光伏,还是相信光通信?在AI技术驱动下,光通信模块
-
新易盛研发实力遭碾压,产能同样败北,只能从毛利率中找自信?
在AI技术驱动下,光通信模块在炙手可热中轮番高涨,4倍5倍涨幅的牛股层
-
腾讯会议限制免费会议数,跨 App 加入会议改为付费功能
IT之家7月6日消息,腾讯会议宣布,自2023年7月6日起,部分功能将逐步进
-
内蒙古通辽市科尔沁区上空出现超级单体风暴
该系统作为对流风暴的一种,是局地对流风暴发展最猛烈的形式,其特点是
-
山水家园 甜蜜屏边|守护公共利益 全力保障屏边绿色发展底色
清晨,屏边县人民检察院的听证室内,一场关于“外来入侵物种福寿螺的防
-
大佬1.58亿“捡漏”上海豪宅
2023年到底适不适合买房?对于一些视豪宅为门面的商业大佬来说,这
-
把清凉送给每一个高“炎”值的你!
对于这些高“炎”值的劳动者,我们不仅要心怀感恩,更需要用实实在在的
-
电视市场回暖,国产品牌大爆发
近日,市场研究机构TrendForce发布了2023年第二季度的全球电视市场报告
-
微软能从 ChatGPT 中赚到多少钱?摩根士丹利给出答案:至少 900 亿美元
钛媒体App7月6日消息,摩根士丹利周四(6日)发布研究报告,将微软的目标
-
VAIO 杀入主流市场,B 端业务同步破局
近两年,笔记本市场的竞争烈度正不断升高,一方面,游戏本等快速上升的
-
对 iPhone 15 没期待?荣耀 CEO 赵明的底气从何而来
从去年开始,越来越多的折叠屏手机开始「减重」。从近日知名数码博主小
-
谁能阻止特朗普再战拜登?德桑蒂斯恐怕是指望不上了
财联社7月6日讯(编辑史正丞)眼下距离美国大选的党内初选正式启动大概
-
不仅明星,上市公司密集布局私募股权,主业下滑,依赖股权投资曲线搭救?
财联社7月6日讯(记者吴雨其)在私募股权投资大发展的背景下,上市公司
-
下半年楼市怎么走 会出台重磅扶持性政策吗?
财联社7月6日讯(记者王海春)伴随楼市上半年度成绩单出炉,下半年市场
-
利扬芯片:7月4日公司高管张利平减持公司股份合计10000股
证券之星讯,根据7月6日市场公开信息、上市公司公告及交易所披露数据整
-
全家百万医疗保险多少钱?是哪家的?
全家保是众安财险的一款1年期的百万医疗险,不保证续保。保障包含一般
-
宏盛华源主营业务毛利率大幅下滑,子公司涉多起诉讼,信披曾有缺失
来源|时代商学院作者|彭晨雨编辑|雷映报告期(2020—2022年)内,主营
-
学生平安保险查询方式有哪些?保障哪些方面?
大多数保险公司都会在官网上提供学生平安保险的相关信息;如果对学生平
-
海新能科:将积极与相关部门协商,尽快消除美方焦化事项的不确定性
海新能科(300072)7月6日晚间公告,7月4日,公司控股子公司美方焦化收到
-
亿纬锂能:上半年公司在小鹏汽车的供应占比最大
亿纬锂能:上半年公司在小鹏汽车的供应占比最大7月6日,盖世汽车获悉,
-
美国6月挑战者企业裁员人数为4.0709万人 为2022年10月以来新低
美国6月挑战者企业裁员人数为万人,为2022年10月以来新低,前值万人。
-
耶伦抵京 中美双方握手近20秒
2023年7月6日下午,美国财政部部长珍妮特·耶伦乘机抵达北京,走下飞机
-
时隔三年 iQOO 终于想起潜望长焦了?内部正在评估
2020年,iQOO发布了旗下首款配备潜望长焦的机型:iQOO5Pro,没想到也成
-
到了 2023 年下半年,游戏手机市场还有新机会吗
在2023年之前可能没人能想到,硬核游戏手机这一细分领域的整个市场风向
-
999 起 荣耀平板 X8Pro 发布 骁龙 685/ 六扬声器
昨晚除了荣耀X50外,荣耀还发布了其它新品,来简单看下。如上图所见,
-
7.26 发布会 三星折叠第五代官宣 首款 8Gen2 小折叠来了
不知不觉三星折叠屏已经到第五代了,今天官方正式宣布了新品发布会时间
-
暴走 1 万步,36 氪带你看 AI 春晚
作者|杨逍林炜鑫制图|虞景霖编辑|苏建勋大模型的风吹了半年,2023年
-
预防未成年人网络沉迷,家庭监护是第一位
玩是儿童的天性、儿童的生活。暑假来临,如何进一步巩固未成年人游
-
四川73项高频税费业务实现异厅通办、就近快办
四川税务部门近日发布全省通办事项清单(第一批),73项高频税费业务实
精彩推荐
阅读排行
精彩推送
- 重黔铁路黔江段首榀箱梁架设成功
- 门诊可报销的少儿保险有哪些?多...
- 华夏珍爱宝贝少儿年金保险怎么样...
- 少儿盛世福尊悦保险怎么样?值得...
- 少儿教育保险的返还方式是什么?...
- 平安学生保险查询怎么查?好处是...
- 【环球时快讯】任正非的抑郁症战争
- 每日热门:俞敏洪直播中“修改”...
- 东阿阿胶:上半年净利预增65%-78%
- 试驾全新皓影e:HEV和e:PHEV:双...
- 百度首席技术官王海峰:飞桨已拥...
- 支付宝上线自动续费的扣款提醒服...
- 索尼 PS5 主机上市 31 个月...
- 半数以上的三星电视都没用自家屏...
- Threads 上线两小时用户超 200...
- “车轮上的国度”开始“买买买”...
- 24 小时内地震超 2000 次 冰...
- 颇受中国家长青睐的国际学校股价...
- 济宁任城区二十里铺街道后杨村开...
- 农历12月7日是什么星座_12月7日...
- 如何查询学生保险缴费情况?如何...
- 向导
- 如何给学生买保险?学生买保险有...
- 中小学生意外伤害保险保障范围有...
- 少儿福上福20保险怎么样?满期返...
- 紫金学生保险是什么?如何购买?
- 兰洽会线上“甘肃银行馆”正式对...
- 我爱我家在杭州首推“爱家股权共...
- 圆满落幕|2023新能源汽车热管理...
- 吉利副总裁杨学良:领克08将在8...