【快播报】可组合扩散模型主打 Any-to-Any 生成:文本、图像、视频、音频全都行
2023-05-23 14:21:26来源:ZAKER科技
机器之心报道
编辑:陈萍、杜伟
(资料图片仅供参考)
一种模型统一多种模态实现了。
给定一句话,然后让你想象这句话在现实场景中的样子,对于人类来说这项任务过于简单,比如「一辆进站的火车」,人类可以进行天马行空的想象火车进站时的样子,但对模型来说,这可不是一件容易的事,涉及模态的转换,模型需要理解这句话的含义,然后根据这句话生成应景的视频、音频,难度还是相当大的。
现在,来自北卡罗来纳大学教堂山分校、微软的研究者提出的可组合扩散(Composable Diffusion,简称 CoDi)模型很好的解决了这个问题。比如,前面提到的「一辆进站的火车」,CoDi 根据这句话生成的效果如下:
与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,其输入不限于文本或图像等模态。
众所周知,随着技术的发展,大模型的能力范围已经不仅仅局限于一种模态的生成,而是从一种模态生成另一种模态正在变成现实,如我们常见的文本到文本的生成,文本到图像的生成,以及文本到音频的生成。
然而,单一模态或一对一模态在应用到现实世界中会受到限制,因为现实世界是多模态的,然而将多种模态串联在一起难度较大。人们迫切期待开发出一种全面而具有多功能的模型,这种模型可以从一组输入条件中生成任意组合的模态,无缝地整合来自各种信息源的信息,从而实现强大的人机交互体验(例如,同时生成连贯的视频、音频和文本描述)。
CoDi 就是为了实现这一目标而进行的,可以说这是第一个能够同时处理和生成任意组合模态的模型。
论文主页:https://codi-gen.github.io/研究者表示 CoDi 不仅可以从单模态到单模态的生成,还可以接收多个条件输入,以及多模态联合生成。举例来说,在给定文本 prompt 的情况下生成同步的视频和音频;或者在给定图像和音频 prompt 的情况下生成视频。下面我们用具体的示例进行展示。首先考察 CoDi 生成图像的能力。
CoDi 可以将文本 + 音频作为输入,然后生成一张图片:
在这个示例中,文本 prompt 大致为:油画,恐怖画风,craig mullins 风格。除了文本 + 音频,CoDi 还可以以文本 + 图像作为输入,然后生成一张图片:
在这个示例中,输入 prompt 为:花瓶里的花朵,静物画,Albert Williams 风格,以及一张图片。除此以外,CoDi 还能以三种模态(文本 + 音频 + 图片)作为输入,生成符合要求的图片。
接下来是展示 CoDi 视频生成能力。给模型一句 prompt(坐在咖啡桌旁吃东西)+ 熊猫图片,之后一只活灵活现的大熊猫就动了起来:此外,CoDi 还能输入单个或多个 prompt,包括视频,图像,文本或音频,以生成多个对齐输出。
在这个示例中,prompt 包括三部分(文本 + 图像 + 音频):文本 prompt 为滑板上的泰迪熊,4k,高分辨率。图像是一个繁华的街道。语音输入为哗哗的雨声:生成的视频如下:
不仅如此,CoDi 还能根据一句话生成视频和音频,如:空中绽放的烟花。
视频 + 音频效果如下:了解更多展示效果,请参考论文主页。
方法概览
潜在扩散模型
扩散模型(DM)是这样一类生成式模型,它们通过模拟信息随时间的扩散来学习数据分布 p ( x ) 。在训练期间,随机噪声被迭代地添加到 x,同时模型学习对示例进行去噪。对于推理,扩散模型对从简单分布(如高斯分布)中采样的数据点进行去噪。潜在扩散(LDM)学习对应于 x 的潜在变量 z 的分布。通过降低数据维数来显著降低计算成本。
可组合多模态调节
为了使自己的模型能够以任何 input/prompt 模态的组合进行调节,研究者对齐文本、图像、视频和音频的 prompt 编码器(分别用 C_t、C_i、C_v 和 C_a 表示),将来自任何模态的输入映射到同一个空间。然后通过对每个模态的表示进行插值来实现多模态调节。通过对齐嵌入的简单加权插值,他们利用单条件(即仅有一个输入)训练的模型来执行零样本多条件(即有多个输入)。整个过程如下图 2 ( a ) ( 2 ) 所示。
不过以组合方式同时对四种 prompt 编码器进行优化具有非常大的计算量,因此需要 O ( n^2 ) 对。此外对于某些双模态,对齐良好的配对数据集有限或不可用,例如图像音频对。
为了解决这些问题,研究者提出了一种简单有效的方法「桥接对齐(Bridging Alignment)」,以高效地对齐编码器。如下图 2 ( a ) ( 1 ) 所示,他们选择文本模态作为「桥接」模态,因为该模态普遍存在于配对数据中,例如文本图像对、文本视频对和文本音频对。研究者从预训练文本图像配对编码器 CLIP 开始,然后使用对比学习在音频文本和视频文本配对数据集上训练音频和视频 prompt 编码器,同时冻结文本和图像编码器权重。
如此一来,所有四种模态在特征空间中对齐。CoDi 可以有效地利用和组合任何模态组合中的互补信息,以生成更准确和全面的输出。生成质量的高低不受 prompt 模态数量的影响。研究者继续使用桥接对齐来对齐具有不同模态的 LDM 的潜在空间,以实现联合多模态生成。可组合扩散
训练一个端到端的 anything-to-anything 模型需要广泛学习不同的数据资源,并且需要保持所有合成流的生成质量。为了应对这些挑战,CoDi 被设计为可组合和集成的,允许独立构建特定于单一模态的模型,之后实现顺利集成。具体地,研究者首先独立训练图像、视频、音频和文本 LDM,然后这些扩散模型通过一种新机制「潜在对齐」来有效地学习跨模态的联合多模态生成。
先看图像扩散模型。图像 LDM 遵循与 Stable Diffusion 相同的结构,并用相同的权重进行初始化。重用该权重将在大型高质量图像数据集上训练的 Stable Diffusion 的知识和超高生成保真度迁移到 CoDi。
再看视频扩散模型。为了对视频时间属性进行建模的同时保持视频生成质量,研究者通过扩展具有时间模块的图像扩散器来构建视频扩散器。具体地,他们在残差块之前插入伪时间注意力。不过研究者认为伪时间注意力只能将像素(高度和宽度维数)展平为批维数来使视频帧在全局范围内彼此关注,从而导致局部像素之间跨帧交互的缺失。
接着是音频扩散模型。为了在联合生成中实现灵活的跨模态注意力,音频扩散器在设计时具有与视觉扩散器相似的架构,其中梅尔频谱图可以自然地被视为具有 1 个通道的图像。研究者使用 VAE 编码器将音频的梅尔频谱图编码为压缩的潜在空间。在音频合成中,VAW 解码器将潜在变量映射到梅尔频谱图,并且声码器从梅尔频谱图生成音频样本。研究者使用了 [ 33 ] 中的音频 VAE 和 [ 27 ] 的声码器。
最后是文本扩散模型。文本 LDM 中的 VAE 是 OPTIMUS [ 29 ] ,它的编解码器分别是 [ 9 ] 和 GPT-2 [ 39 ] 。对于去噪 UNet,与图像扩散不同的是,残差块中的 2D 卷积被 1D 卷积取代。
基于潜在对齐的联合多模态生成
最后一步是在联合生成中启用扩散流之间的交叉注意力,即同时生成两种或多种模态。这通过向 UNet _ θ 添加跨模态注意力子层来实现,详见图 2 ( b ) ( 2 ) 。
此外在图 2 ( b ) ( 3 ) 中,研究者在训练联合生成时也遵循了与「桥接对齐」类似的设计,即(1)首先训练图像和文本扩散器中的交叉注意力权重以及它们在文本图像配对数据上的环境编码器 V。(2)冻结文本扩散器的权重,并在文本音频配对数据上训练环境编码器和音频扩散器的交叉注意力权重。(3)冻结音频扩散器及其环境编码器,并在音频视频配对数据上训练视频模态的联合生成。
从结果来看,尽管只接受了三个配对联合生成任务(文本 + 音频、文本 + 图像和视频 + 音频)的训练,但 CoDi 能够同时生成训练中未见过的各种模态组合,例如下图 5 中的联合图像 - 文本 - 音频生成。
实验结果
表 1 提供了数据集、任务、样本数量和领域的概览信息。
下图 3 展示了各种单模态到单模态的生成示例演示。CoDi 在音频字幕和音频生成方面实现了新 SOTA,如表 4 和表 6 所示。在图像和视频生成方面,CoDi 的表现与最先进的技术相媲美,如表 2 和表 3 所示。如表 8 所示,CoDi 在给定的输入模态分组中实现了高质量图像生成。此外,表 9 表明,CoDi 在给定各种输入模态组的情况下与真值相似。了解更多内容,请参考原论文。THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
-
【快播报】可组合扩散模型主打 Any-to-Any 生成:文本、图像、视频、音频全都行
机器之心报道编辑:陈萍、杜伟一种模型统一多种模态实现了。给定一句话,然后让你想象这句话在现实场景中的
2023-05-23 -
天天即时看!OPPO Reno10 系列暮光紫配色亮相,轻薄趁手尽显极致优雅
随着发布会时间的临近,OPPO官方放出更多关于Reno10系列新品的预热物料为其造势。目前除了外观设计以及影像
2023-05-23
相关阅读
-
【快播报】可组合扩散模型主打 Any-to-Any 生成:文本、图像、视频、音频全都行
机器之心报道编辑:陈萍、杜伟一种模型统一多种模态实现了。给定一句话,然后让你想象这句话在现实场景中的
-
除了山寨机,极客用户如今也成为黑客最爱 世界信息
众所周知,如今的电脑病毒和黑客攻击,与十年前、二十年前的情况已经截然不同了。在以前,黑客,病毒制作者
-
2023 市场寒冬依旧 智能手机行业还能怎么卷?
【手机中国】北京时间5月5日,世卫组织宣布:新冠不再为国际关注的突发公共卫生事件,过去三年里令全球市场
-
天天即时看!OPPO Reno10 系列暮光紫配色亮相,轻薄趁手尽显极致优雅
随着发布会时间的临近,OPPO官方放出更多关于Reno10系列新品的预热物料为其造势。目前除了外观设计以及影像
-
谷歌正与多所高校合作,研发 AI 机器人 TidyBot-全球热闻
品玩5月23日讯,据vice报道,谷歌正在与来自普林斯顿大学、斯坦福大学等高校的研究人员合作,研发一款名为T
-
押准周杰伦的爱玛电动车,再押注 Z 世代玩的“智能化”,如何跑出新增长? 最新快讯
一家连续吃到红利的公司,因为大胆押中周杰伦而出圈过,13年之后,在挑剔、爱美、自我的外星人00后Z世代面
-
沪指跌 0.58%,新冠药概念股逆势走强;北上资金半日净流出超 36 亿;应急管理部:厘清并压实氢能等新业态安全监管职责
北京时间5月23日11:30,上证指数早盘下跌19 11点,跌幅为0 58%,报收3277 36点,成交额1951 74亿元;深证成
-
中国海油回应“中特估”:强化投资者沟通交流,多平台、多方式、多渠道开展投资者沟通工作
在中特估概念下,油气板块的市值修复备受市场关注。与国际头部油气企业相比,国内三桶油的盈利能力并不逊色
-
每日消息!NBA 超级巨星退役!“ 03 黄金一代”仅剩詹姆斯,刚刚 0-4 被横扫出局…
据央视网,北京时间5月22日,NBA超级巨星卡梅隆·安东尼更新社交媒体,正式对外宣布将退役。图片来源:...
-
“ 1980 元游新疆 18 天还买 1 送 1 ”,大量游客原地被甩!涉案旅行社有“前科”,最新通报来了|当前观点
5月22日,新疆文旅投诉公众号发布了关于近期甩团案件情况的通报。通报中表示,今年4月中旬以来,全疆发生多
-
欠5500元不还!旬阳曝光最新一批失信被执行人!【959扩散】 天天快讯
(本期失信被执行人名单统计截止日期为2023年5月8日)如果你是上述当事人你要尽快联系办案法官履行法定义务
-
买白银去哪里买好?买白银能保值吗?
买白银去哪里买好?买白银你可以去金融机构或者银行进行购买,也可以去海黄金交易所、上海期货交易所进行...
-
借高利贷违法吗?高利贷违法犯罪的法律依据
借高利贷违法吗?借高利贷不是违法的行为。民间借贷的利率可以适当高于银行的利率,各地人民法院可根据本...
-
网络运营者应当按照网络安全等级保护制度的要求履行哪些安全保护义务?
保障网络安全措施如下:制定内部安全管理制度和操作规程,确定网络安全负责人,落实网络安全保护责任;采...
-
结息交易是什么意思?农业银行结息是扣钱吗?
结息交易是什么意思?农业银行结息交易的意思是从低息市场中借贷来的资金,然后再次投资于回报率高的货币...
-
发生医疗纠纷医患双方可以通过哪些途径解决?发生医疗事故的赔偿等民事责任争议怎么解决?
《医疗纠纷预防和处理条例》第二十二条规定,医疗纠纷的处理途径如下:1、双方自愿协商;2、申请人民调解...
-
工行信用卡金卡有什么好处?工行信用卡金卡和普卡的区别?
工行信用卡金卡有什么好处?1 不需要存款即可透支消费,并可享有20-56天的免息期按时还款利息分文不收。...
-
三资企业人员具体指的是什么?三资企业的注册资本是什么?
一、什么是三资企业人员指的是中外合资企业、中外合作企业和外资企业(即独资企业)的人员。三资企业是根...
-
养猪贷款需要什么条件?养猪贷款利
养猪贷款需要什么条件?一般要求借款人年满18周岁,具有完全民事行为能力,在当地有固定居所,身体健康,...
-
道路交通安全法八十七条是什么内容?新交规违章扣分标准是什么?
一、上海新交规违章扣分标准扣1分:1、非携带行驶证、驾驶证;2、驾驶未放置有效检验合格标志的机动车;3...
-
债券基金怎么选比较好?债权基金的风险级别
债券基金怎么选比较好?首先,就是要根据个人的风险偏好确定合适的债券基金类型。债券基金的风险并非都是...
-
车辆、行人违反交通信号通行的后果是什么?驾驶证的申请条件是什么?
驾驶技能准考证明的有效期是三年。申请人在场地和道路上学习驾驶,应当按规定取得学习驾驶证明。学习驾...
-
养老保险到多少岁才能领取?参加基本养老保险的个人累计缴纳多少年才能领取?
目前养老保险从达到法定退休年龄并且累计缴费满十五年的时候开始领,根据《社会保险法》,参加基本养老...
-
中华人民共和国民法典第九百九十一条内容是什么?民事主体的人格权受法律保护吗?
人格权是民事主体享有的生命权、身体权、健康权、姓名权、名称权、肖像权、名誉权、荣誉权、隐私权等权...
-
上海黄金交易所怎么开户交易?上海黄金交易所可以买实物黄金吗?
上海黄金交易所怎么开户交易?【1】提供开户所需资料(两份复印件并加盖单位公章):营业执照、组织机构代...
-
外国向中华人民共和国提出的引渡请求必须同时符合哪些条件才能准予引渡?
引渡指的是在外国人不在本国境内,该行为人已经被指控为犯罪或已经被判刑,他国请求该行为人所在国将其...
-
msci是什么意思?msci中国指数有多少只股票?
msci是什么意思?msci是什么意思?MSCI指数的全称是Morgan Stanley Capital International Index,即...
-
违反交通运输管理法规因而发生重大事故的怎么判刑?交通运输肇事后逃逸量刑标准是什么?
肇事逃逸的判定:只有行为已构成交通肇事罪,为了逃避法律追究而脱离现场的行为,才能认定为逃逸脱离现...
-
公积金结息是什么意思?公积金结息怎么计算?
公积金结息是什么意思?住房公积金结息通俗的说就是住房公积金跟存钱一样开始每年都会核算利息了。公积金...
-
什么是定期存款利率?定期存款利率根据年限的不同利率也不一样?
大家如果有多余的资金,很多人都会选择去银行存款,对于银行存款来说,银行存款需要按照银行存款的一个...
精彩推荐
阅读排行
精彩推送
- 新华百万医疗好吗?怎么投保?
- 每日速看!寿险和百万医疗哪个重...
- 百万医疗保的是什么?一年多少钱...
- 养老保险能领多少年?怎么领?
- 阳光百万医疗怎么样?保什么?
- 世界最资讯丨OpenAI正探索AI集体...
- 环球热议:AI前哨|“AI孙燕姿”...
- QuestMobile:外卖月活用户近2亿
- 路特斯被曝将试驾车当新车交付,...
- 基金赎回手续费怎么计算?10万基...
- 世界快消息!预计10-13万元 奔...
- 全球观察:大众新款途锐预告图 ...
- 6月5日全球首秀 雷克萨斯LBX预...
- 欧洲股市开盘时间是几点?欧洲股...
- 金燕卡属于什么银行?金燕卡有效...
- 新三板行情在哪里看?新三板股票...
- 什么是信托基金?100万信托一年...
- 二手房贷款是先过户还是先放款?...
- 债基净值异常波动,巨额赎回频发...
- 杭州今年第四批集中供地揽金138...
- 天然牛黄价格突破百万 销售人员...
- 快手涨超4% 上市后首次集团整体盈利
- 两市融资余额减少8.48亿元|每日视讯
- 天天快播:掌上明珠家居《超级抢...
- 当前讯息:芯华章再出手!投资的...
- 车上责任险是什么意思?车上责任...
- 止损止盈是什么意思?止盈止损是...
- 每日快讯!松霖卫浴厦门_松霖卫浴五金
- 东莞个人社保怎么买?东莞个人社...
- 人寿保险救援电话是多少?救援免...