焦点消息!Meta 开源文本生成音乐大模型,我们用《七里香》歌词试了下
2023-06-12 14:14:18来源:ZAKER科技
机器之心报道
编辑:杜伟、梓文
(资料图片)
年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且非商业用途免费使用。
在进入正文前,我们先听两段 MusicGen 生成的音乐。我们输入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」
然后尝试输入周杰伦《七里香》歌词中的前两句「窗外的麻雀在电线杆上多嘴,你说这一句 很有夏天的感觉」(支持中文)
试玩地址:https://huggingface.co/spaces/facebook/MusicGen
文本到音乐是指在给定文本描述的情况下生成音乐作品的任务,例如「90 年代吉他即兴摇滚歌曲」。作为一项具有挑战性的任务,生成音乐要对长序列进行建模。与语音不同,音乐需要使用全频谱,这意味着以更高的速率对信号进行采样,即音乐录音的标准采样率为 44.1 kHz 或 48 kHz,而语音的采样率为 16 kHz。
此外,音乐包含不同乐器的和声和旋律,这使音乐有着复杂的结构。但由于人类听众对不和谐十分敏感,因此对生成音乐的旋律不会有太大容错率。当然,以多种方法控制生成过程的能力对音乐创作者来说是必不可少的,如键、乐器、旋律、流派等。
最近自监督音频表示学习、序列建模和音频合成方面的进展,为开发此类模型提供了条件。为了使音频建模更加容易,最近的研究提出将音频信号表示为「表示同一信号」的离散 token 流。这使得高质量的音频生成和有效的音频建模成为可能。然而这需要联合建模几个并行的依赖流。
Kharitonov 等人 [ 2022 ] 、Kreuk 等人 [ 2022 ] 提出采用延迟方法并行建模语音 token 的多流,即在不同流之间引入偏移量。Agostinelli 等人 [ 2023 ] 提出使用不同粒度的多个离散标记序列来表示音乐片段,并使用自回归模型的层次结构对其进行建模。同时,Donahue 等人 [ 2023 ] 采用了类似的方法,但针对的是演唱到伴奏生成的任务。最近,Wang 等人 [ 2023 ] 提出分两个阶段解决这个问题:限制对第一个 token 流建模。然后应用 post-network 以非自回归的方式联合建模其余的流。
本文中,Meta AI 的研究者提出了 MUSICGEN,这是一种简单、可控的音乐生成模型,能在给定文本描述的情况下生成高质量的音乐。
论文地址:https://arxiv.org/pdf/2306.05284.pdf研究者提出一个对多个并行声学 token 流进行建模的通用框架,作为以前研究的概括 ( 见下图 1 ) 。为提高生成样本的可控性,本文还引入了无监督旋律条件,使模型能够根据给定和声和旋律生成结构匹配的音乐。本文对 MUSICGEN 进行了广泛的评估,所提出的方法在很大程度上优于评估基线:MUSICGEN 的主观评分为 84.8 ( 满分 100 分 ) ,而最佳基线为 80.5。此外,本文还提供一项消融研究,阐明了每个组件对整体模型性能的重要性。
最后,人工评估表明,MUSICGEN 产生了高质量的样本,这些样本在符合文本描述,在旋律上也更好地与给定的和声结构对齐。
本文的主要贡献有如下几点:提出了一个简单高效的模型:可以在 32khz 产生高质量的音乐。MUSICGEN 可以通过有效的码本交错策略,用单阶段语言模型生成一致的音乐;
提出一个单一的模型,进行文本和旋律条件生成,其生成的音频与提供的旋律是一致的,并符合文本条件信息;
对所提出方法的关键设计选择进行了广泛的客观及人工评估。
方法概览
MUSICGEN 包含一个基于自回归 transformer 的解码器,并以文本或旋律表示为条件。该(语言)模型基于 EnCodec 音频 tokenizer 的量化单元,它从低帧离散表示中提供高保真重建效果。此外部署残差向量量化(RVQ)的压缩模型会产生多个并行流。在此设置下,每个流都由来自不同学得码本的离散 token 组成。
以往的工作提出了一些建模策略来解决这一问题。研究者提出了一种新颖的建模框架,它可以泛化到各种码本交错模式。该框架还有几种变体。基于模式,他们可以充分利用量化音频 token 的内部结构。最后 MUSICGEN 支持基于文本或旋律的条件生成。
音频 tokenization
研究者使用了 EnCodec,它是一种卷积自编码器,具有使用 RVQ 量化的潜在空间和对抗重建损失。给定一个参考音频随机变量 X ∈ R^df_s,其中 d 表示音频持续时间,f_s 表示采样率。EnCodec 将该变量编码为帧率为 f_r f_s 的连续张量,然后该表示被量化为 Q ∈ {1, . . . , N}^K × df_r,其中 K 表示 RVQ 中使用的码本数量,N 表示码本大小。
码本交错模式
精确扁平化自回归分解。自回归模型需要一个离散随机序列 U ∈ {1, . . . , N}^S 和序列长度 S。按照惯例,研究者将采用 U_0 = 0,这是一个确定性的特殊 token,表示序列的开始。然后他们可以对分布进行建模。
不精确的自回归分解。另一种可能是考虑自回归分解,其中一些码本需要进行并行预测。比如定义另一个序列,V_0 = 0,并且 t ∈ {1, . . . , N}, k ∈ {1, . . . , K}, V_t,k = Q_t,k。当删除码本索引 k 时(如 V_t),这代表了时间为 t 时所有码本的串联。
任意码本交错模式。为了试验此类分解,并准确测量使用不精确分解的影响,研究者引入了码本交错模式。首先考虑 = { ( t, k ) : {1, . . . , df_r}, k ∈ {1, . . . , K}},它是所有时间步和码本索引对的集合。码本模式是序列 P= ( P_0, P_1, P_2, . . . , P_S ) ,其中 P_0 = ,,并且 0 < i ≤ S, P_i ,这样 P 是的分区。研究者通过并行地预测 P_t 中的所有位置来建模 Q,并以 P_0, P_1, . . . , P_T 中的所有位置为条件。同时考虑到实际效率,他们只选择了「每个码本在任何 P_s 中最多出现一次」的模式。
模型条件化
文本条件化。给定与输入音频 X 匹配的文本描述,研究者计算条件张量 C ∈ R^T_C × D,其中 D 是自回归模型中使用的内部维数。
旋律条件化。虽然文本是当今条件生成模型的主要方法,但更自然的音乐方法是以来自另一个音轨甚至口哨或哼唱的旋律结构为条件。这种方法还允许对模型输出进行迭代优化。为了支持这一点,研究者尝试通过联合调节输入的色谱图和文本描述来控制旋律结构。再最初的试验中,他们观察到以原始色谱图为条件通常会重建原始样本,导致过拟合。为此,研究者在每个时间步中选择主要的时频 bin 来引入信息瓶颈。
模型架构
码本投影和位置嵌入。给定一个码本模式,在每个模式步 P_s 中只有一些码本的存在。研究者从 Q 中检索出对应 P_s 中索引的值。每个码本在 P_s 中最多出现一次或根本不存在。
Transformer 解码器。输入被馈入到具有 L 层和 D 维的 transformer 中,每一层都由一个因果自注意力块组成。然后使用一个跨注意力块,该块由条件化信号 C 提供。当使用旋律调节时,研究者将条件化张量 C 作为 transformer 输入的前缀。
Logits 预测。在模式步 P_s 中,transformer 解码器的输出被转换为 Q 值的 Logits 预测。每个码本在 P_s+1 中最多出现一次。如果码本存在,则从 D 通道到 N 应用特定于码本的线性层来获得 Logits 预测。
实验结果
音频 tokenization 模型。研究对 32 kHz 单声道音频使用非因果五层 EnCodec 模型,其步幅为 640,帧率为 50 Hz,初始隐藏大小为 64,在模型的五层中每层都增加一倍。
变压器模型,研究训练了不同大小的自回归 Transformer 模型:300M, 1.5B, 3.3B 参数。
训练数据集。研究使用 2 万小时的授权音乐来训练 MUSICGEN。详细来说,研究使用了一个包含 10K 个高质量曲目的内部数据集,以及分别包含 25K 和 365K 只有乐器曲目的 ShutterStock 和 Pond5 音乐数据集。
评估数据集。研究在 MusicCaps 基准上对所提出的方法进行了评估,并与之前的工作进行了比较。MusicCaps 是由专家音乐家准备的 5.5K 样本 ( 10 秒长 ) 和跨流派平衡的 1K 子集组成的。
下表 1 给出了所提方法与 Mousai、Riffusion、MusicLM 和 Noise2Music 的比较。结果表明,在音频质量和对提供的文本描述的一致性方面,MUSICGEN 的表现优于人类听众的评估基线。Noise2Music 在 MusicCaps 上的 FAD 方面表现最好,其次是经过文本条件训练的 MUSICGEN。有趣的是,添加旋律条件会降低客观指标,但是并不会显著影响人类评分,且仍然优于评估的基线。
研究者在给出的评估集上使用客观和主观度量,在文本和旋律表示的共同条件下评估 MUSICGEN,结果见下表 2。结果表明,用色谱图条件化训练的 MUSICGEN 成功地生成了遵循给定旋律的音乐,从而可以更好地控制生成的输出。MUSICGEN 对于在推理时使用 OVL 和 REL 丢掉色度具有鲁棒性。码本交错模式的影响。研究者使用 2.2 节中的框架评估了各种码本模式,K = 4,由音频 tokenization 模型给出。本文在下表 3 中报告了客观和主观评价。虽然扁平化改善了生成效果,但它的计算成本很高。使用简单的延迟方法,只需花费一小部分成本就能得到类似的性能。模型大小的影响。下表 4 报告了不同模型大小的结果,即 300M、1.5B 和 3.3B 参数模型。正如预期的那样,扩大模型大小可以得到更好的分数,但前提是需要更长的训练和推理时间。主观评价方面,在 1.5B 时整体质量是最优的,但更大的模型可以更好地理解文本提示。THE END转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
责任编辑:hnmd003
相关阅读
-
环球资讯:Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
品玩6月12日讯,Meta近日在Github上开源了其AI语言模型MusicGen,该模
2023-06-12
相关阅读
-
焦点消息!Meta 开源文本生成音乐大模型,我们用《七里香》歌词试了下
机器之心报道编辑:杜伟、梓文年初,谷歌推出了音乐生成大模型MusicLM
-
软通动力加入华为 GaussDB 数据库金融行业生态发展计划
(全球TMT2023年6月12日讯)6月7日,以智领睿变,共建数智金融未来为主
-
环球资讯:Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
品玩6月12日讯,Meta近日在Github上开源了其AI语言模型MusicGen,该模
-
环球今热点:华为昇腾概念异动拉升,常山北明涨停
钛媒体App6月12日消息,华为昇腾概念午后异动拉升,常山北明涨停,润和
-
传苹果 Vision Pro OLED 面板供应商为索尼 年产能 90 万片 环球快播报
【CNMO新闻】此前,苹果公司发布旗下首款头显——VisionPro。6月12日,
-
每日热点:看懵!市民烈日排队 5 小时,有人花上百差价,只为尝到网红面包!消保委暗访“插队”都买不到……
这么热的天,就为了买这几个面包,排了快一个小时队了。近日,潮新闻记
-
爱奇艺亏了 13 年都盈利了,电影行业该怎么和剧集竞争?-全球热讯
AI时代的到来,对电影的影响是迫在眉睫,我们唯有入局才能破局。王健儿
-
天天热门:市价打 7 折,浙商银行为什么选择低价配股?
6月11日晚间,浙商银行(601916 SH)发布A股配股发行公告,历时已超一
-
焦点!推特拒向谷歌云支付费用,其信用和安全团队或受影响
据新浪科技消息,Twitter拒绝向谷歌云支付费用,两家公司的合作将于
-
4个月爆卖1751亿元!这届年轻人左手刮刮乐,右手身份证,实名制让财神爷“打款”500万
这是一种类似于“建议专家别再建议”“禁止随地大小爹”的精神反抗投射
-
「拖拽」就能实现精准 P 图的 DragGAN,论文作者亲自揭秘技术了
在图像生成领域,以StableDiffusion为代表的扩散模型已然成为当前占据
-
佳能即将推出 RF 卡口变焦鱼眼镜头?
根据海外媒体Canonrumors爆料,佳能将会推出一款RF卡口的鱼眼变焦镜头
-
适马仍致力于研发 Foveon 传感器 环球实时
近日,海外媒体CineD在CineGearExpo2023展会上采访了适马社长山木和人
-
动态:华为荣耀互怼:一块屏幕引发的“口水战”!
就在本月初,发生了一件颇为狗血的事情:荣耀和华为居然撕起来了,两家
-
联络互动:子公司 Newegg 已接入 OpenAI Api 接口
品玩6月12日讯,联络互动6月12日在互动平台表示,公司子公司Newegg作为
-
获国家广电总局表扬 《专精特新研究院》第一季圆满收官
由北京市经信局指导,北京银行独家冠名、联合北京广播电视台制作推出的
-
呼和浩特能否超越兰州?——分析两城市GDP争锋-环球热门
呼和浩特能否超越兰州?——分析两城市GDP争锋GDP争锋去年一年,呼和浩
-
意华股份于新疆投资设立新能源公司 注册资本1亿元 天天速递
企查查APP显示,近日,晟维新能源(新疆)有限公司成立,法定代表人为
-
安井集团与京东集团签订战略合作框架协议 当前热闻
近日,安井集团与京东集团加码合作,签订了战略合作框架协议,安井集团
-
全球消息!招商、浦发等多家股份制银行下调人民币存款利率
6月12日,招商银行、浦发银行、光大银行、中信银行、民生银行、渤海银
-
三星 Galaxy S24 Ultra 影像或挤牙膏 除 10 倍光变略调整无其他变化_每日消息
前段时间有传闻,三星的下一代旗舰手机GalaxyS24Ultra可能将会支持5倍
-
大模型让数据库行业先撕起来了,Databricks 和 Snowflake:开发者们你们现在必须选边站了 热资讯
大模型的风已经不可避免地刮到了大数据行业,火药味还不小。这不快临近
-
iPhone 15 量产在即 富士康郑州、深圳等园区扩大招工_环球快看点
iPhone15系列即将量产,为应对新机量产人力需求,富士康郑州、深圳等园
-
精彩看点:微软 PC Game Pass 将登陆 GeForce NOW,计划在今年晚些时候
微软宣布,PCGamePass将会在今年晚些时候登陆GeForceNOW,这可以扩展对
-
要闻速递:我在 Sony Expo 2023 现场,和索尼中国总裁聊了聊
Sony索尼这个品牌logo,现在可以说是无处不在。无论是手机耳机游戏机等
-
眼镜来了!苹果大招终发布
大家好,这里是【钛短评】栏目,我是短评君。【钛短评】是一档针对近期
-
热头条丨重磅!招行、浦发、中信、光大、民生等银行同时宣布:下调存款利率
继上周四6大银行宣布下调部分存款利率之后,6月12日,招商银行、浦发银
-
蔚来全系降价 3 万元,新客户取消终身免费换电
6月12日,蔚来汽车官方宣布调整旗下全系新车的价格及首任车主用车权益
-
太原:同一套住房的共有产权人申请提取住房公积金需依次间隔一年_焦点播报
太原:同一套住房的共有产权人申请提取住房公积金需依次间隔一年2023-0
-
天天热头条丨远洋集团:前5月协议销售额约286.2亿元
远洋集团:前5月协议销售额约286 2亿元2023年1-5月,远洋集团累计实现
精彩推荐
阅读排行
精彩推送
- 今年文博会有多火?参展方、交易...
- 被判单位行贿罪,华宇软件遭罚30...
- 广州交易集团:广聚发展新要素,...
- 蔚来全系降3万背后,免费换电由...
- 【速看料】胜任全场!斯巴鲁竟是...
- 银行转账一般多长时间到账?银行...
- 留存收益是什么意思?留存收益和...
- 机构:明日24时成品油零售限价调...
- 开悦生命完成数千万人民币Pre-A...
- 微软游戏业务主管菲尔 · 斯宾...
- 环球观焦点:李想说理想是豪华品...
- 微软宣布推出新款 Xbox Seires...
- 华为 8 款产品通过 UFCS 融...
- 如何提升上市公司市值 今日热闻
- " 游戏行业真的不行了吗?" 世界视点
- 【世界热闻】讯飞星火大模型 V1...
- 天天观速讯丨聆听援藏人才代表的...
- 天天报道:助力高考 “火焰蓝”...
- 焦点滚动:拉萨市公交公司贴心服...
- 天天讯息:西藏高考成绩及分数线...
- 动态焦点:太原:同一套住房的共...
- 怎样防止u盘中毒?u盘中毒了怎么...
- ip电话怎么安装?ip电话和普通电...
- 胆机是什么?胆机功放和数字功放...
- 安卓系统是哪个国家开发的?安卓...
- tft屏幕可以触摸吗?tft屏幕缺点...
- 环球观察:马斯克和任正非,都爱...
- windows7兼容性怎么样?windows7...
- 抗干扰滤波器是什么?抗干扰滤波...
- 世界今热点:文明实践在行动|“...