李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!
2026-01-06 11:59:44来源:新智元
新智元报道
编辑:桃子 好困
【新智元导读】当全行业还在为昂贵的多视角数据焦头烂额时,中科院和CreateAI重磅推出NeoVerse,直接用百万单目视频砸开了4D世界模型的大门,让AI真正学会了理解开放世界。
(相关资料图)
李飞飞团队提出的 Marble 极大地推动了空间智能的边界,但因其应用场景仍局限于静态环境,本质上归属于 3D 世界模型的范畴。相比之下,4D 世界模型作为空间智能的演进形态,在数字内容创作、游戏开发、自动驾驶仿真及具身智能等领域展现出巨大的应用潜力。然而,当前的 4D 世界模型训练方案正面临严峻的扩展性(Scalability)瓶颈。
模型的训练通常需要成对的视频,即输入给模型的原视角视频,和作为监督的时间同步的新视角目标视频。这种特殊的数据需求使得训练难以扩展到海量的数据上。现有的研究往往受困于以下两点:
多视角数据难扩展:现有的多视角数据通常是在静态场景多次采样,或者用多相机直接采集或者在仿真引擎渲染。前者无法扩展到动态场景,后者采集成本高,限制了训练数据的泛化性,难以触及真实的开放场景。
预处理效率低:为了摆脱多视角依赖,一些研究尝试通过离线方式对单目视频构建训练数据对。但是这会引入额外的计算和存储负担,更让训练变得异常僵化,无法灵活扩展到互联网级的海量数据上。
这些限制构成了重重壁垒,将互联网上最廉价、最丰富的资源——开放场景单目视频数据阻隔在外。
为此,来自中科院自动化研究所和 CreateAI 的研究者提出了 NeoVerse。NeoVerse 彻底抛弃了昂贵的多视角数据和沉重的离线预处理,直接拥抱互联网上的海量单目视频,首次利用100万段开放场景单目视频进行大规模训练。
项目主页:https://neoverse-4d.github.io/
论文链接:https://arxiv.org/abs/2601.00393
前馈式4DGS:免位姿的高效重建底座
NeoVerse 是一种重建-生成混合式的架构,其首先重建出 4D 表示,然后将其用于生成模型的作为新视角的几何引导。要实现训练管线的 scaling up,第一步必须解决「重建速度」问题。NeoVerse 提出了一种免姿态输入(Pose-free)的前馈式 4DGS 模型。
与传统针对专一场景迭代优化的重建方法不同,NeoVerse 基于视觉几何基础变换器(VGGT)进行动态化和高斯化改进。这种前馈式重建无需复杂离线预处理,一次预测即可在几秒内完成动态场景 4D 建模。
双向运动建模
NeoVerse 引入双向运动编码分支,通过交叉注意力机制分别提取前向 ()和后向()的运动特征,这种有利于精准预测高斯基元的双向线速度和角速度,实现相邻时间戳的中间时刻高斯插值渲染。
具体来说,对于帧特征 ,NeoVerse 沿时间维度将其复制并切分成两部分:和 。其中前者作为查询特征,后者作为键和值来获取前向运动特征,反之则得到后向运动特征。
其中 和 分别是 的前向运动特征和 的后向运动特征,这些特征将用于预测高斯基元双向运动的线速度和角速度。
4D高斯化
NeoVerse 定义的 4D 高斯基元如下
包括传统 3D 高斯属性:3D 位置 、不透明度 、朝向 、大小 和球谐系数 。双向建模预测的前后向线速度 和角速度 。以及 4DGS 常用的生命周期 。
其中 3D 位置 是通过预测深度和相机参数将像素深度反向投影到 3D 空间获得的,动态属性 由双向运动特征预测,其他属性则由帧特征预测。
秒级在线构建数据对:规模化训练4D世界模型
稀疏帧重建 × 密集帧渲染
为了进一步加快重建速度从而提升训练效率,NeoVerse 提出「稀疏帧重建,密集帧渲染」策略,在少量稀疏关键帧输入的条件下通过高斯场插值渲染出连续密集的视频画面。对于一个非关键帧时间戳 ,NeoVerse 将其最近的关键帧时间戳 下的高斯基元 转移到 :
其中为了处理非均匀的关键帧间隔,NeoVerse 归一化时间距离 来对不透明度的衰减进行建模,是 的左右两个关键帧时间戳。生命周期 约束在 范围内,当 接近于1时,趋于1,表明 ,否则不透明度会快速衰减。
单目退化模拟
在单目视频训练中,最大的挑战是缺乏「新视角」的监督信号。NeoVerse 并没有尝试寻找完美的数据,而是反其道而行之,引入了单目退化模拟机制,在训练的每一次迭代中,NeoVerse 并不是简单地从输入视角渲染,而是刻意「模拟」了单目重建在不同视角下的退化规律,从而建立起一套自监督训练范式:
高斯剔除(Gaussian Culling):模拟相机移动时可能出现的遮挡与视场丢失(图(a))。通过剔除部分 4D 高斯基元,模型被迫在「信息不全」的情况下学习维持物体的几何完整性。
平均几何滤波(Average Geometry Filter):除了遮挡之外,另一种典型的退化模式是深度不连续的飞行边缘像素。NeoVerse 通过在采样的新视角上渲染深度图并作平均滤波,再根据滤波后的深度值调整每个高斯基元的位置。当调整位置后的高斯重新渲染回原视角,则能模拟出现飞边现象(图(b))。当增大平均滤波核半径时,则能模拟出更大范围的空间畸变(图(c))。
退化渲染引导
NeoVerse 通过控制分支将模拟的渲染结果(包含渲染图像、深度、不透明度图以及相机位姿的 Plüker 嵌入)注入视频生成模型。在训练过程中,NeoVerse 仅训练控制分支,同时冻结视频生成主干模型,这不仅可以提升训练效率,更重要的是,使其能够支持步数蒸馏 LoRAs,以加速生成过程。
实验结果与分析
NeoVerse 通过 VBench 测评了共计400个测试样例,无论是从重建和生成的运行速度,还是从生成质量上均显著优于现有方法。
即使在具有挑战性场景上进行大幅度视角运动控制。 NeoVerse 依然能在保持精确相机可控性的同时实现更好的生成质量。
较大的相机运动下的渲染图像容易产生包括飞边像素和扭曲等现象。上图展示了 NeoVerse 单目退化模拟的必要性。如果没有在模拟出的退化样本上进行训练,生成模型往往会过于信任重建渲染中的几何伪影,导致出现「鬼影」效果或模糊输出。通过结合退化模拟,生成模型能够学会抑制这些伪影,并在遮挡或扭曲区域生成逼真的细节。
下游应用
在大规模视频训练的支持下,NeoVerse 不仅能实现高精度的 4D 重建与精准漫游,更能跨越影视制作、具身智能与自动驾驶等多个领域,支持多视角生成、视频编辑等丰富下游应用。
子弹时间
从图像到世界:重建 + 生成的迭代闭环
多样化相机控制
视频编辑
具身场景应用
驾驶场景应用
驾驶场景前视相机到多视角相机扩展
总结
NeoVerse 的出现,标志着 4D 空间智能从「实验室精雕细琢」向「大规模数据驱动」的范式转移。它通过攻克核心的扩展性(Scalability)瓶颈,构建了一套能够无缝适配互联网单目视频的训练管线。这种对海量开放场景数据的深度挖掘,不仅让 NeoVerse 在泛化能力上实现了质的飞跃,更使其成为了支撑自动驾驶、具身智能及内容创作等多元领域的通用 4D 世界模型底座。
秒追ASI
责任编辑:hnmd003
相关阅读
相关阅读
-
李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!
新智元报道编辑:桃子好困【新智元导读】当全行业还在为昂贵的多视角数
-
湘阴县文林建材有限公司成立 注册资本20万人民币
天眼查App显示,近日,湘阴县文林建材有限公司成立,法定代表人为焦建
-
巴勒斯坦国驻英国大使馆正式开馆
巴勒斯坦国驻英国大使胡萨姆·佐姆洛特在开馆仪式上表示,使馆的设立是
-
贵阳市生态环境局南明分局:扎实开展冬季大气巡查工作 筑牢辖区蓝天守护防线
为切实做好冬季蓝天保卫战工作,筑牢辖区空气质量安全防线,近期,贵阳
-
观天下!生意社:1月6日卫星化学丙烯酸乙酯华南价格下调
1月6日,卫星化学丙烯酸乙酯华南送到价格9100元 吨,较上一个报价日价
-
佘山登高二十载,双山联动点燃沪上消费新活力
当2026年的第一缕晨光洒满佘山之巅,上海佘山国家森林公园东佘山园
-
焦点热讯:樊振东小肚腩胖乎乎超可爱!获MVP后有一周休息时间 最新赛程出炉
樊振东小肚腩胖乎乎超可爱!获MVP后有一周休息时间最新赛程出炉,欧冠,
-
开业月余 三家股份行AIC密集投向“硬科技”
开业月余三家股份行AIC密集投向“硬科技”
-
新华社快讯:马杜罗夫妇在法庭上拒绝美方指控
新华社快讯:遭美国强行控制的委内瑞拉总统马杜罗及其妻子弗洛雷斯5日
-
“跟着演出去旅行” 南宁元旦文旅消费热度高 快讯
据广西壮族自治区文化和旅游厅公布的数据显示,2026年元旦节假日期间,
-
双山联动,共启新元,数千市民游客在“上海之根”登高迎新
2026年1月1日,在新年晨曦中,一场别开生面的迎新盛典在“上海之根
-
每日时讯!激光电视股票龙头股,共2家上市公司,先收藏起来!
据南方财富网概念查询工具数据显示,激光电视概念股龙头有:四川长虹60
-
【时快讯】华友钴业:预计2025年净利润同比增长40.80%至55.24%
华友钴业(603799)公告,预计2025年度实现净利润58 5亿元至64 5亿元,
-
酷特智能获评“年度新势力人工智能企业”,酷特AGI引领产业数智化革命 通讯
在前不久落幕的2025财联社第八届投资年会暨科大硅谷硬科技投资生态大会
-
马杜罗之子呼吁捍卫国家主权,并将其父“平安带回”
被美方强行控制的委内瑞拉总统马杜罗之子尼古拉斯·马杜罗·格拉当地时
-
Leerink Partners上调礼来目标价至1234美元
LeerinkPartners将礼来公司的目标价从1104美元上调至1234美元。相关事
-
港股异动 | 石药集团(01093)午前涨超4% 乙磺酸尼达尼布吸入粉雾剂获批临床试验
智通财经APP获悉,石药集团(01093)午前涨超4%,截至发稿,涨3 89%,报8
-
在轨两月余 神二十一乘组科研忙不停
央视网消息:神二十一乘组三名航天员张陆、武飞、张洪章在轨已满60天,
-
网球联合杯:中国队不敌加拿大队 小组赛一胜一负|焦点信息
在率先进行的女单比赛中,全运会新科女单冠军朱琳与WTA(女子网球协会
-
日本制造业PMI回升至荣枯线 12月终值上修至50.0结束五连跌
日本制造业PMI回升至荣枯线12月终值上修至50 0结束五连跌
-
“i茅台”飞天限购数量减半至6瓶,有消费者称“天天蹲点,还是抢不到”
上线仅3天,“i茅台”上500ml飞天茅台每日限购数量减半。1月4日,“i茅
-
洛里昂vs梅斯:苏马诺、姆武卡首发,艾因、姆布拉出战
洛里昂vs梅斯:苏马诺、姆武卡首发,艾因、姆布拉出战,艾因,班巴,梅斯
-
前沿热点:钦北铁路185米刚构连续梁拱桥顺利合龙
1月4日,由中交一公局集团有限公司承建的平陆运河钦北线铁路桥改建工程
-
要闻速递:兴银投资开业45天累计投放规模超60亿元
人民财讯1月4日电,记者从兴银金融资产投资有限公司(下称“兴银投资”
-
【快播报】江苏银行发布中期利润分配方案 每10派3.309元
江苏银行发布中期利润分配方案每10派3 309元
-
问界M9获50万级豪华车年度销量冠军 累计交付超26万辆
问界M9斩获50万级豪华车2025年年度销量冠军,累计交付量已突破26万辆。
-
大明眼镜EVO数智体验店亮相,重塑视光服务体验
2025年12月27日,承载88年专业积淀的中华老字号北京大明眼镜正式推出其
-
每日热点:中钢协:2025年12月下旬钢材社会库存721万吨 环比下降3.6%
12月下旬,21个城市5大品种钢材社会库存721万吨,比12月中旬减少27万吨
-
生意社:1月4日中石化英力士苯领ABS装置动态_最资讯
中石化英力士苯领ABS装置产能共60万吨 年,当前一线检修,二线正常,整
精彩推荐
阅读排行
精彩推送
- 宗馥莉接任宏胜集团经理|焦点速递
- 元旦假期杭州累计接待游客660.19...
- “二九”寒潮来袭,哈药三精养润...
- 委内瑞拉石油设施据称未受损 最...
- 元旦假期前两日 海南离岛免税购...
- 二氯辛基异噻唑啉酮 30%商品报...
- 异丁醛公司名单在这!(2025/12/...
- 元旦假期第二天 交通出行客流持...
- 恒生指数主连夜盘收涨0.05%,报26442点
- 前沿资讯!逾六成营收来自关联交...
- 聚焦:英达公路再生科技(06888)...
- 一图读懂 | 2026全市经济工作...
- 向新向上 长城汽车2025年新能源...
- 今日快看!元旦假期首日迎来交通...
- 羽超联赛总决赛在长沙举行
- 记者:山东高速已启动引进第四外...
- 快报:长篇纪实文学《航天护甲耀...
- “马上福到”“琼花献瑞”“包揽...
- 焦点快播:河南:农业保险“十四...
- 焦点精选!2025年12月极氪交付30267台
- 电子年货怎么挑 按场景把手机平...
- 新动态:视频丨2025年度中国电影...
- 焦点精选!白云山附属企业广药二...
- 1月1日生意社不锈钢卷基准价为12...
- 1月1日生意社顺酐基准价为5112.50元/吨
- A股DDR5概念股票龙头,收藏好!...
- 光威复材:截至12月31日最新股东...
- 威尔斯轰9+3绝对大腿!张陈治锋6...
- 宝色股份:签署2.73亿元中标项目...
- 观焦点:长江靖江段再现长江江豚...









营业执照公示信息