资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

作者:郑佳美
2026/04/30 10:46

在今天的 AI 叙事里,“世界模型”几乎成了通往具身智能的必经之路。

它被期待理解物理规律、预测环境变化,并为机器人决策提供依据。但一个尖锐的问题是:当一个模型能生成一段足够逼真的未来视频时,我们究竟该相信它真的理解了世界,还是只是更擅长复刻世界的表象?

咬了一口的苹果会自动愈合,坠落的杯子在空中漂移——在具身智能的视角下,这种AI视频“感知与功能的断裂”无疑是致命的。

一个模型即便能生成 4K 分辨率的视觉幻象,如果它无法理解重力约束、因果关联与物体永久性,它就永远无法支撑机器人在复杂物理世界中的抓取、规划与交互。视觉真实不等于功能可用,这道长期被忽视的“裂缝”,正是当前视觉智能通往 AGI 的最大障碍。

CVPR 2026 正在释放一个明确的信号:计算机视觉(CV)与计算机图形学(CG)的传统边界正在模糊。视觉研究的主线正从单纯的“像素预测”转向对“世界动力学”的重建,世界模型不再仅仅满足于“看”,而是要构建一个具备物理一致性的内部沙盒。这意味着,下一代视觉智能必须跨越 2D 藩篱,去硬碰硬地解决因果律、重力与 3D 空间的拓扑逻辑。

这种转向,不仅标志着视觉研究正在从“图像处理”回归到“世界建模”,更核心的演进在于,世界模型正从“被动观测”转向“动作驱动”。

作为 CVPR 2026 备受瞩目的竞赛项目,清华团队提出的 WorldArena 恰逢其时。在论文《WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models》中,它审问的是模型作为“具身大脑”的真实含金量:能否作为可靠的数据引擎?能否充当精准的策略评估环境?能否在长程任务中保持逻辑的不漂移?

它将会对过去世界模型评测沿用视频生成的逻辑——画面是否清晰、运动是否自然、结果是否逼真——进行重新审视。

但在具身场景中,“看起来像”远远不等于“用得起来”。一个模型即便能生成高质量视频,也可能无法支持机器人完成抓取、规划、交互和长程执行。换句话说,视觉真实与功能可用之间,存在一道尚未被充分正视的裂缝。

而 WorldArena,正是试图把世界模型从“生成世界”的审美竞赛,推向“使用世界”的能力审判。

除此之外,作为 CVPR 2026 关键 Workshop 竞赛的评测基础,WorldArena 的目标不仅是提供一个排行榜,更是为具身世界模型建立一套面向真实任务的能力坐标:它不只问模型能否预测接下来会发生什么,也进一步追问,这些预测能否转化为动作?能否支撑 agent 决策?能否在长程任务中保持稳定?能否真正成为具身智能通向物理世界的一部分?

围绕这项工作,AI 科技评论与论文主要作者商宇展开了一场深度对话。从世界模型评测为何不能止步于视频质量,到当前模型为何会在高视觉分数与低功能表现之间断裂;从 Benchmark 如何推动训练范式转向视频 - 动作联合建模,到 WorldArena 自身如何避免成为新的路径依赖,这场对话触及的并不只是一个评测平台,而是世界模型研究正在面临的一次范式转换。

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

论文地址:https://arxiv.org/pdf/2602.08971

项目地址:https://world-arena.ai/

给世界模型设下一场「行动考试」

AI 科技评论:能否先以团队成员、主要作者的身份,介绍一下 WorldArena 这项工作?

商宇:WorldArena 是我们在今年年初发布的、专门面向具身世界模型的评测平台。它的出发点是:世界模型这个概念近期非常受关注,但大家对它的定义还没有完全收敛;同时,过去很多评测仍然把世界模型当作视频生成工具,主要关注生成视频的质量,也就是视频是否好看、是否逼真。

但在具身场景中,仅生成好看的视频远远不够。具身世界模型不是为了“拍电影”,它的核心任务是建模外部环境的动态转移规律,并进一步辅助下游智能体做决策。因此,世界模型最终必须服务于智能体与环境的交互。

基于这个判断,我们认为现有评估存在方向性不足:评估具身世界模型时,不能只看生成结果是否像真实视频,更要看它是否能支持下游功能性任务,是否真正有助于智能体与环境交互。

因此,我们建立了一套统一评测框架,主要从两个维度评估模型能力。第一个维度是视觉质量。由于目前世界模型的主要形态仍然是视频生成,开环的视频生成质量依然需要评估。

第二个维度,也是我们更核心的贡献,是面向功能性任务的评估。围绕具身场景,我们进一步从世界模型可能承担的角色出发,设计了三类应用评估。

第一类是把世界模型作为数据生成引擎。它可以合成大量数据,用于缓解具身真实数据稀缺的问题,并辅助下游策略模型训练。

第二类是把世界模型作为在线交互环境,用来评估策略模型。前提是世界模型能够捕捉环境动态,从而充当真实环境的代理。例如,过去评估一个 VLA 策略,通常需要把它部署到仿真器或真实环境中运行;如果世界模型这条路线可行,就可以让策略与世界模型交互,再根据交互结果判断策略质量。

第三类是把世界模型作为具身大脑,或者说作为 agent / action planner。既然世界模型能够生成环境转移后的状态,就可以从状态预测结果中提取动作,并把这些动作直接用于下游执行。

总体来说,WorldArena 同时关注两个问题:世界模型是否会生成这个世界,以及它能否利用生成结果支持智能体与世界交互。雷峰网

AI 科技评论:在这个框架中,一个合格的世界模型至少需要满足哪些能力?

商宇:我们的评估分为感知和功能两个维度,两者有关联,但并不严格绑定。如果一个模型想在榜单上取得较好表现,首先视频生成质量必须过关。也就是说,它在感知层面要尽量真实。我们评测了开源和闭源模型,发现闭源模型在第一轮测试中的整体分数更高,这说明较好的视觉质量确实有助于获得更好结果。

感知层面的基本要求是:模型生成的未来状态和画面要符合世界运行规律。至少在人眼看来,它不能违背基础物理规律,例如出现明显穿模、异常形变等问题。

更进一步,模型还需要具备任务执行能力。一个合格的世界模型不仅要推断出合理的未来状态,还要让这些状态能够转化为有效动作序列,从而帮助智能体完成交互。

概括来说,最低要求有两点:第一,感知层面真实;第二,对智能体决策产生增益。

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

AI 科技评论:很多模型可以预测接下来会发生什么,但不一定理解为什么会发生。WorldArena 更接近评估哪一种能力?

商宇:目前 WorldArena 更侧重评估“接下来会发生什么”,也就是预测结果是否合理。我们的评估仍然基于模型行为:先让模型输出视频或动作,再判断输出是否符合认知、是否接近真实视频或真实结果。因此,它本质上评的是模型预测是否正确。

至于模型是否真正理解“为什么会发生”,这个问题更难。它可能涉及模型内部机理研究,也可能需要因果建模、反事实推断等方法。

例如,在机器人抓取矿泉水瓶的任务中,如果我们想判断模型只是拟合了某一种抓取轨迹,还是理解了不同动作的含义,就需要在同一场景中给出不同动作,观察模型是否产生有差异的响应。类似设计才更接近因果性或反事实推断。

因此,就当前版本而言,WorldArena 主要评估预测是否正确,而不是直接证明模型是否理解因果关系。

AI 科技评论:论文中提到用 16 个 perception 指标刻画 world understanding。具体是怎样设置的?

商宇:我们把整体评估分为 perception 和 functionality 两大类。Perception 部分基于世界模型合成的视频,对视频进行多维诊断。我们参考了许多已有研究,最终总结出六个大维度,并进一步拆分为 16 个感知指标。雷峰网(公众号:雷峰网)

第一个维度是 visual quality,即视觉质量。这是最基础的层面,关注视频分辨率是否足够高、画面是否清晰、整体布局是否与真实场景一致。第二类是面向具身场景更关键的能力,包括动作质量、物理遵循性、3D 准确性、可控性,以及内容一致性等。

动作质量会关注动作连贯性,例如动作是否出现突变。物理遵循性用于判断生成结果是否符合基础物理规律。由于物理规律较抽象,我们会借助外部 VLM 进行评估,让它充当类似人类评判者的角色。

3D 准确性关注视频空间结构是否正确。只看 2D 画面时,现在的模型往往能拟合得很好;但物体之间的空间关系可能并不自然,投射到 3D 空间后就会暴露问题。

可控性评估模型是否能 follow 外部指令。指令可以是文本,也可以是机器人动作。我们希望判断模型究竟只是 overfit 某段视频,还是确实理解并响应外部条件。

内容一致性则关注视频前后是否保持一致,这是一个基础但重要的能力。整体来看,六个大维度共同构成对感知能力的评估,并进一步细化为 16 个 perception 指标。

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

AI 科技评论:一些高视觉质量模型在功能评估中表现并不好。你们认为这种断裂的原因是什么?

商宇:这个结果最初也让我们有些意外。后续分析后,我们认为主要有两类原因。第一类原因是训练目标没有对齐。许多视频生成模型在第一阶段微调时,本质上仍然是在拟合视频像素。这个训练过程并没有真正涉及视频与动作之间的关系,也没有建模因果关系。

因此,这些模型训练出来后主要服务于“像素是否拟合得好”“图像是否逼真”。换句话说,模型优化目标仍然集中在 perception 上,而不是功能性交互。

第二类原因是功能任务对模型能力要求更高。视频生成通常是在 2D 空间中完成,但动作预测和真实执行本质上发生在 3D 空间中。例如,物体关系的错位在 2D 图像中可能不明显,但一旦投射到 3D 空间,就会影响动作执行。这意味着模型可能过度拟合了二维表征,却没有充分建模三维空间和动作之间的关系。

此外,任务设置本身也带来挑战。Functionality 部分要求世界模型真正输出动作,而当前视频生成模型通常只能生成较短片段,一次可能只有几十帧。但现实动作执行往往是长程任务,很少能通过一次视频预测完整完成。

因此,模型必须经历长程、迭代式 rollout。我们观察到,许多模型单次生成效果尚可,但迭代后会产生误差累积:第一次生成可能准确,后续动作会逐渐漂移,稳定性下降。

所以,对具身任务而言,模型不仅需要单次生成质量高,还需要长程稳定性。训练目标错配和长时序稳定性不足,是造成这种断裂的主要原因。

AI 科技评论:也就是说,当前视频生成模型的问题之一是单次预测可以,但长程执行会乱?

商宇:是的,长程稳定性是一个重要问题。除此之外,当前模型往往仍在拟合 2D 图像分布,与动作之间的建模关联不够。虽然我们在 WorldArena 中设置了二阶段适配,用监督学习把世界模型学到的视频表征和动作联系起来,但这个过程并不是原生训练,而是后训练,并且相对轻量。

这种适配可以帮助模型学习视频到动作的关系,但不能从根本上解决问题。更本质的方向,是让世界模型进行视觉内容与动作内容的联合建模。现在已有一些工作在原生地对齐视频与动作关系,我认为这会更有帮助。

另一方面,功能性任务要求模型具备长程稳定性,才能独立、完整地执行任务。只有当模型在长程执行中保持稳定,它在功能榜单上的表现才会显著提升。

AI 科技评论:如果一个模型在 WorldArena 上得分不高,问题更可能是模型能力不够,还是训练目标没有对齐?

商宇:两种情况都会存在。有些模型得分不理想,是因为模型本身能力不足,生成视频质量不高。对于这类情况,可以认为它在基础生成能力上还没有达标。

另一些模型生成画面看起来不错,从人的角度看没有明显问题,但放到任务执行评测中表现不佳。对于这类情况,我更倾向于认为是训练目标没有完全对齐下游交互能力。

这类模型往往开环能力强,也就是生成视频本身没问题;但闭环能力弱,不能稳定支持动作预测和交互执行。原因可能是视频到动作的映射没有学好,也可能是模型只擅长局部预测,一旦进入长程预测就会出问题。

因此,WorldArena 上的低分既可能来自基础模型能力不足,也可能来自训练目标与功能性交互能力之间的错配。

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

AI 科技评论:如果 WorldArena 这类评估框架成为主流,会不会反过来推动新的训练方式?

商宇:我认为会,但这是一个循序渐进的过程。作为评测工作,我们现阶段主要希望提供实验现象、观察和 insight,让大家意识到:只做视频拟合,模型可能在视觉质量榜单上很高,但在功能性榜单上很低。

我们并不是完全否定当前的视频学习范式。许多视频基座模型通过这种方式持续 scaling,基础能力确实在提升,这对下游任务是有帮助的。

但如果目标是真正的世界模型,训练范式就不能只包含视频生成和重建,还需要把动作模态纳入进来。无论是根据视频预测动作,还是做 action-controlled video generation,都是必要的;关键是让视频和动作两种模态天然对齐。

现在已经有一类模型被称为 World Action Model,也就是 WAM。它们试图训练一个统一模型,同时具备视频预测和动作预测能力,并在两种模态之间设计明确的对齐机制,例如 joint attention。

所以,从研究趋势看,整个方向已经在向视频 - 动作联合建模转变。这也符合我们通过 WorldArena 得到的判断。

WorldArena 的边界与自我校准

AI 科技评论:如果模型在某些任务上失败,说明它真的不理解事件,还是只是没有见过足够多的类似数据?

商宇:我们不会把榜单表现不理想直接等同于“模型没有理解这个事件”。就当前版本的 WorldArena 而言,我们的重点还不是泛化能力评估,也没有专门设置 OOD 场景。在评测设置下,模型基本见过类似数据;如果要测某个任务,我们会给它相应数据进行训练。因此,我们不倾向于把失败主要归因于“没有见过足够多的数据”。

在这个前提下,模型失败通常可以拆成两个阶段分析。

第一阶段是开环视频生成质量。如果模型连视频预测本身都做不好,说明它的视频学习质量就不高。

第二阶段是视频到动作的映射,以及视频与动作的联合建模。如果视频生成质量尚可,但闭环任务或长程任务失败,问题更可能来自动作预测不稳定。

真实执行中,错误往往难以校正。例如机器人抓瓶子时,如果中途掉落,当前模型通常缺少错误恢复能力,后续会持续出错。

因此,在当前设置中,许多失败更可能反映模型缺少足够稳定的动作预测和长程执行能力,而不是简单说明它没有见过类似数据。

AI 科技评论:WorldArena 评估的是世界模型,但 agent 设计也会影响结果。你们如何区分世界模型不够好和 agent 没有正确利用世界模型?

商宇:这是一个很有技术意义的问题,我们在实验中也做了相应排查。我们的动作预测流程是在世界模型后面额外加入一个逆动力学模型,即 IDM。IDM 的作用是从世界模型预测出的状态特征中映射出动作。因此,一个潜在担忧是:结果不好是否因为 IDM 或整个 pipeline 存在性能上限,而不是世界模型本身不够好。

为了排除这个混淆因素,我们做了一个上限实验:不使用世界模型预测的视频,而是给 IDM 输入真实视频。这个设定相当于假设世界模型预测完全等同于真实世界,再观察动作能否被正确预测。

实验结果显示,在输入真实视频并经过二阶段动作预测训练后,IDM 能完成大部分任务,成功率基本在 80% 以上。

而当前世界模型在同一体系下的结果与这个上限还有明显差距。由此我们判断,现有 pipeline 虽然不一定是最完美设计,但还没有达到性能天花板;它能够比较客观地暴露问题。

综合来看,当前主要瓶颈仍然在 world model 本身,而不是 agent 或 IDM 没有正确利用它。

AI 科技评论:WorldArena 是否类似一个黑盒评估工具?

商宇:它不是完全的黑盒。许多 Benchmark 本质上都是行为层面的评估,WorldArena 也不例外。但它在设计上具有一定诊断性。

首先,我们同时做开环和闭环评测,可以帮助判断模型问题来自生成能力,还是行动能力。其次,在生成能力内部,我们又拆分出十几个子维度指标。这能帮助研究者更细致地审视模型能力。例如,通过雷达图可以看到不同模型的优势和劣势:有些模型可能 3D 重建质量高,有些模型可能动作连贯性更好。

因此,WorldArena 不只是输出一个最终分数,它还提供中间结果和多维诊断证据。相比只看最终闭环执行成功率的评测,它并不完全是端到端黑盒。

但如果更严格地问,它能否解释模型内部机制、能否证明模型真正理解世界,目前版本还做不到。后续我们希望引入反事实推断等方法,进一步提升可解释性。

AI 科技评论:如果模型在 WorldArena 上表现好,是否意味着它已经接近真实机器人部署?

商宇:如果模型在 WorldArena 上表现好,尤其是在 functionality 维度表现好,我认为它确实更有潜力,但这并不等同于它一定能在真实物理世界中运行。

这是当前评测的局限之一,也会是未来工作。我们仍然面临 sim-to-real gap。当前评测主要在仿真环境中完成,这样做是为了评测便利,也为了排除真实环境中的偶然因素。

真实环境远比仿真环境复杂。它会受到传感器噪声、执行误差、硬件差异等因素影响,不同模型对硬件的适配程度也可能不同。未来,我们希望提供一套标准化的真机评测流程,进一步分析仿真表现与真实部署能力之间的相关性。

就当前结果看,现有模型距离真实物理世界部署仍有较大差距。模型在仿真器中需要达到足够高的性能,才可能有希望迁移到真实环境;目前它们与一些 VLA 模型相比,差距仍然不小。

AI 科技评论:Benchmark 往往会反过来塑造研究方向。如何避免 WorldArena 成为新的路径依赖?

商宇:这是大多数 Benchmark 都会面对的问题。从设计 Benchmark 的角度看,我们的出发点是:当前模型开发方向与我们希望模型具备的能力之间存在差距,因此需要补充新的评测维度,引导研究进一步接近真实需求。

但 Benchmark 的价值不应是让所有人把刷榜作为模型研发的第一目标。它更应该作为能力诊断工具,帮助缩小研究目标与真实需求之间的距离。

对于 WorldArena 来说,它的价值在于提醒大家:世界模型不能只做到视觉真实,还要在功能层面可用。它提供的是观察和 insight,而不是唯一评价标准。

随着模型能力逐渐接近,Benchmark 本身也必须持续迭代。模型最终要服务真实需求。对于具身场景,最终目标是让世界模型在真实物理交互中跑通,并把性能做上去。

因此,我们也需要不断把更真实的需求纳入评测,例如未来加入真实环境下的评估和诊断,让 Benchmark 与现实需求更对齐。

对研究者来说,WorldArena 可以作为基础工具,但更重要的是用它判断模型距离真实世界还有多大差距,而不是把它当作唯一审判标准。

AI 科技评论:如果一个模型在真实世界表现很好,但在 WorldArena 上得分不高,这更可能是谁的问题?

商宇:如果真的出现这种模型——目前我们还没有收到类似反馈——我不会先入为主地认为是模型的问题,而会把它视为一个有价值的信号。

一种可能是,这个模型采用了 WorldArena 现有设计没有覆盖到的技术路径。它可能通过特殊设计在真实世界或动作预测上表现很好,但我们的 Benchmark 没有体现出来。这说明评测框架与真实世界之间仍有未对齐之处。

另一种可能是,当前评价体系需要进一步完善。我们需要对这类模型做更详细诊断:看它在 WorldArena 中具体哪些情况表现不好,再与它在真实环境中的表现交叉分析,判断问题是共性的,还是因为模型 overfit 到了某个特定场景。

因此,可能是评估维度不够,也可能是模型并非通用能力强,而是在某些特定场景表现好。两种情况都需要进一步分析。

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

AI 科技评论:如果未来世界模型取得新的突破,WorldArena 是否也需要重构?

商宇:这是肯定的。模型和 Benchmark 应该是螺旋上升的关系。通常是先出现一批模型,然后我们再思考如何系统性评判这些模型。当前 Benchmark 的设计针对的是当前模型能力。随着模型能力增强,Benchmark 必须跟着进化,否则会干扰研究判断。

Benchmark 本应起到牵引作用。如果模型已经往前发展,而 Benchmark 仍停留在旧能力上,它就会从方向盘变成后视镜。

从世界模型领域看,目前行业仍处于较早期阶段。WorldArena 的一步,是从视觉导向走向功能导向。如果未来所有模型都能把当前榜单刷到接近饱和,无法再体现差异,我们就需要引入更高标准、更有挑战性的任务,并适配新的模型能力。

例如,现在已有模型不再局限于单视角视频生成,未来可能出现更多视角、更多模态。这些变化都需要后续 Benchmark 纳入。所以,WorldArena 不会是静态框架,而应该长期迭代,并吸收社区共同发现的新问题,持续推出更高质量的评测任务。

AI 科技评论:能否介绍一下这次 CVPR workshop 挑战赛的情况?

商宇:我们以 WorldArena Benchmark 为基础,在 CVPR 2026 组织了一个公开挑战赛。比赛内容与我们的评测基本一致。

挑战赛分为两个赛道,对应感知和功能两个维度。Track 1 面向视频生成质量,会综合 16 个感知质量指标,评估世界模型的视频生成能力。

Track 2 面向功能性评测。为了方便参赛团队实现,我们优先设置了数据引擎和策略评估两个任务。这两个任务能够覆盖现有大部分模型能力:文本可控视频模型适合数据引擎任务,动作可控模型适合策略评估任务。

整个比赛周期约两个月,从 3 月底开始。目前处于中期阶段,我们也准备公布前一个月的中期成绩。截至目前,比赛在社区中已有一定影响力。不到一个月内,提交次数接近 100 次,第一名成绩也在持续刷新,参与比较积极。

Track 2 目前参与人数相对少一些,因此机会可能更大,奖金也更多,但难度确实更高。参赛队伍覆盖学术界、工业界和初创公司。我们希望在 CVPR 会议现场与大家进一步交流,并把挑战赛中的观察和 insight 呈现给社区。

长按图片保存图片,分享给好友或朋友圈

正在生成分享图...

取消
相关文章