西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

世界模型西湖大学 CVPR

2026/04/22 14:28

过去一段时间，AI 视频最让人惊艳的，往往都是前几秒。人物状态自然，光影氛围到位，动作也足够流畅，很容易让人产生一种感觉，视频生成已经离真正可用不远了。

但行业越往前走，问题也越清楚，真正难的从来不是做出一小段漂亮画面，而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长，很多模型就会开始慢慢失稳，人物、场景和动作表面上还在延续，内部却已经出现细节漂移和时序松动。

这也是为什么，今天 AI 视频行业真正卡住的地方，已经不只是能不能生成片段，而是能不能生成连续、稳定、可以承载完整情境的内容。

比如一段厨房视频里，镜头从备菜推进到下锅，再切到摆盘，观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里，人物从地铁口走到街边店铺，镜头可以变化，但人物状态、环境关系和动作逻辑不能越走越散。

只有解决这种长时间稳定性问题，AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下，西湖大学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

这项研究关注的，不是怎样把某一帧做得更亮眼，而是为什么模型在短视频里表现很好，一旦进入长视频生成，质量就会越来越难维持。也正因为它抓住了这个行业里越来越核心的问题，所以这项研究不只是一次常规优化，而更像是在回答，AI 视频从短片段走向长内容时，究竟卡在了哪里。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

论文地址：https://arxiv.org/pdf/2603.25209

更长的视频，更明显的优势

在 Wan2.1-T2V-1.3B 上，研究人员把视频长度扩展到 2 倍和 4 倍之后，发现 FreeLOC 的优势非常稳定，而且视频越长，这种优势越明显。

先看 2 倍长度，也就是 161 帧的结果。主体一致性达到 98.06，背景一致性达到 97.49，运动平滑达到 98.98，说明在人物、场景和动作连续性上，它都已经处在最好或接近最好的水平。

更突出的部分在画质相关指标上。图像质量达到 68.31，明显高于 Direct 的 60.34，也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美学质量达到 62.33，而其他方法大多只在 52 到 56 之间，所以这一项的领先尤其明显。

动态程度也达到 39.41，已经接近最佳。换句话说，在 2 倍长度下，FreeLOC 不是只在某一个指标上占优，而是在稳定性、清晰度和整体观感上都表现更强。

到了 4 倍长度，也就是 321 帧，长视频生成的难度会明显上升，因为模型更容易出现内容漂移、画面变糊或者动作失真。但研究结果表明，FreeLOC 在这种更苛刻的设定下仍然能保持很强的表现。

主体一致性达到 98.44，仍然几乎是最高水平。图像质量达到 67.44，而 Direct 已经掉到 59.21，差距达到 8.2。美学质量达到 61.21，Direct 只有 49.43，差距进一步扩大到 11.8。动态程度达到 36.27，而 Direct 只有 4.32，差不多已经是数量级上的差别。

这个结果说明，随着视频长度继续增加，很多方法会越来越难维持质量，但 FreeLOC 仍然能把画面质量和动态表现保持在较高水平，所以它的优势不是偶然，而是在高难度长视频场景里依然成立。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

这种提升并不只出现在一个模型上。研究团队又在 HunyuanVideo 上做了同样的测试，结果趋势依然一致。2 倍长度，也就是 253 帧时，图像质量达到 68.92，美学质量达到 62.38，都是最高，主体一致性也有 97.92，优于大多数方法。

到了 4 倍长度，也就是 509 帧，图像质量仍有 67.92，美学质量仍有 61.09，动态程度达到 39.28，也接近最佳。也就是说，FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立，而是在另一套视频生成模型上也能复现出相同趋势，这就说明研究提出的方法具有比较明显的跨模型通用性。雷峰网

为了进一步说明这种提升到底来自哪里，研究团队还做了消融实验，把方法拆开来看。只使用 TSA 时，图像质量是 65.87，美学质量是 57.05，说明单独处理长上下文问题已经能带来可见提升。

只使用 VRPR 时，图像质量是 61.88，美学质量是 54.13，说明单独修正位置问题也有效，但作用还不够强。假如把 TSA 和 VRPR 一起加上去，却对所有层统一处理，图像质量是 65.19，美学质量是 56.34，虽然比只用一个模块更好，但仍然不是最佳结果。

更关键的是，研究人员还测试了随机分配到不同层的做法，结果图像质量反而掉到 63.90，这说明模块本身并不是随便放在哪里都行，真正重要的是放在哪些层上。按层选择之后，也就是 FreeLOC 的做法，图像质量达到 67.44，美学质量达到 61.21，都是最高。

这一部分实验最想说明的是，性能提升不只是因为多加了两个模块，而是因为研究人员发现不同层对不同问题的敏感程度并不一样，所以必须做分层处理，而这正是 FreeLOC 最核心的创新点之一。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

研究人员还进一步比较了不同的位置处理方式和不同的注意力机制。在位置处理上，他们比较了 Clipping、Grouping 和 VRPR，最后发现 VRPR 的效果最好，图像质量达到 68.84，美学质量达到 61.21，都明显领先。这说明多粒度的位置重编码确实比简单截断或者简单分组更有效。

在注意力机制上，研究又比较了 Sliding Window、Selected Frame Attention 和 TSA，结果 TSA 依然最好，图像质量达到 68.84，美学质量达到 61.21。这意味着，单纯用滑动窗口虽然能缩小注意力范围，但会损失一部分长程信息，而 TSA 能在控制上下文长度的同时，尽量保留长距离时序关联，所以整体表现更强。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

把这些实验合在一起看，研究团队实际上是在证明一件事，FreeLOC 的优势不是只体现在某一个局部技巧上，而是来自一整套更合理的设计，包括位置重编码、注意力控制，以及最关键的分层使用策略。

整体来看，这组实验传递出的结论非常清楚。无论是在 Wan2.1-T2V-1.3B 还是 HunyuanVideo 上，无论是在 2 倍长度还是 4 倍长度设置下，FreeLOC 都能同时提升视频的稳定性、清晰度、美感和动态表现，而且越到更长、更难的生成场景，这种优势越明显。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

从设置到机制，一步步验证

在实验设置上，研究团队选用了两个公开可用的视频生成模型，分别是 Wan2.1-T2V-1.3B 和 HunyuanVideo，用来验证 FreeLOC 是否具有跨模型的适用性。

视频生成时，研究人员把输出分辨率统一设为 480p，也就是 832 × 480，并且重点测试了把视频长度扩展到 2 倍和 4 倍之后的生成效果。这样做的目的很明确，就是看模型在视频明显变长之后，是否还能维持原本的画面质量和时序稳定性。雷峰网(公众号：雷峰网)

为了证明 FreeLOC 的效果不是偶然，研究还设置了多组对比方法，包括 Direct Sampling，也就是直接生成，Sliding Window，也就是滑动窗口，以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

这样的对比覆盖了目前比较常见的长视频生成思路，有的是最直接的基线方法，有的是通过局部窗口维持连续性，也有的是已有的训练免费方法，所以能够比较全面地看出 FreeLOC 相比其他方案到底强在哪里。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

在评价方式上，研究人员采用的是 VBench 标准，并且把指标分成了一致性和质量两大类。一致性方面主要看 Subject Consistency，也就是人物在长视频里会不会变形或漂移，Background Consistency，也就是背景是否稳定，以及 Motion Smoothness，也就是动作和运动过程是否连续自然。

质量方面主要看 Imaging Quality，也就是画面清晰度，Aesthetic Quality，也就是整体视觉美感，以及 Dynamic Degree，也就是视频的动态表现强不强。这样一来，研究考察的就不只是单纯的清晰度，而是把人物稳定、背景稳定、动作连续、画面质量和观感都纳入了评估范围。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

除了常规的对比实验，研究团队还做了一个很关键的探测实验，也就是逐层分析 Transformer。具体来说，研究人员会对每一层施加扰动，然后观察两个结果，一是视觉质量到底下降了多少，二是 attention 的变化到底有多大。

通过这种方法，他们发现不同层对问题的敏感性并不一样，有的层更容易受到位置变化的影响，有的层更容易受到长上下文扩展的影响。这个发现非常重要，因为它直接支持了 FreeLOC 后面的分层处理思路，也就是不是所有层都一视同仁，而是要针对不同层采用不同修正方式。

研究还专门验证了两类核心的 O.O.D 问题。第一类是位置 O.O.D，做法是改变帧之间的相对位置关系，然后观察生成质量会不会下降。第二类是长度 O.O.D，做法是直接增加视频长度，再计算 attention entropy，也就是注意力分散程度。

实验结果表明，视频长度一旦增加，attention 就会变得更分散，而注意力越分散，生成质量往往越差。也正是基于这两类问题的验证，研究团队才进一步提出了后面的 VRPR、TSA 和分层适配策略。整体来看，这一部分实验经过的意义就在于，研究并不是只做结果对比，而是先把问题来源拆清楚，再针对性地设计解决办法。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

从「能生成」走向「能使用」

这项研究的意义，不只是把长视频生成的结果做得更好，而是把问题背后的原因说清楚了。研究团队指出，长视频之所以容易出现画面变糊、动作不连贯、人物不稳定这些问题，核心来自两类 O.O.D，也就是位置 O.O.D 和上下文 O.O.D。

这个判断很重要，因为它说明过去很多方法更像是在不断试技巧、调参数，而这项研究开始把问题推进到机制解释的层面。也就是说，研究人员不仅提出了一个更有效的方案，还解释了为什么以前的方法容易失效，为什么视频一变长，模型就会更容易出问题。

这项研究还有一个很实际的意义，就是证明了训练并不是唯一办法。以前一说到长视频生成，很多人会默认要重新训练模型，或者至少做一次很重的额外训练，因为短视频模型通常很难直接应对更长的时序范围。

研究团队这次证明，只在推理阶段做更精细的修正，也能明显改善生成效果。这一点很关键，因为它意味着算力成本会更低，现有模型也更容易直接使用，对技术落地和实际部署都更有帮助。

另外，研究人员还重新揭示了 Transformer 不同层的作用差异。他们发现，不同层并不是在做同一件事，有些层更容易受到位置问题影响，有些层更容易受到长上下文问题影响。

所以真正有效的方法，不是一刀切地改所有层，而是先找出问题主要集中在哪些层，再做针对性修复。这个认识很有价值，因为它不只适用于视频生成，对长上下文的 LLM、图像生成模型的推理优化，其实也都有启发。

换句话说，这项研究提出的不只是一个技巧，更是一种更通用的思路，也就是先识别问题，再定位到层，最后做局部修复。

如果从普通人的角度来看，这项研究的影响其实也很直接。未来大家用 AI 生成稍微长一点的视频时，人物突然变脸、衣服乱变、背景乱跳、动作接不上的情况，有望明显减少。

对普通用户来说，这意味着做故事短片、教学视频、产品展示视频时，成片会更稳定，也更接近真正能用的内容。对内容创作者来说，这意味着返工会更少，制作成本会更低，小团队和个人创作者也更有机会用现成模型做出更长、更连贯的视频内容。

所以这项研究真正推动的，不只是技术指标的提升，而是让 AI 长视频生成离日常可用、商业可用又近了一步。

FreeLOC 的创建者

论文一作田佳豪，目前是西湖大学 AGI Lab 的科研助理，师从张驰教授。主要从事计算机视觉方面的研究。他当前的研究重点集中在扩散生成模型，视频生成，世界模型等方向。

就学术成果来看，他已发表或参与多项工作，包括以第一作者发表在 CVPR 2026 的FreeLOC，以及投递于 ECCV 2026 的 HeadForcing，此外还发表了 DCCM，Loss-Guided Diffusion For General Controllable Generation 等工作，整体研究路径体现出从图像级扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的持续推进。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

通讯作者张驰，西湖大学助理教授、独立PI，同时担任 AGI Lab负责人，在生成式人工智能和多模态智能方向开展研究工作。在

此之前，他曾在腾讯担任研究科学家，并于新加坡南洋理工大学获得博士学位，师从林国盛教授，同时与沈春华等学者保持长期合作关系。在学术影响力方面，他连续入选斯坦福大学发布的全球前 2% 科学家榜单，并担任多个顶级会议和期刊的重要学术服务角色，包括 ICML、ICLR、CVPR 等会议的 Area Chair，以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面，他长期深耕生成式人工智能领域，研究方向涵盖扩散模型、多模态生成建模以及智能体系统，近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体，形成了一条从视觉理解到世界建模的系统性研究路线。

从整体研究特点来看，张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展，既关注模型基础理论，也注重实际系统构建与应用落地。例如在视频生成与3D建模方向，他推动从单纯生成内容向可控相机运动和空间理解发展，在智能体方向，他探索多模态大模型在真实交互环境中的应用。

这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势，也使其工作处于当前人工智能领域较为前沿的位置。

西湖大学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

参考链接：https://icoz69.github.io/

专题

CVPR 计算机视觉与模式识别会议查看更多文章