过去一段时间,AI 视频最让人惊艳的,往往都是前几秒。人物状态自然,光影氛围到位,动作也足够流畅,很容易让人产生一种感觉,视频生成已经离真正可用不远了。
但行业越往前走,问题也越清楚,真正难的从来不是做出一小段漂亮画面,而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长,很多模型就会开始慢慢失稳,人物、场景和动作表面上还在延续,内部却已经出现细节漂移和时序松动。
这也是为什么,今天 AI 视频行业真正卡住的地方,已经不只是能不能生成片段,而是能不能生成连续、稳定、可以承载完整情境的内容。
比如一段厨房视频里,镜头从备菜推进到下锅,再切到摆盘,观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里,人物从地铁口走到街边店铺,镜头可以变化,但人物状态、环境关系和动作逻辑不能越走越散。
只有解决这种长时间稳定性问题,AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下,西湖大学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。
这项研究关注的,不是怎样把某一帧做得更亮眼,而是为什么模型在短视频里表现很好,一旦进入长视频生成,质量就会越来越难维持。也正因为它抓住了这个行业里越来越核心的问题,所以这项研究不只是一次常规优化,而更像是在回答,AI 视频从短片段走向长内容时,究竟卡在了哪里。

论文地址:https://arxiv.org/pdf/2603.25209
在 Wan2.1-T2V-1.3B 上,研究人员把视频长度扩展到 2 倍和 4 倍之后,发现 FreeLOC 的优势非常稳定,而且视频越长,这种优势越明显。
先看 2 倍长度,也就是 161 帧的结果。主体一致性达到 98.06,背景一致性达到 97.49,运动平滑达到 98.98,说明在人物、场景和动作连续性上,它都已经处在最好或接近最好的水平。
更突出的部分在画质相关指标上。图像质量达到 68.31,明显高于 Direct 的 60.34,也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美学质量达到 62.33,而其他方法大多只在 52 到 56 之间,所以这一项的领先尤其明显。
动态程度也达到 39.41,已经接近最佳。换句话说,在 2 倍长度下,FreeLOC 不是只在某一个指标上占优,而是在稳定性、清晰度和整体观感上都表现更强。
到了 4 倍长度,也就是 321 帧,长视频生成的难度会明显上升,因为模型更容易出现内容漂移、画面变糊或者动作失真。但研究结果表明,FreeLOC 在这种更苛刻的设定下仍然能保持很强的表现。
主体一致性达到 98.44,仍然几乎是最高水平。图像质量达到 67.44,而 Direct 已经掉到 59.21,差距达到 8.2。美学质量达到 61.21,Direct 只有 49.43,差距进一步扩大到 11.8。动态程度达到 36.27,而 Direct 只有 4.32,差不多已经是数量级上的差别。
这个结果说明,随着视频长度继续增加,很多方法会越来越难维持质量,但 FreeLOC 仍然能把画面质量和动态表现保持在较高水平,所以它的优势不是偶然,而是在高难度长视频场景里依然成立。

这种提升并不只出现在一个模型上。研究团队又在 HunyuanVideo 上做了同样的测试,结果趋势依然一致。2 倍长度,也就是 253 帧时,图像质量达到 68.92,美学质量达到 62.38,都是最高,主体一致性也有 97.92,优于大多数方法。
到了 4 倍长度,也就是 509 帧,图像质量仍有 67.92,美学质量仍有 61.09,动态程度达到 39.28,也接近最佳。也就是说,FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立,而是在另一套视频生成模型上也能复现出相同趋势,这就说明研究提出的方法具有比较明显的跨模型通用性。雷峰网
为了进一步说明这种提升到底来自哪里,研究团队还做了消融实验,把方法拆开来看。只使用 TSA 时,图像质量是 65.87,美学质量是 57.05,说明单独处理长上下文问题已经能带来可见提升。
只使用 VRPR 时,图像质量是 61.88,美学质量是 54.13,说明单独修正位置问题也有效,但作用还不够强。假如把 TSA 和 VRPR 一起加上去,却对所有层统一处理,图像质量是 65.19,美学质量是 56.34,虽然比只用一个模块更好,但仍然不是最佳结果。
更关键的是,研究人员还测试了随机分配到不同层的做法,结果图像质量反而掉到 63.90,这说明模块本身并不是随便放在哪里都行,真正重要的是放在哪些层上。按层选择之后,也就是 FreeLOC 的做法,图像质量达到 67.44,美学质量达到 61.21,都是最高。
这一部分实验最想说明的是,性能提升不只是因为多加了两个模块,而是因为研究人员发现不同层对不同问题的敏感程度并不一样,所以必须做分层处理,而这正是 FreeLOC 最核心的创新点之一。

研究人员还进一步比较了不同的位置处理方式和不同的注意力机制。在位置处理上,他们比较了 Clipping、Grouping 和 VRPR,最后发现 VRPR 的效果最好,图像质量达到 68.84,美学质量达到 61.21,都明显领先。这说明多粒度的位置重编码确实比简单截断或者简单分组更有效。
在注意力机制上,研究又比较了 Sliding Window、Selected Frame Attention 和 TSA,结果 TSA 依然最好,图像质量达到 68.84,美学质量达到 61.21。这意味着,单纯用滑动窗口虽然能缩小注意力范围,但会损失一部分长程信息,而 TSA 能在控制上下文长度的同时,尽量保留长距离时序关联,所以整体表现更强。

把这些实验合在一起看,研究团队实际上是在证明一件事,FreeLOC 的优势不是只体现在某一个局部技巧上,而是来自一整套更合理的设计,包括位置重编码、注意力控制,以及最关键的分层使用策略。
整体来看,这组实验传递出的结论非常清楚。无论是在 Wan2.1-T2V-1.3B 还是 HunyuanVideo 上,无论是在 2 倍长度还是 4 倍长度设置下,FreeLOC 都能同时提升视频的稳定性、清晰度、美感和动态表现,而且越到更长、更难的生成场景,这种优势越明显。

在实验设置上,研究团队选用了两个公开可用的视频生成模型,分别是 Wan2.1-T2V-1.3B 和 HunyuanVideo,用来验证 FreeLOC 是否具有跨模型的适用性。
视频生成时,研究人员把输出分辨率统一设为 480p,也就是 832 × 480,并且重点测试了把视频长度扩展到 2 倍和 4 倍之后的生成效果。这样做的目的很明确,就是看模型在视频明显变长之后,是否还能维持原本的画面质量和时序稳定性。雷峰网(公众号:雷峰网)
为了证明 FreeLOC 的效果不是偶然,研究还设置了多组对比方法,包括 Direct Sampling,也就是直接生成,Sliding Window,也就是滑动窗口,以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。
这样的对比覆盖了目前比较常见的长视频生成思路,有的是最直接的基线方法,有的是通过局部窗口维持连续性,也有的是已有的训练免费方法,所以能够比较全面地看出 FreeLOC 相比其他方案到底强在哪里。

在评价方式上,研究人员采用的是 VBench 标准,并且把指标分成了一致性和质量两大类。一致性方面主要看 Subject Consistency,也就是人物在长视频里会不会变形或漂移,Background Consistency,也就是背景是否稳定,以及 Motion Smoothness,也就是动作和运动过程是否连续自然。
质量方面主要看 Imaging Quality,也就是画面清晰度,Aesthetic Quality,也就是整体视觉美感,以及 Dynamic Degree,也就是视频的动态表现强不强。这样一来,研究考察的就不只是单纯的清晰度,而是把人物稳定、背景稳定、动作连续、画面质量和观感都纳入了评估范围。

除了常规的对比实验,研究团队还做了一个很关键的探测实验,也就是逐层分析 Transformer。具体来说,研究人员会对每一层施加扰动,然后观察两个结果,一是视觉质量到底下降了多少,二是 attention 的变化到底有多大。
通过这种方法,他们发现不同层对问题的敏感性并不一样,有的层更容易受到位置变化的影响,有的层更容易受到长上下文扩展的影响。这个发现非常重要,因为它直接支持了 FreeLOC 后面的分层处理思路,也就是不是所有层都一视同仁,而是要针对不同层采用不同修正方式。
研究还专门验证了两类核心的 O.O.D 问题。第一类是位置 O.O.D,做法是改变帧之间的相对位置关系,然后观察生成质量会不会下降。第二类是长度 O.O.D,做法是直接增加视频长度,再计算 attention entropy,也就是注意力分散程度。
实验结果表明,视频长度一旦增加,attention 就会变得更分散,而注意力越分散,生成质量往往越差。也正是基于这两类问题的验证,研究团队才进一步提出了后面的 VRPR、TSA 和分层适配策略。整体来看,这一部分实验经过的意义就在于,研究并不是只做结果对比,而是先把问题来源拆清楚,再针对性地设计解决办法。

这项研究的意义,不只是把长视频生成的结果做得更好,而是把问题背后的原因说清楚了。研究团队指出,长视频之所以容易出现画面变糊、动作不连贯、人物不稳定这些问题,核心来自两类 O.O.D,也就是位置 O.O.D 和上下文 O.O.D。
这个判断很重要,因为它说明过去很多方法更像是在不断试技巧、调参数,而这项研究开始把问题推进到机制解释的层面。也就是说,研究人员不仅提出了一个更有效的方案,还解释了为什么以前的方法容易失效,为什么视频一变长,模型就会更容易出问题。
这项研究还有一个很实际的意义,就是证明了训练并不是唯一办法。以前一说到长视频生成,很多人会默认要重新训练模型,或者至少做一次很重的额外训练,因为短视频模型通常很难直接应对更长的时序范围。
研究团队这次证明,只在推理阶段做更精细的修正,也能明显改善生成效果。这一点很关键,因为它意味着算力成本会更低,现有模型也更容易直接使用,对技术落地和实际部署都更有帮助。
另外,研究人员还重新揭示了 Transformer 不同层的作用差异。他们发现,不同层并不是在做同一件事,有些层更容易受到位置问题影响,有些层更容易受到长上下文问题影响。
所以真正有效的方法,不是一刀切地改所有层,而是先找出问题主要集中在哪些层,再做针对性修复。这个认识很有价值,因为它不只适用于视频生成,对长上下文的 LLM、图像生成模型的推理优化,其实也都有启发。
换句话说,这项研究提出的不只是一个技巧,更是一种更通用的思路,也就是先识别问题,再定位到层,最后做局部修复。
如果从普通人的角度来看,这项研究的影响其实也很直接。未来大家用 AI 生成稍微长一点的视频时,人物突然变脸、衣服乱变、背景乱跳、动作接不上的情况,有望明显减少。
对普通用户来说,这意味着做故事短片、教学视频、产品展示视频时,成片会更稳定,也更接近真正能用的内容。对内容创作者来说,这意味着返工会更少,制作成本会更低,小团队和个人创作者也更有机会用现成模型做出更长、更连贯的视频内容。
所以这项研究真正推动的,不只是技术指标的提升,而是让 AI 长视频生成离日常可用、商业可用又近了一步。
论文一作田佳豪,目前是西湖大学 AGI Lab 的科研助理,师从张驰教授。主要从事计算机视觉方面的研究。他当前的研究重点集中在扩散生成模型,视频生成,世界模型等方向。
就学术成果来看,他已发表或参与多项工作,包括以第一作者发表在 CVPR 2026 的FreeLOC,以及投递于 ECCV 2026 的 HeadForcing,此外还发表了 DCCM,Loss-Guided Diffusion For General Controllable Generation 等工作,整体研究路径体现出从图像级扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的持续推进。

通讯作者张驰,西湖大学助理教授、独立PI,同时担任 AGI Lab负责人,在生成式人工智能和多模态智能方向开展研究工作。在
此之前,他曾在腾讯担任研究科学家,并于新加坡南洋理工大学获得博士学位,师从林国盛教授,同时与沈春华等学者保持长期合作关系。在学术影响力方面,他连续入选斯坦福大学发布的全球前 2% 科学家榜单,并担任多个顶级会议和期刊的重要学术服务角色,包括 ICML、ICLR、CVPR 等会议的 Area Chair,以及 IEEE T-CSVT 的副编辑。
在学术成果与研究产出方面,他长期深耕生成式人工智能领域,研究方向涵盖扩散模型、多模态生成建模以及智能体系统,近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。
这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体,形成了一条从视觉理解到世界建模的系统性研究路线。
从整体研究特点来看,张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展,既关注模型基础理论,也注重实际系统构建与应用落地。例如在视频生成与3D建模方向,他推动从单纯生成内容向可控相机运动和空间理解发展,在智能体方向,他探索多模态大模型在真实交互环境中的应用。
这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势,也使其工作处于当前人工智能领域较为前沿的位置。

参考链接:https://icoz69.github.io/