视觉模型智能涌现后， Scaling Law 不会到头

作者：王悦

2024/11/22 11:09

Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文，其研究表明当下的语言模型在大量数据上经历了过度训练，继续叠加更多的预训练数据可能会产生副作用。

这释放的信号是：在自然语言处理领域， Scaling Law 目光所及地到达瓶颈，单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效，低精度的训练和推理正在使模型性能提升的边际效益递减。

Scaling Law 在 NLP 的路上确实展现出了「即将到头」的前兆，但这并不意味着其末日真的来临。在多模态模型领域，由于多模态数据包含图像、视频、音频等多种类型，在信息丰富度、处理方法、应用领域方面均较为复杂，难以达到较大的训练规模体量，因此 Scaling Law 尚没有被真真切切地验证过。

然而，清华系大模型公司生数科技最新发布的 Vidu1.5 表明，多模态领域的 Scaling Law 才刚刚起步。通过持续的 Scaling Up ， Vidu 1.5 已经来到了「奇点」时刻，涌现出了「上下文能力」，能够理解记忆所输入的多主体信息，并表现出对复杂主体更精准的控制能力。无论是细节丰富的角色还是复杂的物体，通过上传不同角度下的三张图片，Vidu 1.5 能保证单主体形象的高度一致。

视觉模型智能涌现后， Scaling Law 不会到头

Vidu 1.5 除了能对单个主体进行精确控制，也实现了多主体之间的一致性。用户可以上传包含人物角色、道具物体、环境背景等多种元素的图像，Vidu能够将这些元素无缝的融合到一起，并实现自然交互。

视觉模型智能涌现后， Scaling Law 不会到头

Vidu 在主体一致性方面取得种种突破，不仅是 Scaling Law 法则在发挥作用，根本原因在于其所采用的无微调、大一统的技术架构方案。当前的视频模型为了实现一致性，大多是采用在预训练的基础上再针对单个任务进行微调的 LoRA 方案，而 Vidu 的底层模型跳出业界主流方案，做出了开拓性的改变。

无独有偶，回顾大语言模型的发展历程，会发现从 GPT-2 到 GPT-3.5 发生质变的标志，也是实现了从预训练+特定任务微调的方式到整体统一框架的突破。可以说，Vidu 1.5的推出，开启了多模态大模型的 GPT-3.5 时刻。

Sora 自年初发布之后，再无其他迭代的新版本，其他家的视频生成创业团队也仿佛没了锚定的方向，大多是在 DiT 架构上进行些衍生性工作。对于这一现象，生数科技 CTO 鲍凡则表示：我们不会在 Sora 划定好的路线上去追赶，而是从一开始就在走自己的路，瞄准通用多模态大模型的目标，去实现相应的能力。

从早于 Sora 发布全球首个基于 Diffusion 的 Transformer 架构U-ViT，到首次实现用统一的架构处理泛化任务，生数有的不仅是先发优势，更是持续突破的能力。Vidu 和业界其他的视频生成模型相比，已经初步形成技术代差。

一、重新设计一个「底层架构」

实现主体一致性，是视频模型领域一块难啃的骨头。「这就好比，你知道发动机对于一辆汽车来讲很重要，也知道如果发动机有质的改变，那么汽车的性能也会随之提升，但就是很难造出来一台好的发动机。」鲍凡告诉 AI 科技评论。

包括 Sora 在内，国内外的视频模型都没有在主体一致性方面有所突破。目前有涉足的是国内的一家大厂，仅局限于实现人脸一致性的控制，难以保证细节、衣服、造型等细节，而且采用的是LoRA微调方案。

Vidu 在主体一致性方面的成果也并非一蹴而就。2024 年 7 月底， Vidu 上线之初就主打解决一致性问题，并能够较好地实现面部一致的控制；9月份全球首发「主体参照」功能，把对单主体的控制从面部拓展到整个单主体的形象上；11 月上线的 Vidu 1.5 则进一步提升，可以对单主体的不同视角进行高度精准控制，同时攻破多主体控制的难题。

也就是说，Vidu 在 7 月份上线之时就完成了很多视频生成模型当下正在攻克的事情。

从技术方案上看，其他家都还囿于预训练+LoRA 微调的方案，这种路线虽然成熟但也存在诸多缺点，诸如因数据构造繁琐而需要较长的训练时间、易产生过拟合从而遗忘大量原有知识、无法捕捉细节导致特征不精准。生数则秉承通用性的理念，通过统一的底层模型技术架构去完成，因此不需要单独再去进行数据的收集、标注、微调，只需要1到3张图就能输出高质量视频。

对比大语言模型的技术演进路线会发现，Vidu 有和大语言模型一致的设计哲学：类似于大语言模型用一个 Transformer 去处理所有的输入和输出 tokens，Vidu 作为视频模型也会将所有问题都统一成视觉输入、视觉输出的 patches；在此基础上，再统一架构，Vidu 也像大语言模型一样采用单个网络统一建模变长的输入和输出。

视觉模型智能涌现后， Scaling Law 不会到头

「统一问题形式」是通用模型的起点。更难的地方在于统一架构，现在 Vidu 已经在最初的 U-ViT 上做了一些颠覆性的设计，和 Sora 的 DiT 架构产生了本质区别，在架构上做到更统一。鲍凡坦言，开发这一架构的难度不亚于从头设计出一个 Transformer。

大一统架构的前身要追溯到 2022 年 9 月，彼时尚在清华大学朱军教授的课题组读博的鲍凡就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文，提出U-ViT 架构，比 Sora 的 DiT 架构提早了两个月，将 DiT 拒稿的 CVPR2023 却收录了 U-ViT。

2023年3月，朱军教授课题组再次发布了一项 Unidiffuser 的工作，Unidiffuser 与同阶段的 Stable Difussion 1.5 效果基本持平，展示了在视觉任务下的优异能力，更重要是，Unidifuser扩展性更强，能基于一个底层模型完成图文之间的任意生成。简单来讲，除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。之后，而 OpenAI 则是将 DiT 应用于视频任务，生数作为初创团队则是先将 U-ViT 应用于图像任务，从算力集群规模要求更小的任务入手进行验证。

2024 年 4 月，生数的底层模型架构开始在 U-ViT 架构上做出改变，使得团队率先推出自研视频大模型Vidu，然后这种突破也一直持续着，在7月份正式全球上线的时候，Vidu 在人脸一致性问题上成功地实现了验证。直到本次 Vidu1.5 版本的发布，基于这一架构之上的 Scaling Up 让多模态模型看到了「奇点」。

回顾大语言模型发展过程，GPT-2 的核心思想是在预训练阶段让模型通过海量的文本数据进行无监督学习，不依赖于特定的任务；在预训练之后，GPT-2 使用特定领域的标注数据对模型进行细化调整，使其能够更好地适应特定任务或应用场景。但到 GPT-3.5 的阶段，不再采用预训练加特定任务微调的模式，只需一个更简单高效的统一架构能够去支持多种文本任务，模型已经出现了强大的泛化能力。

视觉模型智能涌现后， Scaling Law 不会到头

类似于从 GPT-2 到 GPT-3.5 ，实现了从预训练加特定任务微调到统一通用的技术架构，Vidu 1.5的推出，让视频模型正在经历 GPT-3.5 时刻。也就是说，其他家的视频模型还在 GPT-2 预训练+微调的阶段，生数的 Vidu 已经到了 GPT-3.5 的阶段。

二、视觉上下文时代的智能涌现

统一高效的底层技术架构是 Vidu 的根本所在，但其目前呈现的综合表现不仅是技术架构使然，更与视频模型的数据工程密不可分。

在人物特写画面中，Vidu 1.5 能够确保人物面部的特征细节和动态表情变化自然流畅，不会出现面部僵硬或失真的现象。该视频中，小女孩的表情能实现从高兴到悲伤的变化十分自然。鲍凡告诉 AI 科技评论，数据对这些细节方面的精心调控非常重要。

视觉模型智能涌现后， Scaling Law 不会到头

随着高质量数据的一同Scaling Up ，鲍凡坦言，在底层的视频生成模型上也看到了类似于大语言模型的智能涌现。比如 Vidu1.5 能融合不同主体，将角色 A 的正面与角色 B 的反面无缝融合以创造出全新的角色，这是之前没有预料到的能力。

视觉模型智能涌现后， Scaling Law 不会到头

除此之外， Vidu1.5 的智能涌现还可以从模型上下文能力提升、记忆能力增强来窥探一二，这体现在对视频中角色、道具、场景的统一控制。

视觉模型智能涌现后， Scaling Law 不会到头

这一现象的关键是解决了「多图灵活输入」的问题，类似于语言模型提升了窗口长度。在与聊天机器人对话的过程中，先通过提示词给出一个角色设定，之后 Chatbot 就能以这个角色的口吻进行交互对话，这说明语言模型不仅仅处理单一的文本输入信息，而是通过关联前后的文本、识别语句之间的关系，生成连贯且符合情境的回答或内容。

同样的，给视频模型一个主体照片作为 prompt，那么在下文中无论继续给出什么新指令，都能生出上文照片中主体相关的视频。可见，视频模型要想更稳定地生成一致主体，也需要理解前后输入的、相关联的文字或图片信息，进而根据这些信息生成一致、连贯且有逻辑的内容。

实际上，从单主体一致性到多主体一致性提升的难度也在于上下文长度。在几个月之前的单主体架构的设计上，就已经兼容现在的多主体一致的架构，而多主体一致相比单主体一致需要更长的上下文长度，从而解决理解更多输入组合的关键问题。

接下来，生数的主攻方向依然会沿着上下文能力这一主线去迭代。「视频模型上下文能力提升后有很大的想象空间。」鲍凡说道。他进一步解释，在模型中输入几段王家卫的电影切片，就可以生成一系列具有王家卫摄影技巧的视频片段；喂给模型一些经典打斗动作的视频，就能生出打斗技巧精妙、打戏画面精良的视频。

视觉模型智能涌现后， Scaling Law 不会到头

Vidu 在上下文能力方面的迭代也有自己的节奏：从初期仅能参考单一主体的面部特征，到现在能参考多个主体，之后预期可以实现参考拍摄技巧、运镜、调度更因素。在这个过程中，参考对象从具体到抽象，要求和难度逐渐提升。

因为目前还没有针对视频模型上下文能力的开源解决方案，所以它并不会像大语言模型一样，在一家做好 PMF 之后，其他家迅速跟上。从这一角度上来说，Vidu1.5 形成了自己的技术壁垒。

三、不止 Sora 一种答案

「无微调、大一统的技术架构被生数设计出来，视频模型的智能涌现先在 Vidu 上得以验证——这些是必然事件。」鲍凡说道。「因为我们团队成立之初的愿景，就是去做通用的多模态模型。」

生数科技从来没有走过单一的、针对具体任务进行微调的方案，这与统一高效的架构是相悖的。这也意味着，通用多模态模型是生数的基因所在。

年初 Sora 刚发布之时，各视频生成创业团队都在「大秀肌肉」，竞争一度十分激烈。然而行至年终，整个行业有些显得「后劲不足」，初创公司的进展鲜有较大突破。然而生数科技却在自己的路线上「精雕细琢」，不仅有规律地提升模型通用性，也不忽略镜头感、动态程度等视频画面细节。

Vidu 1.5 在基础模型层面便具备了对镜头运动的理解能力，能够生成如推拉摇移+顺/逆时针融合的复杂镜头，画面拥有较高表现力和流畅度。比如，输入提示词：模特拍摄，她被鲜花簇拥着，光线明亮且自然，镜头顺时针旋转推进拍摄，得到如下画面。

视觉模型智能涌现后， Scaling Law 不会到头

在动态性方面，Vidu1.5 生成的视频动作幅度大且自然，同时新上线了动态控制功能，能准确的控制画面整体的动态程度。

视觉模型智能涌现后， Scaling Law 不会到头

描述词：一个战士拿着枪在战场奔袭，大动态

除了视频能力外，Vidu 也在规划和布局 4D 模型、音频等更多模态。其中，基于视频模型衍生出来的4D 模型，未来能够对视频实现诸如「调整 6 度」的更加精确运镜控制。鲍凡表示，目前的初期阶段，团队会先单独验证多模态模型中的各个子领域，最后会整合在通用多模态大模型中。

视觉模型智能涌现后， Scaling Law 不会到头

生数技术优势的愈发凸显，也给了其在国内视频模型竞争中的底气。但摆在其前面的挑战，还有快手、字节等大厂压倒性的资源优势。对此，鲍凡回复：当目标足够明确，并且做出的东西真正能够解决行业问题的时候，我们朝这个方向持续前进，最终结果总会是正确的。

对标世界范围内领先的 Sora，会发现生数与 Sora 的关注点并不相同。生数科技的定位是通用多模态大模型，而 Sora 更主张做世界模拟器，希望真实的模拟物理世界。虽然世界模拟器是多模态大模型的一个子问题，但生数的通用多模态大模型会强调解决更多实际问题。

生数并不会完全对标 Sora，更不会跟在 Sora 之后亦步亦趋。Vidu 证明了：视频模型不只于 Sora 这一个答案。雷峰网雷峰网(公众号：雷峰网)雷峰网