人大 Sora 思辩：Sora 到底懂不懂物理世界？

作者：王悦

2024/03/23 18:39

Sora 发布至今，虽然仍未正式对外开放，但对其技术细节、切实影响的讨论从未停歇。讨论的背后，是为了探索人工智能的更本质问题。

对旧有视觉生成思路的检验和校正，是 Sora 带来的直观影响。在此基础上，Sora 所引发的思考，如多模态大模型和物理世界、AGI 技术实现路径等等，更值得深思。

问题之一是，Sora 的生成效果确实惊艳，较高分辨率和镜头多角度变换后的主体一致性，这种程度的生成效果是否意味着 Sora 是世界模型？在能够生成逼真视频的基础上，是否可以说 Sora 可以理解物理世界？

问题之二是，OpenAI 所坚信的大力出奇迹的 Scaling Law 边界在哪？纯数据驱动路线能不能实现 AGI ？

在此背景下，2024 年 3 月 20 日，中国人民大学高瓴人工智能学院举办了一场关于 Sora 的思辩会，碰撞出诸多之前不曾考虑到的观点，同样可以引发行业内人士的深思。

文继荣院长在辩论会现场谈到，ChatGPT 出来后，学院拿出了「 All in 大模型」的决心；Sora 出现的2024年，全院也在商讨新的定位和前进路径，但无论如何终究会回到高瓴人工智能学院的 Slogan ：创造智能而有温度的未来。

以下为辩论现场实录，AI 科技评论在不影响语意的前提下进行调整：

一、智能还是伪装：Sora 到底懂不懂物理世界？

正方黄文炳：

我们认为 Sora 懂物理世界。根据 Sora 发布的视频，我们可以观察到，无论镜头怎么旋转，画面所呈现的时间连续性、空间角度切换后的不变性、光影的反射和变化都和物理世界规律相符。从这个角度来讲，如果这些不是物理规律，那是什么呢？

第二个角度我们强调的是：Sora 懂物理规律，而不是说懂物理学规律，物理规律和物理学规律不是一个概念。

基本的物理规律就是指大多数人在现实生活中的直接感受，比如自由落体，可以观察到一个球从高处往低处掉。可以看到 Sora 生成的绝大部分的视频都是满足日常生活中物理规律的运动。

而物理学的规律是指物理学家通过这个实验或者理论推导出来的严格的物理公式或规则。

今天的辩题是懂不懂物理世界，这个物理世界不是指物理学家的世界，而是我们绝大多数人懂得且感受到的一般的物理世界。

第三个角度是关于什么叫「懂」，或者说什么叫「学到」。有些人会从 Sora 不懂物理公式，或不懂严格的物理过程，判断 Sora 不懂物理世界，但这个懂一定是 AI 的懂吗？

这里需要回顾一下图灵测试。图灵测试就是指在测试者和被测试者被隔开的情况下，对两者进行随意提问，如果大多数人都无法区分两者的行为的话，就代表这一 AI 系统具备了智能，那从这个角度来说生成即智能、生成即智能、生成即智能（现场笑）。

只要 Sora 生成的东西，大家通过常理判断出来是真的，且没办法区分出是人还是 AI，我们认为它就是学到了，是懂的。

反方孙浩：

我为正方辩友被 Sora 的表象欺骗了深表遗憾（现场笑），同时也为对方辩友对物理规律的理解偏差表示遗憾。

首先来纠正下物理世界的基本定义。物理世界是指自然规律和物理学定律支配的世界，例如守恒、对称等等，它包括我们所有能观察到的物质还有运动的基本的现象，实际上是客观存在的这个宇宙。如果 Sora 能懂物理世界，那么它生成的视频必然就得懂相关的规律，能模拟、准确地来刻画这种规律，但显然 Sora 现在是达不到的。

其次，Sora 的基本运行的机制就是基于 Diffusion Transformer 对视频、语言的数据进行压缩，并且把它的分布给学习出来。然而，仅仅依靠视频、语言来去描述我们客观的三维世界显然是不足的，它是有很强的界限的。

许多介质的演化，比如说流体，需要特殊的状态量去把它描述出来才行，因此仅仅基于有限维的视频和语言的数据来训练模型，那它的表达能力实际上是不够的。即便生成出来的内容显得比较逼真，但是它和「真」完全是两个概念。

所以，还需理清一下逼真和真实概念之间的差别。Sora 生成的视频确实是很逼真的，但是它只是停留在视频的表象，缺乏实质。传统的生成动画的渲染技术也可以达到一样的效果，这并不能代表 Sora 具有模拟和理解现实世界的能力。

但我们也没法否定 Sora 在创作设计、视觉效果等领域的巨大潜力。

正方魏哲巍：

著名物理学家费曼说过一句话：What I cannot create ，I don‘t understand. 即，我不能生成的东西，我就不能理解。从数学的角度来看，这句话的逆否命题就是：我能够理解的，我就能生成。反过来看，是不是生成的就能理解呢？我认为是。

比如水浪表象的背后一定有一系列的波动方程，但人是不是通过这个方程去理解它？大部分的人真的懂动力学方程吗？不是。但是不是大多数人都理解水的物理形态呢？我认为是理解了的。

这个理解可以从两个层面去理解，一个是我们知道物体基于重力会下落，水会有一个波动的过程；另一个是，真正知道它背后运动的方程，那这个方程是不是人通过表象抽象出来的呢？

我认为绝大部分不是，比如牛顿抽象出重力学的方程的过程，是不是真的有一个苹果砸到脑袋上之后就突然蹦出一个方程？其实不是的。它从很早之前的各种各样的公式、论文中推导出来，绝对不是仅仅有视频就能把方程推导出来。

但从人理解物理世界的角度来说，我们跟 Sora 应该是完全一样的。所以我们认为 Sora 既然生成了，那么它就是理解了。

反方徐君：

Sora 不能够理解物理世界的一个重要原因是，它企图从大量的非实验数据里面去发现物理规律。也就是说它不做实验，它只是被动地观察我们这个世界。

基于统计因果中的结论“非干预，不因果”：如果不能去实施干预，算法就不能发现统计因果规律。如果连统计的因果规律都不能发现的话，那么更不要说是物理的规律，物理规律的一个特征就是表述物理世界中各种现象的因果关系。

所以无论是 Sora 还是 ChatGPT，如果只是以现在这种形式被动地搜集数据，然后去训练一个大模型的话，它是可以被欺骗的，它所学到的内容只是「相关」，而不是「因果」。这是第一个论点。

第二点，从人类最近几百年发现物理规律的进程来看，科学发现不仅仅需要实际的数据和观察现象，更加需要人类反直觉的思考和假设。

亚里士多德的直觉观念“物体在不受力的情况下会保持静止”在现实生活中是一个非常正常、符合直觉的现象。这个错误的直觉观念的引导下，人类数个世纪都没有能够发现正确的物理学定律。直到伽利略、牛顿意识到物体在不受力的情况下会保持匀速直线运动这种反直觉的规律，这才创造了今天的物理学大厦。以直觉为主导的推理方法是靠不住的，基于直接观察的直觉结论并不总是可靠。

类似的例子还有很多，物理学里面有很多理想模型：像黑体，现实世界无论怎么观测都找不到一个真正的黑体。虽然我们在实际生活中永远观察不到，但是它对我们发现物理学的规律极其重要，如果没有这些理想化的假设，物理学的大厦无法建立起来。所以说，如果 Sora 仅仅是被动地观察世界，而没有办法进行类似人类的反直觉推理假设，它永远不能构建正确的物理规律。

可见，Sora 仅仅依托了它的直觉去拟合非实验的观测数据，不引入反直觉思考，不干预世界，它发现不了真正的物理规律。

正方宋睿华：

对方辩友认为，要想掌握人类的物理规律，是需要一些反直觉的思考和假设，以及需要干预、验证物理世界。我方认为这样的观点完全错误地阐释了什么叫物理世界，因为这种观点太以人为中心了。其实这个世界无论有没有人，它都是物理世界，不能说只有人能理解的物理世界才叫物理世界。

说回到机器学习的核心，就是有了一些模型和未知的参数，同时在现实的数据上可以定义一个损失或者说人为地评价它，最后再进行一个优化。

物理学家基本上也采用这样的范式。他们先反直觉地发明一些公式，同时会加进来一些参数，接着在理想化的假设条件下做了一些实验的数据，干预了这个世界，然后得到一些数据，就可以去算公式有多大的损失，接着又进行了一个非常充分的、聪明的思考，从而优化这个模型。

而今天的神经网络，当增加宽度时相当于多段线性折线函数，可以趋近连续曲线，接着当它的层次加深的时候，它还可以表示更为复杂的函数，所以它比之前那些聪明的物理学家所知道的公式范围还要大。

如果神经网络这样的一个学习过程都不能被称为智能，难道人就是吗？为什么非要是人提出的公式、做的实验才叫智能呢？

再从机器学习的角度来说，对方辩友认为做了一些理想的假设、实验后，发现了一些所谓的放之四海而皆准、其实也并非的规律，难道不是传统机器学习的一种 feature engineering 吗？你其实只是发现了其中一条比较管用的feature，然后再做了一些实验来验证它是 99% 或者更高的适用性，这是更为狭隘的对物理世界的刻画。

目前 Sora 的确还有一些反物理世界的现象存在。但更重要的是，「懂物理世界」和「精确地懂物理世界」并不是等同的。人也是同样的道理，难道说让一个人闭着眼睛在脑海中想 Sora 生成的这种两个海盗船在这咖啡杯里航行的画面，人就能够精确地模拟出来画面吗？

反方许洪腾：

首先，能生成逼真的视频和懂物理世界两者之间本来就没有必然联系。

类比人类世界，人类的建筑师、画家，他们能画出这个世界、甚至能创造出这个世界的实体，但也并不代表他们真的懂物理世界。因为在人懂物理世界之前，比如原始时期，我们就可以用石头搭房子了、在石壁上画下壁画。

那个时候可能还都还不存在真正意义上的懂不懂物理世界这一回事，但是已经可以去创造相应的艺术作品或相应的客观实体。从这个角度来讲，我不认为现在 Sora 现在具备生成逼真视频的能力，就真的懂物理世界。

其次，人类对物理世界的理解跟掌握是有一套严格的方法论的，我们会去做假设、做观测，然后会通过实验最终实现对物理现象的反演。但目前能看到的是， Sora 这样的生成式模型的学习范式就是数据驱动。

喂给 Sora 数据之后，最多可以说它观测到了一些数据，且这些数据还不是在一个严格的实验环境下得到的。在这种条件下，如果说他能理解物理世界的话，也肯定是用一种超出我们认知范围内的方式在去理解。但是现阶段我们还没有看到任何的人工智能能够真正在通用性或者对世界的理解上真的能达到人的水平。

最后，我觉得Sora 之所以这么强大，也许正是因为它不懂物理世界。Sora 基于它的学习范式，它能够掌握统计规律，它能把有关联性的事物融合起来。比如它可以生成龟壳像水晶球一样的乌龟，包括在咖啡杯里战斗的海盗船，这是超现实的，这跟物理世界没有必然联系。

更早期的，以 stable diffusion 为代表的图像生成模型，可以生成太空上骑马、火星上骑马等画面，显然这些现象都不是符合我们所在的物理世界的规律的，并不是理解物理世界的一种表现。正是因为它不能理解物理世界，Sora才可以基于统计相关性构筑它自己的世界。所以说我认为 Sora 是不懂物理世界的。

自由PK环节：

正方：

有一种说法是，ChatGPT不懂文字或者不懂语言。但 OpenAI 首席科学家伊利亚依然认为，做 next token prediction，即能够预测下一个词、生成下一个词，这就是理解了语言。伊利亚也举了一个例子，喂给大模型一篇悬疑小说，指令是预测悬疑小说里边的凶手是谁。如果他能够准确地预测出这个凶手是谁，那他到底是不是懂这篇小说？是不是理解这篇小说？

反方：

图灵测试其实是工程的测试，就是说你没有通过图灵测试，你是没有这个能力，但是通过了你未必有这个能力。

以考试为例，如果一位同学没有通过一场考试，这说明这个同学没学懂，但是通过了这场考试并不代表你已经懂了，因为有可能通过用强记的方式把所有的知识记忆下来，所以图灵测试并不具有很强的说服力。

正方：

我恰恰觉得 Sora 是通过图灵测试的，其实图灵测试就两点，第一是要与人比，第二是要用问答。其实 ChatGPT 还是问答的形式，但是 Sora 已经不是了，它其实在做的是一种电影测试。

电影测试，一方面是让人看，生成视频后让人去辨别它有没有错误；另一方面，它不是问答，而是用视觉的方式让人去判断有没有智能。

反方：

什么叫懂物理世界？这个物理必须跟真世界是一致的，部分 AI 可能懂悬疑小说，但他不懂物理世界。如果 Sora 所有的数据数据都来自哈利波特的魔法世界，他一样能预测下一帧，那他能懂物理吗？并不是，它懂的是魔法。

正方：

关于懂物理世界，我方坚持认为达到常人的理解即可不需要懂物理公式。比如在生活中，在马路上来了一辆车，你会用牛二定律去算它是多长时间能到面前吗？并不用，就自己脑补一下，预测未来可能车撞过来了，躲开就 OK 了。这种理解有误差、有偏差，没有关系。

另外，人类对物理的理解也是片面的，不断进步的。不能说现在穿越回去对亚里士德说你根本就不懂物理，我比你懂物理懂得多。也不能说我们现在对物理的理解就是对的。

物理规律是怎么来的？很多时候也是物理学家统计出来的规律，在我们有限的观察下去验证它是不是对的，然后基于我们现在的理解，认为它能解释一些问题，形成的物理规律。但随着时间的演化，人类对物理世界的理解也在加深，一些物理定律也随着观察的增多失效，所以我们不能要求 Sora 一出来，就要求它懂牛二定律，这个肯定不合适。

二、纯数据驱动路线能不能实现通用人工智能？

反方许洪腾：

我理解的通用人工智能，其实就是类人的人工智能，希望最后的人工智能跟人一样具有一定的通用性。那么人是怎么学习的？人是从数据中学习的。我们从出生开始一直都在接收数据，训练自己。这至少可以证明从数据中接收信息，让人去进行学习这件事情是可行的，不管是我们自己的体验还是现在的Sora。

但我为什么反对这样的技术路线？是因为我觉得这个路线效率是非常低的，从算力或者数据的角度来讲是不可行的。人其实是有初始设计的，或者说我们是一种特殊的动物，我们的大脑结构跟别的动物的大脑结构不一样。那这个结构是怎么来的？结构是经过亿万年物种演化而来，5亿年前三叶虫才开始出现眼睛这个器官，才能够接触到视觉信息，然后逐步一直演化到人类的大脑，人类的眼睛，中间经过了5亿年的时间，无数代的生物迭代和数据接收。

这是目前为止我们已知的产生效智能的一种方式，但这种方式的效率我觉得是非常低的。我不认为这种方式是能够实现通用人工智能的一种合理的技术路线，这是我的一个主要观点。

另外，现在我们已经面临能源和数据量的瓶颈。按照 OpenAI 的数据消耗速度和增长趋势，很快训练用的视频数据消耗速度就可能会超过我们能够产生的速度。到那个时候很可能需要由 Sora 来自己产生数据，然后来自我训练。如果是这样，这种情况下是不是还是我们传统意义上说的纯数据驱动？它是否还能自我进化？我认为这是存疑的，所以我现在反对这个观点。

正方毛佳昕：

第一点我觉得这个问题跟第一个议题是两个完全不一样的议题。第一个议题其实是关于一个现在已经发生的事情，它到底能不能懂物理，理论上这是有客观答案的。

第二个是对未来的预测，我们接着往下走能不能实现，我们觉得成功的概率非常大，我们站的观点是数据驱动是 work 的，所以我从一个数据驱动的角度来回答这个问题。

首先我们怎么找数据呢？先看历史，看人工智能发展的历史。一开始大家的想法是要做个人工智能，但是过去差不多 60 多年来的发展，发现感知很难做不了，后来发现有足够的数据可以解决感知的问题；后来觉得语言很难，认知很难，但是ChatGPT出来又解决了这个问题。所以从历史数据看，我们觉得数据驱动是一条正确的路径。

第二点，我们看历史数据，看其他可以类比的数据是什么？那什么是通用人工智能，我们觉得人类是通用人工智能，那人类是怎么学习的呢？我觉得人类很多情况下，是通过数据来学习的，比如我学物理的方式就是我看了很多物理的书，我做了很多题目，我去考试。这个事情其实基本上跟我们现在训练大模型去做物理题的数据驱动方式是一样的，所以人的学习物理方式跟现在大模型学物理是一样的。

第三点，为什么反对技术路线的原因是有效率方面的问题，这个问题我觉得 Hinton 也在想这个问题，因为6月份他在北京智源人工智能大会的时候做一个报告，最近也在牛津做了一个报告，他那个报告里面提到一个什么东西呢？大家知道Hinton其实是一个认知科学家，他会类比人脑和计算机的差别。他说人脑是一个很高效的系统，同样说一句话，人脑的用的功率比大模型小得多。但人脑的缺点是什么？是人脑里面的神经网络的权重没办法告诉另外一个人，在通讯效率上很差。

最后我想说，这个辩题里面数据驱动的反面是什么，反面是理论驱动，theory driven，这个 theory 是什么呢？其实并不是物理定律，因为物理学知识对大模型来说，其实是数据，而不是theory，所以这个 theory 其实是关于认知的theory。

所以数据驱动的路线对应的另外一条路线，是基于人工智能的理论驱动的路径，或者是基于人是怎么认知这个世界的理论来驱动的路径。

Hinton 之前是这个路径的，比如，他之前经常讨论神经网络和学习算法是否是biological plausible的。但他最近的观点发生了改变，他认为人脑虽然在计算效率上存在优势，但在通讯效率上远比不上数字计算机。

反方沈蔚然：

我想说两个观点，第一个观点是我们现在所谓的通用人工智能是一个什么样子的概念？刚才徐老师提到通用人工智能可能是一个比较接近人的，但是如果你去翻阅相关的文献，它的定义上实际上还有一个就是我们要超过人。

因为现在很多单个任务都超过人，我们希望能做一个通用人工智能的一个算法或者模型，在大部分任务上都能够超过人，这才是我们的目标。

我们对通用人工智能的期待非常高，那么纯数据驱动的路线能不能实现这样一个事情呢？对方辩友说我们学习物理通过看书做题是接收的数据，但我不这么认为，从物理学的角度来讲，数据应该是做实验得到的数据，你看书上的理论，这是你接受别人前人总结的结果。

这恰恰是我想表达第二个观点，就是说现在的这种数据驱动的方式，它没有办法把数据总结成一些比较简洁、比较容易理解的理论，然后在此基础上做进一步的推导。我觉得这是要实现一个通用的人工智能，要想在很多方面做得比人更好，这是目前还回避不掉的一个事情。

你光用数据，可以拟合很多函数，理论上讲你有无穷多的数据是可以拟合这些，但是你的效率会非常低，而且数学上有很多的函数，你要想完整地拟合它，你需要无穷多的数据，这是不可能的。但是用数学的语言可以很简单地描述这件事情，而我觉得要想达到通用人工智能，这些函数可能是过不去的，因为它在我们目前的工程科学领域当中应用非常广泛。

正方林衍凯：

我发现对方辩友使用了很多辩论技巧，其实对方辩友一直在切换我们的辩题。首先刚开始把「纯数据驱动路线能够不能使实现通用人工智能」切换成「能不能在有限的能源下实现通用人工智能」，或者说「在高效的能源下实现通用人工智能」，这并不是我们的辩题。还有辩友一上来把通用人工智能定义又做了一个切换，说要达到超过人的智力水平。

我回到 technical 的角度去讨论第一点，大模型无法总结这种物理规律，或者说无法总结规律，他们做的更多的是这种 memory combination 的事情，但其实这一点在我们现在很多大模型的研究中，其实并不是这么指向的。

大模型干的是什么事情？干的是压缩，压缩的基础刚开始是memory。其实我们在训练的过程中，大模型为了去最优化它的函数，就是在找寻更好的能拟合这些数据的规律，而且能发生所谓的blocking。那么这一层其实是指向——我们做这种数据驱动，其实能像人一样发生思考的演化的。

再者，大家也提到目前的数据是有限，其实对于我来说真实世界的数据是无限的。大家把数据停留在网上，已经产生了文本数据、视频数据，大模型基于这些数据驱动，大模型可以自主地探索这个物理世界的，那么它能接受到的数据其实是无限的。在此基础上，我们根据这种数据去学习更多的知识，学习更多的物理规律其实是可行的。

反方孙浩：

双方在理解上出现了一些偏差，首先这个问题叫「纯数据驱动路线能不能实现通用人工智能」？它其实一个关键的要素是实现，那么你在资源有限的情况下是不是能够去做到这个事情？这实际上是一个很大的问题。

如果一个事情我们明知道这个做不到，但是我们知道它的路径可能是可行的，但最终说我能不能去实现，答案是否定的。所以我认为徐老师和沈老师提出来的观点从现实意义上是很能站得住的。

那么我们再来看一下「纯数据驱动能不能实现通用人工智能」，它的另一个要素是数据驱动这一块。实际上我们复杂的世界，不仅仅是物理世界，还有很多包括人的情感等等世界构成的，是极其复杂的，我们能观测到的，或者说能获取到的数据去描述这样的世界，它是极其稀疏，甚至可能是缺失的。

那基于这样的数据，再去训练一个人工智能的模型，它很难达到一个我们真正想要的这种通用的、类人的智能形式。所以说数据驱动只是其中一个要素，但是它最终能不能实现，不能完全依靠它，这是第一个观点。

第二个观点还是我刚才讲的世界是复杂的，但描述世界的方式是非常简洁的，那么我们去认知这个世界，不同的科学领域都有认知这个世界的语音和方式，例如可以用微分方程的形式去描述它，它就具有很强的通用性。而它基于的数据却是极其稀疏非常少的，基于人的假设、推断、猜想形成的这套理论，那么像这种模型可以在某些特定的或者广泛的任务上能够实现这种通用的能力的。

所以我虽然觉得数据是其中非常关键的一个要素，但它不是唯一的要素，而对方辨友如果把它给当成唯一的要素去实现通用人工智能，我认为这从观点和定义上存在一个理解的偏差。

正方黄文炳：

我想反问对方辩友可能没有仔细看这个辩题，我们问纯数据驱动路线能不能实现通用人工智能，是说能不能？你只要回答能还是不能？你不要给他加限制条件，我们并没有强调说这个数据能不能获取，而是说在足够数据的条件之上，能不能实现通用人工智能。

而且还有两个观点我也不敢苟同，第一个是谈到人工智能到底是什么的定义。我们认为通用人工智能指的是机器所能掌握的处理大多数任务的一般的通用的能力。我们看到定义为AGI，不是AUI，不是 Artificial universal intelligence，它不是万有的能力，我们说纯数据驱动能不能实现通用人工智能，它并不一定包括它能解决科学领域的方程、实验的结果，但是它一定能实现大多数人在日常生活中所掌握的通用的智能的能力。这是我方的观点。

当然，我们也承认，包括我们自己做的研究也承认数据驱动不一定能实现所有的智能，包括物理的人工智能，就是说在物理的世界里，数据的获取确实不容易。但它跟我们今天的辩题不矛盾啊。

同时在物理的场景里，确实有很多严格的假设，例如对称性的假设，流体力学的方程，在这些场景下纯数据能不能实现通用人工智能，那种智能还不一定是人工智能，我认为是不行的。但是这并不影响今天的辩题。

自由PK环节：

反方 :

我的答案是不能。为什么呢？

从一个角度来看，就是假设说了有两个版本，第一个版本他认为这个世界是不一样的，第二个版本他的参数不一样，他认为这个世界是另外一个样子的。那么现在的一个问题是这两个版本到底哪个是对的？那么只有两种情况，第一种情况是其中一个是对的，另外一种情况就是两个都是错的。所以说从目前的情况来看，我们觉得 Sara 他在认识物理世界的时候，他是有很大的一个偏差的。基于这样的一个极不稳定的一个模型，它版本的更新是不是我们对于这个世界的认识也得跟着它刷新一遍？这个肯定是不合适的，这是第一个。

第二个关于我们对于认识这个世界，除了数据之外，它其实还有模型的一个处理能力，包括我们人也一样，我们人不仅仅有认识这个世界数据的经验，还有我们的理性的处理，也就是说对这个世界的处理能力，数据的处理能力，这个康德已经说的很清楚。

所以如果从这个角度上看的话，Sora不仅要接收来自这个世界不同经验的数据，同时它需要具备像人一样，甚至超过人的理性的思维去处理这些数据，两者缺一不可。

那么如果我们现在从数据的角度来看，Sora目前仅仅介绍了文本、视频和图像，那么我们世界有很多其他的数据，各个领域的数据它通通都没有接触到，所以在数据这个角度AGI已经锁死了它。

第二个，从模型的角度来看，目前它基于Diffusion Model和transformer这种简单的结构，不可能去产生理性的分析以及想象的能力的。所以从模型的处理能力上也锁死了，所以我觉得不管从经验的角度来看，还是从理性分析的角度来看，我觉得AGI都被圈住了。

正方：

我首先要补充下刚刚没有说完的，从效率上讲，Hinton原来是支持人脑非常高效，那应该要模拟一个人脑的，最近他的观念发生了变化，为什么呢？因为人脑非常高效，但是人脑这种大脑它的最大缺陷是我们的交流能力非常差，比如说我要把我的想法传递给大家，效率可低了，但是大模型这种基于数字计算机的这种架构，它在模型之间传递信息的效率非常高，我可以把整个模型的数据拷贝一份，或者我在训练的时候所有梯度去做一个reduce，这个效率比人脑高太多了。

你可以想象大模型在做的是什么呢？是一万个、一亿个跟你一样聪明的人在不断地读书，然后他能获得智能，大家能想象下这是什么水平。

第二个问题回应下两位老师，他们觉得人可能会有一个东西叫做理性，这种理性是人脑所具备的一种内在的能力，而这种能力是进化产生的，然后说现在的模型不具备这样能力，并且现在的模型好像没有进化出这个机制，那你想想我们学院现在在干嘛呢？我们学院在不断地改架构，我们学院在把神经网络进化，没有什么理由认为我们这种操作比大自然的自然选择低效，所以那未来的模型会不会具备人类内在的理性的能力呢？

反方:

刚刚正方辩友的观点恰恰说明你是认可架构的重要性的，而架构本质上它其实并不是纯数据驱动，它其实对应的还是知识。而且回到这个辩题，纯数据驱动能不能实现通用人工智能？如果即使是按照正方辩友讲的，就是一种类人的具有一定通用性的人工智能。

除了效率和资源上会制约这种纯数据的数据路线的发展之外，另外一点重要的就是这种纯数据的路线它归根到底学习到的是统计规律，而统计规律它必然就会两个问题，一个是它的外推，或者说是泛化，或者说是外差的能力，这是统计机器学习里面一直存在的一个困境，也就是它没有这种外推去产生新的知识或者说新的能力，这个是它存在的瓶颈，包括刘老师也是做这个泛化性的研究的。

第二点，不管是架构的演化，还是人大脑的演化，其中除了这种连续的、平滑的过程之外，很重要的一点是突变，这种突变其实并不是通过数据来催化，它是具有高度的随机性跟偶然性的，那这种突变能否用纯数据的方式去驱动？至少这件事情现在还是存疑的。我的观点就是这样。

正方：

我们反问对方辩友，您在日常的吃饭、睡觉，看电脑、看电视的时候到底是用相关性做决策，还是用因果性做决策？

反方:

这个问题非常好，这个事情如果很重要的话，我会用因果性决策。如果这个事情很随意的话，我自己的决策其实就是随机的。

反方:

我补充一点，我觉得人类理性决策很重要的一个点，仍然是需要从直觉走到反直觉。

正方：

当你说到直觉反直觉的时候，你也得通过说出话来，你才知道什么叫是这个反直觉和直觉，从这个角度来说，我还是坚持我在第一个辩题时候发表的一个观点，就是正方的观点，生成就是智能。

在生成的时候，我完全可以在我生成的内容里面完成所谓的反直觉，完成所谓的因果推断，完成所谓的关联，就是说你作为一个人，你在这个世界上的时候，你难道不说话，整天在那里面就可以因果发现了吗？你肯定不是，你肯定得通过说话。说话是什么，是数据，你肯定得通过记录，记录是什么，是数据，你肯定得做实验，去做实验也是一个数据，然后记录结果。这些都是什么？都是数据，这些都是纯数据驱动。

反方：

生成即是智能其实是一个谬论。你生成的东西有可能是完全违反一些实际存在的一些基本认知的，有可能是完全错误的、不存在的，虚幻出来的一个东西。你如果从只是把生成内容这个过程当做是智能的话，这个实际上是个谬论，所以说请对方辩友不要再坚持这么一个观点。

正方：

孙老师，难道你生成的东西就都是对的吗？还有人生成的东西就是对的吗？不对呢，就不是人吗？就不是通用人工智能吗？我想你觉得通用人工智能最高标准，现在通用人工智能的标准应该是和一个人对齐，一个普通人对齐。人也有对错，不是说生成的东西一定要是对的，我方并不持这种观点。

反方：

生成的东西不一定是对的，但是我们必须突破这种直觉性的理解，才能实现我们人的智能。比如说我举一个例子，每天早上都听到公鸡打鸣后太阳就升起了，所以我们就认为太阳是公鸡叫出来的，这是一个谬论。

正方：

Sora 从数据里头一样能学出来，太阳升起来公鸡才会叫啊。我们说到Sora有一个版本跟另一个版本不一样这个问题，但其实人认知也是不一样的，拿一个同样的问题来问我们在座的每一个人，像现在这个问题我们都有不同的见解，但不代表我们的不一样，生成出来的结果就不智能。

反方：

你刚刚说的我们生成的东西是错的，就不是人了。关键是我们能够判断人是具有——如果要类人一样的人工智能，对于特定或者说是很宽泛的一个事物，它是具有判断或者正确与否的依据的，到目前为止，我们没有发现有这个依据。

正方：

大模型有。大模型也在判断正确与否，你说看到Sora生成的视频为什么比别的算法生成的更加流畅，它甚至在变换视角的时候还是有这种三维的一致性的，一定是有一种判断在的。

反方：

判断并不是基于纯数据的方式的，这里面有大量的架构和知识来理解的。

正方：

我反驳一下对方辩友的观点，第一，纯数据驱动跟基于纯架构，架构跟数据并不是两个相互对立的topic，纯数据驱动一般对应的是符号驱动，是理性主义跟经验主义的对立，而不是说纯数据驱动就不需要模型架构了，感觉对方辩友一直在企图用一些跟辩题无关的话题来诡辩。

反方：

我觉得任何问题都需要增加一定的条件，如果我花了很长时间，用了大量数据，以至于整个地球的数据都不足以来训练我的模型，这其实是没有意义的。这在很多科学中都是如此，比如密码学中，如果说花了非常多时间，几十万年，几千万年的时间才能解答这个密码，那这个密码其实就是无解的。

所以我认为在现实世界中一定要加上一个限定词，我要在多少时间内才能把这个问题给解决掉，或者需要多大的资源。但是我的观点其实跟大家可能有点不一样，这个问题我觉得更突出是一个「纯」字，我认为纯数据的驱动，它是不能解决通用人工智能问题的。

架构也是有用的，随着架构的不断优化，那我们在训练数据的时候，可能会使训练的数据量形式的降低，如果我们增加了一些因果的原理，物理的原理，那我们可以把数据训练的成本降低，所以我认为纯数据驱动是不能的，但是数据有一定作用，但是物理驱动或者因果的原理同样发挥着非常重要的作用。

正方：

我反驳一下对方辩友的两个观点。这个辩题我们就考虑在理想情况下，我们能不能达到 AGI，第二个后面说的纯数据驱动的问题，我就问一下，Sora 算不算纯数据驱动，它有没有用Transformer 架构？

反方：

实际上 Sora 用的 Transformer 架构，Transformer 架构本身也是基于知识去设计的，比如说它里面的几个QVK，实际上是从物理的张量分析里面有一些理论基础在里面去支撑它，然后去设计这个架构的。

我们一直在讲实际上的数据驱动，一定是能够辅助我们去实现通用人工智能，但纯数据驱动不加知识的，不加我们对于客观事件理解的，甚至一些先验的规律的，我们认为这样设计出来的模型是很难去达到一个通用人工智能。我觉得你们对这个议题的理解，纯数据驱动这一块还没有理解很深刻，那么未来人工智能发展可能若干年以后会发现纯数据驱动走不通了，最后又回到了数据加知识驱动，最后实现通用人工智能。

正方：

如果transformer结构没有数据的话，你的模型参数怎么确定？你能一个结构就能做成Sora那样吗？所以说其实人工智能三起两落，那两落大家现在看来都是因为没有走纯数据驱动的方式，所以我们现在大家坐在一起讨论就是因为有了纯数据驱动的Sora，要不然我们没有讨论这个的意义。

还有刚才很多老师提了计算效率的问题，现在纯数据驱动一个典型方法机器学习，其实考虑的就是泛化性，考虑样本有效性，你能说他没有考虑真正的计算资源该怎么在有限的情况下去计算？而且以后可能会有更大的突破。

我们考虑的是未来，我们考虑未来能不能去实现，那么人类其实就是通过观察数据，包括刚才提到的因果，其实也是数据，反事实数据，还有干预数据，通过数据我们得到一些知识。

我们在讨论这个问题的时候，其实最重要的不是人工智能怎么更强，而是我们怎么跟人工智能一起去和谐共生。那么既然我们处理数据，我们人类不如计算机，为什么我们不让计算机用 AI 去处理，而我们人类去处理一些规则，处理一些公式，处理一些定理，那所以说我们觉得纯数据驱动是实现人工智能，包括有温度的人工智能的一个最终的愿景。雷峰网(公众号：雷峰网)雷峰网雷峰网

大家怎么看？