最近人工智能领域战火纷飞,各种观点打架。脾气火爆的人工智能之父Jürgen Schmidhuber也不断吐槽自己“被遗忘”了,不满之余还不忘四处宣讲自己全新的人工智能发展理念,誓要夺回大众视线。
不久前,他就接受了Machine Learning Street(MLST)的一次独家专访,回忆了自己在深度学习和人工智能方面的开创性工作,分享他对智能机器未来的展望,还重点回顾了世界模型带来的人工智能创新和LSTM和Transformer的开发及演变。
在Jürgen Schmidhuber看来,深度学习虽然不能解决像基础理论改进一类的问题,但在大部分问题上都表现出了很高的实用性,尤其是循环神经网络。
循环神经网络的强大之处在于,它本质上是一台通用计算机,所以理论上来任何能在计算机上执行的计算任务都能在循环神经网络上进行。只需要增加存储,就能让循环神经网络处理更复杂的问题。
不过Jürgen Schmidhuber也说了,一开始自己的想法还是很天真的,想让神经网络去模拟和预测未来的每一个小步骤,再从中挑选出能够带来最大回报的行动路径。
Jürgen Schmidhuber也找到了这个繁琐低效的流程的改进方式。他想把输入的那一长串的行动序列都拆分成不同的块,之后再以新的方式组合在一起。这样一来,就可以在不同的情况下调用相同的块,而不是再重新一步一步地预测抽取。
Jürgen Schmidhuber把这些理念和世界模型结合在了一起,让世界模型去预测环境未来发展的情况通过建立模型来推断下一个时刻的状态,并不断优化模型的表现。世界模型的结构类似于人脑中的“心智模式”,是对外部世界的一种内在模拟。
Jürgen Schmidhuber相信未来能够构建出一个足够通用的系统,让系统能够反复利用之前学习的内容,从神经网络中学习更多的子程序,最终实现系统的自主学习。
Jürgen Schmidhuber还从世界模型的发展中领悟到一个特殊的观点,整个科学史其实是一部数据压缩发展史。科学家们不断地从数据简化中发现新的科学技术,再利用新的科学技术压缩研究中面对的庞大数据。
在人工智能领域,这一现象更加明显。通过收集和分析大量数据,科学家们发现背后的规律,找到压缩数据的方法,从而提升人工智能的能力。未来,人工智能将学会自主进行数据压缩,理解数据背后的深层规则。
回顾人工智能的发展历程,上世纪90年代年是个充满奇迹的时期。可以说没有那时候Jürgen Schmidhuber的种种发现,就没有现在火爆的生成式人工智能。
例如ChatGPT里的“G”(生成对抗网络)、“P”(自监督预训练)、“T”(Transformer),无一不是基于Jürgen Schmidhuber及其团队过去发表的成果。
1990年,Jürgen Schmidhuber提出了Adversarial Curiosity原则,包括一个生成器和一个预测器,让两个神经网络进行博弈和对抗。生成对抗网络(GAN)就是基于这个原则诞生的。
一年后他提出了线性Transformer,奠定了Transformer的基本原理,现在火爆的大语言模型都建立在Transformer的基础上。
那时Jürgen Schmidhuber也在深度学习策略方面实现了一个天才的想法,使用预测编码来大大压缩长序列,腾出空间让深度学习变成可能。这也是大名鼎鼎的自监督预训练的来源。
同样在1991年,他的学生提出了早期的LSTM概念,两人在1997年共同发表了LSTM的论文,这篇论文还成为了20世纪引用量最高的论文。
早期的大语言模型都是基于LSTM开发的,没有Transformer的某些限制,但并行化上不如Transformer高效。
不过Jürgen Schmidhuber并未止步于此,他和他的团队最近正在研发X LSTM,旨在打破这一局限,为人工智能领域带来新的突破。通过这些创新,Schmidhuber不断推动着人工智能的边界,为我们展示了一个充满可能性的未来。
以下是Jürgen Schmidhuber访谈的具体内容,AI科技评论摘取精华内容,作了不改原意的整理:
MLST:再次欢迎来到MLST,非常荣幸能有您参加节目。
Jürgen Schmidhuber:我的荣幸,感谢邀请我。
MLST:你认为未来人工智能技术的突破会减少计算量吗?我上周采访了ARC challenge的获胜者Jack Cole,他认为我们需要离散程序合成,需要可能是神经引导的符号人工智能或神经符号人工智能。他还提到神经网络是“宽但浅”,而符号方法是“狭窄但深入”。你对此有什么看法?
Jürgen Schmidhuber:我完全同意。深度学习无法解决计算机科学中的很多问题,例如基础理论改进。深度搜索树更能确保新定理的正确性。虽然深度学习可以用来寻找捷径或识别模式。有很多问题可以通过非深度学习的方法更快更高效地解决。例如符号操作,当前的语言模型在遇到符号操作问题时,也是调用传统的符号计算方法来解决。
MLST:确实,我们常说神经网络是有限状态自动机,而不是图灵机。多年来,LeCun和Hinton等人试图反驳这个观点,他们认为神经网络原则上可以进行符号抽象操作。但你认为它们有很明显的区别,对吗?
Jürgen Schmidhuber:是的,循环网络就是一台通用计算机,所以原则上你可以在循环网络中计算任何在笔记本电脑上可以计算的东西。
MLST:一篇1995年的论文证明了这一点,它使用了任意精度,似乎有些作弊,通过增加权重的精度来假装是图灵机。
Jürgen Schmidhuber:你指的是Siegelmann的论文?那篇论文的论点不太有说服力,因为它需要对权重进行无限精确的计算。循环网络作为通用计算机的证明并非那么简单,但它确实表明在这些网络中可以实现NAND门。因此,任何笔记本电脑可以做的事情,循环网络也可以做到。
MLST:我同意,但很多人会提出图灵机可以通过扩展内存处理潜在无限数量的情况,这是否意味着图灵机提供了更多的可能性?
Jürgen Schmidhuber:这只是一个理论。图灵机是图灵在1931年提出的,用来讨论计算和人工智能的基本限制。图灵机的理论构造与现实可以构建的东西无关。在现实世界中,所有计算机都是有限状态的自动机。
MLST:理论上,Python解释器可以执行无限多的程序,而神经网络只能识别它们训练过的有限事物,这是两者的根本区别。
Jürgen Schmidhuber:理论上是这样,但在实际操作中,因为存储空间有限,所有计算设备都受限于有限状态自动机。我们能实现的,是由循环神经网络代表的有限状态自动机。有些任务,比如乘法运算或定理证明,某些自动机更高效。
这些自动机看似简单,但在神经网络中实现并不直观。理论上,它们是等价的,但在实用计算中,没有超越有限状态自动机的优越性。大多数实际问题都很简单,只需要有限存储和计算能力即可。
因此,我们专注于用循环神经网络或Transformer解决实际问题。
MLST:希拉里·普特南提到过多重实现性,任何计算都可以用不同的物理系统来表示。在我看来,多重实现性的奇妙之处在于其表示和概括能力。这种方式是人工智能的一种理想形式,可以通过紧凑的符号表示处理可能在无限多种情境下工作的事物,而不是单纯记住所有不同的操作方式。
Jürgen Schmidhuber:是的,但是这个概念很难划定边界。
我们在讨论奇偶校验问题之前,就明确了一点,Transformer无法学习奇偶校验的逻辑。奇偶校验是一个简单的问题,就是判断一串二进制数字中是奇数还是偶数。
要解决这个问题,你需要逐个读取位,你就有了一个很小的循环网络,只有一个从隐藏单元到自身的侦察连接。每当一个新单元进入,内部状态就会在1.0和0.0之间翻转。这个类似小逻辑电路的东西能解决Transformer解决不了的奇偶校验问题,循环神经网络当然也能做到。
这就是我从80年代开始对循环神经网络着迷的原因,因为它们在通用计算的意义上是通用的,只需在需要时增加存储,就能处理更复杂的问题。
MLST:我认为,RNN作为计算模型的基础和它作为可训练神经网络的实际用途是有区别的。因为1991年的那篇论文表明,RNN不能通过梯度下降进行训练,而只是以一种特殊的方式输入信息,使它表现得像图灵机。我们希望它们不仅可训练,而且有实际用处。
Jürgen Schmidhuber:确实,这就是一个问题。一个学习奇偶校验的小网络只有5个连接,梯度下降并不适用。
最好的办法是随机初始化权重,如果解决了训练样本的奇偶校验,它几乎肯定能泛化到所有长度。这个小网络比前馈网络更强大,如果训练一个前馈网络解决9位奇偶校验,它无法泛化到10位或11位,而这个小网络可以泛化到任何类型的奇偶校验输入。
我们有一个非传统的学习算法,就是随机搜索权重,只需尝试1000次,看是否解决了训练集中的问题。1997年的LSTM论文中也提到,有些问题不适合梯度下降学习,离散程序搜索可能更合适。权重矩阵是网络的程序,梯度下降有时会陷入困境,而其他搜索方法可以找到你真正需要的权重设置。
从1987年以来的研究来看,我们的研究涵盖了很多象征性的算法,这些算法专注于渐近最优问题解决者,如2003年的OOPS,这些算法与神经网络无关。但神经网络在很多实际问题上表现良好,即使没有理论证明。这两种方法的界限很难划定,因为它们之间的区别已经越来越模糊了。
在90年代初,我们有子目标生成器,可以做一些像是符号化的事,但其实是通过系统中的梯度下降实现的。
这个系统学会了把实现目标所必须执行的动作序列分解成有意义的块。这样你就可以从开始到目标,然后从子目标到目标,所有看起来有点像符号化的事情。
但现在我们发现神经网络也能实现,并且甚至可以通过梯度下降来对齐。当然我们也碰到了其他问题导致梯度下降失败。所以你不会考虑把梯度下降当作能解决所有问题的万能方法。这并是神经网络的问题,因为神经网络可以用许多非梯度下降的方法来训练。
MLST:这是一个有趣的观点。你职业生涯中花了很多时间研究元学习,这涉及更高阶的学习方法。正如你提到的,在元学习中可以混合多种模式,比如随机梯度上升、符号模式以及复杂的元推理模式。对于目前进行arc挑战的人,他们在进行离散程序搜索,有的尝试在顶层使用元模式的神经搜索或完全不同的方法。你认为应该怎么做?
Jürgen Schmidhuber:你需要看具体问题的性质。虽然我没有研究所有问题,但我确信,很多问题可以用类似最优顺序问题的方法来解决。这是一种渐进的最优方式,找到解决计算问题的程序,使验证时间与解决方案大小呈线性关系。
这是一个重要的概念,与P和NP问题有关。有一种最优的方法进行程序搜索,类似1973年的通用搜索算法。最优顺序问题求解器基于这种方法,以渐进最优的方式解决新问题,利用先前问题的解决方案。这种方法并不局限于神经网络或深度学习领域,但你可以将神经网络用作基本指令,并测量其运行时间。最优的运行方式是将时间分配给测试程序,优先考虑简单和快速的方法。
这些程序可以包含各种原始指令,比如Transformer的反向传播等,但需要测量其运行时间。如果消耗时间过多,就要中断程序并调整分配时间,寻找易于验证的解决方案。虽然这些看起来很符号化,但我在90年代已经将这些原则应用于神经网络。
这其实是另一种搜索神经网络权重的方法,不是通过梯度下降,而是更智能的方法。如果运气好的话,还能带来更好的泛化效果。因为这些方法能够找到解决问题的最短、最快的方式,最小化算法复杂性或Kolmogorov复杂性。
这些方法在神经网络的运行时间限制下,有助于更好的泛化。因此,传统的符号推理、程序搜索和神经网络之间存在一定的重叠。
MLST:那么,技术行业是否试图挖走你的团队?
Jürgen Schmidhuber:他们确实这样做了。他们当然试图挖走我的合作者。
例如,在2010年和2011年,当我们在神经网络上取得快速转化的成功时,苹果确实成功地挖走了我一位获奖团队成员。有些人认为苹果在深度GPU CNN领域来得太晚,但并非如此,他们在这一领域商业化后就积极参与了。
而谷歌DeepMind是由我实验室的一名学生和其他人共同创办的,他们的第一位员工是我的另一位博士生。后来,他们还聘用了我的许多博士后和博士生。
MLST:顺便说一句,前几天我在推特上看到一个有趣的段子,一位女士说:“我不想让人工智能为我完成我的艺术创作,我想让它洗碗。”
Jürgen Schmidhuber:这就是我妈妈在70年代说过的话。她说,“给我造一个能洗碗的机器人。”
MLST:是的,没错。但我想要探讨的是,为什么人们会认为ChatGPT正在走向通用人工智能(AGI)?
而我看它时,觉得它只是一个数据库。它没有知识获取,因此没有推理能力。它没有创造力,也没有自主性。它没有我们所拥有的许多认知特征。
然而,人们却对它产生了兴趣,要么是故意将其拟人化,要么是自我欺骗,或者他们真的看到了什么。
你认为这可以用什么来解释呢?
Jürgen Schmidhuber:在我看来,情况是那些对AGI保持怀疑态度的人质疑了几十年,被ChatGPT的诞生说服,转而相信和之前相反的观点。因为突然之间,你有了一台在图灵测试中表现得非常好的机器。
他们认为,AGI来了。但我认为所有因为ChatGPT和其他大型语言模型而开始担心AGI的人,主要是因为他们不太了解人工智能,不了解背后的神经网络的局限性。今天我们已经提到过一些这些神经网络根本做不到的事情。
实际上有点奇怪的是,我多年来一直在倡导,或者说在炒作AGI。我在70年代告诉我妈妈,在我有生之年AGI一定会实现的。在80年代,我所有的同事都认为我疯了。
但突然,很多不相信我的预测的人改变了自己的想法,只是因为ChatGPT的出现,他们就开始认为离AGI已经很近了。
我认为唯一的原因是他们并没有真正理解这些大型语言模型的本质和局限性。
MLST:我明白,但我无法理解这一点。因为其中许多人,特别是在硅谷的那些人,他们在技术行业工作,他们正在研究这项技术,他们却不了解机器学习是如何工作的。我只能理解为有时你会碰到一些非常聪明的人,在其他方面却容易被迷惑,或者说,一定有什么东西可以解释他们为什么看不到这一点。
我的意思是,这些都是机器学习模型,它们只能将参数化的曲线拟合到数据分布中,在密度大的地方效果很好,而在密度小的地方效果就不好了。为什么他们会认为这是神奇的呢?
Jürgen Schmidhuber:也许是因为他们中的许多人都是风险投资家。他们被一些正在成立初创公司的科学家所说服,这些科学家声称他们的新初创公司非常接近成功,需要大量投资。
因此,我认为产生这种误解的一个原因是,一些机器学习研究人员过度夸大了当前大型语言模型的能力。而风险投资家并不了解实际上发生的事情,他们只是试图找出将钱投在哪里,并愿意跳上任何额外的炒作列车。
AGI是可能的,它将会到来,而且他们不是那么遥远的未来,但它将只把大语言模型作为一个子模块,因为通用人工智能的核心目标是完全不同的东西,它更接近强化学习。
现在你可以作为一个强化学习者从监督学习中获得很多好处。例如,你可以构建一个世界的预测模型。你可以利用这个模型,这个模型可能是由与语言模型相同的基础模型构建的,你可以在这个世界模型中使用它来规划未来的行动序列。
但现在情况确实不同了。现在你需要有一些具体化的人工智能,比如机器人,在现实世界中运行。在现实世界中,你可以做到在电子游戏中做到的事情。在电子游戏中,你可以做一万亿次模拟,一万亿次试验来优化你的表现。每次你被击中后,你又会复活。
现在,在现实世界中,你有一台机器人,你做了三次简单试验后,一个手指的肌腱就断了。你必须应对现实世界中类似这样的令人难以置信的挫折,也必须做好现实世界的执行规划来减少问题的出现。
你需要通过与世界的互动,对未来进行心理规划,从而优化你的表现。但当你通过行动收集新的训练示例时,也要非常高效。因为你希望最大限度地减少获取新数据的工作量,以改善你的世界模型(你正在使用这些数据进行规划)。
简而言之,我现在提到的这些非常重要,而且有几个提到的组件还不能达到比较好的工作效果。不过现有的神经网络可以以某种方式作为稍大系统的组件,来完成所有的任务。
这类系统的首次出现可以追溯到1990年,当时我可能是第一个在循环神经网络研究中使用“世界模型”这个词的人,试图为最大化奖励的控制器规划动作序列。但是这些更复杂的问题解决者和决策者与仅仅使用大型语言模型是有很大不同的。
Jürgen“世界模型”的结构图。来源:Jürgen与David Ha2018年发表的论文《World Models》
MLST:是的,我读过你和David Ha的论文,那是好几年前的事了。他是第一个使用基于想象力的强化学习模型来玩电脑游戏的人。
不过这是题外话。我想说的是,现在在硅谷,你只需要1000行代码就能训练神经网络,而且很容易就能赚到大把钞票,拥有很高的地位。他们为什么还要做其他事情呢?这是一个例子。
你已经做了三分之一个世纪的工作,你也已经考虑了下一步,我不知道他们是否只是在淡化这一点。他们为什么不去做那些困难的部分呢?也许是因为现在生活太轻松了,只要说着这就是AGI就够了。
Jürgen Schmidhuber:是的,我猜许多现在过度炒作AGI的人正在为他们的下一个公司寻找融资,也有足够多的容易上当受骗的风险投资者想要跳上这台“大马车”。
另一方面,我们目前拥有的技术远远超出了纯粹的语言模型,原则上来说足以完成下一步工作。
就像我说的那样,用来创建语言模型的技术也可以用来创建世界模型。重点在于,你如何学会以层次化、高效的方式使用这个世界模型来规划导致成功的行动序列。你有一个想要解决的问题,但你不知道如何解决,也没有人类老师的帮助。现在你想通过自己的实验和这些心理规划程序来弄清楚如何解决这个问题。
1990年,我们选择了一种错误的、天真的方式想要解决这件事。我们建立了循环网络控制器和循环网络世界模型,用于规划。我们做的是天真的事情,也就是一毫秒一毫秒地规划。这意味着你要模拟你可能的未来的每一个小步骤,并且试图在你的心理模拟中选择一个你会获得大量预测奖励的步骤。这太愚蠢了,不是人类做事的方式。
当人类遇到一个问题,比如“我怎样才能从这里到达北京?”时,他们会将问题分解成子目标。例如,他们会说:“好吧,首先……”但是,他们不会像这样一步一步地计划。他们不会说:“好的,首先我激活我的小指,然后……”他们会抓起手机,然后打车,然后在机场办理登机手续,接下来九个小时都不会发生什么,直到在北京下车。
所以,你并不是一毫秒一毫秒地模拟所有这些可能的几率。
目前大多数强化学习仍在一步一步地进行模拟,例如,在国际象棋或围棋中,你确实在对这些可能的未来进行蒙特卡洛采样,然后选出一个看起来有希望的未来,你的世界模型会随着时间的推移不断改进,即使你做出了错误的决定,至少世界模型会变得更好。这样,下次你就能做出更明智的决定。
但回到1990年,我们只能说这还不够好。我们必须学习子调用。我们必须将这些长长的行动序列分解成块。我们必须将整个输入流分解成块,将这些块以某种方式分开,这些块的抽象表示应该是不同的,但它们对于这些特定序列是相似的。
然后你可以使用这些自适应子代码生成器,我们也在1990年有了,以一种新的方式将它们组合在一起,有效地和快速地解决你的问题。因为你正在引用你已经学会的子程序,比如从这里到出租车站。
所以我们有那项技术,但与我们后来在2015年所做的相比,它不够聪明。
后来我们有了更好的方法来使用这些预测性野生模型,以抽象的方式进行规划。因此,在2015年,我发表了论文《学会思考》,我认为这篇文章在今天仍然很重要,我想很多不知道这篇文章的人或许应该读一读。
那么2015年的论文是关于什么的?
它关于一个强化学习机器,这个机器有一个世界预测模型。
这个模型试图预测一切,但我们并不是真的对一切都感兴趣。我们只是对它为了预测一切而创造的内部表示感兴趣。通常它不能预测一切,因为世界在许多方面都是不可预测的,但某些事情是可以预测的。而这些内部表示中的一些变得真的可以预测,它包括你可以想象到的一切。
举个例子,如果你必须正确预测这个像素,也许这取决于1000步之前发生的一些事情。因此,预测机的这些内部表征,会随着时间的推移而考虑到这一点。所以这些内部分辨率它们会传达与这个世界和这个特定像素相关的信息。但在跳转时,你想以更聪明的方式进行规划。
那要怎么做呢?控制器必须完成某项任务,最大化它的回报。而不是一毫秒一毫秒地使用世界模型相反,它应该忽略所有根本无法预测的东西,只关注这些抽象的、可预测的内部概念,至于其他的,控制器必须了解它们是什么。
那又该如何学习呢?我能做什么?
你可以给它与世界模型的额外连接,让它学会好奇地发送查询。查询只是数字向量,一开始,它不知道如何向这个野生模型发送好的查询。然后,世界模型会反馈一些信息,因为你唤醒了一些内部表征,这些信息会反馈回来。所以它们必须通过控制器所做的强化学习或类似的事情来学习。
因此,现在控制器本质上是在通过说谎成为一个提示工程师。
那是我2015年的强化学习提示工程师,学习发送数据到墙模型,然后从角色模型中获取数据,这些数据在某种程度上应该代表与之相关的算法信息。
因此,基本上控制器必须学习在这个庞大的世界模型中穿行,可能已经看过所有YouTube视频。有人必须学习以抽象的规划方式处理这些内部知识,并解释返回的内容。而AC测试是这个控制器是否能够在没有模型的情况下,通过将所有连接设置为零,或者通过某种方式学习到在世界模型中处理相关算法信息,这样更便宜,从而更快地学习所需的内容。
因此,学习是重要的。我相信这就是前进的方向。在机器人技术、强化学习、机器人及所有这些目前尚未有效的领域。
MLST:我可以回顾一下你前面说的一些事情吗?因为你谈到的抽象原则与生成对抗网络非常相似,在这个游戏中你试图增加算法信息或信息转换率,我理解为粗化或抽象。
正如你所说,你从微观动作空间开始,或者转向动作抽象空间,在那里你实际上是在学习动作空间中的模式。这是有道理的,因为当你开车时,例如,你会考虑宏观的东西,忽略路上的树叶,你在考虑大局,你有这种粗化、这种分辨率的跳跃,取决于你如何看待问题。
根据我的理解,你正在学习思考,你刚才描述的控制器模式有点像是在建模这个过程。
Jürgen Schmidhuber:是的,这里的控制器只是试图提取另一个网络的算法信息,这个网络可能接受过各种训练。
例如,正如我之前提到的,它可能是所有YouTube视频的集合。在这些数十亿的视频中,有很多是关于人们扔东西的,比如机器人、篮球运动员、足球运动员等。
这些视频包含了大量关于重力、世界运作方式以及三维特性的隐含信息。但控制器并不能直接访问这些视频隐含的信息。
控制器通过执行器发送信号来进行操作,而这些执行器可能与视频中人类的操作方式不同,比如机器人只有三个手指而不是五个,但它们仍然在同一个受重力影响的世界中工作。通过观察这些视频,我们可以学习如何在不同条件下进行操作,比如如何用三个手指进行查询和提示。
你需要将这些观察注入到世界模型中。你想要进行搜索,以解决模型中的关键问题,从而提取出控制器改进行为所需的有用信息。你可能只需要一些额外的信息,这些信息必须通过学习来获得。
有些信息你不能立即用来提高投掷技能,但你可以稍微调整几个参数位,这样你就能比没有这些参考信息时更快学会投掷球。在给定环境中找到正确的规划算法,解决所有这些问题是非常复杂的,需要通过学习来实现。
你无法预先编程出一个完美的解决方案,因此你必须在特定的环境下学习,并考虑所有的资源限制,比如控制器中的神经元数量和每毫秒的时间步数等。
你必须学习如何成为一个更好的提示工程师,发送正确的提示,并理解反馈的信息。
所以原则上,我认为这就是未来规划、层次化和类比推理以及所有这些东西的核心。你需要构建一个足够通用的系统,让它能够自主学习所有这些内容。
这种方法不是像我早期在谷歌或博士后研究中那样的通用规划,而是更加实际的,能够在有限资源和各种限制下运行的系统。在这种系统中,控制器需要学会如何更好地引导提示。
现在你给系统一系列问题,它可以重复利用之前学到的内容,并不断学习更多的子程序,这些子程序可以编码在重构的神经网络中。这些网络是通用计算机,可以编码所有层次化推理和子程序。原则上,它应该能做得很好,但它并不像许多人痴迷的大型语言模型那样的有限监督技术一样运行得很好。
MLST:是的,这是您又一次超越时代的思考。
一个月前,我采访了一些多伦多的大学生,他们正在将控制理论应用于大型语言模型提示,并用它来探索可达性空间。他们使用一个控制器来优化语言模型的输出,探索可能的标记空间。关键在于我们开始看到一种元架构,语言模型只是整个架构的一部分。
我认为这种跳出思维定势的思考方式真的非常有趣。
Jürgen Schmidhuber:是的,我们最近的一篇论文受到了2015年学习提示工程师的启发,就是我们的心智社会论文。我们不仅有控制器和一个模型,而是很多基础模型。有些模型非常擅长计算机视觉,能从图像中生成标题,另一些则擅长用自然语言回答问题。
现在你有一个由这些家伙组成的社会,你给他们一个他们无法单独解决的问题,要求他们共同解决,那么他们会怎么做呢?
模型正在进行“头脑风暴”。来源:Jürgen Schmidhuber等人2023年发表的论文《Mindstorms in Natural Language-Based Societies of Mind》
他们开始为彼此成为提示工程师。他们会进行一些我们称之为“思维风暴”的活动。因为这个基于自然语言的思维社会的成员们在互相面试。你会怎么做,你建议我们应该怎么做?
我们会有不同类型的社会。例如,我们有君主制,那里有一个国王,一个神经网络国王,根据下属的建议决定接下来应该做什么。我们还会有民主制,在这些不同的家伙之间有投票机制。他们把所有的想法都放在黑板上,吸收其他人的所有想法,最终得出一个通常相当令人信服的解决方案。
所以在各种应用中,比如生成一个更好的图像设计,展示那个或者在3D环境中操纵世界以实现某个目标等等,这种方式以一种开放的方式运作,并且打开了一系列新问题,比如,君主制是否比民主制更好?如果是的话,在什么条件下?反之亦然。
MLST:我感兴趣的是,我认为获取知识是一件非常重要的事情。比如,我在建立一家初创公司,我在建立一个YouTube频道,我在学习如何剪辑视频和做音频工程等等。这其中有太多的尝试和错误,因为推理、创造力和智慧就是要能有灵光一现的洞察力,并以这种令人难以置信的方式将你已有的许多知识组成一个整体。
当你看到它的时候,你就会有"啊哈"的一瞬间,然后你就再也看不到它了。现在,它改变了你看待整个世界的方式。但有时也会有"啊哈时刻"。
但有时,通过我们的集体智慧,人们会尝试很多不同的事情,我们会分享信息,进行评估,然后新的事情发生了,这种创造性的洞察力,然后它改变了整个世界,我们会利用这些知识并分享它。
因此,这是一个有趣的过程。
Jürgen Schmidhuber:是的,确实如此。根据别人的发现,你也可以有"啊哈时刻"。当爱因斯坦通过广义相对论发现了物理学的巨大简化时,很多人都被深深吸引,并产生了这些内在的"喜悦时刻"。一旦他们理解了其中的奥秘,通过这一个人的发现,世界突然变得简单了。
当时发生了什么?我们看到的是一个以新颖方式压缩数据的时刻。事实上,所有的科学都是一部数据压缩的发展史。科学并不像我在1990年提出的那样,只有这些生成对抗网络,其中的控制器只是试图最大化与预测机试图最小化的相同误差函数。因此,主题预测器的误差就是控制器的回报。这是一个相当有限的人工科学家。
你真正想做的是让一个控制器创建动作序列,即通过实验来获得数据,而不仅仅是不可预测的、令人惊讶的、对模型来说误差很大的数据。你想创建的数据具有模型所不具备的规律性。
不规则性意味着你可以压缩数据。所以,让我们以我最喜欢的例子--苹果掉落的视频为例。有人通过他的行动和实验生成了这些掉落的苹果视频。结果发现,苹果的掉落方式是相同的。你可以通过观察视频的前三帧来预测第四帧中的许多像素。尽管不是所有像素都可以预测,但许多像素的预测很准确,因此不需要额外存储。这样,你可以大大压缩掉落苹果的视频,这说明编码预测的神经网络可以非常简单,可能只需要几位信息来描述,因为你可以利用对重力的了解来大幅压缩视频。最初,你可能需要很多兆字节来存储数据,但由于你对重力有了深入了解,你只需要编码模型预测的偏差。因此,如果模型很简单,你可以节省大量的数据存储空间。这就是人们发现重力的方式。
MLST:你用苹果的例子真的很有趣,因为它让我再次思考记忆和泛化的关系。在深度网络中,我们使用归纳偏置,它们的形式是对称性和尺度分离。例如,我们可以进行平移,即局部权重共享,从而实现平移等变性。这将允许模型使用更少的表示或容量来模拟不同位置的球。但是,这是否是一个连续的过程呢?因为我们可以一直走到最后,最终我们会得到一个几乎没有自由度的模型,仍然可以表示苹果的下落。但是,这在表示或保真度方面存在一个连续谱。
Jürgen Schmidhuber:是的。而且,你还必须考虑到将内部演示转化为有意义的行动所需的时间。当婴儿看着下面这些苹果时,他们在做什么呢?他们也在学习预测同步像素,这也是他们学习的方式,压缩。
现在他们对数学的平方定律和描述许多不同物体的引力的简单的5符号定律一无所知。但原则上,他们知道这些苹果掉落的速度会急剧加快。他们学习了这部分物理知识。
即使不能命名或将其转化为符号,这不是目标,但它可以极大地压缩。在400年前,开普勒还是一个婴儿。他长大了后看到了数据,行星环绕着太阳。这是嘈杂的数据。但后来他突然意识到数据存在规律性,因为一旦你意识到所有这些数据点都在椭圆上,你就可以极大地压缩它们。有一个简单的数学定律,他能够根据这个简单的洞察力做出各种预测。这些都是正确的。预测就是全部。
几十年后,另一个家伙,牛顿,他看到下落的苹果和这些椭圆上的行星,它们是由同一个简单的东西驱动的。这说明许多额外的简化和预测确实有效。
又过了300年左右,直到另一个人开始担心与预测的偏差,整个事情变得越来越糟。传统的世界模型变得越来越丑,因为你需要越来越多的信息来编码这些与预测的偏差。因为如果你远远地观察星星在做的事情,按照标准理论,它们在做一些不该做的事情。
然后他提出了这个超级简化的理论,很多人认为它不简单,但它非常简单。你可以用一句话概括广义相对论的本质。它的基本意思是,不管你加速或减速有多难,或者你目前生活的环境中的重力有多大,光速总是看起来一样的。
这就是广义相对论背后的整个程序。如果你理解了这一点,你必须,你知道,学习十几微积分来形式化它并从中推导出预测。但这只是基本洞察的副作用,它再次非常简单。所以这个非常简单的洞察再次允许大大压缩数据。
所有的科学就是这样,这就是数据压缩进步的历史。
正如我们试图构建人工科学家一样,我们正在做的就是这个。
每当我们通过我们自己的数据收集程序,通过我们自己的实验,每当我们生成具有以前未知规律性的数据,我们就会发现这种可压缩性。因为我们需要很多突触和神经元来存储这些东西,但后来又不需要那么多。前后之间的差异,就是我们作为科学家的乐趣。
我们理解这个原理。我们只是构建由相同愿望驱动的人工科学家,旨在沿着这些方向最大化洞察力、数据压缩和进步。
我们已经有了人工智能科学家。它们就像小型人工科学家,它们为自己设定目标,为了最大化科学奖励,它们乐于成为科学家。它们试图发明实验,以获得具有某种特性的数据显示出数据中存在的规律,而这些规律它们之前并不知道,但可以提取出来。
它们意识到,不知道的规律实际上让它们能够通过更好地预测数据来压缩数据,通过理解数据背后的规则来实现这一点,因此我们可以在人工系统中实现这些东西。
因此,我们已经有了人工科学家,虽然它们的工作效果不如你所知道的ChatGPT,并且它的领域更为有限,仅仅是关于世界知识的处理。但这将会到来,它将改变一切。
MLST:尽管现代的大型语言模型如ChatGPT存在限制,但它们基于自注意力的Transformer是革命性的。你在大约三十年前就发表了首个Transformer变体,对此有何感想?它能做什么?
Jürgen Schmidhuber:1991年我发表了线性Transformer。这种线性Transformer实际上是一个神经网络,内部包含许多非线性操作,并且计算需求很低。线性Transformer可以基于当前聊天内容来预测下一个词。它学习生成“键”和“值”,并优化注意力以减少预测错误。它将存储和控制分离,并通过梯度下降调整权重,提高预测准确性。
MLST:你提到了1991年的那些突破。ChatGPT中有"T"(Transformer),还有"P"(预训练网络),以及第一个生成对抗网络,GAN。你能多说一些吗?
Jürgen Schmidhuber:1991年的工作为Transformer和预训练网络的发展奠定了基础。同时,我提出了GANs,通过生成网络和预测机的互动,让机器人通过人工好奇心探索环境,这是深度学习和对抗学习的重要里程碑。
MLST:我还想谈谈LSTM,因为它也诞生在1991年。
Jürgen Schmidhuber:对,我的学生会Sep Hochreiter在1991年提出了LSTM的早期概念。他通过引入残差连接解决了梯度消失问题,这项技术后来发展成为广泛认可的LSTM,并在1997年成为20世纪被引用最多的人工智能论文之一。
MLST:20世纪被引用最多的人工智能论文,你对此有何感想?
Jürgen Schmidhuber:LSTM的普及程度非常高,比如Facebook曾用它每天进行超过40亿次翻译,这比YouTube上最火视频《Baby Shark》的点击量增长还要快,显示了LSTM在实际应用中的广泛影响力。
MLST:我听说他正在研发一种更先进的LSTM版本,X LSTMs,能分享一些细节吗?
Jürgen Schmidhuber:在讨论X LSTMs之前,我想指出,早期的大型语言模型,包括谷歌的一些模型,都是基于LSTM构建的。直到2000年代末,基于注意力机制的Transformer才开始成为主流。LSTM在某些方面比Transformer更高效,因为它支持线性扩展,而不是Transformer的二次方扩展。
此外,值得注意的是,循环神经网络(如LSTM)可以解决许多Transformer无法处理的问题。例如简单的奇偶性问题,Transformer在泛化这一任务时表现不佳,而循环神经网络可以轻松解决这个问题。
另一方面,Transformer比LSTM更容易进行并行化,这一点非常重要,因为它可以充分利用现代的大规模并行计算架构,特别是Nvidia的GPU。
最近,Sep和他的团队开发了X LSTM,它在多个语言处理基准上超越了Transformer,并且具有线性而非四次方的计算复杂度。
X LSTMs还引入了矩阵记忆功能,这使得它们能够存储比传统LSTM更多的信息。这种增强的记忆能力对于理解和处理复杂的文本语义至关重要。
此外,X LSTMs的某些版本支持高度并行化,这使得它们能够更有效地利用现代计算资源。
总的来说,X LSTMs旨在结合LSTM的序列处理优势和Transformer的可扩展性,提供更强大的语言处理能力。
MLST:听说你的LSTM技术被苹果、微软和谷歌等科技巨头用于开发语言模型,这是真的吗?
Jürgen Schmidhuber:确实,许多早期的语言模型是基于LSTM的。例如,微软的Tay聊天机器人,它通过不断学习来改进,但也曾因用户重新训练而出现问题。
LSTM没有Transformer的某些限制,但并行化不如Transformer高效。
不过,我们开发的新技术,如X LSTM,正在改变这一局面。
MLST:LSTM和共振流之间似乎有惊人的相似之处,尤其是在层间共享信息的概念上。这与你早期的“高速公路网络”论文非常相似,能分享一下吗?
Jürgen Schmidhuber:2015年,我们发表了高速公路网络,它实际上是一个始终开启的门控网络。共振流基本上是一个始终开启的高速公路网络。高速公路网络结合了前馈和循环结构,使其能够构建非常深的网络。这种设计是共振流的基础,通过调整门控机制,可以实现不同的网络行为。
MLST:关于深度学习模型中的深度问题,我最近采访了一些专家,他们提到深度网络的某些神秘特性。你怎么看深度的作用及其重要性?
Jürgen Schmidhuber:深度网络的效率和效果是一个复杂的话题。理论上,单层网络可以通过增加隐藏单元来实现任何复杂的功能,但这需要大量的参数和数据。深层网络通过较少的权重和参数,可以在训练集上实现良好的性能,并可能在测试集上有更好的泛化能力。这符合奥卡姆剃刀原则,即在模型复杂度和性能之间寻求最佳平衡。尽管深层网络在实际应用中表现出色,但其背后的理论仍在不断发展中。
MLST:Daniel Roberts有一个探讨了神经网络的宽度和深度,寻找最优配置以优化训练。你对此了解吗?
Jürgen Schmidhuber:我不太了解那篇特定的论文,但听起来他的研究是基于梯度下降的传统学习算法。我们从90年代初就开始研究如何找到简单解决方案的网络,即具有低Kolmogorov复杂度的网络。我们的目标是找到能够生成这些网络的最短程序,这与超泛化有关,例如从极少的训练样本中学习并泛化到更广泛的情况。
MLST:你曾经说生成神经网络的程序应该尽可能小,以达到最小描述长度。
Jürgen Schmidhuber:是的,我在1994年的研究中首次探讨了这一概念,寻找具有低Kolmogorov复杂度的解决方案。1997年,我进一步研究了如何找到这样的神经网络,不使用梯度下降,而是使用通用搜索原则。这种方法在程序空间中搜索,寻找能够计算网络权重矩阵的最短程序。这使得网络能够在测试集上以传统神经网络无法实现的方式泛化。尽管这种方法当时难以扩展,但现在我们有了更强的计算能力,可以重新考虑这些方法。
MLST:那么你能告诉我更多关于策略梯度的信息吗?
Jürgen Schmidhuber:策略梯度在LSTM中的应用非常重要,尤其是在需要记忆和决策的环境中,比如视频游戏中。例如,DeepMind使用策略梯度训练的LSTM在星际争霸游戏中战胜了专业玩家,这比传统的棋类游戏更具挑战性。这种技术使得LSTM能够处理复杂的情境记忆和决策,这是监督学习中的Transformer难以实现的。
MLST:听起来,像OpenAI和DeepMind这样的主要人工智能实验室都在使用你们开发的技术。
Jürgen Schmidhuber:确实,这些实验室的技术基础深受我们研究的影响。雷峰网雷峰网(公众号:雷峰网)