门板上做研究的首席科学家：Jeff Dean解密谷歌和Gemini背后的故事

谷歌 DeepMind Gemini 人工智能

作者：刘洁

2024/09/19 10:38

“最开始我就知道谷歌相当有希望，谷歌能发展到现在的规模不过是水到渠成。”

这位谷歌首席科学家在谷歌度过了近乎一半的人生，对谷歌的喜爱不减反增，到现在还依然坚守着谷歌最初的愿景并为此奋斗：

组织全球信息并使其普遍可用和有用

Jeff Dean 还记得刚加入谷歌的时候，每到周二的流量高峰期就开始担心系统会不会崩溃，还好后来及时增加了设备，对代码和搜索功能做了更多优化，谷歌搜索这才步入了正轨。

后来吴恩达在谷歌担任顾问，Jeff Dean 和他商定了大型神经网络的研究目标，最终促成了 Google Brain 团队的成立。

2011年，伴随着质疑和不信任，Google Brain 终于成功训练出比当时其他模型大 50 到 100 倍的神经网络。

而在同一时期的大洋彼岸，DeepMind 的研究才刚刚开始。

Jeff Dean 想做的一直都是高质量、大规模的多模态模型。当时的 DeepMind 和 Google Brain 有着类似的研究目标，只是选择了强化学习和模型扩展两个不同的方向。

收购DeepMind后，Jeff Dean 推动了两大团队的融合，Google DeepMind 应运而生。

强强联合之下，Google DeepMind 交出了一份令人满意的答卷，Gemini。

Gemini 的优势不止在于多模态，更在于“化繁为简”的思路。

受益于底层的Transformer架构，Gemini 能够并行处理大量数据，相比传统递归模型，提升了 10 到 100 倍。更重要的是，Gemini 能把不同类型的数据通过抽象转换为相同的高维表示，把表面意思及其以外的联合意义和表示整合起来。

举个例子，Gemini 不仅能识别“牛”这个词语，还能发散到和牛有关的语音、图片等等其他内容，反过来输入这些相关的内容也能触发 Gemini 对“牛”的多层次理解。

对用户来说，一切都变得简单、直观。

无需切换工具或者输入形式，用户就能通过文字、语音、图片等方式与系统互动。

而系统也会自动整合各种输入方式，生成最直观、最易于解读的结果。文本可以转化为图像，图像也可以转化为语音，文字与图像的融合也能自动实现。

对开发团队来说，这一技术的实现非常复杂，但Gemini 依然成功突破了这些挑战。

然而，Jeff Dean 的雄心远不止于此。他现在致力于开发更深入人们生活的人工智能工具，涵盖从日常助理到医疗、AI教育等多个领域。

多模态模型的前景和谷歌一样充满了可能。Jeff Dean 深信，从过去到未来，这一领域将持续表演出巨大的潜力和希望。

前几天，Jeff Dean 做客 DeepMind 播客，讲述了他和谷歌的这段过去、DeepMind与Gemini背后的故事，以及自己对多模态模型的探索和理解。

完整播客视频可以点以下链接观看：

https://www.youtube.com/watch?v=lH74gNeryhQ

AI科技评论摘取了部分播客内容，做了不改原意的精编处理：

90年代的谷歌

Hannah Fry：你在谷歌工作了 25 年，早期的谷歌是什么样的？90 年代刚加入的时候，是不是大家的笔记本上贴满了贴纸，穿着人字拖在编程？

Jeff Dean：那时没有笔记本，我们用的是大 CRT 显示器，占了很多桌面空间。我那时的桌子其实是一扇门架在两只马凳上，你可以站在桌下，用背撑起来把桌子调高。

我刚开始工作时，我们的办公室很小，大概只有这个房间的三倍大。

Hannah Fry：整个谷歌？

Jeff Dean：整个谷歌。那时，我们在帕洛阿尔托大学大道上的一个小办公室里，正好在现在的T-Mobile手机店上面。那时候真的非常激动，尽管我们是个小公司，但看到越来越多人使用我们的高质量搜索服务真的很兴奋。流量每天和每周都在不断增长。

门板上做研究的首席科学家：Jeff Dean解密谷歌和Gemini背后的故事

我们一直在努力避免每周二中午的流量高峰时系统崩溃。这需要我们迅速增加计算机资源，优化代码提高速度，并开发新的功能，让相同的硬件能够服务更多用户。

Hannah Fry：有没有哪个时刻让你们意识到——这个公司真的会变得很大？

Jeff Dean：我想，从我刚加入公司的时候，你就能看出来流量增长非常快。

我们觉得，只要专注于提供高质量的搜索结果，快速满足用户需求——我们其实希望用户能尽快离开我们的网站，找到他们需要的信息——这是一个很成功的想法。

用户似乎也喜欢我们的服务，所以从最开始就看起来相当有希望。

Hannah Fry：从“相当有希望”到最后的发展规模之间差距不小。你感到惊讶吗？

Jeff Dean：确实，我们的领域扩展确实难以预料，比如自动驾驶汽车。我们的产品组合逐步拓宽，从最初的搜索引擎到现在的各种产品，例如通过Gmail帮助用户管理邮件。

这种扩展是自然的，因为它们解决了实际问题，让我们不仅仅拥有一个产品，而是拥有了用户日常使用的多种产品。

Hannah Fry：回顾这么多年的发展，你觉得谷歌始终是一个搜索公司，还是实际上它是一个 AI 公司，只是装作是个搜索公司？

Jeff Dean：我认为公司解决的许多问题实际上都依赖于 AI。在这25年的历程中，我们逐步攻克了一些复杂的AI问题，并不断取得进展。

虽然谷歌一开始专注于搜索，但我们不断将这些新的 AI 技术应用到搜索和其他产品中。因此，可以说我们一直在利用 AI 推动公司的发展。

Hannah Fry：你认为谷歌未来会一直是一个搜索公司吗？或者说，它现在是否仍然是一个搜索公司？它正在发生改变吗？

Jeff Dean：我非常喜欢谷歌的一点是，即便 25 年过去了，我们的使命依然非常有意义——“组织全球信息并使其普遍可用和有用”。

我认为，Gemini 帮助我们在理解各种信息方面迈出了重要一步——包括文本数据和软件代码（它也是一种文本，只是更复杂）。我们不仅能阅读文本，还能通过视觉和听觉接收信息。

我们的目标是让模型能够处理各种输入形式，并生成相应的输出，例如文本、音频、对话、图像或图表。

我们真正想创造的是一个能够处理所有这些模式并根据需要生成输出的模型。

神经网络的早期探索

Hannah Fry：你还记得你第一次接触神经网络的情景吗？

Jeff Dean：是的，当然。神经网络有着一段有趣的历史。

AI 其实是一个非常古老的学科，AI 的早期阶段是在研究如何定义事物运作的规则。那是在20世纪 50、60、70 年代左右。

神经网络大约在 70 年代出现，在 80 年代末和 90 年代初掀起了一阵热潮。

实际上，我在 1990 年是明尼苏达大学的本科生，当时我在上并行处理课程，这个课程探讨的是如何将一个问题分解成可以在不同计算机上并行处理的部分，让这些计算机协同工作来解决一个问题。

Hannah Fry：我猜那时候的计算能力还不如现在那么强大，你们是怎么让计算机协同工作的？

Jeff Dean：神经网络是一种特殊的机器学习方法，它通过模拟人脑神经元的工作原理来进行学习。每个人工神经元与下层的其他神经元相连接，分析接收到的信号，然后决定是否将信号传递到更高层次。

神经网络由多个层次的人工神经元组成，高层神经元通过分析下层神经元的信号进行学习。

例如，在图像识别任务中，最底层的神经元可能学习到基础特征，比如颜色斑点或边缘；下一层则可能识别出具有特定颜色边框的形状；更高层的神经元可能识别出这些形状组成的具体物体，如鼻子或耳朵。

通过这种逐层的抽象学习，神经网络能够发展出非常强大的模式识别能力。这也是1985至1990年间人们对神经网络充满兴奋的原因。

Hannah Fry：不过我们说的是非常非常小的网络，对吧？

Jeff Dean：是的，非常小的网络。所以它们无法识别出人脸或汽车这样的东西，只能识别一些人工生成的简单模式。

Hannah Fry：就像一个网格，可能能识别出一个十字形之类的东西。

Jeff Dean：或者手写的数字，比如这是一个 7 还是 8。

那时候的确算是很了不起了。但它们的能力仅限于解决这种问题，而那些基于逻辑规则的系统，比如如何定义一个“7”，其实在处理各种凌乱手写体时表现得并不太好。

所以我在听了两堂关于神经网络的课后觉得很有兴趣，决定把我的毕业论文主题定为神经网络的并行训练。

我认为只需要更多的计算资源就能有所突破。于是我想，何不利用系里那台 32 处理器的机器来训练更大的神经网络？这就是我接下来的几个月所做的事情。

Hannah Fry：结果成功了吗？

Jeff Dean：是的，成功了。当时我以为 32 个处理器已经足够让神经网络运行顺畅，结果证明我还是错了。其实我们需要大约一百万倍的计算能力，才能真正让它们表现出色。

幸运的是，摩尔定律的进步、处理器速度的提升，以及各种计算设备的发展，最终使我们拥有了强大的一百万倍计算能力的系统。这让我重新对神经网络产生兴趣。

当时 Andrew Ng（吴恩达）每周都有一天在 Google 做顾问。

有一次我在 Google 的厨房碰到他，问他在做什么。他说：“还在摸索，不过我的学生在神经网络方面取得了不错的进展。”于是我提议：“为什么不训练一些非常大的神经网络呢？”

这就是我们在 Google 开始神经网络研究的起点，后来我们成立了Google Brain 团队，专门研究如何利用 Google 的计算资源训练大型神经网络。

门板上做研究的首席科学家：Jeff Dean解密谷歌和Gemini背后的故事

我们开发了软件，把神经网络分解为多个部分，由不同计算机处理，还让它们相互沟通，在2000台计算机上一起训练一个神经网络。这使我们训练出比当时其他模型大 50 到 100 倍的网络。这是2012年初，图像识别取得重大突破之前的事。

当时我们做的还是把计算机连接起来，就像我本科论文一样。这次不同的是规模更大，而这次真的奏效了，因为计算机更快了，也用了更多的机器。

Hannah Fry：不过在 2011 年的时候，这感觉像是一场赌注吗？

Jeff Dean：当然是了。我们当时为训练这些神经网络而搭建的系统，并尝试各种分解方法，我给它取名为 DistBelief（直译为“分配信念”）。

部分原因是很多人不相信它真的能成功，另一个原因是它是一个分布式系统，可以构建这些网络——我们想训练的不仅仅是神经网络，还有深度信念网络（Deep Belief Networks）。所以就叫 DistBelief 了。

DeepMind 和 Gemini 背后的故事

Hannah Fry：当你们在美国开发 DistBelief 时，大西洋的另一边正是 DeepMind 的起步阶段。我知道你是后来负责拜访 DeepMind 的人。你能讲讲这个故事吗？

Jeff Dean：是的。Geoffrey Hinton，这位著名的机器学习研究员，2011年夏天曾在 Google 工作过。那时我们还不知道该给他安排什么职位，最后把他归为实习生，这挺有趣的。后来他和我一起工作，之后我们得知了 DeepMind 的存在。

我想 Geoffrey 对这家公司的起源有所了解，也有其他人告诉我们，“英国有一家公司在做些有意思的事情。”当时他们大概只有四五十人。于是我们决定去看看，把它视作潜在的收购对象。

那时我在加州，Geoffrey 在多伦多，是那里的教授。他背有问题，不能乘坐普通航班，因为他无法坐下，只能站着或躺着。而航班起飞时不能站着，所以我们安排了私人飞机上的医疗床。

我们从加州飞往多伦多接他，然后一起飞到英国，降落在某个偏远机场。接着我们坐上一辆大面包车，直奔 DeepMind 的办公室，应该在 Russell Square（伦敦罗素广场）附近。

前一晚的飞行让我们很累，接下来就是来自 DeepMind 团队的 13 场连续 20 分钟的演讲，介绍他们的各种项目。我们看了他们在 Atari 游戏上的一些工作，主要是用强化学习玩旧版 Atari 2600 游戏，比如《Breakout》和《Pong》，这都非常有趣。

Hannah Fry：你们当时还没有做强化学习的工作？

Jeff Dean：对，那时我们主要专注于大规模的监督学习和无监督学习。

Hannah Fry：强化学习更多是通过奖励来激励的，对吧？

Jeff Dean：是的，我认为这些技术都很有用，通常将它们结合起来使用效果会更好。

强化学习的核心在于代理在环境中操作，每一步都有多个选择。例如，在围棋中，你可以在多个位置放置棋子；在 Atari 游戏中，你可以移动操控杆或按按钮。奖励往往是延迟的，在围棋中，你直到棋局结束才能知道每一步是否正确。

强化学习的有趣之处在于它能够处理长时间的动作序列，并根据这些动作的结果来给予奖励或惩罚。奖励或惩罚的程度与这些动作的预期结果相关。

如果你取得了胜利，你会觉得这个决定是对的，从而增加对这一策略的信心；如果失败了，你可能会减少对这一策略的信心。强化学习特别适用于那些结果需要较长时间才能显现的情况。

强化学习特别适用于那些立即无法判断好坏的情况。

监督学习指的是你有一组输入数据和对应的真实输出。一个经典的例子是图像分类中，每张图像都有一个标签，如“汽车”、“鸵鸟”或“石榴”。

Hannah Fry：当你们决定进行收购时，Demis 是否感到紧张？

Jeff Dean：我不确定他是否紧张。我主要关注的是代码的质量。我要求查看一些实际代码，以了解代码标准和注释情况。Demis 对此有些犹豫。

我说只需要一些小片段，就能让我了解代码的实际情况。于是，我进入了一间工程师的办公室，我们坐下来聊了 10 分钟。

我问，这段代码做了什么？那个东西呢？那是什么作用？能给我看看它的实现吗？我出来后对代码质量很满意。

Hannah Fry：在这些演示中，你的印象如何？

Jeff Dean：我觉得他们的工作非常有趣，尤其是在强化学习方面。

我们当时专注于模型扩展，训练的模型比 DeepMind 处理的要大得多。他们在用强化学习解决游戏问题，这为强化学习提供了一个很好的应用场景。

结合强化学习和我们的大规模扩展工作，看起来会是一个很有前途的方向。

Hannah Fry：这就像从两个方向解决问题——一个是小规模的强化学习，如玩具模型；另一个是大规模的理解。将这两者结合起来，效果非常强大。

Jeff Dean：是的，确实如此。这也是我们去年决定合并 DeepMind、Google Brain 和其他 Google 研究部门的主要原因。我们决定将这些单元结合起来，形成 Google DeepMind。

Gemini 的概念实际上早于合并的想法，但真正的目的是让我们在这些问题上共同努力。

由于我们都致力于训练高质量、大规模、多模态的模型，将想法和计算资源分开是不合理的。

因此，我们决定将所有资源和人员整合，组建一个联合团队来解决这个问题。

Hannah Fry：为什么叫 Gemini？

Jeff Dean：实际上是我命名的。Gemini 代表双胞胎，这个名字很好地体现了 DeepMind 和Google Brain 的结合，象征着两个团队共同致力于一个雄心勃勃的多模态项目。

这个名字还有多个含义，比如它有点像是雄心勃勃的太空计划的前奏，这也是我选择这个名字的原因之一。

门板上做研究的首席科学家：Jeff Dean解密谷歌和Gemini背后的故事

Transformer与多模态处理

Hannah Fry：我想要谈谈多模态的内容。在此之前，可以告诉我们一点关于 Transformer 的工作以及它的变革性影响吗？

Jeff Dean：当然可以。实际上，处理语言和许多其他领域的问题往往涉及序列问题。

例如，Gmail 的自动完成功能根据你输入的内容来预测下一个可能的词语，这类似于大型语言模型的训练过程。这样的模型被训练来逐字或逐词地预测文本的下一部分，就像是高级的自动补全功能。

这种序列预测方法在许多领域都很有用。在语言翻译中，模型可以根据输入的英文句子预测相应的法文句子。在医疗领域，它能够处理病人的症状和检测结果，预测可能的诊断结果。

此外，这种方法也适用于其他数据类型，如 DNA 序列。通过隐藏序列中的部分信息，模型被迫预测接下来会发生什么。这种方法不仅适用于语言翻译和医疗诊断，还可以扩展到其他领域。

在 Transformer 架构出现之前，递归模型才是成功的模型，它们依赖内部状态来处理序列数据。处理每个词时，模型会更新一次内部状态，然后再处理下一个词。这种方法需要对每个词进行逐步处理，导致运行速度较慢，因为每一步都依赖于前一步，存在序列依赖问题。

为了提高效率，Google Research 的研究人员提出了 Transformer 架构。与其逐词更新状态，不如一次性处理所有词，并利用所有先前的状态进行预测。

Transformer 基于注意力机制，能够关注序列中的重要部分。这使得它可以并行处理大量词语，大幅提升了效率和性能，相比传统递归模型，提升了 10 到 100 倍。

这就是进步如此大的原因。

Hannah Fry：也许我们还会从语言和序列中获得一种概念理解或抽象，这是否让你感到惊讶？

Jeff Dean：是的。当我们听到一个词时，我们不仅想到它的表面形式，还会联想到许多其他相关的事物。比如，“cow（牛）”会让我们想到牛奶、咖啡机、挤奶等。在词的表示中，方向性也很有意义。例如，“walk（走）”到“walked”的变化方向与“run（跑）”到“ran”的方向相同。这种表示不是我们故意设计的，而是训练过程中自然出现的结果。

Hannah Fry：真是太神奇了。但这只是语言方面的讨论。那么，多模态处理会如何改变呢？有什么不同？

Jeff Dean：多模态处理的关键在于如何将不同类型的输入数据（如图像和文字）转换为相同的高维表示。当我们看到一头牛时，这会在我们的大脑中激活类似的反应，不论是通过阅读“cow（牛）”这个词，还是看到牛的图片或视频。我们希望训练模型，使其能够将这些不同输入的联合意义和表示整合起来。这样，看到一段牛在田野中走动的视频，模型会触发与看到“cow（牛）”类似的内部反应。

Hannah Fry：所以，多模态处理并不是将语言部分和图像部分分开处理再结合？

Jeff Dean：正是这样。在早期模型中，虽然存在这些表示，但处理起来确实更复杂。

Hannah Fry：这是否使得多模态模型的初始设置更加困难？

Jeff Dean：是的，多模态模型的整合和训练比单一语言模型或图像模型复杂得多。然而，这样的模型可以带来很多好处，比如跨模态的迁移学习。看到牛的视觉信息可以帮助模型更好地理解语言。这样，无论是看到“cow（牛）”这个词还是牛的图像，模型都会有类似的内部触发反应。

多模态模型的风险与潜力

Hannah Fry：你认为这些多模态模型会改变我们的教育方式吗？

Jeff Dean：我认为 AI 在教育中的潜力巨大，但我们还在探索初期。

研究表明，一对一辅导比传统课堂效果更好，那么 AI 能否让每个人都享受到类似的一对一辅导呢？这个目标离我们已经不远了。

未来，像Gemini这样的模型可以帮助你理解课本中的内容，无论是文字、图片，还是视频。如果有不理解的地方，你可以提问，模型会帮助解释，还能评估你的回答，引导学习进度。

这种个性化学习体验能惠及全球，不仅限于英语，还将支持全球数百种语言。

Hannah Fry：你提到的多语言和普及工具的想法很好，但是否存在这样的风险：使用这些工具的人获益更多，而无法使用的人会面临更多困难？这是你担心的问题吗？

Jeff Dean：是的，我担心可能会出现一个两级系统。我们应该努力让这些技术普及，让它们的社会优势最大化，并且确保教育资源变得负担得起或免费。

Hannah Fry：现在计算方式似乎已经从确定性转向概率，公众是否需要接受模型可能会犯错的现实？这种问题是否能解决？

Jeff Dean：两者都有。一方面，我们可以通过技术进步，比如更长的上下文窗口来提升准确性。另一方面，公众需要明白模型是工具，不能完全依赖它们的每个输出。我们要教育人们保持适度怀疑，同时技术的进步会减少这种怀疑，但适度审查依然重要。

Hannah Fry：除了上下文窗口，还有其他方法可以减少虚假结果的风险吗？

Jeff Dean：是的，另一个方法是“思维链提示”（chain of thought prompting）。例如，对于数学问题，让模型逐步展示解题过程比直接问答案更有效，不仅输出更清晰，正确率也更高。即使在没有明确答案的问题上，给出更具体的提示也能获得更好的结果。

Hannah Fry：这些多模态模型会理解我们的个人特点和偏好吗？

Jeff Dean：是的，我们希望模型能更个性化，比如根据你是素食主义者推荐素食餐厅。虽然现在可能还做不到，但未来会有更多符合个人需求的功能，比如制作适合孩子的插图故事书。

我们希望模型能处理复杂的任务。例如，你可以用简单的指令让机器人完成家务。虽然现在的机器人还做不到这一点，但我们正接近实现这个目标，未来它们能在混乱的环境中完成许多有用的任务。

Hannah Fry：现在这些助手主要用于增强人类能力，特别是在医疗和教育领域。多模态模型是否能帮助我们更好地理解世界？雷峰网雷峰网(公众号：雷峰网)

Jeff Dean：是的，随着模型能力的提升，它们能处理更复杂的任务，比如椅子租赁或会议策划。模型可以像人一样提出问题以明确需求，并进行高层次的任务。此外，它们能在模拟器中测试不同设计方案，例如设计飞机。虽然我们不能准确预测这些能力何时实现，但模型在过去5到10年里取得了显著进展。未来，这些功能可能会更快实现，甚至能帮助设计特定的飞机。