黄学东：大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023

作者：郭思

2023/08/31 10:09

黄学东：大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023

编者按：2023 年 8月14日，第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由GAIR研究院、雷峰网(公众号：雷峰网)、世界科技出版社、科特勒咨询集团联合主办。

大会共开设10个主题论坛，聚焦大模型时代下的AIGC、Infra、生命科学、教育，SaaS、web3、跨境电商等领域的变革创新。此次大会是在大模型技术爆炸时代，首个出海的AI顶级论坛，也是中国人工智能影响力的一次跨境溢出。在第一天的“GPT时代的杰出贡献者”专场上，Zoom CTO黄学东以“无限的人类联系与生产力的前沿”为题发表了大会报告。

黄学东是美国国家工程院、美国艺术与科学院院士，IEEE/ACM Fellow。他指出，移动电话、互联网与 Facebook 分别用了 16 年、7 年与 4 年半才达到 1 个亿的用户量，但 ChatGPT 只用了 3 个月，由此可见其革命性。

如今，全球的大模型呈现「百模大战」的局面，这无疑反映了科技圈对 AI 的敏锐与激情。但在黄学东看来，AI 在工业界的落地应用应考虑「集成式 AI」的实践与可能。古语有云，「三个臭皮匠顶个诸葛亮」。

黄学东表示，这一思想在 AI 商业化落地中也有其用武之地。这也是黄学东离开其工作 30 年的老东家微软、转而加入 Zoom深耕人工智能应用的机会。现在大模型发展存在百花齐放的局面，即参与者往往过分高估自家成果，而没有面向外界进行合理的整合。例如，此前，很多公司内部的各项 AI 模型如语音、计算机视觉、翻译等功能都十分强大，但没有像 OpenAI 一样整合出一套统一的基础模型ChatGPT。作为一家应用型产品企业，Zoom 注重 AI 模型的集成与融通，用新一代联邦学习融合了 OpenAI、Anthropic、Meta 等等多家模型的功能接口，由此完成比原有模型更好更强大的用户落地服务。

在与潘毅院士的对话中，潘毅院士问及「未来人工智能将泛化出怎样的能力，是否可以拥有像人类军事家一样的指挥能力」，黄学东院士则认为，人们常常高估技术的短期效力，而低估其长期影响——瓦特在发明蒸汽机，麦克斯韦建立电磁理论时，都没有想到会对未来产生如此大的效应，今天大模型的发展也是如此，我们暂时只能看到短期影响，而大模型对于人类的影响可能会深远，而在那时候，一切皆有可能。“

以大模型为中心，多模态联合发展的技术趋势在未来两年将会成为现实，GPT的出现并非一个偶然事件，而是一个历史必然。在当下，我们都应该注重三个臭皮匠的联合融合能力，这样才能赢过更多的诸葛亮为人工智能应用落地做贡献。”黄学东院士答道。

以下为黄学东院士的现场演讲以及与潘毅院士的对话内容，雷峰网作了不改变原意的编辑及整理

01、黄学东演讲部分

接下来我跟大家分享一下我在微软 30 多年的一些工作经验和教训。首先给大家展示一张很有意思的图片，这张图（如下图）描述了过去千年来，人类社会的进步基本上是以技术来驱动。其中一个重要的里程碑就是印刷术的发明，因为在中世纪时期，教会掌控一切。德国古登堡发明金属活字印刷机，推动《圣经》的大规模印刷，人们对于《圣经》的理解不需要通过教会来解释。与此同时马丁路德发明了新教，这两件事基本上让欧洲从中世纪进入了现代文明。所以印刷术的发明极大地推动了人类生产力的解放。黄学东：大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023

此后，苏格兰人瓦特发明了蒸汽机，有了蒸汽动力以后，人们不再需要靠人工或者马夫来进行交通运输，解放了人类生产力，全球的 GDP 有了一个小小的进步。

1873年，另外一个苏格兰人麦克斯韦（Maxwell）建立电磁理论，再次推动了工业革命。后来,苏格兰人贝尔发明了电话，通讯行业有一个新的革命。而在今天，一个来自苏格兰爱丁堡大学的毕业生 Geoffrey Hinton推动了人工智能的再次进步。

所以在人类革命的过程中，除开德国人发明了金属活字印刷机，从电磁理论、蒸汽机到人工智能，还有电报和电话的发明，苏格兰人对世界革命作出了非常巨大的贡献。（当然还包括亚当斯密——另一个奠定了经济学的全球基础的苏格兰人）。

我有幸在苏格兰求学过一段时间，博士学位在苏格兰完成，这段分享也回敬我个人在苏格兰所受的教育。微软看到 GPT 4. 0 ，表现非常惊艳，就决定了做 Bing Chat。去年 11 月份，OpenAI 将 Chat GPT 放出来，实际上它是基于比较弱的GPT 3. 5系统。我在微软工作期间是Azure AI 的CTO，在过去五年做了很多事情，大力推动了人工智能的工业化落地，包括在业界实现第一个媲美人类的对话的语音识别系统，后来又做了可以媲美人类的机器翻译系统，还有推出达到人类水平的计算机视觉系统，这些都是一步步往前走的。不过值得一提的是，这些都是用一个具体的模型来解决某一个具体问题。

如果要让这个模型去做别的事儿，马上就不行了。而GPT的成功之处就在于，它在某一个领域可以做得很好，换一个领域也可以做同样的事情，所以尽管微软自己的人工智能取得了不错的成就，并且都已产业化变成了API，让大家可以访问，但还是没有到达 ChatGPT 出来就一炮打红的效果。GPT 一个模型可以干所有的事情，不仅仅如此，它只花了3个月就达到了1亿的月活用户，而互联网用了7 年，移动电话花了 16 年。GPT4.0 更牛。中国人很喜欢考试，隋朝就推出了科举考试，有几千年的考试文化基因，为了验证GPT 4. 0 的表现，我们可以让GPT去考试看一看。

这个图是美国律师证的考试，最右边那个表格后面有个平均成绩 68 分，这代表着一个人类考生在这个考试中能考68 平均分。法律考试其实很难，需要运用到知识推理以及各种常识来评判法律上的诸多问题。黄学东：大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023

GPT 4.0参加这个考试，大大超过了平均人类考生的水平，达到75.7的高分，不仅如此，GPT 4.0也可以参加医学考试，它能超过人类的水平。按照这个标准，如果 GPT 4.0参加高考，可能会把清华北大的学生都淘汰，这是一个人工智能发展史上的历史性的时刻。

下面这张表总结了整个 GPT4.0 产生过程的四个阶段，第一个阶段叫做 Pretraining，用到了现如今基本上能用到的所有数据。Pretraining的时候，大模型通过数据基本上看到了全互联的知识和信息。为什么人类做题做不过GPT？因为GPT记性好，而人的记性是有限的。然后再到算法层面，大语言模型这一点其实非常简单，IBM 70 年代就做了这大语言模型，但是他做的时候比较简单粗暴，只用了一个所谓的n-gram，就是让机器看过去 n 个字，猜下一个字是什么东西。

他为什么要做这件事情？因为语音识别歧义性很高。这个方法可以帮助提高语音识别的性能。所以今天的人工智能其实要归功于 IBM 的语音识别成果。

后来IBM 研究人员这些人把语音识别的技术拿去做机器翻译，把那些传统规则的方法基本上打得落花流水，一炮打红，再一次证明统计方法就是牛。所谓今天的大语音模型不过就是把机器翻译的技术用到预测未来应该讲什么话。这个解释很简单，人一听就明白，也就是将大家提出的问题用机器的翻译方法转变为想得到的答案（history to future）。

预训练大模型需要非常大的数据来进行训练。如今因为有整个网络的数据，所以模型的「大」根本不是问题。越大发现效率越高。当然钱和时间也烧得严重。这个做完以后，还需要一些更高质量的数据来微调语言模型，再进一步跟人类的价值对齐。比如模型产生了不同的结果，一个机器翻译系统翻译出 10 个不同的结果人们需要来对比一下哪个结果最好，最符合人们的预期需求。

通过这些步骤，我们就得到了GPT一个非常惊艳的结果，一个模型可以基本搞定你想做的任何事情，这是个很了不起的工程成就和研究突破。过去没有人觉得可以用一个很大的基础模型来做那么多事情。OpenAI 超越了微软自己的人工智能。在大模型出来之前，微软基本上是语音方面有一个产品，视觉方面有一个，机器翻译有一个，这些东西从单独的性价比来说都比Open AI做要好，但是微软内部没有搞出一个统一的模型能搞定所有东西，这也是GPT革命性突破之处。

现如今，GPT 4.0 还没有第二个可以替代的方案，但是就像人一样，人一骄傲就喜欢吹牛或者幻想。GPT 4.0 也有幻想的问题。比如我问「What is Azure Cognitive Services Z-code and holistic representation towards integrative Al?」（什么是Azure认知服务 Z-code？）他回答没有，一本正经胡说八道。

所以我们现在还不敢完全相信GPT。历史上很多类似的故事，有些人一旦做得很成功，变成神了，就没人敢挑战，这时候问题就会出现，GPT4.0 变成众人眼中的神，也出现幻象问题了。我今天所说的言论，大家也应该挑战我。但估计我讲的基本上都对，到现在为止潘主席还没有把我赶下台（笑）。接下来。我再简单介绍一下微软人工智能的历史。

1995年，微软视窗95在工业界是一个高光时刻，那时候很多小年轻还没出生，当时我们推出了 Speech API，是 Windows 95 的一部分，然后 2015 年，微软与时俱进推出了云服务API，当时项目名字叫牛津计划（Oxford Project）。从微软95的 SAPI 到Azure AI 的人工智能认知服务API，整整花了 20 年。我十分有幸，在微软不仅仅组织了微软视窗95 SAPI的推出，也组织了微软云Azure AI的推出。从 2015 年推出来到如今我离开微软，整个微软认知服务部门已经进入商业盈利状态。

所以各位如果想要找一个投资者说给你投钱，他说人工智能不一定会赚钱，你可以用微软的例子反驳，当然微软也做了 30 年才开始赚钱(笑)。接下来这张图总结了从 2018 年到 2023 年期间一些基础模型的状态，大家可以看到模型训练数据越大，参数越大性能往往也会越好。黄学东：大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023

在2019年左右，大家对GPT 1. 0 并不感冒。GPT 1.0 到 2.0，模型变大了很多，性能也提升非常多。但是还是没多少人看得起GPT 2.0。此后从 GPT 2. 0 到 3. 5，模型继续变大，GPT 3.5 确实可以做很多事情，但要真正跟其他的 AI 来PK，单独性能基本上 PK不过。比如翻译性能差不多，但是微软在线服务比GPT便宜 10 倍。后面的 GPT 4.0，参数规模越来越大，越来越贵，性能越来越好。

所以未来两年以内的技术趋势肯定是以大模型为中心，多模态联合工作。下面这个视频我给大家简单介绍一下微软AI现在可以达到的效果，画面角落有一个数字人，神态和讲话都和我一模一样，这是用微软现有的 API 做出来的。这个视频是一段从网上抓下来的视频，某一个游客的越野车开到非洲的森林里面，碰到了河马，今天自动驾驶汽车开到那肯定全遭殃，因为没有一个通用的计算机视觉模型。黄学东：大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023

所有这一切全是人工智能自动生成，现在的AI已经可以做到，将任何一段视频放进来，机器可以将视频里面发生的事情总结下来，并用数字人的声音完全描述刚刚发生的事情。现在我刚刚离开微软，在Zoom上了将近一个半月班，大家问我为什么要离开微软去Zoom？我觉得 Zoom 是这个世界上最好的能连接人们的视频通讯公司。

来新加坡之前，福布斯杂志对世界上所有的视频会议应用解决方案从 1 到 5分进行了评比， Zoom得分 4. 9 分。相比之下，其它的软件拿了3点多分，从这可以看出 Zoom 今天的江湖地位。Zoom是一个应用公司。

Zoom的AI提出的就是「三个臭皮匠」理论，来自中国古语「三个臭皮匠，顶个诸葛亮」。其实不仅仅我这样想，波音公司在生产 787 的时候也采用了同样的方法，一个庞大的波音787 也是通过各个国家的零部件拼凑而来。今天Zoom整合了 GPT 4、Anthropic、Google和Meta等大语言模型。我们就要把这些众多的「臭皮匠」拿过来，整合起来变成 Zoom 的 AI 模型，解决我们的实际问题。这是我们正在做的工作。未来大家很快能看到一个不仅仅是4. 9 分的Zoom,有可能是一个超越 5. 0分的Zoom，谢谢大家。，

2、潘毅对话黄学东

潘毅：很高兴跟老同学做对话。这个我们首先来聊一下黄院士最近的工作。黄院士，您刚刚所说把三个臭皮匠凑成一个诸葛亮，那么你认为这个理论未来是否是一个重要的发展趋势？

黄学东：为什么美国联邦政府还算比较有效率？它最大的好处是有一个纠错机型。我们不能把所有的鸡蛋放在一个篮子里面，放在一个篮子里很危险，在今天，尽管你想鸡蛋放到一个篮子也放不下，因为GPT 4. 0 虽然现在是业界最强大的语言模型，但实际上它去做一个真正落地，它还是缺了一条腿。在这样一个情况下，大模型公司百模大战的现象当然令人高兴，但我们其实也不需要百模，我们只需要把四五个大语言模型拿过来联邦整合，每一个人有自己的一个应用场景，把臭皮匠捏起来，这样的效果和成本肯定最好。Federated learning这是一个老的学术概念，但是Federated AI 2. 0，这是 Zoom 正在推的新概念。

据我所知，现在业界基本上还没有人能把 Anthropic 、llama 2 和 GPT 4. 0 揉合在一起，这样结合的模型能比GPT价格便宜，性能比所有模型都要好，因为他们都是臭皮匠，合在一起肯定超过诸葛亮。这也是我为什么要离开微软来到 Zoom 的主要原因。Zoom做AI，不是为了写诗，也不是要去写代码，Zoom有具体的应用场景。（顺带提一句微软的 Codex Git Hub 做的非常好。在座的程序员要小心，再过几年GPT 5 出来的时候，程序会写得更好。）

潘毅：微软很强大，二十几万人，但是在中国和新加坡，还有很多很小的企业，他们没有足够的资金和GPU 。这些小公司怎么做到既考虑到自己的利益又能跟 GPT 配合起来？这方面，你有什么建议？

黄学东：所有的公司和学校都可以借鉴三个「臭皮匠」理论，因为小公司有很多模型，其中最好的还是能把这个大模型通过「臭皮匠」模式整合起来，再利用自己的数据，做成一个「诸葛亮」，就像zoom一样。我们要知道GPT的出现不是偶然现象，而是历史的必然，我们要好好把握这个机会。

潘毅：现在人工智能这么普及， ChatGPT 这么广泛，怎么解决数据的隐私问题？

黄学东：这个问题问的太好了，这也是 Zoom 最近碰到一个事情。Zoom 现在已经宣布，不会从任何会议（包括音频、视频和对话等形式）里面拿取数据去训练人工智能模型。用户在使用Zoom 的时候，可以绝对放心，所有的数据是安全的。Zoom 在做两件事情，保护数据隐私，加快联邦人工智能2.0落地，这是公司最重要的战略决策。

潘毅：假如把人类顶尖军事家的思想都放到 AI 里面去，今后 AI 能不能超越人类的指挥的能力？

黄学东：我们很难预测AI 发展速度有多快，人们通常会高估短期内技术能做什么事情，但是低估了技术发展 10 年、 20 年后对社会的贡献。借用我演讲的第一张图来回答，以 1000 年的视野来看，社会的进步曲线呈指数级上升趋势，在德国古登堡发明金属活字印刷机的时，社会发展还比较缓慢，而在蒸汽机发明之时，人类文明有了一个很大的提高。但在今天，人工智能是一个绝对的加速器，其所带来的社会进步会超越了大部分人的想象。瓦特绝对没有想象蒸汽机发明对社会进步的贡献。麦克斯威尔也绝对没有想象电磁理论可以推动社会如此大的进步，包括这个贝尔发明的电话对社会的沟通也起到了他想象不到的巨大作用。人工智能现在只是一个非常非常早期的阶段，人工智能加上基因工程技术加持之下，我们每个人都可以变成更好的自我，不仅活得长、活得幸福、活得快乐，而且可以心想事成，整个社会也会有光明的前景。

潘毅：接下来，我想提一个私人的问题，最近我在元宇宙方面首次提出来把生命带入元宇宙，也就是把神经的链接数字化，真正体现人的永生。因为现在数字细胞已经产生了，那么你对于怎么体现这个数字人「神」态的问题以及对于元宇宙的发展有什么想法？

黄学东：我觉得其实现在 AI 已经可以跟大家开玩笑，也会在特定情形下表现得害羞。所以我觉得情感计算这件事情，在我们可预见的 10 年之内肯定会发生。