GAIR 大咖说：大模型改变世界，从一场「Chat」革新开始

大模型 MaaS Chat

作者：黄楠

2023/08/08 18:29

人工智能底层思维的突破，关键在于对旧有逻辑和模式的一次超越。

囿于技术的局限，上一代 AI 商业落地只能聚焦于定制化的“点到点”服务，AI 生产力的释放有限，在算法和算力上卷无可卷的公司们，面临的是硬件成本与技术创新的边际效用递减。

而在 ChatGPT、GPT-4 等为代表掀起的浪潮中，大模型解决多项任务的通用表现，有效控制成本、提高收益，让人们看到了 AI 大规模落地的可行性，愈加彰显通用人工智能（AGI）的潜力。智能生产力得以释放，人类将进入到一个全新 AI 时代，就像工业革命一样，大模型会被各行各业广泛应用，带来生产力的巨大提升，并深刻改变我们的生活方式。

无论哪个行业、什么领域，大模型都是最火的话题，全新的起跑线上，大模型拉开 MaaS 时代序幕，任何人都想做点什么、也都可以做点什么。

为了汇聚全球顶级智慧，率先窥见 GPT 的未来发展图景，雷峰网联合新加坡 GAIR 研究院、世界科学出版社、科特勒咨询集团等机构，将于8月14日-15日在新加坡乌节大酒店，正式举办第七届 GAIR 全球人工智能与机器人大会。

近日，雷峰网同黄学东、周伯文、何晓冬三位将出席 GAIR 2023 的大咖代表，围绕大模型新范式下的技术革新与落地进行了深度对话，经过与他们的讨论，我们更清晰地看见大模型所撼动的竞争格局变换、以及持续迭代的市场脉络。

黄学东，计算机领域首位中国大陆大学培养出来的美国双院院士，现任 Zoom CTO，曾任微软云与人工智能部首席 AI 技术官。

周伯文，清华大学电子工程系长聘教授、清华大学惠妍讲席教授。原 IBM Research 美国总部人工智能基础研究院院长，回国后曾任京东集团高级副总裁、集团技术委员会主席等职位。

何晓冬，京东集团副总裁、大模型负责人。由何晓冬带队完成的“Bottom-up and top-down attention”注意力机制，用于跨模态的语言和图像信息在语义层次的对齐研究。

GAIR 大咖说：大模型改变世界，从一场「Chat」革新开始

从左至右依次为：黄学东、周伯文、何晓冬

以人为标杆的科技跃进中，我们期待大模型带来 AI 普惠，缩窄“智能”时代的技术鸿沟。雷峰网总结了三位大咖代表对于大模型相关问题的主要观点，分享如下：

一场大模型的起跑

以 ChatGPT 为起点，大模型技术研发和应用探索进入了新的阶段。据不完全统计，当前国内所发布的大模型产品已经超过 80 个，对应不同行业、不同应用场景，各个大厂和研究机构纷纷加入资源竞赛的大模型游戏，“百模大战”正如火如荼地进行。

雷峰网：去年 11 月，ChatGPT 在各行各业引起震动，谈谈各自对其的感受。

黄学东：OpenAI 所取得的历史性突破，是真正将 “Chat”这件事给做成了。过去，陆奇在微软的时候就曾强调了“Chat”的重要性，并提出了“Chat as service”概念，但受限于没有足够的突破性技术，因此也无法支持项目的落地。

周伯文：2002 年，诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》一书中将人的思考模式划分为两种：系统1和系统2。“系统1”是快思考、直觉判断；“系统2”指慢思考，需要完成大量的推理和计算。

人们过去认为 AI 更适合做“系统1”的工作，比如人脸识别、质检等。但我坚持认为，AI 的价值应在于“系统2”，即帮助人类更好地完成复杂的逻辑推理任务。

ChatGPT 的出现验证了 AI 在“系统2”层面的可行性，它意味着让 AI 去发现新知识，借助新知识帮助人类设计出更好的 AI，一个创造性飞轮就出现了。

何晓冬：在人工智能领域，形态创新并不重要，基础形态既定，如人机对话、文生图、文生视频等这些基础形态大家很早就畅想过，问题在于效果达不到，有一天效果达到了、才是一个大的飞跃。比如基于人机对话之上，可以做导购、推荐、营销、客服等衍生形态。但如果基础形态效果不到位，衍生形态更加不到位。

ChatGPT 也一样，人机对话这件事并不新鲜，大家之所以对 ChatGPT 觉得惊艳，它的效果是有目共睹的。

雷峰网：追溯大模型的源头，离不开论文“Attention is All You Need”和 Transformer，它具体有哪些创新之处？

周伯文：Transformer 的核心亮点，是自注意力机制和多头机制。2017 年 6 月，谷歌大脑团队在“Attention is All You Need”中引入了自注意力机制和 Transformer 的概念，解决了模型长距离记忆的问题。OpenAI 受这篇论文影响颇深，在其出现第二天便立刻转向 Transformer 架构。

GPT 与 BERT 有着很大的不同：BERT 采用了既使用了从左到右的信息，也使用了从右到左的信息，即用未来信息去帮助模型学习如何表征，但 GPT 坚持的是基于过去的信息预测下一个词是什么，用更多数据对模型进行更充分的训练时，AGI 的可能性出现了。

可以说我们今天所看到的模型中有个“T”时，它大概率代表了 Transformer 。

何晓冬：现阶段虽然语言模态的飞跃实现了，但视觉还没有完全起来。以一个模态带动各种模态涌现是目前大家都在探索的方向。许多人拿“视觉+语言”来做，一方面是因为这部分数据比较多，另一方面则是因为视觉和语言最重要。因此，如果这个方向能成功，最终不仅是视觉和语言，还能提供很多洞察——怎样做跨模态、多模态的涌现。

这个过程中，会不会用 Transformer 架构也是一个未知数，不一定用 Transformer，但也可能跟 Transformer 相关。只是现在还没看到，需要等待，但基础性工作已经在探索了。

雷峰网：如何看待 GPT 带来了以自然语言为基础的人同机器的交互方式？

何晓冬：GPT-4 相比 GPT-3，其最大的创新在于对话，还不是在多模态层次。

GPT-4 在语言模型上、在知识上做得更深了。有人对比过，例如面对同样的问题，GPT-4 的正确率比 GPT-3.5 要好很多，GPT-3 的效果则差得更远，因为 GPT-3 并不具备对话能力，只有生成，对问题各方面的感知、意图理解等做得并不好。现在 GPT-4 已经可以直接询问多个问题，且通过多轮对话、它得以持续记住过去的历史。

周伯文：AI 的本质就是与人类的协同和交互，它从交互中不断学习，进而协同人类更好的解决问题。

生成式 AI 大爆发之后，通过与人协同交互进行学习的 AI 会越来越强。AI 更好地发现新知识，新知识继而设计出更好的 AI 系统，形成一个良性循环，这种相互促进的关系要求 AI 和人类的协同方式必须转变。

此前我也提出了“3+1”研究方向，即以可信赖AI为研究基底和长期目标，以多模态表征交互、人机协同演绎、环境协同演化为研究着力点，核心在于人机的协同共创，实现人类帮助 AI 创新、AI 帮助人类创新的目标。

追求创新，而非复制方法论

2014 年纳德拉成为新一任微软 CEO 后，立即提出了“移动为先，云为先”（Mobile First，Cloud First）的战略，微软将业务重心转向企业服务市场，集中所有力量向云端转型，这为后续微软云接入 ChatGPT 打下了根基。

2018 年，云智一体的融合在微软内部进一步加深，黄学东、Yu-Ting Kuo 等资深副总裁级别的科学家以及相关团队，从沈向洋旗下调任到微软云体系。不久后，这支由 Joseph Sirosh 带领的小分队也重新被收编至微软云体系，云和 AI 进一步融合，微软云更名微软云与人工智能事业部，在组织上真正实现了云与智能的一体化。

此外后，微软在云的销售业绩、AI 商业影响力等各方面均呈现逐年上涨态势。2019 年微软以 10 亿美元投资 OpenAI 后，Azure 也成为了 OpenAI 的独家云服务商。

雷峰网：为什么这件事发生在了 OpneAI？跟微软给了 OpenAI 一大笔投资有关吗？

黄学东：2015 年左右我还在 Bing 期间，做了一个名为 Xcode 的超级大模型，但由于当时没有 GPU，Deep Learning 也还不够 deep，即便 Xcode 占用了 Bing 80% 的计算资源仍没有跑出来。这证明大模型没有 GPU 根本玩不转。

OpenAI 如今最显著的特征就是“大”，太大便不好处理，一般人把握不住。这也是 OpenAI 和微软云能取得瞩目成功的原因。

Azure 云平台是 OpenAI 的独家云供应，虽然最大的成就与荣誉应该给 OpenAI，但 Azure AI 是 Harry 和我分别推动孵化与负责产品上市的，直至今天 Azure AI 是我的团队做出来的，我很自豪。更自豪的是，Azure AI 今年开始赚钱了，而去年这个项目还是亏钱的状态。可以说，OpenAI 成功背后的确与微软给予的巨额资金支持有关。

与此同时我们也更要看到，OpenAI 里面的人有理想，工程化能力十分强大，这是非常重要的因素。

何晓冬：2016 年，我和团队推出了一个名为 CaptionBot 的 AI 产品，发布后仅一星期用户量就突破百万。当时我们走的过程跟 ChatGPT 特别像：先有篇论文发表，紧接着做一个公众可用的产品，把它发布出来。

论文往往是在一个有局限的学术数据里，通用性存在不足，如果希望它走得更远，最好的办法就是以一个新形态、打造一个产品，对全世界通用。这产品可能很粗糙，但只要大家觉得有意思、有用，很快就能形成爆品。通过用户使用的数据可以用于进一步提升算法、模型，随之进入第三个阶段、即严肃的产品使用阶段。

这“三步走”我们在七年前走过，但当初走得有点慢，最终没能达到一定的服务规模，是今天我感觉有点遗憾的地方。现在微软快多了，去年底 ChatGPT 出来，仅半年时间 GPT 就全面进入微软各大核心产品线。

这次 OpenAI 展现了一个新趋势，即是产品和技术研究、技术创新是不分家的。

周伯文：OpenAI 的成功由多方面因素共同成就，有 Ilya Sutskever 做技术判断、Greg Brockman 做功能、Sam Altman来整合资源，包括 AI 对伦理、社会影响等研究他们都做了。以数据维度来看，为什么 OpenAI 选择 Github 程序语言去训练思维链？因为程序语言的语义、语法极其简单，执行过程的逻辑严谨。这表现了 OpenAI 的一个特质和优势：不会盲目出击。

此外，OpenAI 在商业打法上也具有代表性，包括生态建立、宣布新摩尔定律、API 降价 90% 等等，既引发广泛关注，又能扩展资本和用户对大模型商业化应用的想象空间，衍生出几近无限的应用场景。

从场景中来，到产品里去

一项技术创新带来的变革要深入各行各业，离不开其底层的通用性、能实现自动化生产的能力，而现实的情况是，基础大模型在满足细分场景下的特定需求上正显示出“牛刀小用”的短板，面临着准确率相对较低、能力表现不匹配等情况。

业界对大模型的需求井喷，该如何应用、从哪些角度来落地，是 AI 接下来发展的重要方向。

雷峰网(公众号：雷峰网)：一个客观事实是，即使在语言大模型上，中国多个大模型产品的智能水平跟国外也仍有一定差距。

黄学东：早晚都会做出来，但需要时间，成败都在细节里面。

何晓冬：ChatGPT 确实很厉害，但其厉害之处在于它的广度上，而非深度。例如金融领域项目无法直接用 ChatGPT 来解决问题，需要与行业 Know-How 相结合，并经过实战磨练。

今天的 ChatGPT 已经不再考虑图灵测试，它甚至会告诉你：“我是个语言模型，你有什么要问的？”它不需要欺骗人，因为它知道即便我是一个机器、你也会跟我对话，这就是技术进步的一个重要体现，也是其开始变成生产力的一个重要体现。

周伯文：对任何一个创业团队而言，在具备大模型的通用技术后、能否培养出更专业的能力十分重要。目前 GPT 的突破主要在通用性，但对特定行业和领域的价值还有待开发。比如购物场景中，我在京东期间就看到了用 AI 做消费者需求和产品设计动态匹配的巨大商机，到 2021 年我决定离职创业，做垂直行业的通用大语言模型，将消费者所有行为从非特定场景中 cover 进来。

我们需要有一个具备专业能力的大模型，让消费者更容易找到、也更愿意购买所需的商品，这可能会彻底改变人们现有的购物路径。

雷峰网：从产品或场景应用的角度来看，大模型落地的难度在哪里？

周伯文：以消费场景为例，不同购物行为的符号背后，是消费者复杂的情感、体验以及对产品的选择逻辑，这正是企业需要的宝贵信息。

比如消费者需要很多专业的词汇才能找到所需的商品；另一侧的商家却不懂消费者的真实需求，只能通过电商交易触达消费者、或是求助调研机构。可以看到，需求侧和供给侧其实是有很强的对应关系。但过去企划、营销、销售的从业者都只搞明白了各自的环节，有大模型之后，AI 能将所有业务链条打通。

核心的难题在于，我们如何将这些信息全部高保真、压缩到一个通用模型中，并基于该大模型赋能企业生产全周期。如此一来，企业能更高效地发现机会，更具创意地设计生产，更有效地营销推广、触达用户并完成转化。

何晓冬：计算机作为典型的应用科学，很多重要的课题是在应用中被反向牵引，因为大量的应用需求，从而促生更多变量和经验体系的发展。令大模型的研究离落地更近，对科学而言是一种促进、而非限制。

以多模态大模型为例来讨论落地，在模型的可控性上、特别是对细节的理解和可控，这一块是我认为比较重要的。比如 Midjourney 画图，虽然比自己画的要好，可能整体表现很好，但在刻画手指等细节上还不够好，往往需要生成很多张、从当中挑出一张，还是有这个过程。

雷峰网：如何看待大模型接下来的发展趋势？

黄学东：在我看来，语音交互会是人类的未来。

从历史维度来讲，IBM 是做语音最早的公司，自 50 年代开始做机器翻译，70 年代用语言模型进行语音研究，但由于模型不够大，识读能力有限，后来 IBM 内部将做语音的方法应用至机器翻译、改写了历史。所谓机器翻译，就是将问题翻译成结果、将过去已有事实转变为对未来的预测（history to future）。

GPT 是语音交互，我对 Siri 也有期待，以及亚马逊做的智能音箱、其实也非常有远见，可惜亚马逊对 AI 的认识不够。微软小冰一开始也应该做成大模型，但这需要算力、产品、工程化等能力，很讲究工艺。

正如今天大家都知道 GPT 的底层是 Transformer，但最后不一定每家都能把东西做出来。

周伯文：未来，哪些定义明确、高价值的工作流程将由专业 AI 模型完成。通用大模型在某一场景成功后再提升其基础能力就很容易，从垂直场景切入，过去我们所积累的算力、数据、算法方面也能更充分地发挥作用。

因此我们认为，大模型在底层框架上必须有通用大模型的基础能力，有科学的方法评估，同时还需要专业的训练。

何晓冬：当我们说通用人工智能时，往往是以人为标杆的，我们希望所有的产品为人而服务，在未来所有的 AGI 蓝图里，人是一个核心存在，而不是被边缘化，如果人被边缘化，那么这个世界对人类没意义。

这个过程中，多模态既是一个路径，也是一个要求。一个路径是指，人被视为这个世界上最聪明的智能体，如果想打造一个像人一样聪明的 AGI ，就需要向人学习，以多模态方式来进行知识融合、知识获取。另一方面，多模态可能也是个要求，未来人跟机器打交道必然是通过语言、视觉、语音跟机器沟通的，所以机器也必须能够理解相应的信息，否则就无法服务人。

今天，多模态大模型的 ChatGPT 时刻还没到来，可能还需要点时间，或者需要更多的数据、创新的算法，暂时还没有爆发。

（雷峰网雷峰网）