薛定谔的 AI 大模型：箱子暂不能打开，但钱还要继续「烧」

大模型 AI 算力落地

2022/08/16 18:28

电风扇与空皂盒的故事，大家都听过吧？

传闻某国际知名快消大厂曾引进一条香皂包装生产线，结果发现这条生产线在包装香皂的过程中出现了一个缺陷，就是常常有盒子没装入香皂。总不能把空盒子卖给顾客，于是，他们就请了一个学自动化的博士后来设计分拣空香皂盒的方案。雷峰网

该博士后立即召集了一个十几人的技术团队，综合采用机械、自动化、微电子、X射线探测等等技术，花费 90 万，最后成功地研究出了一个方案，就是在生产线的两旁安装两个集成探测器，每当检测到有空香皂盒经过，就会驱动一只机械手将空皂盒推走。

可以说，这是一次技术落地解决实际产业问题的重要突破。

巧合的是，与此同时，中国南方某乡镇企业也购买了同样的生产线。老板发现这个问题后，十分火大，叫来工厂的一名小工说：「你来想想办法解决这个问题。」迫于压力，小工很快就想出了一个妙计：他花 190 元买了一台大功率电风扇放在香皂包装生产线的旁边，产线一转就开始猛吹，空的香皂盒一出现，就被吹走了。雷峰网(公众号：雷峰网)

小工一人，凭借机智的创意，迅速解决了这个问题，实现了业界常吹说的一个大目标：降本增效。

科技革新，智能在产业中的涵义无非就是这两个口号：一是省钱，二是增效。然而，在近几年的 AI 发展中，却出现了这样一个貌似违背资本规律的「怪异」现象：不管是学术界还是工业界，不管是大公司还是小公司，不管是私企还是国家资助的研究院，都在花大价钱「炼」大模型。

导致圈内有两种声音：一种声音说，大模型已在多种任务基准上展现出强大的性能与潜力，未来一定是人工智能的发展方向，此时的投入是为将来不错过时代大机遇做准备，投入成百上千万（或更多）训练是值得的。换言之，抢占大模型高地是主要矛盾，高成本投入是次要矛盾。

另一种声音则说，在 AI 技术落地的实际过程中，当前对大模型的全面吹捧不仅抢夺了小模型与其他 AI 方向的研究资源，而且由于投入成本高，在解决实际的产业问题中性价比低，也无法在数字化转型的大背景中造福更多的中小企业。

也就是说，「经济可不可用」与「能力强不强大」构成了 AI 算法解决实际问题中的两大焦点。如今，业界已达成一个共识：在未来，AI 将成为赋能各行各业的「电力」。那么，从 AI 大规模落地的维度看，大模型与小模型哪一个更好？业界真的想好了吗？雷峰网

1、「大」模型到来

近年来，国内外的科技大厂在对外宣传 AI 研发实力的声音中，总有一个高频的词汇出现：大模型（Big Model）。

这场竞争开始于国外的科技巨头。2018 年谷歌推出大规模预训练语言模型 BERT 拉开大模型的帷幕后，OpenAI相继于 2019 年与 2020 年推出 GPT-2、GPT-3；2021 年，谷歌又不甘落后，推出在参数量上压倒前者的 Switch Transformer……

所谓模型的大小，主要的衡量指标就是模型参数量的规模。模型的「大」，指的就是庞大的参数量。

例如，BERT 的参数量在2018年首次达到 3 亿参数量，在机器阅读理解顶级水平测试 SQuAD1.1 的两个衡量指标上全面超越人类，并在 11 种不同的 NLP 测试中达到 SOTA 表现，包括将 GLUE 基准推高至80.4% (绝对改进7.6%)，MultiNLI准确度达到86.7% (绝对改进5.6%)，展示出了参数量增大对 AI 算法性能提升的威力。雷峰网

OpenAI 先后推出的 GPT-2 参数量达到 15 亿，GPT-3 的参数量首次突破千亿，达到 1750 亿。而谷歌在 2021 年 1 月发布的 Switch Transformer，更是首次达到万亿，参数量为 1.6 万亿。

面对这如火如荼的局面，国内大厂、甚至政府资助成立的研究机构也纷纷不甘落后，先后推出他们在炼大模型上的成果：2021年4月，阿里达摩院发布中文预训练语言模型「PLUG」，参数量 270 亿；4月，华为与鹏城实验室联合发布「盘古α」，参数量 2000 亿；6月，北京智源人工智能研究院发布「悟道2.0」，参数量 1.75 万亿；9月，百度发布中英双语模型 PLATO-X，参数量百亿。

到去年 10 月，阿里达摩院发布「M6-10T」，参数量已经达到 10 万亿，是中国目前规模最大的 AI 大模型。虽然比不上阿里，但百度在追求模型的参数量上也不甘落后，联合鹏城实验室发布了「百度·文心」，参数量 2600 亿，比 PLATO-X 大了 10 倍。

腾讯也称他们研发了大模型「派大星」，但参数量级不明。除了普遍受大家关注的 AI 研发大厂，国内的大模型研发主力中还包括了算力提供商浪潮，他们在去年 10 月发布了大模型「源1.0」，参数量达到 2457 亿。总而言之，2021 年可以称为中国的「大模型元年」。

到今年，大模型继续火热。最开始，大模型是集中在计算语言领域，但如今也已逐渐拓展到视觉、决策，应用甚至覆盖蛋白质预测、航天等等重大科学问题，谷歌、Meta、百度等等大厂都有相应的成果。一时间，参数量低于 1 亿的 AI 模型已经没有声量。

毫无疑问，无论是性能超越还是任务拓展，AI 大模型都展示出了内在的潜力，给学术界与工业界带来无限的想象空间。

有研究实验表明，数据量与参数量的增大能够有效提升模型解决问题的精确度。以谷歌2021年发布的视觉迁移模型 Big Transfer 为例，分别使用 1000 个类别的 128 万张图片和 18291 个类别的 3 亿张图片两个数据集进行训练，模型的精度能够从 77% 提升到 79%。

再拿今年谷歌推出的 5400 亿参数单向语言模型 PaLM 来说，它基于谷歌今年发布的新一代 AI 框架 Pathways，不仅在微调方面超越了 1750 亿参数的 GPT-3，而且推理能力大幅提升，在 7 个算术应用题/常识推理数据集上，有 4 个超越了当前的 SOTA（如下表），而且只用了 8 个样本（即采集的数据）。

薛定谔的 AI 大模型：箱子暂不能打开，但钱还要继续「烧」

视觉即感知，语言即智能，但两者在「因果推理」的攻克上一直没有太耀眼的突破，而因果推理这一项能力对 AI 系统的进化又十分重要。可以这样理解：小孩子能够根据 1+1=2 来得出 100+100=200 的简单能力，对机器系统来说却十分复杂，就是因为系统缺少因果推理的想象力。如果机器连合理的推理能力/想象力都没有，那么我们距离研发出科幻电影里智能超群的机器人将遥不可及。而大模型的出现，使通用人工智能（AGI）的实现成为可能。

所以，我们可以看到，大公司宣传一个大模型，往往强调它能够同时解决多项任务，在多个任务基准上达到 SOTA（当前最高水平）。比如，谷歌今年推出的 5400 亿参数语言大模型 PaLM 可以解读笑话，还可以通过emoji表情猜电影，智源推出的「悟道2.0」可以孵化出琴棋书画、样样精通的虚拟学生华智冰。

简而言之，大模型往往具备一个特征：多才多艺，身兼多职。这对解决复杂场景的挑战至关重要。

「小模型的参数量少，局限于单一任务；而大模型（的优势）就像是，人在学习打乒乓球时所学到的知识对打羽毛球是有辅助效应的。大模型的任务与任务之间有泛化性。面对新任务时，小模型可能需要几千个、几万个训练数据，而大模型需要只可能一个训练数据，甚至完全不需要训练数据。」西湖大学深度学习实验室的负责人蓝振忠向雷峰网-AI 科技评论解释。

以对话系统的研究为例。对话系统主要分为两大类：一类是任务型对话，用户下达任务、AI 系统自动执行，快速订机票、买电影票等等；一类是开放型对话，如电影《她》（Her）中虚构的机器人，能够与人类交流任何话题，甚至让用户感觉到情感上的陪伴。这其中，后者的能力等级显然更高，研发难度也更大。前面迷雾重重，你不清楚将会面临怎样的挑战，这时，大模型本身具备的丰富「能力包」和在新任务上超常的出色表现，战斗力显然要优于小模型。

蓝振忠指出，目前学术界与工业界的 AI 研究者们对于大模型的许多特性还未完全掌握。举个例子，从上一代的 GPT-3 到这一代的 instruct GPT，我们可以看到它有一个质的飞跃，同样是大模型，但是 instruct GPT 在接受命令时效果却好很多，这是他们在研究大模型时才能体验到的。

参数量越来越大，AI 模型的性能究竟会发生什么变化？这是一个需要深入探索的科学问题，因此，继续投入研究大模型是有必要的。

2、理想很远，现实很近

人类要进步，就总要有人勇往无人之境。

然而，在现实世界中，并不是每个人都能负担得起星辰大海的理想，更多的人只想以多快好省的方式解决眼前所面临的问题。归根结底，AI 算法要落地，就必须考虑技术研发的投入产出比。这时，大模型的弊端就开始暴露。

一个不容忽视的残酷事实是：大模型的计算慢，训练成本极高。

通常来说，模型的参数量越大，机器跑得越慢，计算成本也越高。据外媒披露，OpenAI 在训练包含 1750亿参数的 GPT-3 时花了接近 500 万美元（人民币约 3500 万）。谷歌在训练包含 5400 亿参数的 PaLM 时用了 6144 块 TPU，据热心网友统计，普通人训练一个 PaLM 的成本在900至1700万美元之间。这还仅仅是算力的费用。

国内各大厂没有披露过它们训练大模型的经济成本，但根据现有全球共享的计算方式与资源来看，计算支出应当相差不远。GPT-3与PaLM都还仅是千亿级数量，而参数量达到万亿级以上的大模型，其成本投入想必惊人。如果一家大厂对研发足够阔绰，大模型的投入成本便不是一个「拦路虎」，但在当前资本对 AI 越发谨慎之际，一些创业公司与政府投资的研究机构还大力下注大模型，这就显得有些魔幻了。

大模型对算力的高要求，使企业间的技术实力竞争变成了金钱的竞争。从长远来看，一旦算法成为高消费商品，就注定最前沿的 AI 只能为少数人享有，从而造成围城圈地的垄断局面。换言之，即使有一天，通用人工智能真的出现，也无法造福所有用户。

同时，在这一赛道上，小企业的创新力将被挤压。要炼成大模型，小企业要么与大厂合作、站在巨人的肩膀上（但这也并不是每一家小厂都能做到的事情），要么狂拉投资、备好金库（但在资本的寒冬中，这也不切实际）。

算完投入，再算产出。遗憾的是，目前还没有一家在炼大模型的企业披露过大模型创造了多大的经济效益。不过，从公开信息中可以得知，这些大模型已经开始陆陆续续落地解决问题，如阿里达摩院在发布万亿参数模型 M6 后，称其图像生成能力已经可以辅助汽车设计师进行车型设计，借用 M6 的文案生成能力所创作的文案，也已经在手机淘宝、支付宝和阿里小蜜上得到使用。

对于正处于探索起步阶段的大模型来说，强调短期回报未免苛刻。然而，我们仍然要回答这样一个问题：无论是企业界还是学术界，在下注大模型时，是为了不错过一个可能在未来占据主导地位的技术方向，还是因为其能更好地解决眼前已知的问题？前者有浓厚的学术探索色彩，而后者则是产业前锋应用 AI 技术落地解决问题的群体所真正关心的问题。

大模型由谷歌发布 BERT 拉开序幕起，是一种混沌天开的思路：在 BERT 实验之前，谷歌大脑的技术团队并不是围绕一个已知的现实问题来开发模型，也没有想到这个当时参数量最大（ 3 亿）的 AI 模型能带来效果的大幅提升。同理，OpenAI 在模仿谷歌开发 GPT-2 与 GPT-3 时，也没有一个特定的任务，而是成功开发出来后，大家在 GPT-3 上测任务效果，发现各项指标都有所提升，才被惊艳到。如今的 GPT-3 就像一个平台，已被用户搭载了成千上万个应用。

但随着时间的推移，大模型的发展还是不可避免地回到了解决某一个实际问题的初衷，如 Meta 今年发布的蛋白质预测大模型 ESMFold，百度不久前发布的航天大模型。如果说一开始的 GPT-3 等大模型主要是想探索参数量增大会对算法的性能改变带来什么影响，是纯粹的「未知指导未知」，那么现在的大模型研究则开始体现出一个较为清晰的目标：就是要解决现实问题，创业价值。

这时，大模型的发展指导方，就从研究者的意志转换为了用户的需求。在一些十分细小的需求（如车牌识别）中，大模型也能解决问题，但由于其昂贵的训练成本，未免有点「杀猪焉用牛刀」的意味，且性能不一定出色。或者说，若几个点的精度提升是靠上千万的成本换来的，性价比就显得极低。

一位业内人士就告诉雷峰网-AI 科技评论，在绝大多数的情况下，我们研究一项技术是为了解决某一个已知的实际问题，如情感分析、新闻概括，这时我们其实就可以设计一个专门的小任务去研究，出来的「小模型」的效果很容易就比 GPT-3 等大模型要好。甚至在一些特定的任务上，大模型「根本没法用」。

所以，在推动 AI 发展的过程中，大模型与小模型的结合是必然的。而由于大模型的研发门槛极高，在承担 AI 大规模落地的重任上，在肉眼可见的未来，经济可用、精准打击的小模型才是主力军。

即使是一些正在研究大模型的科学家，他们也明确地告诉雷峰网-AI 科技评论，虽然大模型能够同时推行很多任务，但「现在谈通用人工智能还太早」。大模型或许是实现终极目标的一个重要途径，但理想尚远，AI 还是要先满足当下。

3、AI 模型一定要越来越大吗？

事实上，针对 AI 模型越来越大的现象，学术界与工业界的部分研究者已经注意到其在落地中的利与弊，并积极展开应对之策。

如果要说科技对社会的改变给予了人们怎样的启示，那么其中一定会谈到的重要一条便是：如何降低科技产品的门槛（无论是技术上还是成本上），让更多的人能够享受到这项科技的好处，才能扩大它的影响力。

换到大模型中，核心矛盾就是如何提升它的训练速度、降低训练的成本，或提出新的架构。

如果单从调用计算资源来看，大模型的窘境实际上并不突出。今年 6 月底开放工程联盟 MLCommons 发布的 MLPerf 基准最新训练结果显示，今年机器学习系统的训练速度几乎是去年的两倍，已经突破了摩尔定律（每18-24个月翻一倍）。

事实上，随着各家服务器的更新迭代，云计算等新颖方式的出现，计算一直在加速，能耗也一直在降低。举个例子，GPT-3 推出仅两年，如今 Meta 参照它所研发的 OPT 模型的计算量已经降低到了2020年的1/7。此外，最近还有一篇文章表明，2018 年需要几千块 GPU 训练的大模型 BERT，如今只需要单卡 24 小时就能训练好，一个普通的实验室也能轻松训练。

获取算力的瓶颈已经不存在，唯一的拦路虎只是获取成本。

除了单纯依靠算力，近年来，也有一些研究者希望另辟蹊径，单从模型与算法本身的特性去实现大模型的「经济可用性」。

一种途径是以数据为中心的「降维」。

最近 DeepMind 就有一项工作（“Training Compute-Optimal Large Language Models”）成功探索发现，在计算量相同的情况下，将模型的训练数据变大，而不是将模型的参数量放大，可以得到比仅仅放大模型更好的效果。

在 DeepMind 的这项研究中，一个充分利用了数据的 700 亿参数模型 Chinchilla 在一系列下游任务的评估中超越了 1750 亿参数的 GPT-3 和 2800 亿参数的 Gopher。蓝振忠解释，Chinchilla 之所以能够取胜，就是因为在训练时将数据扩大、翻倍，然后只计算一遍。

另一种途径是依赖算法与架构的创新，将大模型「轻量化」。

微软亚洲研究院前副院长、现澜舟科技创始人周明是这一赛道的追随者。

作为一名创业者，周明的想法很「本分」，就是要省钱。他指出，如今许多大的公司都在追求大模型，一是争先恐后，二是也想体现自己的计算能力，尤其是云服务的能力。而澜舟科技作为一家诞生不久的小公司，有用 AI 创造价值的梦想，但没有强大的云能力，钱也不够烧，所以周明一开始想的是如何通过模型架构的调整与知识蒸馏等等方式，将大模型变成「轻量化模型」给客户使用。

他们在去年 7 月推出的轻量化模型「孟子」证明了该想法的可行性。「孟子」的参数仅 10 亿，但在中文语言理解评测榜单 CLUE 上的表现却超越参数量级为百亿甚至千亿的BERTSG 与盘古等等大模型（如下表）。领域的一个共识是：在同一个架构下，模型一定是参数量越大、性能越好，但「孟子」的巧妙之处，就在于架构的创新。

薛定谔的 AI 大模型：箱子暂不能打开，但钱还要继续「烧」

在学术界，不久前，加州大学伯克利分校的马毅教授与沈向洋、曹颖还联合发表了一项研究（“On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence”），从理论上解析了大模型为何越来越大的技术原因，即深度神经网络本质上是一个「开环」的系统，即用于分类的判别模型和用于采样或重放的生成模型的训练在大部分情况下是分开的，导致对参数的训练效率低下，只能依靠堆参数与堆算力来提升模型的性能。

为此，他们提出的「变革」方式更彻底，就是主张将判别模型与生成模型组合在一起，形成一个完整的「压缩」闭环系统，这样 AI 模型就能够自主学习，并且效率更高、更稳定，在面对一个新的环境中可能出现的新问题时，适应性与反应能力也更强。换言之，如果 AI 领域的研究者能够沿着这条路线去开发模型，模型的参数量级会大幅缩小，回归到「小而美」的道路上，也能实现大模型「解决未知问题」的能力。

在实现经济可用上，甚至还有一种声音，是主张通过 AutoML 或 AutoAI 的方式来解决模型训练的难度，降低 AI 算法的研究门槛，让算法工程师或非 AI 从业者可以灵活根据自己的需求来打造单一功能的模型，形成无数个小模型，星星之火、可以燎原。

这种声音是从「需求」的角度出发，反对闭门造车。

举个例子，视觉算法用于识别、检测与定位，其中，识别烟雾与烟火对算法的要求不同，那么他们就提供一个平台或工具，让需求者可以分别快速生成一个识别烟雾与识别烟火的视觉算法，精度更高，也不必追求跨场景的「通用性」或「泛化性」。这时，一个琴棋书画样样精通的大模型，可以分为无数个分别精通琴、棋、书、画的小模型，同样也能解决问题。

4、写在最后

再回到电风扇吹空皂盒的故事上。

在 AI 技术解决现实问题上，大模型与小模型就犹如博士后的自动化方案与小工的电风扇，前者虽然在解决某一个小的问题时显得冗余、笨重，效果也没有电风扇快速，但几乎没有人会否认博士后及其团队所提供的价值，更不可能「消灭」他们。相反，我们甚至可以说出几百个理由来强调技术研发的合理性。

但在许多时候，技术研究者却常常忽略了小工在解决问题上的智慧：从实际问题出发，而不是囿于技术的优势。从这个角度看，大模型的研究固有引领前沿的价值，但也要考虑降本增效中的「经济可用」目标。

再回到研究本身，蓝振忠表示，目前大模型的成果虽然有很多，但开源极少，普通研究者的访问有限，这一点很令人惋惜。

由于大模型没有开源，普通用户也无法从需求的角度来评价大模型的实用性。事实上，此前在目前少数开源的大模型中，我们曾做过实验，发现语言大模型在理解社会伦理与情感上的表现存在极高的不稳定性。

因为不开放，各大厂对自家大模型的介绍也是停留在学术的各项指标上，这就形成了类似薛定谔的困局：你永远不知道盒子里有什么，也无法判断它的真假，一句话，什么都是他们说了算。

最后，希望 AI 大模型真的能够造福更多人吧。

参考链接：

https://blog.heim.xyz/palm-training-cost/

https://arxiv.org/pdf/2203.15556.pdf