专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

作者：王悦

2024/02/05 14:34

2月1日，刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。

MiniCPM 2B 有着当之无愧的「小钢炮」称号，其炸裂的点在于，从规模大小和性能来看，仅用2B 规模和1T tokens精选数据，便已在多项主流评测榜单、中英文平均成绩中超越被称为“欧洲最佳大模型”的Mistral-7B。

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

在与其他同等规模大模型的对比中，面壁MiniCPM表现依旧领先，大幅超越了 Llama2-7B, Mistral7B，Gemini Nano，Qwen-1.8B等一众模型，甚至还能越级比肩 Llama2-13B、Falcon 40B和Cohere 54B此类比自己庞大数十倍规模的模型。

可以说，面壁智能这次扔出的“2B小钢炮”，炸出了超越Mistral-7B发布的效果，展示了端侧大语言模型的无限潜力

针对面壁智能本次发布的大模型成果，AI 科技评论独家对话面壁智能 CTO 曾国洋后发现，面壁这个刚成立一年的团队背后，是国内顶尖 AI 科学家更深厚的探索和积累。

“用最小的规模，做最强的AI”

端侧、高效、以小搏大——这是面壁智能 CTO 曾国洋给出了面壁智能发布大模型的关键词。

其中「高效」二字，是刻在面壁智能骨子里的基因，不仅体现在训练和推理上，也体现在参数上——用更小的参数达到更好效果。更多关于面壁智能团队背后的故事，欢迎添加作者：s1060788086、anna042023 来聊。

Mistral-7B 用 7B 的参数量战胜了 13B 参数量的模型。「为了展现面壁的效率，我们做到了用 2B 干掉Llama 的 13B，高下立见。」

在过去的几个月里，面壁智能团队做了上千次实验、模型的沙盒，去搜索各种各样的训练技巧、超参数等。找到了训练大模型最优秀的一组参数，并使用找到的这组参数训练了一个2B模型作为验证，最终得到了MiniCPM模型。从实际效果来看，确实也取得了比较好的效果，在 11 项主流测评榜单、中英文平均成绩中超越Mistral-7B：

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

在与国内外同尺寸模型的性能对比上，MiniCPM-2B 的评分同样处于领先位置。

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

面壁智能之所以能做到在小尺寸模型技术的竞技场上“以小博大”，首先是因为具有全流程高效的 Infra，为大模型创业打好了地基。其全流程优化加速工具套件平台面壁ModelForce由训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune构成，能降低90%的训练成本，让推理加速10倍。

再者，面壁「模型沙盒」让大模型和小模型形成良性循环、高效训模。小模型预测大模型性能，大小模型共享超参数方案，以实现部分调整接近Cerebras-GPT的超参稳定模型规模扩增，达成最优Batchsize、学习率。另外固定模型倍增上限，使模型训练随时可以叫停，获得阶段最优的模型增长倍数。

在数据方面，面壁团队形成从数据治理到多维评测的闭环，牵引模型版本快速迭代，堪称现代化「数据工厂」。

在具体应用方面，面壁MiniCPM在语言、代码及多模态上均表现优秀。面壁MiniCPM具有更全面的通用与中文能力，Chat模型对答如流，在和人评最接近的MT-Bench指标中获得高分。面壁MiniCPM还能够自己编写自己的代码，其编程能力超越Mistral。另外，面壁MiniCPM创新实现了首批多模态上手机，具有当下同量级模型的最强多模态能力。

在模型发布会现场，面壁智能 CEO 李大海也现场演示了 MiniCPM-2B 的具体能力。在对话能力层面， MiniCPM-2B 的反应速度和真人反应的速度不相上下：

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

在模型门普遍的短板推理能力上，MiniCPM-2B 也能解决相对复杂的问题：

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

「小钢炮」性能突破至此，但其意义远不止表面上模型能力的提升，它更使得普通的、配置本身不高的端侧设备拥有搭载更强大模型的能力，拓展了大模型的应用边界和应用空间。

大模型时代，AI native 是必然的趋势。面壁智能在 MiniCPM-2B 的性能水到渠成后，选择用最小的规模，做最强的 AI。面壁智能还把多模态版本的MiniCPM-V 部署在手机，首批跑通了多模态大模型在手机上的部署。

更重要的是，端侧模型有很强的商业意义。它使得在端侧做应用这件事从不可能变成了可能。另外在端上，在智能终端上全天候的特性，让很多应用变得更加落地。

除了小钢炮之外，多模态大模型表现得同样吸睛，“面壁OmniLMM”跻身开源社区最强多模态模型之列，同规模能力领先。

发布会上，李大海同样现场展示了端侧模型在离线状态下的多模态问答能力。

12B 多模态交互问答的石头、剪刀、布案例验证下来，模型回答十分准确。

综合性能有较大优势的前提下，面壁 MiniCPM 的成本不升反降。

省钱也是小钢炮的核心优势之一，能够以极低的成本支持CPU推理，1元即可使用 1,700,000 tokens。团队内部更用「废卡拯救计划」调侃他们对显卡的极致使用能力，仅以 1 张卡全参数微调，消费级显卡也能训练大模型。

面壁MiniCPM量化版，在大小上压缩了75%，但性能基本无损耗，并且跑通国际主流手机与终端CPU芯片，发布多年以上的老机型也无压力。

基于足够强的大模型性能，面壁智能也推出了「大模型+ Agent」双引擎战略，目前做了些探索性的工作 XAgent、ChatDev 和 AgentVerse 等，目前还在寻求 Agent 更好的落地形式。

“我们没有追赶谁，在技术上我们一直是领先的。”面壁智能的联合创始人、清华大学长聘副教授刘知远在发布会上如是说到。

先踩1000次坑，而后以小搏大

面壁科研团队由刘知远带领，一共发生过4次重要的技术方向推动，且纷纷经过了历史的考验：涉及到从深度学习、BERT、大模型到Agent的几次技术转型。

刘知远团队属于清华大学自然语言处理实验室 THUNLP，从 2018 年BERT轰动面世后便开始研究预训练语言模型，并于2019 年推出世界第一个知识指导的预训练语言模型“ERNIE”，也是2020 年 6 月 GPT-3 推出后国内第一批大模型的忠实拥趸研究者。

2020 年刘知远团队参与智源悟道大模型项目，负责悟道中的“文源”，主要研究中文大模型，先后推出二十亿参数大模型 CPM 1.0 与千亿参数大模型 CPM 2.0。

2022年，刘知远团队将高性能计算与大模型相结合的方法发表于 Nature子刊《Nature Communications》，是国内最早在大模型训练中引入分布式加速算法的团队之一。

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

面壁团队虽然成立不久，但其中核心成员是身经百战。从最开始的 CPM 1、2、3 到 CPM-Ant 、CPM-Bee 、CPM-Cricket，然后到最近的MiniCPM，面壁团队的核心成员都参与其中，其实MiniCPM可以看做CPM-D的中间实验版本。

曾国洋告诉 AI 科技评论，除了现在能发布的训得不错的模型之外，背后也训崩了很多模型。

「我们之前其实也经常走弯路，大模型训练其实是非常需要积累的。我一直觉得大家都清楚大模型训练的那些技术点，但是实际上真正去操作的时候有很多不好用技术来表达出来的内容，反而会成为训练大模型成功的重要因素，包括在训练过程中对各种意外的处理，对数据模型训练的认知等，这些就是我们在过程中持续积累到的东西，更像是一种经验性的能力。」

面壁团队所积累的处理异常的经验、数据的选择认知——这些是看不到的东西才是内功，需要在大模型当中持续发力的，才能构成真正意义上的壁垒。

被称为面壁团队中的「模型料理三星主厨」胡声鼎在发布会上说到：即使把「如何训好大模型的步骤」一步一步写下来，别的团队也不一定能做出来了，这其中更多的是一种经验。这好比，能拿到米其林三星主厨的菜谱也不一定能做得了三星大厨。

除了长期积累下来的经验，面壁智能团队自然也开创了新技术，其中比较关键的是WSD的调度器看，它相对cosine调度器有一定的优势，不只是让模型持续地训练。并且，面壁团队已经探索到这种调度器全局最优和局部最优的阶段分开了，分开之后可以探索局部最优的阶段吸收更好的。

其实，于面壁团队而言，无论是研发大模型还是小模型，两者差别并不大，无非是启动「1000亿」和「20亿」参数的区别而已。

这次发布2B模型，是验证面壁「模型沙盒」成千次实验的结果，相比于主流优秀方案做了很多改进，包括超参的调整方案，使得不需要在大模型上调优可以获得优秀的大模型，再比如改训练方案等。靠着踩1000次坑再爬起来总结经验的品质，面壁团队打磨出了其他团队不具备的能力

大模型在国内起步的早期阶段，曾国洋曾经连续几个月工作都不觉疲惫，「因为我很相信 AGI 会实现」。

面壁智能团队对 AGI 有很大的愿景。刘知远也表示，实现 AGI 需要我们做什么，我们就做什么。

对话面壁智能 CTO 曾国洋

AI 科技评论：「高效」是面壁团队的基因或追求吗？

曾国洋：我们确实在「高效」这方面一直都有所追求，包括在比较早的时候其实就开始做很多 Infra的工作，算是追求高效的体现吧。因为面壁也是比较早开始做大模型的一家公司，大模型之前在国内也是走过一些弯路，就包括大家其实就是在卷模型的参数量等。2021 年那段时间国内都卷得很疯狂，但卷完之后大家发现参数量能训到再大其实也没有意义，因为没办法让它有效落地。

所以对于大模型落地来说，效率是很关键的问题，需要控制成本来达到更好的效果，这样才能去扩展大模型的应用边界。换句话说，大模型的应用边界可以理解为它创造的价值减去它的成本。所以在这个过程中我们追求效率，就是为了追求让成本更低，创造的价值更多，扩展大模型的应用边界。

AI 科技评论：为什么会让面壁MiniCPM最开始的路径选择就是在端侧应用？

曾国洋：一方面是我们想要在小规模模型上验证『模型沙盒』得到的最优参数，另一方面是因为前段时间端侧模型也受到了很多媒体的报道和关注。我们发现2B模型正好能够跑在各种端侧设备上。其实2B模型本身其实是对我们在模型训练这一侧技术的验证，验证了用之前研究的技术来训一个模型确实能训好。然后正好也赶上了这个时间点，所以就想能不能让大模型真的在手机上跑起来，迸发出一些新的、有趣的应用案例。

AI 科技评论：2B模型已经能够满足或者集成想要的效果的话，是不是没有必要再做大了？

曾国洋：其实我们想是走两端。一个是我们做小规模模型，它其实能做更快的技术验证，成本更低。同时我们在更大的模型这一端，会把效率拉到极致，即扩大模型参数量，然后在大家都可以接受的成本下，看模型能达到的性能效果的上限，这其实是一个比较偏两端的方案。

AI 科技评论：在未来研究大模型用「以小博大」的方式会是一种趋势吗？

曾国洋：我觉得其实各家肯定都在做以小博大的事。因为我们在这方面做得非常突出，所以才做出这个效果。换句话来说，大家都会做大模型的效率优化，即达到同样的效果，要让模型规模更小，成本更低，这其实是大家都在做的事。

我觉得我们和其他人都会在这条线上持续发力。这一次的2B模型告诉我们，现在大模型还有很多没有挖掘的潜力，包括现在还没有充分达到2B模型的极限。也许在未来一到两年左右的时间，我们就有机会能够看到一个能在终端设备上跑起来、对标现在像 GPT 3.5 Turbo 这样水平的模型。

因为我们做了非常多实验，发现可以探索的东西还非常多，做一些探索就能看到模型效果、效率在持续提升。同时也能感受到，现在在端侧上，包括各大手机厂商其实也开始重视大模型能否运行在手机或终端上。未来一到两年我们在模型侧会继续发力，在硬件上也会持续更新迭代，所以我还是对这个事还是挺乐观的。

AI 科技评论：这些有待挖掘的潜力会体现在哪里呢？

曾国洋：这么多年我也训了挺多模型的，能很明显感受到，虽然模型规模一直没有特别大的变化，但在效果上是在飞速提升的。比如我们在 2020 年底时训练的第一个版本的模型 CPM 1，它其实和今天的 Mini CPM 的参数量差不多，但是从使用的感受上来说， Mini CPM就能感受到明显的提升。

在模型训练技术这一侧持续挖掘的话，我觉得还有更大的一些提升空间。包括我们现在做一些像Int4之类的量化，会发现就算把它从 16 bit 变成4 bit，效果都不会下降，也能看出里边肯定有一些水分之类的还没有完全榨干的东西。从这里我也能感受到，模型其实还有很多可以挖掘的潜力，包括我们去做模型预训练和在数据上的一些技术。

AI 科技评论：最开始的悟道模型，您从最初就参与了吗？

曾国洋：对，我特别早就参与了。其实说实话我觉得我真正被大模型吸引是在完成 CPM 1 的训练之后，当时我第一次感受到我是真正在做一个有智能的东西。虽然之前我也做过 CV 领域和NLP 领域，但那时候大家很多工作都是一些偏认知、识别的东西，但是大模型是真正有创造力。我当时就感觉它才是有智慧的东西。

AI 科技评论：您遇到过哪个非技术的难题让您印象深刻的吗？

曾国洋：模型训练里大家最容易遇到的问题是 loss 不收敛，容易训着训着就飞掉的问题。很多人看到 loss 飞掉会去反思，想去积累各种经验。但我们因为训崩过太多模型，在这个过程发现了其实往往不会是一种原因导致的，而是有可能是好几种不同意外、缺陷导致了同样的结果，很难用一种固定的手段去修掉，因为造成loss 飞掉的原因是多种多样的。

针对这些原因，我们得一个个去排查，才能找到根本原因。只有把根治了，才能让这个问题真的修好。但从之前一些公开的经验表明，大家遇到这些问题，通常都会比较笼统的说，跳过一段数据或者改一下训练learning rate 等等比较表面的操作。但更根本的其实得靠在这个过程中持续的积累，包括我昨天想了一个对模型的优化，模型崩掉就说明这个优化大概率是行不通的。

在这些看不到地方里，我们积累下来很多经验，就像走在路上摔了一跤，可能是因为鞋带松了，可能是因为地上有个坑，也可能是踩香蕉皮了，只有都踩过之后才知道，原来有这么多方法能让人摔跤。

AI 科技评论：面壁MiniCPM作为端侧大模型，具有什么独到优势？

曾国洋：一个模型的能力更强，能发挥的价值也会更高。我们在2B模型上做出能比肩Mistral-7B的效果，其实也能很大程度扩展模型的应用边界。Mistral-7B这样的模型在之前是必须在 GPU、云端上跑的，这样其实也限制了它在实际应用中范围，因为用户没有 GPU等设备，就可能跑不起来。

而对于一个2B模型来说，它是没有这些问题的，甚至能跑在手机上。2B模型也许以后就能直接内嵌在手机或者打包到各个应用里，以一种更轻便的方法能跑在更多的设备上，不用考虑用户到底有没有 GPU 这样的设备，因为都是能运行的。这样我们就能让大模型有更广阔的实际应用的空间。

我以前用Mistral-7B这类模型去做了一个应用，需要自己部署服务器才能让用户连上，才能发挥大模型的能力。而现在我可以把这个2B模型打包到我的应用 APP 里，直接发布到用户的手机上，用户都不用联网就能直接访问，大大节约了作为一个大模型应用开发者的成本，另一方面也能让模型在更多的场景被使用到，比如手机、汽车、音箱等，让万物都拥有智能，且是在非常低功耗的芯片上。这也是「Internet of Agents」的概念，发挥群体协作和更强大的智能。

AI 科技评论：为什么面壁会对Agent如此重视？

曾国洋：我们的认知是，一方面我们在降低大模型的成本，训练 Mini CPM，另一方面我们也在扩展它能力的边界和创造的价值。Agent 的技术是一个能让模型创造更多价值的一个技术，所以我们非常看重它。

大模型其实像人的大脑，有智能的决策、认知、判断能力，但只有大脑的话，它能做的事还不够。而Agent的技术相当于给它接上了双手，让它能使用外部工具和知识，并且我觉得将来Agent 还会继续发展，让模型能够像人一样真正地思考，接受反馈，自我进化，甚至能实现Agent之间更好的协作。这其实是我们对于Agent 这条路线未来的展望，我们觉得这是一条非常有前景的路线，因此我们目前在Agent 方面做了非常多的探索和研究，同时也发出了很多声音。

但毕竟Agent 是新的技术，所以目前还没办法说有一个非常清晰的规划，或者很笃定说这个技术一定这样做就成了，只是我们相信往这个方向做一定是对的。

AI 科技评论：面壁智能拥有全产品线，涵盖模型层的AI Infra+大模型，Agent智能体，以及基于「大模型 + Agent 」的上层应用。，在这其中是否会有侧重点？

曾国洋：其实虽然说这是几个产品线，但在我心里是一条线。Infra 支撑我们的模型能更快、更好、更强地训练，模型的能力又更好地支撑了Agent的技术，Agent技术就像模型能力的放大器一样，能够让模型发挥更大的价值。同时Infra 又能让模型成本更低，能运行在更多设备上，有更大空间，所以它们在我心中就是在一条线上。这也是我们对于「高效」的追求，在全链路上都是高效的，整个优化目标是为了让效率更高，让大模型应用空间更广。雷峰网雷峰网雷峰网(公众号：雷峰网)

本文作者：s1060788086、anna042023，欢迎添加微信，交流认知，互通有无。

专访面壁曾国洋：踩过 1000 次大模型的坑后 ，造一个性能小钢炮

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮