AI推理芯片，大模型「下半场」的入场券

云天励飞大模型推理芯片

作者：高秀松

2023/11/17 21:21

2023是“群模共舞”的元年。

先是ChatGPT的横空出世给予众人致命震撼，随后国内诸多AI、互联网公司迅速加大资源投入“练模”。

3月，百度发布文心一言，打响了“练模大战”的第一枪。

在这场“模型大战”中，算力作为不可或缺的重武器，一度成为众公司争抢的关键要素。

作为人工智能的三驾马车之一，算力是训练AI模型、推理任务的关键。倘若把训练模型当作是做一道精致的菜肴，算力就好比一套称手的烹饪工具。

世人皆知巧妇难为无米之炊，但再好的厨子，没有一口好锅、一把好刀，面对鲜美的食材也只能望而兴叹。

“大模型动辄百亿级的参数，仓库里没有几百张A100、H100，都谈不上入围。”

所谓兵马未动、粮草先行。为了练模，模型厂商们对算力芯片的购买达到了前所未有的水平。大模型这波风潮下，最先受益的，既不是躬身入局的企业，也非下游场景用户，而是以Nvidia为代表的算力芯片厂商。

5月，Nvidia市值一路飙升，成为首家市值达到1万亿美元的芯片企业。

如果把这场肇始于“练模”的造富奇迹归结于大模型的「上半场」，那么大模型的「下半场」财富机遇，则是如何把大模型装入应用场景之中。这正如云天励飞CEO陈宁所言——

“生产大模型不是目的，千行百业的落地和应用才是最终目的。”

大模型虽然改变了传统AI算法模型的生产模式，效率更高、效果更好、泛化能力更强。但从商业化层面，仍然跳脱不了AI落地的困境。

过去几年时间，无数AI公司前赴后继，趟出了一条血淋淋的路子，即AI+场景。而对于诸多碎片化、多样化场景，AI公司们发现，边缘计算能够较好地解决AI落地应用的商业难题。

如今，大模型已然成为AI新范式，诸多厂商在尝试商业化时，也提出了“行业大模型”“一行一模”的观点，即用大模型来解决碎片化场景的业务痛点。

从这个角度看，在这条通往AI盈利的道路上，以灵活调度著称的边缘计算，将成为未来大模型广泛落地到场景的重要一环。而为边缘计算提供算力的AI推理芯片，也会迎来一次市场扩容。

掣肘AI落地的两个难点：场景与成本

场景与成本是AI老生常谈的话题，就像一道横亘在理想与现实之间的长河，无法避开又很难绕行。即便是最知名的AI公司、技术天才，以及商业巨子，在这条河面前都束手无策、有心无力。久而久之，AI公司套上了“盈利魔咒”。

以ChatGPT为代表的大模型之所以备受推崇，原因无他：在众人身处迷途之时，大模型让逐梦者们看到了一丝黎明前的曙光。AI创业者林夕感叹道：“大模型，AI之光。”

如果没有大模型，很多AI公司可能熬不过2023的冬天。林夕表示，ChatGPT强大的逻辑推理能力，让人们第一次近距离感受到了人工智能的厉害之处。“信心比黄金重要”，当整个社会认可大模型之后，资本才愿意继续加注。

毫不夸张地说，大模型给那些资金流转困难的AI公司们，强行续命了几年。毕竟AI之梦，也难逃现实的鸡零狗碎。

当然，这只是表象，AI如长夜、资本永不眠。资本从不为情怀买单，而是看到了大模型以极强的泛化能力，能够有效解决场景和成本这一本质难题，从而带来巨大的商业价值空间。这也正是逐梦者们看到的曙光——困扰AI商业化的难题有望得到破解。

过去，AI从实验室走向应用场景，许多创业公司开始吭哧吭哧搞业务，在一个个碎片化场景里掘土挖地。但高昂的研发投入与实际业务产生的经济价值相去甚远，人效比极低，即所谓的“造血能力严重不足”。

以安防为例，虽然AI给这个行业带来了革命性的变化，最终受益者却并不是AI公司，而是为数不多的几个安防巨头。原因在于，安防碎片化场景特别多，需要AI，但并不需要昂贵且强大的AI。

这些安防大厂能够从AI竞赛中脱颖而出的秘密，除了原来to B稳定的渠道关系，更为重要的是，他们的人效比很高。这种优势体现在产品上就是：同样一个摄像头，AI公司的产品天然贵上几十块。客户自然而然用脚投票。

如今，那些名噪一时的CV公司，安防业务已经偃旗息鼓。究其原因，AI公司在解决碎片化场景需求时，一个任务一个模型的模式，造成研发成本居高不下，加之重复建设，导致整体的运营成本处于高位，而安防本身属于脏活儿累活儿，事儿多钱少，AI公司自然而然会“水土不服”。

这种“牛刀杀鸡”的现象并不局限于安防行业，但凡是AI所及之处，基本上都会面临碎片化场景这一核心命题。在大模型未出世之前，AI对于碎片化场景非常头疼，也尝试过各种解题方式，比如小样本学习、自动机器学习等，但效果并不明显。

大模型无疑是当下解决碎片化场景的最优解，其极强的泛化能力，能够实现“一模多用”，即一个模型解决N个任务。大模型从根本上改变了算法生产的模式，能够解决碎片化、非标化问题，直接降低AI的各类成本，成为当下AI公司打破魔咒的重要路径。

大模型「下半场」：边缘计算成为重点

如果说大模型「上半场」是技术的较量，那么「下半场」则是商业化的比拼。

无可置疑，大模型将解决掣肘AI落地的碎片化难题，并极大地削减研发成本，给AI带来质的飞跃，使其具备更大的想象空间。但这只能算是阶段性胜利，只有客户乖乖掏出钱包里的金币，并持续复购，产生价值，AI才算取得成功。

这个AI商业闭环中，还涉及到一个部署成本的问题。

AI不是消费电子，即买即用，尽管其常常被嵌入至各类电子设备中。但AI的消费大户，仍是以降本增效为目的的B/G客户。这类客户对于AI的最后一公里交付尤为重视，他们并不愿意为AI方案的部署花费任何多余的金币。

传统AI部署常见于云端一体，主要通过云端进行计算，感知端仅有微弱算力，数据在端侧采，算法在云上跑。这种模式存在几个问题：

云计算固然有大算力的好处，但对于一些需要快速响应、计算的场景，其存在的时滞现象非常致命；
云服务器费用高昂，许多企业并不需要大算力，盲目上云反而会造成算力浪费，性价比不高；
数据上云，存在一定安全风险；

为此，AI公司们在云端一体之间，增加了边缘计算，来解决云端算力浪费及端侧算力不足的问题。

边缘计算的灵感得益于章鱼的八只触手。作为云端计算的协同和补充，边缘计算能够在数据源头附近的网关执行数据处理、分析，这种独特的优势可以实现各单元之间执行不同的任务并实现多任务协同，既满足碎片化场景的算力调度需求，又具备低延时、安全等特点。

并且，边缘计算设备的部署成本相对较低，客户不需要部署昂贵的云服务器就能用上AI，这一核心优势使得边缘计算备受青睐，已然成为AI落地的重要途径之一。

但要真正让算法模型在边缘计算设备上跑起来，仍有两个比较重要的难点。

第一，边缘设备的算力比云端服务器弱，而大部分的算法模型，是在服务器上训练的，算法模型要实现迁移，需要做大量的优化工作。

第二，算法模型要在边缘设备上部署、执行推理任务，需要一颗强大的AI算力芯片，并针对芯片做适配，才能保证算法模型的运行效率。也就是说，AI算力芯片的生态极其重要，但现阶段比较尴尬的是，AI算力芯片厂商较为分散。

可以预见的是，在大模型时代，第一个问题较为容易解决，因为大模型自带极强的泛化能力。至于第二个点，则要比想象中难得多，其涉及到底层芯片技术的研发和攻关，以及对应的生态协同。如何让边缘设备运行大模型，对于AI芯片厂商而言，这既是机遇，也是挑战。

大模型时代下，AI芯片的国产替代潮

AI芯片功能上分两类，分别是训练芯片和推理芯片。

训练芯片主要用于大模型的训练、学习和优化，侧重于计算性能，而推理芯片则主要为模型的推理运算提供算力。二者之间的区别在于，训练芯片重计算，推理芯片重效率（时延、功耗）。并且，从云边端协同的角度看，训练芯片多用于服务器，推理芯片则主要部署在边端设备之上。

当前，国内大模型正处于“练模”阶段，需要极强的算力支撑，因此AI公司们将目光更多放在了训练芯片上，即购买大量的GPU算力来训练算法模型。这也直接成就了Nvidia的万亿市值神话，其H100、H800等芯片一骑绝尘，国内则有华为、寒武纪等厂商在努力追赶。

一旦大模型成熟，与之而来的便是落地应用，这时必然要用到边端设备，从而滋生出对推理芯片的庞大需求。

然而，由于不可抗力因素，现阶段的训练芯片和推理芯片皆受到贸易管制，在此背景下，AI芯片的国产替代提上了日程。

作为深圳AI第一股，云天励飞在边缘侧AI芯片的布局已经成果初显。2020年，云天励飞第一代AI推理芯片DeepEye1000实现商用，并落地到AI相机、安全PC、商业机器人等边缘计算场景。

云天励飞副总裁、芯片产品线总经理李爱军告诉雷峰网，大模型作为AI的进阶态，本质上还是要落地到具体业务场景才能产生价值，而边缘计算则是不可逆的趋势，因此做好边缘计算的推理芯片，对于未来大模型的应用至关重要。

在过去三年多的时间中，DeepEye1000广泛落地到各行各业，但同时也带来了诸多反馈：算力碎片化、算法长尾化、产品非标化、规模碎片化等痛点依旧存在，传统以追求单一场景PPA的传统芯片模式难以适应AI边缘计算场景下人工智能落地的需求。

基于此，云天励飞打造了新一代的边缘计算芯片平台DeepEdge10。

DeepEdge10属于主控级SoC，可以满足绝大部分场景的控制需要，同时基于云天励飞自研的新一代的处理器NNP400T，可以高效支持Transformer。在架构方面，DeepEdge10采用了D2D Chiplet封装结构，可以实现算力灵活扩展，并通过C2CMesh互联扩展，可以支持千亿级大模型部署。

相较于第一代DeepEye1000，DeepEdge10集成了2+8核通用算力CPU，整体算力提升了4倍以上，采用D2D Chiplet封装，实现从12T到48T的算力覆盖，总体性能比上一代芯片超过20倍。

在DeepEdge10的基础上，云天励飞还打造了Edge Server算力加速卡，最高支持1024Tops的NPU算力、1920GB/S的内存带宽，以及512GB统一内存。目前，DeepEdge10已经支持主流开源模型超过100种，模型支持的数量还在更新，同时支持客户模型定制化的部署。

具体性能上，在Edge Device 端，DeepEdge10Max运行端侧70亿参数的大模型可以获得每秒27Token/s，最高可兼容130亿参数的大模型。而在Edge Server上，采用C2C Mesh互联，多卡协同，运行700亿参数大模型可获得42Token/s的生成速度，最高兼容千亿级别参数的大模型。

据了解，DeepEdge10芯片平台核心竞争力在于边缘计算，可以针对不同的场景提供差异化算力，从而满足碎片化、多样化需求。目前，DeepEdge10已经进入了大规模的应用中，有近30家算法芯片化合作伙伴，所有使用云天芯片的产品合作伙伴，均可在线下载更新云天超过100多种算法。

李爱军表示，大模型未来落地到机器人、无人驾驶汽车等场景，都需要用到推理芯片，而推理芯片正处于百家争鸣的过程。而在国内，如何基于国产工艺实现推理芯片的研发、流片和商用至关重要。

现阶段，国内芯片的成熟工艺处于14nm的节点。对于千亿级、万亿级别的大模型，其推理芯片不但需要极强的计算能力，还要保持超低的功耗和超低的成本，对芯片制程的工艺达到了5nm、2nm。显然，国产芯片离最高端的芯片还有一段距离。

不过，结合当前国内的生产工艺，云天励飞与合作伙伴于2020年开始技术攻关，在ChipletD2D的技术上定制了一系列IP，实现了可以在14nm芯片上运行千亿大模型的功能。虽然成本、功耗会高一些，但这已经是国产芯片的最优水平。至于更高工艺的芯片，国内芯片厂商既需要资源，也需要时间。

“我们志在打造国产工艺自主可控的AI芯片。”李爱军告诉雷峰网(公众号：雷峰网)，这条路道阻且长，但云天励飞会坚定地走下去。雷峰网雷峰网