当大模型升级速度变缓，AI Infra 创业还是一门「好生意」吗？

AI Infra MaaS 一体机异构混训

作者：朱可轩

2024/11/09 20:24

作者丨朱可轩

编辑丨陈彩娴

时至今日，如果说清华系撑起了中国大模型创业的半壁江山，那 AI Infra 这条赛道绝对是清华系「上阵师徒兵」的又一波创业豪赌：

媒体所实验室孵化的清昴智能、高性能计算机研究中心牵头的清程极智、NICS-EFC 实验室孕育出的无问芯穹......AI Infra 赛道的明星创企几乎都来自清华各大实验室，而硅基流动和潞晨科技的创始人袁进辉和尤洋也均属「清华代表队」。

当前，在这层创业要解决的问题也比较明确，主要就是面向上下游，把各类模型同芯片深度适配，一方面减少算力资源闲置现象，另一方面则实现模型应用的提速降本。

不过，作为中间层，模型、应用和硬件层正处在瞬息万变之间，这意味着 AI Infra 的突破方向也在随之调整，值此之际，该方向的创业也不断面临质疑和些许阵痛，例如：

创业公司做 MaaS 平台会不会面临压力？
训推一体机究竟是不是伪命题？
海内外需要的基础设施有何差异？
国产算力的软件生态需要怎样的突破口？
异构混训是长远方向吗？
……

这些问题的背后关系着创业最终能走多远，而不同的团队显然有着不同的预判。

在这条尚处探索期的赛道中，孰对孰错还尚未可知，那么各家能否在此之中找寻到真正的商机呢？

推理究竟如何布局？

去年年底开始，大模型的发展重心变开始逐步从训练转向推理，而继 OpenAI 发布 o1 大模型后，大模型的 Scaling Law 从训练转向推理的趋势也更加明显。

不过，在业内看来，目前哪怕是 o1 这种闭源模型，半年后，其能力也能被开源模型陆续赶上。而随着模型的能力逐渐达到相对满意的程度，训练厂商减少和萎缩是必然发生的趋势，此后，应用落地才是箭在弦上的问题，而其中最关键的核心便是推理成本。

推理需求爆发是必然趋势，据预测，整个推理成本未来三年，每年都做到十倍降本是可行且会发生的事情。当前，推理优化部署无疑成为让大模型好用的关键一环，随之而来的还有巨大的算力缺口。

不过，尽管海内外 AI Infra 创企都看到了推理侧的机遇，在具体布局上却有着些许分歧，比如在打造 MaaS 平台这一趋向上。

由于模型每天的调用量是海量的，如果不优化一年将花费巨大，所以应用方要实际用起来的话，还是需要找可靠性较高的弹性服务，通过在底层更快部署来合理运用算力以节省成本，创业的价值也在于此。

简单来讲，MaaS 这条路径的思维就是将模型要部署到云上，过程中平台不训练模型，而是变成 API 再集成，只负责最终的工程化实现，更多地专注在计算调度方面，主打提高成本、稳定性、可用性。

不过，对此，潞晨科技创始人尤洋曾向 AI 科技评论表达过些许顾虑。在他的观点中，通过 MaaS 平台卖大模型 API 实际上是在和通用大模型公司竞争，创业公司将很难吃到「蛋糕」。

于是，潞晨入局了视频大模型，除了年初发布全面开源的 Open-Sora 外，今年 10 月，其还发布了 Video Ocean 视频大模型，正式走向商业化。尤洋坚持认为，如果不做自己的优质大模型，推理平台上没有优质资源。

这步棋下得和 Together.AI 其实有些异曲同工之妙，去年 5 月， Together.AI 也曾发布过类 ChatGPT 开源模型 RedPajama-INCITE。

目前，从海外各家厂商的情况来看，他们似乎对于做 MaaS 的压力也有些许感触。Lepton.AI、Fireworks 都在布局 Together.AI、CoreWeave 的方向，而后者的核心收入基本都是 IaaS 收入。

有知情人士向 AI 科技评论透露，Fireworks 比较犹豫，之前说要做 MaaS 平台，现在估计觉得这种方式会直接和 ChatGPT、Anthropic 竞争，压力对于基础设施公司来讲太大了。

而 Lepton.AI 最开始主要聚焦的其实是 PaaS 和 MaaS，今年 5 月，其新上线了 FastGPU，这时旗下的 IaaS 业务才逐步开始入场。

「推理平台要和 ChatGPT 竞争很难，因为这类平台的优质资源是模型本身，而训练微调平台只需要和 CoreWeave、Lambda Labs 竞争，并且作为优质资源的 GPU 肯定能买到。」业内人士曾向 AI 科技评论分析。

值得一提的是，据 AI 科技评论了解，Together.AI 同 Lepton.AI 和 Fireworks 相比完全是自己的 GPU，这种方式相较于使用他人的硬件和云，然后在上层叠加模型服务部分，利润空间其实会更大。

除此之外，一位 AI Infra 创业者也曾告诉 AI 科技评论，在 AI Infra 这一层创业，其实硬件也要自己做，光做软件长期可能站不住，技术再好也不能没有底层基础设施。

从布局上来看，无问芯穹也有着相似的感知：

今年来，无问芯穹开始布局端侧大模型推理处理器 LPU，计划以 IP 的形式和合作伙伴做联合芯片发布，并在明年开始落地尝试。

在无问芯穹的思考中，大模型作为一个人机交互的接口，本身非常大，所以对于端上这部分的场景有很大的需求量，而固化到硬件层面也有很强烈的需求。所以在端上的大模型推理，大模型落地的硬件是一定会被大量需求的。

「无问芯穹如果能把自己的推理卡做好，有这样的背景，就可以通过芯片层去变现，感觉这是他们在思考的事情。」业内人士在和 AI 科技评论交谈时曾有提及。

不过，和前述顾虑相比，部分创业者的想法还是偏向乐观的。他们认为，除了自身并不局限于 MaaS 这一种形式外，就算是做 MaaS 和通用大模型公司有竞争也是实属正常。

从当前情况来看，即使 OpenAI 一年创收十几亿美金，但大模型应用的需求依旧处于非常初期的阶段，未来，大模型应用必然会起量，大模型将无处不在，形成非常基础的能力，成本也会降得很低。

待到那时，跑大模型或者 AIGC 推理需要的将会是百万甚至千万张，就像每人一部手机的时代，需求量会变得非常巨大。而这样一个足够大的市场之中，同一个细分市场也能容下好几家厂商。

除了云平台外，私有化部署在国内呼声也逐日走高。

在这一趋势的洞察之下，硅基流动、潞晨科技和清昴智能纷纷选择了训推一体机的交付路径，这也和当前市场内大多数头部玩家的走向一致。

从尤洋的判断中看，潞晨科技布局训推一体机主要针对的是 Post-training（后训练）这一层，面向的大部分传统行业客户目前并没有采用大规模集群，最多买了千卡。

但并非所有玩家都做此选择，也有观点认为，训推一体机为了兼顾训练和推理，可能会出现顾此失彼的情况，这不会是长期走向。

清程极智创始人汤雄超就觉得，训推一体机实际上并不契合训练的算力需求，「训练和推理两种业务间区别较大，很难想象一个较小的一体机能承载大的训练业务，现在大模型预训练可能都是万卡以上的规模，只能在大规模智算集群上完成。」

需要关注的是，面向推理，端侧对于中间层而言也有着很大的想象空间。

除了前文提到过的无问芯穹外，清昴智能也已有所布局，与许多同行从云切入有所不同，其最初便从端侧切入，也曾和手机上的高通、骁龙芯片，寒武纪、比特大陆等都进行过适配。

当前，手机、电脑、车均开始逐步有了落地场景，但却存在因模型太大而放不到端侧的情况，这时就需要把大模型变成 1B、7B 的小模型。

中国比美国应用场景更多，而端侧把性能、成本、功耗做到极致则非常关键。未来，端侧软件的作用也会愈发凸显。

夹缝中能否觅得商机？

在海外，软件层创业似乎相对国内更容易：首先，海外市场有一套成熟的订阅软件付费方法，其次，由于英伟达统一了市场，基于英伟达去做会更简单。

中美市场存在些许差异，在应用的多样性上双方是类似的，都要去支持不同应用，比较大的区别在于对底层芯片的支持，海外主要由英伟达和 AMD 瓜分天下，需要适配的芯片较少，创业可能相对国内好做。

不过，从另外一个角度来看，海外市场反而也会因为有巨头的存在，必要性不太强，国内芯片厂商长期来说还会处于分散的状态，这种情况下，对不同国产芯片的支持就显得比较重要。

有业内人士曾向 AI 科技评论分析过，在海外像 Coreweave、Lambda Labs 这样的小型云其实是有机会的，不过，现阶段附加值有限，即便是 Coreweave 都有些像是英伟达的「白手套」。

另外，海外一切以 GPU 为核心，产业链的核心定价权都由能否拿到足够多的卡来决定，以规模为核心。很多创业公司甚至没法获得「白手套」的身份，且做的也仅仅是资产租赁生意，有短期的红利，但不是长期事业。

目前来看，海内外走向两个极端，海外被巨头垄断，而国内则过于分散。国内的芯片格局有些类似于「战国时代」，各家都在争夺技术高地。

一方面，芯片设计中不同的处理器架构和指令集设计会直接影响芯片性能和效率，尽管大体上设计理念和架构相近，但在具体实现和芯片制造过程中，各厂商的技术路线与细节处理上存在差异，这造成了芯片性能和兼容性等方面的区别。

另一方面，虽然在芯片设计及前端的 IC 设计环节已取得一定进展，但芯片生产制造以及配套软件生态的建设相对较弱，尤其是软件开发方面的投入相较于硬件设计来说还有待加强，这就导致了芯片碎片化问题较为严重。

据 AI 科技评论了解，目前英伟达的软件占比在 2: 1，而国内甚至还不到 1: 2，因为国内厂商主要还在跑产能，保证交货量，软件生态肯定相对来讲要弱一些。

同时，国内算力其实并非不够，反而是太多了，问题关键在于「富裕但不匹配」，真正能用于大模型训练的集群不够集中和规模化。

国内有约十多万张 A100 和 H100，但配有万卡集群的只有头部三四个玩家，这些卡中超半数属于头部大厂，但大厂却因集群不是一个业务部门独占，导致无法集中使用算力，而剩下一部分则分散在三五百家不同的中小型企业、园区及金融机构中。

算力分散化导致大量算力未集中用于大模型训练，不仅造成了算力资源闲置，也限制了国产算力资源能力的发挥。

当前业内多有提及的 GPU 泡沫或者说算力通缩现象也是正在发生的事实，这种情况下，国内大量自建算力中心自持资产则显得不一定理智。

有业者曾向 AI 科技评论分析，由于 GPU 性能提升和迭代速度远高于 CPU，所以 GPU 的整个贬值速度或者摊销的时间必须更短，但国内许多智算中心动辄 5 年、8 年时间摊销，这种现象显然不合理，CPU 最多也就 5 年摊销。

这些问题也恰好为 AI Infra 创业带来了空间——

无问芯穹是国内少数选择了异构混训这条路径的创企，主要通过异构多种 GPU 卡来同时混训一个大模型，地方政府、大模型厂商和偏研究型的单位都有这方面需求。

在无问芯穹创始人夏立雪看来，「异构混训的难点主要在于，不同能力、背景的员工怎样一起做一个大任务，其中会存在 GPU 性能如何预测，任务怎样拆分、分配让硬件各司其职，同时，怎样在通信上实现较好地协调以及打通通信库等多种问题。」

据了解，目前，英伟达加上国产卡 1+1 混训，无问芯穹共有六种芯片，任意两种都能组合训练，在百卡和千卡这个级别都已经完成混训，整体效率达到 97.6%。

不过，GPU 异构真的是长久之计吗？长期来看这类解决方案究竟能走多远呢？

业内多有观点认为，异构是芯片产能不足现状下的妥协。更甚者，有较为尖锐的声音直指，「在异构的或者在不同品牌的芯片上去做一个统一的训练平台是个伪命题，是不存在且没必要去做的方向。」

在实际的训练场景里，如若采用不同的芯片架构去做异构训练，其中的性能损耗较大，整体上来说效率和性价比均无法匹敌单一型号 GPU 的同构集群，很难发挥硬件的底层算力性能。

即便都是英伟达的芯片，将 A100、H100 混用也会带来每层之间的训练参数、能力之间的巨大差异，最后会导致这些 Bottleneck 影响到训练的效果。

因为训练是一个集中式的过程，其实有点像一个超级计算机，每一层的中间过程都会影响到性能发挥，所以在单一集群里混用多种芯片做训练实际上必要性不大。

从超算的更迭趋势上来看，也不存在同一超算中心放不同型号加速卡的情况。所以，随着国产芯片产能的提升，最终智算中心会回归到以往比较偏同构的基础架构里，因为单一方式是最高效的解决方案。

此外，推理更没必要异构，因为推理基本上把模型部署在单台机器或者一个小集群上，即使是商业闭源模型也都部署在 16 卡、 32 卡的小集群上，因此，每个集群本身仅需保证集群内卡型一致。

而如若能够兼容多种不同类型的芯片，不同集群使用不同芯片跑，就可以将推理变成一个分布式的任务，这也是 PPIO 派欧云看好分布式推理的原因之一。

「在这个过程中更重要的事情就是调度，因为可能 A 集群性能最强，任务很快就处理完了，B 集群 Transformer 还在过程中，那下一个任务要优先调给 A 还是 B，其实是任务调度和资源池化管理任务分配的话题。」PPIO 派欧云联合创始人、CEO 姚欣曾向 AI 科技评论解释。

超越云厂

过往，关于创业 AI Infra 到底会不会和云厂产生正面冲突，也是被提及最多的疑问之一。二者看似存在诸多相似之处，那大家为何不选择体系更为成熟的云厂呢？

对此，也有许多业者向 AI 科技评论表达了自己的见解。从结论中综合看来，大部分观点其实都指向与云厂相比存在差异，这也是创企有着同云厂友好协作空间的原因所在：

一是，云厂过去解决的问题跟现在要解决的问题并不完全相同，甚至是相对的两个方向，云厂基本从资源池化和共享的角度切入，而当前要解决的难题在于分布式的资源合并；

二是，云厂商都是做后端、做前端、网络管理、调度的人才，AI 人才较为缺乏，事实上很难对国产芯片做适配。

但也有不同的声音认为，「不管是美国的大模型公司，还是中国六小龙，其实都要建自己的基础设施，不然就是被云厂服务，创业公司很难切到这部分蛋糕。」

总体上来看，如今，AI Infra 的重要性是不言而喻的。而在大模型的这一波浪潮中许多创企也正在摸索更合适的业务方向，正因为此，可以明显感知到业内的观点在不断碰撞摩擦。

火星四溅之下，无论是会否和通用大模型公司抑或是其他云大厂竞争，还是说一体机和异构是否为长久之计，要解决的底层关键都是国产算力问题，而对于当前阶段而言，不管从哪个方向切入或许都会是调优路上的有益尝试。雷峰网雷峰网(公众号：雷峰网)