数据流架构赢过冯·诺依曼？理想马赫100的2560 TOPS从哪里来？

北京车展2026

2026/04/21 21:34

ISCA是与MICRO、HPCA并列的体系结构"三大顶会"之一，工业赛道论文录用率常年低于20%。一篇论文能说明什么？在AI芯片行业，学术发表往往是技术路线的"宣战书"——它意味着理想不再满足于做芯片的"使用者"，而是要成为芯片架构的"定义者"。

但学术认可和商业成功之间，隔着一道深渊。马赫100最引发争议的问题只有一个：2560 TOPS的算力，到底有多少是真正能用的？

峰值算力输了，但"有效算力"赢了？

马赫100最让人困惑的一组数据是这样的：单颗芯片的峰值算力是1280 TOPS，两颗并联2560 TOPS。而英伟达Thor-U单颗就能做到2000 TOPS——峰值算力上，马赫100并不占优。

但理想抛出了一个新概念："有效算力"。按照理想的测算，在自研算法场景下，马赫100单颗的有效算力是通用芯片方案的3倍，双颗并联达到5-6倍。换句话说，在理想自家的算法体系里，1280 TOPS的马赫100跑出来的效果，可能等同于甚至超过2000 TOPS的英伟达芯片。

这个说法乍一听像是"我跑分低但我游戏帧数高"，但在技术层面并非没有道理。

传统车载智驾芯片沿用冯·诺依曼架构，数据需要从内存加载到缓存，再进入计算单元处理，处理完写回缓存，再送入下一级。这个过程里，计算单元有大量时间在等数据搬运——就像一个工厂里，每个车间做完零件都得先放仓库，下一个车间再去仓库取，中间的等待时间全是浪费。马赫100的数据流架构核心思路就是让数据在计算单元之间"直接流动"，省掉仓储中转的环节。

理想官方给出的数据是：相比通用芯片方案，马赫100在理想自研算法上性能提升200%，功耗降低40%。200%的性能提升是一个令人印象深刻的数字，但关键问题在于——这是在什么条件下测出来的？使用的什么模型、什么输入规模、什么功耗天花板？截至2026年4月，理想没有公开完整的测试白皮书。这也是为什么业界对这组数据的态度从惊叹转向审慎：数字本身没问题，但缺少第三方验证的场景数据，就像一个学生说自己的学习方法效率是别人的3倍——听起来很厉害，但没有统考成绩佐证。

数据流架构：一场"反叛"传统芯片学的押注

马赫100选择的技术路线，学术上叫"Orchestrated Dataflow Architecture"。这条路线不是理想首创——英国芯片公司Graphcore早在2016年就用数据流架构做AI加速器，但Graphcore在2022年被软银收购后逐渐淡出主流视野。将数据流架构落地到车规级芯片并推进到量产阶段，理想是第一家。

这不是一个安全的选择。数据流架构与传统GPGPU架构之间存在三个根本性差异，每一个差异都意味着巨大的工程风险。

第一，去缓存设计。GPGPU依赖多级缓存（L1/L2/L3）来桥接计算单元和内存之间的速度差距，缓存访问占据了芯片相当大的功耗和面积预算。数据流架构通过在计算单元之间建立直接数据通道来减少缓存依赖——逻辑上很优雅，但工程上意味着整个芯片的物理设计、时序分析和功耗管理都要推倒重来。

第二，算法定义数据流。传统芯片的硬件结构是固定的，算法要适配硬件；马赫100反过来，让编译器根据算法的计算图自动编排数据流动路径。这种"以算法为中心"的设计要求芯片团队和算法团队深度耦合——理想CTO谢炎说过，"芯片团队需要构建从底层硬件到上层算法的全栈能力"。这句话的潜台词是：马赫100不是一颗通用芯片，它是一颗为理想自家算法量身定制的芯片。这在短期内是优势，长期看也可能是枷锁。

第三，完全可编程。数据流架构不同于固定功能的ASIC——ASIC一旦流片就很难修改计算逻辑，而马赫100保持了完全可编程的能力。这在AI算法快速迭代的当下是关键优势：三年前没人预测到VLA模型会取代传统感知-规划-控制架构，三年后谁知道主流算法又会长什么样。可编程性意味着马赫100有更大的"适应窗口"，但代价是编译器的复杂度大幅上升。

六颗芯片的全球竞赛

把马赫100放进全球智驾芯片的坐标系，格局变得更有意思。

特斯拉AI5走的是最激进路线——3nm制程（推测），固定ASIC设计，算力高达约2500 TOPS，但不可编程，算法迭代需要重新流片。小鹏图灵芯片5nm制程，单颗750 TOPS但三颗并联达到2250 TOPS，已量产上车。蔚来神玑NX9031同样5nm，但算力数据尚未公开，双颗配置，预计2026年量产。英伟达Thor是" benchmark"，5nm制程，单颗2000 TOPS，GPGPU架构，CUDA生态护城河无人能及。华为MDC 610制程略逊一筹（7nm），单颗400 TOPS在纸面上远低于竞品，但问界M9的智驾体验依然处于行业第一梯队——这是对"峰值算力不等于实际体验"最有力的注解。

马赫100在这个阵营里的位置很特殊：峰值算力不是最高的（单颗1280 TOPS），制程不是最先进的（5nm，仅次于特斯拉的3nm），但它是唯一采用数据流架构的，也是唯一在ISCA发表过架构设计论文的。这个独特性既是差异化优势，也是风险来源——如果数据流架构的车载表现不及预期，马赫100就只剩下"还不错"的峰值算力，竞争力将大打折扣。

值得玩味的是车企自研芯片的量产时间线：英伟达Thor最早（2025年），特斯拉AI5和小鹏图灵已经量产，理想马赫100和蔚来神玑都瞄准2026年。这意味着马赫100在交付时面对的不是一个空白市场，而是一个已经被对手教育过的市场——消费者和媒体已经有了对比基准，"理论优势"必须有"实测数据"来支撑。

一个经常被忽视的细节是功率预算。2560 TOPS的双芯配置在5nm制程下的功耗是多少？理想没有公开这个数字，但可以参考一个大致量级：英伟达Thor在5nm制程下功耗约为100W，2000 TOPS；如果马赫100的数据流架构确实能降低40%功耗（理想官方数据），那么1280 TOPS单颗的功耗可能在40-50W左右，双芯约80-100W。这个功耗水平在车载域控器的散热方案中是可控的，但也意味着"有效算力3倍"的宣称需要在严格的功耗约束下成立，否则就只是"跑满功耗时更强"的另一种说法。

另一个维度是成本。两颗马赫100的BOM成本 vs 一颗英伟达Thor——这个数字理想不会公开，但行业常识是：自研芯片在初期量产阶段的单颗成本通常高于采购成熟供应商的方案，因为流片费用、掩膜成本和良率爬坡都会推高均摊成本。马赫100只有在大规模铺货后（理想全系车型搭载+可能的对外授权），才有机会把单颗成本压到比采购Thor更低的水平。在此之前，自研芯片更像是一种"用利润换战略自主权"的投资。

编译器：藏在2560 TOPS背后的隐形战场

马赫100的算力承诺有一个前提条件：算法必须在马赫100的编译器上完成适配和优化。这个前提条件，恰恰是整场赌局里最难的部分。

英伟达之所以在AI芯片领域一家独大，CUDA平台是真正的护城河。400万开发者，近20年的软件积累，PyTorch、TensorFlow、ONNX等主流框架的原生支持——算法工程师几乎可以零成本地把模型部署到英伟达GPU上。换到马赫100上，同样的模型需要经过编译器的转换和优化，适配数据流的计算拓扑，这个过程的复杂度和工程量远超外界想象。

理想需要构建自己的"马赫CUDA"。数据流架构的编译器要完成两项工作：把通用AI模型（如PyTorch训练的Transformer或VLA模型）转换为数据流计算图，然后根据马赫100的硬件拓扑优化数据流动路径。每换一种新的算法架构，编译器可能都需要相应的适配。

这实际上是一个经典的"鸡和蛋"问题：算法团队需要编译器成熟才能高效部署模型，编译器团队需要大量算法实践才能打磨成熟度。理想内部是否有足够的芯片架构和编译器人才来同时推进这两条线，是一个值得关注的变量。

理想选择将架构设计论文发表到ISCA，可能不只是为了学术荣誉。在芯片架构和编译器领域，顶尖人才高度集中在学术界和头部科技公司。一篇ISCA论文是最好的招聘广告——它向全球的体系结构研究者释放了一个信号：理想有足够深的技术积累，值得你来。

编译器生态的另一个挑战是第三方模型的适配。理想的VLA基座模型当然可以在马赫100上做到最优，但智驾系统不仅需要自研模型，还需要调用大量开源模型和第三方工具链——比如BEV感知中的常见backbone、占用网络的standard implementations、端到端规划中的reference models。这些模型当初都是为英伟达GPU设计和优化的，要在马赫100上跑出同样甚至更好的效果，编译器的兼容性和优化能力是关键瓶颈。

一个可能的解法是"混合架构"——用英伟达芯片处理通用AI任务（如座舱交互、第三方模型推理），用马赫100专注处理理想自研的端到端智驾和VLA模型。这样既保留了英伟达的生态优势，又发挥了马赫100的架构优势。但这种方案会增加系统的复杂度和BOM成本，而且需要两套并行的软件开发工具链。理想是否在走这条路，目前没有公开信息，但这是一个值得关注的工程方向。

从芯片到机器人：马赫100的终局叙事

如果只把马赫100看作一颗智驾芯片，会低估理想的技术布局。

理想CTO谢炎的表述很明确：马赫100不是单纯的智驾芯片，而是一个通用的AI计算平台。它需要支持的不仅是自动驾驶，还包括座舱AI交互、机器人运动控制，以及未来可能的家庭智能体。从这个角度看，数据流架构的选择就有了更清晰的逻辑——不同场景的AI任务需要不同的计算模式，可编程的数据流架构比固定ASIC更能适应多场景需求。

更值得关注的是"算力复用"的可能性。理想投资斜跃智能布局家庭机器人，VLA大模型既能在车上驱动自动驾驶，也能在机器人上驱动运动控制。马赫100如果同时服务于车和机器人两个场景，每颗芯片的研发成本就可以在更大规模上摊薄——就像亚马逊的AWS云服务，最初只是为了支撑自家的电商业务，后来却成了公司最大的利润来源之一。

但"算力复用"说起来容易做起来难。车和机器人的AI任务在几个关键维度上存在差异：车需要处理高速运动场景（120km/h以上的感知和决策频率），机器人需要处理精细操作场景（抓取、折叠等毫米级精度控制）；车的工作环境相对结构化（道路、车道线、交通标志），机器人的工作环境高度非结构化（家庭厨房、客厅里的各种杂乱物体）；车的安全要求由L1-L5的法规框架界定，机器人的安全要求目前还没有统一的行业标准。这些差异意味着马赫100需要在架构设计上留出足够的弹性空间，才能同时适配两个截然不同的应用场景。

按照理想的规划，2027年将推出马赫200芯片，算力目标突破3000 TOPS，支持L4级自动驾驶。从100到200的演进，核心不在于制程和算力的堆叠，而在于数据流架构的成熟度和编译器生态的完善度。如果马赫100在2026年的量产验证中能兑现"有效算力"的承诺，马赫200的推进就有了技术基础；如果兑现不了，整个路线的可信度都会受到质疑。

一个值得思考的问题是：如果马赫100的表现达到预期，理想是否会把芯片方案对外授权给其他车企？蔚来已经明确表示不会对外输出神玑芯片，特斯拉更是封闭生态的典范。但理想在战略上一直有"平台化"思维——从增程技术到座舱系统，理想倾向于把自研技术变成可以规模化的平台能力。如果马赫100证明了数据流架构在车载场景下的优势，对外授权不仅能带来直接收入，还能让更多的算法团队在马赫平台上开发，加速编译器生态的成熟。当然，这个远景距离现在还远，但方向是明确的。

三个信号

马赫100的故事里，藏着三个值得关注的行业信号。

第一，"有效算力"正在成为智驾芯片的新战场。峰值算力的军备竞赛已经接近天花板——当单颗芯片的算力突破2000 TOPS，数字本身的震撼力在递减。下一个竞争维度是"同样峰值下，谁的效率更高"，这恰好是数据流架构声称擅长的领域。无论马赫100最终表现如何，"有效算力"这个概念已经被推到了行业讨论的中心。

第二，车企正在从芯片的"使用者"变成"定义者"。在Mobileye和英伟达主导的时代，车企对芯片架构几乎没有话语权。如今特斯拉、小鹏、蔚来、理想四家都推出了自研芯片，芯片竞争正在从芯片公司之间的较量扩展到车企之间的较量。ISCA收录理想论文的意义不仅在于学术荣誉，更在于它标志着车企自研芯片进入了"接受学术同行评审"的新阶段。

第三，芯片正在成为车企AI战略的"锚点"。理想All in AI的战略转向，需要一个强有力的技术抓手来落地。马赫100就是这个抓手——它既服务于当前的自动驾驶和座舱AI，也连接着未来的具身智能和机器人业务。一颗芯片能不能同时承载这么多期待？2026年Q2，L9 Livis交付之时，答案将会揭晓。在那之前，马赫100既是理想技术野心的展示窗口，也是一场关于"有效算力"的行业级实验。

（雷峰网(公众号：雷峰网)新智驾北京车展2026专题）

专题

理想：All in AI重新定义自己查看更多文章