字节的大模型野心，藏在一艘「方舟」里

2023/06/30 11:50

一个企业家，会在智能时代追求什么？雷峰网

不久前，一位传统行业的技术管理层向雷峰网给出了一个简洁而有趣的回答：

「从企业经营的角度来看，我们会希望将流程、人才、方法论等标准化，将个体的能力变成企业的通用能力。所以，企业对技术的追求主要体现在两点：一是将人才的能力数字化，二是将不同领域的知识数字化。」雷峰网

以常见的资源调度为例。中国地大物博，受当地社会、经济、地理等等不同环境变量的影响，不同地区的电力调度与能源管理有所差异，如东北地区的电力分配方法往往不适用于西北、西南、华南等地，因此每个地方都有各自的专家团队。当一个企业追求降本增效，通常诉诸一套通用的方法论，但受技术瓶颈的限制，所谓的「通用智能」难以实现，直到大模型出现。

技术上，大模型使通用人工智能（AGI）成为一种可能，越来越多的传统行业也从 ChatGPT 「一才多能」的产品形态中看到他们原来想做、但做不到的事情，即将人才与领域的知识数字化，将聪明的大脑从旧有的知识体系中释放出来，激发社会生产力。

用大模型改造传统行业，是一个共识，但如何改造却是一个开放答问。

从今年3月起，国产大模型陆续推出面向行业的解决方案，最激烈的竞争发生在云厂商间。有两类做法：一类做法是面向企业客户开放 API 插件，企业在通用大模型的基础上「炼」自有大模型；另一类做法是与不同行业的头部玩家建立深度共创，用行业数据开发行业大模型，然后卖给中小厂，按模型升级来收费。

一位大模型从业者曾对雷峰网(公众号：雷峰网)预测，大模型的 To B 战争将在今年下半年进入价格战。但在各家的争相追逐下，大模型的市场化被加速。6月28日，字节跳动旗下的云平台「火山引擎」也发布了一个 To B 的大模型服务平台——火山方舟。

字节的大模型野心，藏在一艘「方舟」里

在一众云厂商中，火山引擎的模式独树一帜：他们不是主打自家的通用大模型，而是与国内现有的大模型初创公司合作，接入了智谱、MiniMax 等 7 家当红大模型提供方的基础模型，为千行百业打造一座「大模型商城」。

01 高墙之外：进不来的 B 端用户

众所周知，大模型的研发门槛高，但极少人指出：随着越来越多的大模型发布，大模型的商业落地开始凸显出上一代 AI 「有门槛、没壁垒」的局限性。

在产品普遍缺乏想象力的背景下，这一事实变得愈发严峻。雷峰网

通用大模型占据主流，以致现有大模型应用开发以 To C 的通用产品为主，在解决专业领域的问题上表现不足，与希望将大模型能力私有部署、嵌入到生产业务流中的行业需求脱节。在模型落地的讨论上，一味强调大模型的技术门槛不再是有力说辞，如何让大模型产生行业影响力成为更大的焦点。

然而，尽管呼声高涨，但当前国内的大模型与行业之间却犹如隔着一道高墙，墙一边的大模型能力无法得到释放，另一边的行业数字化诉求无法得到满足；基于开放数据集训练的大模型不擅长专业知识，掌握行业数据的企业用户无法参与大模型的建设。

更关键的是，企业面临选择大模型的难题。这主要归因于两方面的因素：

一方面，由于大模型技术的日新月异，各家模型的能力迭代飞快，目前尚无法确定哪一家的通用大模型能力会最终成为 AI 时代的「智能运营商」（类似「电力运营商」）；

另一方面，当前国内已发布超过 70 个大模型成果，每一家的模型参数、侧重能力、配套设施等均不相同，同时不同行业的应用场景也五花八门，企业用户对大模型的落地诉求不一。

根据火山引擎的市场调研，大多数企业由于场景的变化，甚至希望能够同时调用多家大模型的能力，因此未来大模型的落地很可能呈现「1+N」的趋势。这一事实也与当前的主流观点有所冲突：上半年，一个能力足够强的通用大模型将一家独大，并建立上层的行业大模型与应用服务；但碎片化的行业需求往往要求组合不同模型的能力，并通过市场竞争的方式选择成本最优的采购方案。

To B 的探索并非现在才开始。自 ChatGPT 开放 API 插件以来，国内的多家云厂商在推出通用大模型时，也往往同步其对行业赋能的意愿。但大模型 To B 探索至今仍没有打破高墙，简单来说有三个维度的阻碍：

一是基于通用大模型研发行业大模型的难度。

从技术上来看，专业领域（如金融、医疗、法律）的行业大模型并非通过将数据喂给通用大模型进行精调就能轻松获得。例如，摩根大通 AI 研究院的一项研究已用实验证明，在金融领域，拥有行业私有数据的 BloombergGPT 在多个任务上的表现并没有比通用大模型更好：

字节的大模型野心，藏在一艘「方舟」里

这表明，当前行业大模型的技术瓶颈仍待突破。

过去十年的 AI 商业落地又告诉我们，定制化的项目落地模式难逃劳动密集型的「堆人力」结局，造成商业变现上的高投入、低回报局面，行业内不同企业之间又存在竞争关系，因此大多数人都认为：解决特定领域问题的行业大模型必须建立在通用大模型的基础上，即「基于标准化的定制化」、而非「彻头彻尾的定制化」。

也就是说，行业大模型的研发离不开通用大模型的能力。同时，还要有能为企业提供模型精调与训练的平台、稳定运行模型推理与应用的基础设施等。虽然行业模型的最终落地大概率是本地私有部署，但大多数应用的使用者也是广泛 C 端用户，因此长久稳定、充足可靠的系统资源也至关重要。

二是私有数据的安全隐患。

To B 场景中，大模型的买方与卖方间存在天然的信任障碍。一方面，企业担心自己的数据（如对话数据、内部代码、文档等）在接入公有大模型后泄露，通常要求私有化部署；但这种情况下，另一方面，大模型的提供方又担心技术机密泄漏。

市场上现有第三方公司提供模型微调训练的服务，可以帮助企业在开源模型的基础上训练企业自己所需的行业大模型，然后部署到企业本地的平台上。这类第三方公司不是大模型提供方，没有技术输出的忧虑，收费价格也不高，但企业与其合作仍需要出让自有的数据，且无法保证自家的数据不会被泄露给同行的竞对。

更值得注意的是，当前许多开源的大模型规定，基于其开源的应用不能用在商业用途，如 Meta 的 LLaMa。目前国内外只有极少数的大模型开放商用开源，百川智能最新推出的 baichuan-7B 是国内首家。因此，解决正规大模型提供方与企业用户在合作上的数据安全问题是首当其冲。

三是落地成本的可控性。

通常来说，企业调用大模型的成本有两块，一是模型训练的费用，二是模型推理（即模型应用与调优）的费用。

火山引擎智能算法负责人吴迪将这两块分别形容为大模型时代在算力上的「第一增长曲线」与「第二增长曲线」，其中第一增长曲线的结果已经得到验证，并预言两条曲线大约在 2024 年相遇（如下图）。而在第二增长曲线中，企业将扮演重要角色，大模型在行业的落地成本也主要体现在应用与调优上。

字节的大模型野心，藏在一艘「方舟」里

在《大模型时代的三道鸿沟》一文中，我们指出了企业应用大模型的一个「悖论」：企业希望在性能最好的大模型上做微调训练，然后再进行私有化部署。但在实际调用 API 的过程中，许多开源的大模型版本都是相对固定的，所以企业无法基于最新的模型版本进行微调。

国内大模型成果虽多，但企业在选定一家模型的过程中需要一一验证，时间与人力成本均难以把控。即使经过验证作出选择，也无法使用最新模型，这就降低了传统行业在大模型时代崛起早期的参与意愿，尤其降低付费意愿。

大模型的微调成本并不低。以 GPT-3.5 为例，未经调优的 API 价格是 0.02 美元，微调后的价格则变成了原来的 6 倍，即 0.12 美元。大模型的训练成本低，上线部署的价格才会降低。随着市场化的深入，大模型必将进入价格战，底层技术的比拼将成为模型卖方争取 B 端客户的终极杀手锏。

02 「商城」模式的 To B 解法

将行业人士纳入大模型的生态建设中，是迎接 AI 时代的关键构成。而在大模型的起步阶段，如何站在未来的角度设计一套灵活的商业机制，也同样考验大模型提供方的商业能力。

如前所述，尽管 AIGC 与大模型已表现出人工智能技术落地从「定制」走向「标准」的可能，但距离 AI 走进企业的业务流仍有一段距离。火山引擎在这个背景下，设计出 MaaS 平台「火山方舟」，正是为了加速大模型走进千行百业的步伐。

针对上述的三大问题，火山引擎的底层路径非同凡想。火山方舟的突出之处在于其建立在降本增效上「开放」、「共赢」同时「竞争」的设计思路。

字节的大模型野心，藏在一艘「方舟」里

这体现出字节看待大模型的视角：在他们看来，大模型不是一次昙花一现的技术风潮，而是一个新的技术时代窗口。这个时代刚起步，未来必将走进千行百业，大模型在不确定性中迎接市场化竞争是必然趋势。

在雷峰网看来，火山引擎做对了三件事：

一是用商城的思路设计了火山方舟，通过「招商引资」式的方法吸引各家大模型的入驻，弥补字节通用大模型缺位的同时，又为需求各异的行业客户提供了灵活选择、透明比价的大模型采购模式。

二是与飞书一体同源，从工作流上设计创新大模型 To B 的企业服务。在火山方舟上，一方面，企业可以根据自己不同的场景需求组合匹配不同的模型能力，既有成熟的通用模型为其入门大模型保驾护航，又有专炼大模型的机器学习平台供企业自行精调模型能力；另一方面，商城模式能与大模型的技术发展与时俱进，目前在技术起飞的阶段能整合各家的底座大模型，未来也能在应用爆发的阶段吸引应用入驻，甚至在此基础上建立一个更大的「大模型应用商城」。

三是首创大模型安全互信机制。基于火山引擎基础能力的安全沙箱、硬件的可信计算环境与联邦学习技术，火山方舟在解决大模型提供方与需求方之间的数据安全问题上提供了可信解法。据吴迪介绍，安全沙箱与可信计算的核心是将两方数据资产交叠的部分进行层层加固，联邦学习技术则帮助进行数据资产的安全拆分。

这套系统得到了国内多家权威大模型研发团队的认可。据火山引擎官方披露，火山方舟已经接入 MiniMax、智谱AI、百川智能、澜舟科技、出门问问、复旦大学、IDEA研究院等多家机构的大模型。

之前，大模型的提供方有两种 To B 的变现渠道：第一种变现渠道是自建商城，它们有自己的平台，然后租用火山的资源去搭建、维护；第二种是加入火山方舟。两种途径的区别是「自建商城」与「开放性大模型官方旗舰店」。

官方旗舰店有一个突出优势：对客户来说，工作流是统一的。例如，加入一家企业想一次性尝试 10 个国产基座模型，有两种选择，一是去10个商城里选，二是选择在火山方舟上一次性将数据输入到 10 个模型的窗口里，自动评估，寻找最适合自己场景的模型。因为工作流是统一的，所以企业也不用随着更换模型而更改工作流。

而对模型提供方来说，他们以技术见长，销售、交付、服务这些能力有限。如果是自建商城，一旦业务扩张、很容易陷入运维困境。而火山方舟的模式可以帮助他们更大规模地对接客户。

字节的大模型野心，藏在一艘「方舟」里

例如，智谱的 GLM-130B 自 2022 年8 月发布以来，收到 70 多个国家 1000+ 研究机构的使用需求，这样体量的需求对于一家创业公司来说，是一个现实挑战。但接入火山方舟后，火山引擎能够通过强大的算法团队、销售网络和交付团队去帮助模型提供方更好地扩张到千行百业，使规模化变现的成本降低。

上半年通用大模型占据主流，行业内有一个常见讨论：在未来，大模型领域是否只会存在一两家超大型的基座模型、形成垄断？

对于这个问题，观点纷繁，但在字节看来，即使最终真的是一两家大模型独大，ROI 的问题也是恒在的。吴迪分析，「如果有一个巨通用的基座模型，那么它一定很大，但一些垂直领域可以用一个比它小十倍、甚至百倍的小模型，在一两个特定任务上达到逼近于超大模型的效果，那么通用大模型所带来的成本锚点永远存在，除非降价一百倍。」

火山引擎总经理谭待判断，未来腰部以上的客户都是「1+N」的模式，即始终保持一个自研模型，并同时去调用 N 个外部模型。而火山方舟的训练与推理是一体化的，既包括模型训练，又包括模型应用，企业可以在火山方舟的平台上既训练、又调用，然后去对比选择在他们的场景上表现最好的模型。

谭待分析，目前整个大模型社区的技术仍在不断演变，实际上大家都无法准确预测在明年、后年，大模型是否还是采用 GPT 的架构，因此他们必须与时间成为朋友，帮助企业用统一的工作流去接触最新、最前沿的大模型，而没有必要马上选定一家大模型。

火山方舟的工作流也体现了数据驱动的魅力。比如，每一次的大模型微调都会出现非常清晰的前后效果对比，帮助客户准确评估大模型的性能，来决定在什么样的场景下使用什么样的模型。对于大模型的能力，学术界有清晰的 Benchmark，但工业界没有，而火山方舟自带的评测体系解决了这一问题。

03 火山引擎凭什么？

建立一座大模型商城的愿景很好，但并非任何平台都能做到。大模型的训练与推理本身就需要海量的计算资源，还有运维、系统、工程等方面的投入。

简单来说，火山方舟在一汪池塘里寸步难行；只有在汪洋大海上，火山方舟才有施展拳脚的空间。而火山引擎能推出火山方舟，吸引到国内多家大模型提供方的入驻，最关键的是要有丰富的计算资源，并能规模化降低大模型落地成本的配套设施。

英伟达开发与技术部门亚太区总经理李曦鹏指出，大模型训练跟之前的 AI 模型不同：之前 AI 训练以小模型为主，一般是单机或单机多卡，如果训练失败只用简单重启，而大模型的训练需要成千上万张卡，任何一台机器出故障都可能影响整个训练过程。所以，大模型的算力平台是一个大的系统工程，必将遇到许多挑战。

在大模型的训练上，火山引擎的优势有三点：一，长期充足且稳定的算力；二，为不同的大模型提供正确的硬件。所谓「正确的硬件」，即跟英伟达企业合作，根据语言模型的大小来选择用卡、机器密度、CPU 与 GPU 的配比设置、网络等等；三，提供有效的优化，火山引擎的 Lego 算子能够帮助很多模型进行透明优化，火山还与英伟达合作了 CV CUDA，适合自动驾驶或 Stable Diffusion 等模型的加速。

此前，据雷峰网调研，字节的 GPU 卡在目前国内众多云厂商中排名 Top 3。这主要归因于两大原因：

一方面，抖音等业务的推荐广告平台在过去两三年内技术升级，基本都运行在GPU上。虽然模型结构、网络结构与大语言模型的训练不同，但也需要大算力支持；

另一方面，火山引擎使用抖音同源的机器学习平台对外服务，在大规模稳定训练上非常有竞争力，过去一年在自动驾驶、生物医药等AI计算领域拿下众多大客户。内外需求带动了火山引擎在GPU算力上的采购储备。

经过抖音等业务长时间、大规模的机器学习实践，火山引擎在系统工程优化与超大规模分布式并行训练上积累了丰富的经验，能够轻松支持一个大模型在成千上万张 GPU 上的长时间稳定高速训练。

在大模型的任务工程中，各种随机的硬件故障都有可能发生，如卡、服务器或网络故障，都可能导致训练任务卡顿甚至失效。针对这个问题，火山引擎有快速的故障迁移能力：火山引擎的集群可以在3分钟的SLA的条件下，任何一台主机出故障，都能实现调度另一台主机，把任务无缝迁移到新的主机上，然后在分钟级内将任务恢复。

火山引擎有完善的调度系统与算法，能够提高算卡的资源利用率。例如，大模型在训练中的「饥饿」常导致小模型排不上队，这主要是因为繁忙任务调度过程中出现「算力碎片」。去年7月，火山引擎就已发布过「GPU 调度 0 碎片」的成果。

此外，火山引擎的 Lego 算子优化在训练加速上扮演了重要作用。据雷峰网了解，火山是国内最早研究分布式加速计算的团队之一。在大模型中，算力不能无限堆叠，分布式计算几乎成为大模型训练的标配，而火山的加速计算研究积累为其在大模型时代积累了经验。

据火山官方披露，其高性能算子库可将 Stable Diffusion 模型在128张A100上的训练时间从25天减少到15天，训练性能提升40%。同时，由于AIGC模型在训练时占用GPU显存容量非常大，未经优化时的模型只能运行在高端的A100 80GB GPU卡上。火山引擎高性能算子库通过大量消减中间操作，将运行时GPU显存占用量降低50%，使得大多数模型可从A100迁移到成本更低的V100或A30等GPU卡上运行，摆脱特定计算卡的限制，而且不需要做额外的模型转换工作。

最新的例子是，在火山引擎的机器学习平台上，MiniMax 研发了超大规模的大模型训练平台，能够保证文本、视觉、声音三种通用大模型实现每天千卡以上的常态化稳定训练，并行训练的可用性超过99.9%，带宽利用率提升了10%以上。

这或许也是众多大模型提供方选择入驻火山方舟平台的原因。作为算力生态伙伴，火山引擎不仅为大模型团队提供高效训练的算力平台，降低企业的大模型成本，而且能为大模型客户创造价值。用吴迪的一句话概述，就是「不仅让客户在云上花钱，还要让客户在云上赚钱。」

B 端企业在用大模型解决自身问题时，往往是两种途径：一是直接调用大模型的 API，基于一类大模型的通用能力开发特定任务应用；二是基于一个大模型精调，训练自己的大模型，然后进行私有化部署。

在对应的服务上，前者需要的是数据安全的 API 接口，后者需要性价比高的机器学习训练平台。同行对比，分别对应百度的文心一言 API 接口与文心千帆机器学习训练平台，而字节的做法更为激进：将两种需求集合到火山方舟 MaaS 平台上，用商城模式解决通用大模型的 API，自有机器学习平台解决企业训练、推理、评测与精调大模型的生产需求。

若人人都能轻松自由地购买大模型服务与应用，大模型时代才算真正到来。而火山方舟的自由市场精神，为这个目标提供了一种可能。