闷声狂奔一年，字节大模型的进阶之路

豆包大模型人工智能字节跳动

作者：聪聪

2024/05/20 18:51

2024 年初，字节跳动 CEO 梁汝波在年会中提到，公司层面的半年度技术回顾里，2023 年才出现 GPT 相关讨论。作为对比，业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。

一位字节员工曾告诉雷峰网，直到 2023 年 2 月，字节才开始探索大模型。彼时，国内一些更早入局的大厂甚至已经准备对外发布大模型。

简而言之，这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴，字节没有成为最早的“入场嘉宾”。

过去一年多的时间里，字节在 AI，尤其是自研大模型领域，始终颇为低调，但这并不妨碍业内的期待。不少从业者在被问及最看好国内哪家公司的大模型产品时，都曾向雷峰网(公众号：雷峰网)提及字节。

其中原因也不难理解，无论从人才密度、GPU 资源，还是技术积累各个层面，字节都有着足够的优势。诚然，字节不是最早参与到大模型研究的公司，但却是为数不多在技术积累和 GPU 资源等维度都有着深厚积淀的公司。

移动互联网初期，今日头条便通过对算法推荐的成熟应用，突破新闻门户网站的束缚。从此，信息流产品成为各家互联网公司追逐的模仿对象。

在大模型训练必不可少的 GPU 卡方面，雷峰网去年在字节的大模型野心，藏在一艘「方舟」里已经提到，调研显示，字节的 GPU 卡在目前国内众多云厂商中排名 Top 3，并将其归因于抖音业务推荐平台的不断升级，以及火山引擎使用抖音同源机器学习平台对外服务的需求。

如今，字节终于揭开自研大模型的“神秘面纱”。5月15日，火山引擎春季Force·原动力大会上，字节跳动首次对外正式发布自研大模型：豆包大模型（原云雀大模型）家族集体亮相。

尽管不少圈内人已经听闻字节的大模型或创新低价格，但当火山引擎总裁谭待正式对外宣布价格时，豆包大模型还是给 AI 界来了一点小小的“字节式”震撼。

闷声狂奔一年，字节大模型的进阶之路

火山引擎春季Force·原动力大会现场，参会者争相拍摄豆包大模型价格

大模型竞争的本质是终端心智和应用场景多元化

年初有媒体发文指出：“抖音旗下的 AIGC 应用豆包月活 1756.9 万，超越 1212.5 万月活的文心一言。”

根据 QuestMobile 最新数据，2024 年 3 月，豆包月活用户已达到 2328.2 万，甩开文心一言近千万。文心一言以及天工、讯飞星火、Kimi智能助手月活跃用户分别为1466.1万、966.1万、620.4万、589.7万。

当时，本文作者身边也看到过不少安利豆包产品的用户。部分带娃家长直言：“豆包太有趣了，现在孩子每晚回来都要跟豆包对话一会儿，问各种问题。”

移动互联网时代，字节跳动做出了今日头条、抖音这样的全民产品；大模型浪潮起来以后，不少人都坐等一个 AI 时代的抖音。

无论业内人士把大模型谈的多“花”，其归根到底，还是要让所有的普通人用起来，而不是仅限于圈内的狂欢。从这个角度来看，大模型竞争的本质，是终端心智的争夺。

就眼下的情况来看，豆包毫无疑问有这个潜力和机会。这款去年才推出的产品，仅仅用不到一年就已经显示出在同类产品中强大的竞争力。

在 5 月 15 号的火山引擎春季Force·原动力大会上，字节跳动产品与战略副总裁朱骏分享了豆包 APP 的一些趣事和思考。

比如，关于这个看起来一点“科技感”没有的名字，有用户解释为抖音的官方bot——“抖bot”的谐音；还有用户解释为“都包了”，工作生活学习的需求都包了。

以至于后来，在被问到豆包名字的含义，朱骏也会用这两个答案。

实际上，正式命名以前，字节的大模型团队有一个期望，产品的名字，能够像用户对一个亲密朋友日常称呼的昵称。在这个方向下，团队列了很多名字，很快选中豆包。朱骏风趣地说到：“反正以后如果有更好的名字也还可以改嘛。”

用户数方面，豆包官方数据显示，其移动和桌面双端月活跃用户已经超过 2600 万。同时，这些用户共同创造了 800 多万个智能体。

发布会上，字节首次对外披露了其自研的底座大模型，取名为豆包大模型，也就是此前一直被外界提及的云雀大模型。

闷声狂奔一年，字节大模型的进阶之路

豆包大模型家族

豆包 APP，只是豆包大模型应用的一个侧面。

基于豆包大模型，字节跳动还打造了 AI 应用开发平台“扣子”、互动娱乐应用“猫箱”、AI 分身创作应用“星绘”等一系列产品。

此外，抖音、番茄小说、飞书、巨量引擎等 50 余个业务也都已经接入豆包大模型，用以提升效率和优化产品体验。这些产品中不乏亿级的用户和内容，抖音每天有 7 亿多用户以及丰富的图文短视频内容，番茄小说每天也有近 1 亿用户。

这还仅仅是字节内部产品的使用。

悄然间，OPPO小布助手、荣耀 MagicBook 的 YOYO 助理、华硕笔记本电脑豆叮AI助手、极氪汽车的座舱大模型等均已接入字节的大模型服务。

基于豆包大模型，字节在今年2月上线了 AI 应用开发平台“扣子”。仅仅三个月过去，招商银行、海底捞火锅、超级猩猩、猎聘、飞鹤等企业已经在扣子上搭建智能体并应用。复旦大学、浙江大学等名校也为课程和实验室搭建了 AI“助教”。

从 C 端的豆包 APP 用户，到 B 端的千行百业，豆包大模型不仅使用量大，应用场景之丰富也可见一斑。根据火山引擎总裁谭待介绍，目前，豆包大模型日均处理文本 1200 亿 Tokens，生成 3000 万张图片。

业内普遍认为，一般而言，大模型的使用量越大，效果也就越好，这给了豆包大模型更大的底气。“大的使用量，才能打磨出好模型。”谭待也直言。

豆包“击穿最低价”，大模型或将进入新浪潮

无论是 C 端用户使用体验，还是 B 端应用场景，真正落地成为全民应用的基础都需要足够低的价格。

这就好比，4G 网络普及加速了流量成本降低，并促成智能手机的普及，又进一步加速了视频等终端 APP 的爆发式增长。

对于当下企业而言，使用大模型能够促成效率的提升几乎是确认的，但大模型的投入一直以来都非常大，而企业在投入一个新的创新领域时，必然首先要考虑成本问题。

或许正是由于价格因素，过去一年多，大模型虽然引发了全行业的热潮，但真正投入使用的仍然只有少数企业。

在这一背景下，豆包大模型此次官宣的价格能够成为行业焦点也就不足为奇了。

5月15日的发布会上，谭待宣布豆包大模型价格的那一瞬间，掌声响彻整个会场，也将这场发布会推向高潮。

闷声狂奔一年，字节大模型的进阶之路

火山引擎总裁谭待公布豆包大模型定价

豆包大模型的价格有多惊人？

豆包主力模型 Pro-32k 版本模型推理输入价格只有 0.0008元/千Tokens，0.8 厘就能处理 1500 多个汉字，比行业同等模型便宜 99.3%；128k 型号价格为 0.005元/千Tokens，比行业价格低 95.8%。

更形象的说法是，根据火山引擎公布的价格计算，以 Pro-32k 版本为例，一元钱就能买到 125 万 Tokens，大约 200 万个汉字，相当于三本《三国演义》。

看到这样的价格，不少人觉得，豆包大模型在“以亏损换市场”。但在会后的媒体采访中，谭待表示：“用亏损换收入是不可持续的，我们从来不走这条路子。敢于定价这么低，是因为我们对优化推理成本的技术能力很有信心。”

关于为什么定这样的价格，谭待表示是基于两方面因素：一是能做到，二是需要这么做。

一方面，通过模型结构的优化、分布式推理、混合调度等举措，极大压低了大模型的推理成本。模型调用量越大，成本优化空间就越大。以字节业务为例，飞书的主要流量高峰在工作时间，抖音在下班后休闲时间的流量更高，这些不同业务的大模型推理，能根据业务特点错峰使用，把资源利用率跑得很高，就可以降低成本。

另一方面，今年以来，大模型能力得到极大提升以后，应用将是一个非常重要的环节。当下市场，很多企业有尝试大模型的想法，但因为不确定性的风险，多少有些畏手畏脚。只有价格降低到一定程度，试错成本足够低，更多的企业才会加入到大模型的应用中。

不久前，零一万物 CEO 李开复表示，大模型推理成本每年降低十倍，这在过去两年已经发生，优化得好更是可以降低二三十倍。

看来，字节对模型推理成本优化的预期也是非常乐观，降价所考虑的就是让大模型尽快在更多应用场景落地。

以大模型应用最广泛的内容产业为例，视频平台往往需要在浩如烟海的剧本中，筛选出优质且适合转换成影视项目的剧本。

假设，现在某公司计划利用大模型做一个 AI 剧本助手，帮助平台把几十万字的剧本提炼出核心要点，并进一步评估剧本可行性。如果想打磨出足够好的效果，可能需要 100 亿 tokens 的推理输入。过去，完成这一项目，负责人需要从公司申请 100 多万预算，这对一个中小企业而言并不算少。现在，还是这件事，使用豆包大模型，则只需要 8000 块钱。显然，这是一个几乎所有公司都能接受的价格。

换言之，曾经，很多创意想法可能因为大模型应用成本被拒之门外；现在，豆包大模型将价格打下来以后，成本极低，企业和创业者们不再因此而受到束缚，就更有机会找到好的落地场景，整个行业的蛋糕也会越做越大，从而形成价格低→ 使用量大 →落地场景丰富→应用效果好的正向循环。

经济学上，有一个专业术语叫做规模经济，意为在一定产量范围内，伴随产量增加，平均成本不断降低的现象。其原因在于，产量增加会带来一个结果，每多生产一单位产品的成本（边际成本）不断降低。

回到科技领域，同样存在类似的效应。互联网出现以后，流量成本不断降低，信息的分发成本几乎接近 0，今日头条、抖音都是其中的受益者。而现在，大模型正在加速 AI 应用的新一轮浪潮。

a16z 的合伙人 Martin Casado 曾在演讲中提到，从基本的经济分析来看，大模型将创造的边际成本降到了零，比如创建图像和语言理解。

业内都在期待大模型重塑互联网产品，这一切的前提是，它的价格足够低。现在，豆包大模型已经打了个样。

豆包“遇上”火山方舟，一场大模型的自我革新

在惊讶于低价的同时，不少企业可能担心模型的推理效果是否能够满足使用需求。

关于这一点担忧，其实答案在前文中已经有所暗示。不少用户应该都已经使用过字节面向 C 端的 AIGC 产品豆包，效果如何相信每个人都有体会。若是效果不好，它的用户数也不可能在短短一年间冲到同行业产品 TOP1。

又如，字节最近推出的 AI 分身创作产品星绘，大家也可以上手使用体验。

除了 AI 原生应用，抖音、今日头条、飞书等不少字节的产品都大量的使用了大模型。今日头条内嵌的 AI 工具不仅为用户提供了对话功能，还有笔记创作、梦境解读、创业指导等能力。

如今，不少互联网企业在发布大模型产品时，动辄喜欢加一句“超越 GPT 4”之类的说法。但整个发布会，豆包大模型都没有提到 GPT，这反而显示出谭待以及豆包整个团队的自信。

在被问及，豆包大模型和 Open AI、谷歌等海外公司的差别时，谭待笑着说道：“我可以很实事求是地讲，openAI肯定还是全球第一， anthropic、Gemini 也都做得非常好，这个差距首先是要承认的。”

与此同时，谭待也表示，虽然有差距，但是我们追的速度还是可以的。豆包的原生应用和体验越来越好，用户量也越来越大，这是比较重要的。一个最佳实践是，越来越多的人去做更多的应用，反过来又可以驱动技术的进步，从而形成一个正循环。而这些，国内目前还没有形成，但从今天以后，它可能会越来越快。

除了豆包等 C 端大模型产品，字节跳动还针对大模型推出了新一代 AI 应用开发平台——扣子专业版，具备低门槛、个性化、实时性、多模态等优势，并集合海量的 AI 资源、丰富的发布 API 服务。招商银行、海底捞等不少传统企业，都成为扣子的用户。

基于扣子和豆包大模型，招商银行搭建了可以推荐餐饮优惠门店的“掌上生活”bot，以及能汇总市场行情的“财富看点”bot。

通过使用豆包大模型，海底捞搭建了顾客评价分析模型，并将其应用于服务质量、菜品质量、经营管理的优化迭代。

在下午大消费分论坛上，海底捞信息科技部负责人杨炫之分享了海底捞的 AI 系统建设，他提到，AI 在餐饮企业的应用主要包括三方面，基于图文作业的重复性劳动（即广告文案等）、成熟模型的预测类工作（货品预测需求等）、相对开放的信息收集。

杨炫之在分享最后坦言，对于海底捞这样的传统企业而言，大模型带给更多的是便利性，或者说我们基础工作的替代，应用范围可能没有那么大。

回到大模型服务侧，作为大模型服务平台，火山方舟为模型训练、推理、评测、精调等提供了全方位功能和服务。在过往的一年多时间里，字节自身已经充分使用体验，支撑了字节的大模型的丰富生态。

火山方舟 2.0 版本，升级了插件、系统承载能力等多个维度。

以 RAG 知识库插件为例，火山方舟 2.0 内置了字节跳动多年实践沉淀的大规模高性能向量检索能力，百亿级别数据可以实现毫秒级检索，支持秒级索引流式更新，可以实现新增数据能够实时检索。知识库插件也内置了豆包向量化模型，文档解析环节集成了飞书优秀的文档解析能力，支持pdf、doc、ppt、excel、txt、markdown等多种复杂类型文档解析能力。

系统承载能力方面，火山方舟 2.0 实现了万卡公有云GPU资源池、5秒接入新建精调模型、3分钟内完成千卡扩容等效果。

谭待表示，全新升级的火山方舟 2.0 不仅提供了抖音、今日头条的搜索和内容插件等丰富的生态资源，还有着充沛的算力资源和极致弹性，保障客户的业务稳定。

前文提到的扣子专业版，已经集成在火山方舟，提供企业级 SLA 和高级特性。

回到起点，豆包已经在 C 端取得了看起来还不错的效果；在 B 端，豆包大模型一上线就因价格而广受关注，火山方舟与豆包大模型会交出怎样的答卷？

结果，或许已经呼之欲出。