Fireworks乔琳：AI产品上市时间从五年压缩到五天，我们的秘诀是什么？

人工智能乔琳 Firework

作者：刘洁

2024/08/14 10:36

在大模型革命的第一波浪潮中，许多初创公司和企业基于领先的闭源模型，如OpenAI的ChatGPT设计自己的商业模式。然而，随着越来越多新的开源模型的出现，大模型从训练转向推理，基于大模型的商业模式也在悄然改变。

最近，在人工智能领域，一家名为Fireworks AI的公司迅速崭露头角。在今年7月的B轮融资中，该公司在红杉资本的领投下筹集了5200万美元，估值达到了5.22亿美元。

作为一个SaaS平台，Fireworks AI专注于提供生成式人工智能推理和高质量的调优服务。公司致力于为客户打造速度快、成本合理且高度可定制的生成式人工智能（GenAI）解决方案，满足不同客户的独特需求。

在获得融资一个月后，Fireworks AI首席执行官乔琳做客红杉资本的Training Data Podcast，从自己之前领导 Meta 的 PyTorch 团队重建了整个堆栈、满足商业客户的复杂需求开始，讲述了Fireworks对大模型时代如何帮助客户进行优化、创造价值的思考。AI科技评论节选了部分内容并进行了解读，Podcast全文见：https://www.sequoiacap.com/podcast/training-data-lin-qiao/

Fireworks乔琳：AI产品上市时间从五年压缩到五天，我们的秘诀是什么？

简单、可以扩展：PyTorch和Fireworks的通用逻辑

乔琳创立Fireworks的初衷源自于一个特别的想法：缩短AI模型训练和推理时间，以此推动各种AI应用的繁荣发展。在training data podcast的对谈中，她分享了一个重要信息：Fireworks能够加速整个行业的产品上市周期，将其从五年压缩到五周甚至五天。而这一切，都离不开Fireworks最核心的AI框架，PyTorch。

乔琳在Meta的PyTorch团队的工作经历让她注意到，无论是通用AI模型还是其他类型，越来越多的模型都在PyTorch中构建和运行。她认为这是由于PyTorch的漏斗效应，使其从研究人员的工具逐渐转变为模型创建和生产应用的主流框架。

简单、可以扩展，这是PyTorch的设计逻辑，也是研究人员喜欢PyTorch的原因。PyTorch的设计哲学是简化用户体验，隐藏后端复杂性。类似地，Fireworks保留其美观简单的前端并重建后端，为用户提供更快的开箱即用体验。

例如，当Fireworks聚焦于以高性能提供推理时，他们手写了 CUDA 内核，实现了跨节点的分布式推理，以及跨 GPU 的聚合推理，将模型分成几部分，并以不同的方式进行缩放。此外Fireworks还实现了语义缓存，在给定内容的情况下不必重新计算。此外还专门捕获应用程序工作负载模式，然后将其构建到其推理堆栈中。

这一切组合成一个完整的系统，而不仅仅是一个库，能够自动调整以适应开发者或企业工作负载。从客户角度看，Fireworks提供了一个平台，让客户能够访问100多个模型，并帮助他们微调和定制模型以满足特定需求。

那PyTorch在里面又起了什么作用呢？

Fireworks用PyTorch替换其他的现有框架，让研究人员和开发者能够轻松地将他们现有的工作迁移到PyTorch上，就像替换一个普通的代码库一样。这样一来，就能够让研究和生产环境都能统一在PyTorch上，简化开发流程并提高效率。

这个看似简单的的替换过程实际上比预期的要复杂得多，因为它涉及到了整个推理和训练堆栈的重建，以及对数据加载、分布式推理和训练扩展等方面的优化。这个过程最终花费了五年时间，并且支持每天超过五万亿次推理；而现在，用户可以通过Fireworks的这套系统，将五年的经验压缩到五天中。

Fireworks与开源

越来越多的开源项目让商业活动使用AI模型的成本越来越低，但乔琳认为，和其他开源项目对比，Fireworks的优势不仅仅在于针对客户需求定制模型。

与开源项目相比，使用Fireworks的成本更低，这不仅仅体现在经济成本上，还包括了开发成本。Fireworks提供的是一套现成的解决方案，它减少了在尝试和优化不同模型上所花费的时间和精力。

此外，Fireworks还能提供更低延迟的推理速度，以更低的成本实现更多功能。根据Fireworks官方数据，Fireworks的RAG速度比Groq要高9倍；Fireworks SDXL的图像生成速度比其他提供商的平均水平高6倍；Fireworks的推测解码速度更是能够达到惊人的1000个令牌/秒。

与开源原始模型相比，Fireworks能将成本降低五倍，甚至在进一步微调的情况下降低三十倍。以vLLM为例，FireAttention吞吐量比vLLM高15倍，Mixtral 8x7b的每枚代币价格要比vLLM低4倍。

Fireworks还提供了极致简化的自动化服务。Fireworks在后端进行了大量的自动化工作，包括自动调整复杂性和性能优化。这一点是许多仅提供基础库和工具的开源项目所不具备的。Fireworks构建了一个完整的系统，能够自动根据开发者或企业的工作负载进行调整，实现更高的性能和更优的质量。这种自动化服务不仅简化了开发过程，也提高了整体的效率和产出。

市场趋势与竞争

许多初创公司在探索创意产品与市场契合度时，倾向于从OpenAI起步。然而，随着业务规模的扩展，他们迫切需要选择性能更优、延迟更低的AI模型来适应产品市场的需求。在这一关键时刻，Fireworks AI能够提供既经济又性能出色的AI解决方案。

乔琳观察到，在与客户的互动中，与CTO的接触日益频繁，这反映出整个行业正朝着创新驱动型业务转型的方向迅速发展。这一转变的背后有两个主要原因：

首先，行业领导层都注意到了生成式人工智能（Generative Artificial Intelligence，GenAI）浪潮正在重塑行业格局。新兴的初创公司正在以惊人的速度涌现。如果现有企业创新速度不够快，不能高效利用生成式人工智能，就会很快被市场淘汰。

其次，生成式人工智能降低了AI模型训练门槛。传统人工智能训练中，一般只有大规模公司才能提供训练模型需要的海量数据和资源。但生成式人工智能的出现让人们可以在已有的基础模型上进行构建，通过微调得到合适的模型。

Fireworks乔琳：AI产品上市时间从五年压缩到五天，我们的秘诀是什么？

在这一行业变革中，通用小模型因其灵活性越来越受到商业用户的青睐。Fireworks提供了大量规模在7B-13B之间的开源模型，在降低成本的同时，使开发人员能够专注于更小、更集中的数据集，更高效地处理部分特定的业务。

尽管OpenAI等公司研发出了可随意使用的通用款人工智能，但在某些领域，通用模型缺乏业务逻辑，无法满足特定业务需求。

Fireworks AI的模型微调服务正是为了解决这一市场痛点。Fireworks要求客户或开发人员首先收集并标记业务数据，然后根据具体情况选择合适的微调算法，调整参数和模型权重等。Fireworks在后端处理复杂的技术问题，而在前端为客户提供一个简单易用的界面，并留给客户足够的设计空间。通过这种方式，Fireworks使客户能够轻松地定制和优化AI模型，以满足其特定的业务需求。

未来愿景

Fireworks AI的愿景是构建一个能够提供全面知识访问的简单API。

目前，公司已经开发了一百多个模型，包括大型语言模型、图像生成模型、音频生成模型、视频生成模型、嵌入式模型和多模态模型，实现了广泛的基础模型覆盖，并针对延迟、吞吐量和每个Token的成本进行了优化。

尽管这些基础模型集合了丰富的知识和训练数据，但它们所涵盖的信息仍然有限。许多实时数据无法被捕获，而且大量信息隐藏在不公开的API之后，无法直接访问。

为了克服这些限制，Fireworks致力于创建一个功能强大的API，它能够精确地调用不同的模型和API，实现对全部知识的访问。在此基础上，Fireworks想建立一个可以访问数百名专家的专家混合网络，每个专家都很小但很灵活，能够针对特定问题提供高质量的解决方案。

乔琳相信，随着AI模型规模收益的放缓，行业将转向更注重模型适用性的优化。Fireworks AI凭借其创新的技术和定制化服务，完全有能力引领这一行业转变，为用户带来更高效、更精准的AI应用体验。

谁是乔琳？

Fireworks乔琳：AI产品上市时间从五年压缩到五天，我们的秘诀是什么？

Fireworks AI于2022年底在加州创立，乔琳是 Fireworks AI 的首席执行官兼联合创始人，她本科和研究生毕业于复旦大学完成了计算机科学专业，并拥有加州大学圣塔芭芭拉分校计算机科学博士学位。

2015年，乔琳加入了Meta（原Facebook）。当时正值公司AI技术从CPU向GPU转型的关键时期，需要从头开始设计AI基础设施。她带领团队研发了Caffe2等创新模型；并在后来的几年时间里带领由300 多名世界级优秀工程师组成的Meta PyTorch团队，领导开发了PyTorch及其周围的整个系统，乔琳也被誉为“PyTorch之母”。Meta PyTorch团队的研发成果给Facebook 数据中心提供了有力支持，并广泛应用于数十亿移动设备和数百万 AR/VR 设备。

乔琳从PyTorch上了解到了开发人员在AI开发竞赛中时面临的巨大障碍，找到稳定可靠的模型和架构和较低的模型总拥有成本。面对这处市场空白，乔琳选择离开Meta开启新的事业。她和Dmytro Dzhulgakov、Dmytro Ivchenko、James Reed、赵晨宇、Pawel Garbacki还有Benny Chen一起创立了Fireworks。这一批来自Meta PyTorch团队和GCP团队的精英在AI框架和AI基础设施方面有着深厚的背景，也正是这些专业知识能够让他们把复杂的AI构建不断简化，在保证灵活稳定的基础上降低AI的使用成本。

曾和乔琳在Meta同组研究AI Infra的贾扬清，也在去年创立了自己的人工智能公司，Lepton AI。Lepton AI和Fireworks属于同一赛道上的竞争对手。AI开发简化这个赛道考验的是团队的技术经验，只有技术大牛才有底气创立团队加入竞争。雷峰网(公众号：雷峰网)雷峰网

乔琳的Fireworks也是打出了很有底气的口号，“用于构建可用于生产的复合 AI 系统的最快、最高效的推理引擎”。