超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

作者：王悦

2024/11/22 10:39

在大模型技术圈里，有一个获得不少认同的说法：阶跃星辰的底层基础模型能力很强，甚至是几家大模型公司中数一数二的。但其实，拥有这种看法的大多是足够了解国内大模型能力现状的人，对于圈子之外的人，无法直观感受到这种潜移默化的底层硬实力。

然而，在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中，阶跃星辰给了行业一次强有力的冲击。

国际权威榜单 LiveBench 官网发布最新的榜单成绩显示，阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一，成绩逼近 OpenAI 的 o1-mini-2024-09-12，超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型，目前排在阶跃前面的只有OpenAI 和 Anthropic。

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

榜单链接：https://livebench.ai/

本次榜单里，阶跃是唯一进入榜单前十名的中国大语言模型，位列全球第五。同样上榜的大模型公司还有通义千问和深度求索，均没有冲进前十，分别位列第十三和第二十三名。

在榜单中的多项测评标准中，Step-2 在 IF Average（指令跟随）的表现上以 86.57 的分数排在第一，超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

从 2024年3月发布国内首个由创业公司研发的万亿参数语言大模型预览版 Step-2 ，到在中文大模型基准测评机构SuperCLUE 上登顶国内多模态大模型榜首，到本次在LiveBench 上获得中国大模型第一，可以说，阶跃星辰正在全力提升自身底层实力并且成效显著。

基于 Step-2 万亿参数大模型和 Step-1.5V 多模态模型能力，其 C 端产品跃问也随之迭代，推出的通过图像交互“即拍即问”功能“拍照问”，解决了文字和语音交互中难以准确描述的痛点，获得用户好评。目前，Step-2 已经接入跃问 APP 和网页端（https://yuewen.cn），开发者可以在阶跃星辰开放平台，通过 API 接入使用 Step-2。

一、LiveBench 测出的第一：含金量仍在上升

Step-2 取得 LiveBench 国产大模型第一名——之所以这件事能证明阶跃星辰的模型实力，是因为 LiveBench 本身具有含金量，不同于针对特定数据集进行训练从而拿高分的定向考试。

LiveBench 是由 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构联合推出，提出了一种创新的基准测试方法，其中包含6大类18项任务，一向以权威性、客观公正、全面评估而获得业界认可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官网最醒目的位置。

并且为了避免大模型“作弊”，LiveBench 每月发布新问题，并根据最近发布的数据集、arXiv论文、新闻文章和 IMDb 电影简介设计问题，以限制潜在的数据污染。LiveBench 也已评估全面著称，可以从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估，还能设计中立的评价体系以避免人类评价者受格式偏好和文风影响。

根据过往的榜单情况来看，上榜者多为国外的科技巨头，极少有国内的大模型能冲到排行榜前十，甚至大多难以上榜。2024 年到目前为止的每个月排名中，只有通义千问的开源大模型 Qwen2-72B 在 6月14 日发布的 LiveBench 的测评中上榜，排名位列第八。

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

令人惊艳的是， Step-2 的 IF Average（指令跟随得分的平均值）指标碾压所有在榜模型。指令跟随衡量的是模型对语言生成细节的控制力，通常模型满足限定要求，诸如必须遵守一项或多项指令，例如字数限制或在回答中纳入特定元素。

指令跟随在文字创作上的表现会更加显著，在生成高质量、有创意的文字内容的同时，Step-2模型能够根据用户的指令对文本进行精确地调整和优化，比如在创作古诗词时，对字数、格律、押韵、意境都可以做到精准把握。

例如，在跃问中输入：写一首主题为“爱而不得”的七言律诗，表达出相爱的人因为不能相互理解而走散，充满对爱情无力、灰心的意境，得出的回答是：

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

这一段 prompt 明确要求输出中国的古诗体、有规定字数、需要理解其背后的意境，输出的结果符合要求，并且能主动做到押韵。

不仅文学创作能考察指令跟随能力，是否能够一一应对一个复杂 prompt 的多项细节指令，也是衡量指令跟随能力的较好方式。

比如，向跃问提问：设计一个为期一周的社区环保活动计划。活动计划应包括每天的具体活动安排；确定至少三个不同的环保主题，如减少塑料使用、节约能源和垃圾分类；为每个主题设计一个互动环节，鼓励社区居民参与，列出所需物资清单，并估算活动预算；描述如何通过社交媒体和社区公告板宣传这次活动；考虑到不同年龄层的居民，设计适合儿童、成人和老年人的活动；确保活动计划中包含安全措施和应对突发情况的预案。

得到的回答是：

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

在这一大问题中，包含了八个子问题，跃问一个都没有漏掉，足见其较强的指令跟随程度。

出众的指令跟随能力背后，必然是模型更强大的理解和推理能力在支撑。Step-2 具备出色的理解能力，能够从上下文中推断出用户需求，精准捕捉用户在模糊指令中的真实意图，提供更准确、个性化的响应，把模糊指令读得更清晰。

除此之外，数据量也是 Step-2 能力强悍的关键因素。其知识覆盖范围和深度都取得显著突破，不仅能够处理常见领域知识，还能深入理解和回答在特定领域或边缘分布中的复杂问题。

二、阶跃不止于万亿参数大模型

开发出万亿参数模型，是各家大模型发展之路的一个里程碑。一年左右的时间内，号称要发布万亿参数大模型的公司不下五家，但最终能真正发出来的却寥寥无几。

今年 3 月，阶跃星辰发布了 Step-2 语言大模型预览版，这是国内首个由创业公司发布的万亿参数模型，很多成立时间更早、融资体量更大的公司都没有成功发布。

Step-2 万亿参数语言大模型采用 MoE 架构。可以说， MoE 架构是万亿参数模型现阶段不可绕开的路，但阶跃星辰在开发 Step-2 MoE 架构时候没有采用相对成熟的 upcycle（向上复用）方案，走出对算力的需求低、训练效率高的舒适区，转而完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计， Step-2 中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。基于创新算法架构的 Step-2 万亿参数大模型，在数学、逻辑、编程、知识、创作、多轮对话体感全面逼近 GPT-4。

在 Step-2 训练过程中，阶跃星辰系统团队更是突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，具备领先的系统能力以支持高效训练。

然而，阶跃的「星辰大海」远不止于万亿参数的大语言模型。

Step-1.5V 是阶跃星辰 Step 系列里的多模态大模型，其视频理解能力不仅能够准确识别视频中的物体、人物和环境，还能够理解视频的整体氛围和人物情绪，因此被应用于各种视频分析和处理任务，如视频内容理解、视频问答等。

除此之外，Step-1.5V 也具有超强感知能力。通过创新的图文混排训练方法，Step-1.5V 能够准确理解各类图像、图表、复杂图文混排的长上下文内容及其逻辑关系，也能够精准感知图像中物体的复杂空间关系，甚至能够处理高分辨率和极限长宽比的图像。

Step 系列中包括 Step-1X 图像生成大模型。和大语言模型一脉相承，Step-1X 也具备了更强的深度语义对齐能力和细节生成能力与创新力。通过 Step-1V 大模型对高标准训练图像实施精细化标签处理，可获得高精度图文配对数据，极大提升了语义匹配的准确度与深度，即使面对包含多个对象、详细属性、复杂逻辑关系的文本指令时，也能确保生成图像与描述相符和。

Step-1X 生成的图像不仅具备丰富的细节和逼真的质感，还针对中国文化的深度优化，使得该模型在处理富含中国元素的内容时展现出独特优势，无论是传统美学还是现代风尚，更能满足国人独特的审美需求。

有了扎实的底层模型后，阶跃星辰的产品开发应更加有底气。在定位为智能助手的跃问中，加入了智能视觉搜索功能「拍照问」。「拍照问」能够解决难以用语音和文字准确描述的问题，比如，拍一张今日晚餐，跃问就可以计算卡路里摄入；随手拍各种物体图片，跃问就能反馈正确的发音、例句。

阶跃星辰，赞71

基础模型加持下，阶跃星辰的产品能力的想象力还会进一步延展。

三、写在最后

阶跃星辰创始人姜大昕曾表示，他期待的 AI 下一个里程碑有二：一是强化学习模型泛化能力的提升；二是视觉领域理解和生成的一体化。

而今看来，阶跃星辰距离里程碑的路程就在不远处。登榜LiveBench 的首个国内万亿参数大模型、全链路自研 DiT 架构的Step-1X图像生成大模型、具备超过行业平均理解能力的Step-1.5V多模态模型，都是脚下一步步朝上迈的台阶。雷峰网(公众号：雷峰网)雷峰网雷峰网

以通用大模型为目标，这家公司正在以阶跃之力，奔赴星辰大海。