每经记者|郑欣蔚 每经编辑|毕陆名
发布仅一周时间,阶跃星辰最新开源基座模型Step 3.7 Flash便冲上海外热榜,拿下了海外大模型评测平台Artificial Analysis多个第一。近日,阶跃星辰在其官方微信公众号公布了这一消息。
《每日经济新闻》记者注意到,在上述平台的输出速度榜,Step3.7 Flash以409 词元/秒位列主流模型第一,同时在端到端响应时长、智能效率与速度价格比等关键指标上均处于领先位置。此前,在该模型发布2天后,Step 3.7 Flash还登上OpenRouter Trending(一个大模型榜单)全球第二位,成为近期全球开发者社区最受关注的开源模型之一。
然而,高光之下,“百模大战”的持续压力同样清晰:Step 3.7Flash发布同期,与阶跃星辰同为“AI六小龙”的智谱已提前推出同速率高速API(应用程序编程接口);6月1日,MiniMax携百万上下文新一代通用模型M3强势卡位。
快思慢想研究院院长、特邀评论员田丰在接受《每日经济新闻》记者采访时表示,Step 3.7 Flash的推出是阶跃星辰在效率基础设施这一细分赛道建立了可验证的技术信号,但尚未形成可防御的差异化护城河。“相较于智谱、MiniMax等竞争对手,阶跃星辰处于滞后位次。”田丰说,“滞后指的是在产品触达层与开发者生态上仍存在系统性空缺,而非模型技术本身的落差。”
Step 3.7 Flash速度抢眼
“模型竞争正在从单纯追求峰值智能,转向追求单位成本下能够持续交付多少有效智能。高效率Flash(通常指轻量、快速、低成本的模型版本)模型或将不再是旗舰模型的补充,而会成为AI(人工智能)生产化时代最重要的基础模型形态之一。”阶跃星辰如此解释其对Flash模型的押注。
Step 3.7 Flash 5月29日正式发布并开源。据官方介绍,Step3.7 Flash采用稀疏MoE(专家混合模型)架构,总参数196B(billion,10亿)+1.8B(ViT)(参数量为18亿的视觉模型),激活参数仅11B,在模型能力、推理成本与执行效率之间实现更优平衡。与此同时,最高生成速度达400词元/秒,适合高频、多轮、低等待的Agent(智能体)应用。
速度确实抢眼,但正如阶跃星辰自述,Step 3.7 Flash追求的不仅仅是更快或者更便宜,而且是成为一款真正面向生产级Agent的高效率模型。在阶跃星辰看来,随着Agent从演示走向真实生产环境,模型不只要回答问题,还要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮任务中持续保持执行轨迹。这对底层基础模型提出了完全不同的要求,同时,模型能力的关键指标正在发生变化。
在“好用”这一维度上,阶跃星辰亮出的成绩单显示,其中在τ2-bench Telecom(韬平方基准中的电信客服评测领域)的低、中、高三档推理难度下通过率均达到98%以上。
对于这一高分表现,田丰在接受《每日经济新闻》记者采访时解读称,τ2-bench测试(一款面向大语言模型对话智能体的评测基准工具)作为目前最贴近生产级Agent场景的工具调用基准之一,测试的是模型在用户、工具、数据库三方交互中的一致性与抗错能力,98%以上的得分确实具有参考价值。
但他也泼了一盆冷水:τ2-bench的测试集中于零售、航空、电信等结构化领域,现实Agent工作流中的长尾场景(非结构化API、动态上下文切换、多工具串联失败恢复)覆盖不足。此外,Step 3.7 Flash虽然在发布2天后登上OpenRouter Trending全球第二位,但数据显示,Step 3.7 Flash发布一周内周词元消耗属于中等活跃水平,尚不足以判断规模化生产采用。
在他看来,更需要关注的信号是,未来Step 3.7 Flash能否在OpenRouter榜单中稳定排名前列,并维持数月的调用增长曲线。
智谱、MiniMax贴身角逐
就在阶跃星辰为Step 3.7Flash的登顶而收获关注时,智谱与MiniMax在同一时间窗口内相继出牌,持续的“百模大战”压力也映照出阶跃星辰高光之下的阴影。
一方面,推理速度正日益成为行业标配,而非差异化优势。5月22日,智谱已面向部分企业客户推出GLM-5.1高速API“GLM-5.1highspeed”,在保留旗舰基座能力的前提下,输出速度同样达到400词元/秒。一周时间,两家国产大模型公司均创下几乎同一速度纪录。田丰指出:“这说明400词元/秒已成为当前推理系统工程的技术收敛点,而非阶跃星辰的独特优势。”
事实上,速度赛道也从不缺少追逐者,Flash产品路线正在迎来行业的集结。例如,近期受到广泛关注的DeepSeek-V4系列模型,同时推出Pro(专业增强版)和Flash两条产品线,两者均支持高达100万词元上下文,旗舰型号主打推理峰值,Flash型号主打效率。
另一方面,阶跃星辰虽锚定生产级Agent推出最新开源基座模型,但其新模型的256K(千词元)上下文窗口在面对“上下文即竞争力”的长程Agent场景时,容易遭遇结构性天花板。
Step 3.7 Flash发布3天后,MiniMax正式推出新一代通用模型M3,主打前沿Coding(编程)能力、1M(100万个词元)超长上下文、原生多模态的完整组合,与阶跃星辰形成泾渭分明的技术路线。田丰认为,MiniMax M3凭借百万级上下文窗口应对复杂任务上限的瓶颈,依靠能力完整性支撑更高API单价。阶跃星辰则坚持单位成本下的有效智能,锚定高频轻量化Agent基础设施。前者的能力峰值路线争夺复杂任务定价权,后者的速度路线锁定基础设施频率。
“两条路线不存在零和竞争,而是各自对应Agent生产化的不同价值层。但阶跃星辰更要警惕‘廉价但可替代’的陷阱——速度与成本的优势可以为阶跃星辰赢得大量中低复杂度Agent场景,但这类场景的迁移成本也低,护城河易被侵蚀。”田丰说。
他进一步指出,相较于智谱、MiniMax,阶跃星辰在产品节奏与生态布局上存在一定滞后,这类短板弥补周期远长于技术迭代。滞后首先来自数次战略摇摆。阶跃星辰早年深耕C端(消费者端)消费应用,主力产品“冒泡鸭”停运后,从“超级模型+超级应用”路线仓促切换至Agent基座研发,战略变更形成产品空窗期,资本市场估值随之大幅震荡。反观智谱、MiniMax在IPO(首次公开募股)前就敲定清晰发展路径,智谱依托GLM全系产品深耕政企MaaS(模型即服务)商业化,MiniMax以Talkie等C端产品积累流量,构筑全球化增长飞轮,二者早早完成用户触点沉淀。
其次是开发者生态密度的硬性差距。商业化数据直观展现差距:MiniMax最新披露的业务数据显示,其全球企业和开发者客户数已超百万,较半年前增长5倍,全球用户规模约3亿,过去两个月年化经常性收入增长超过100%,这背后是其长期沉淀的API调用黏性。智谱则依托CodeGeex王牌应用牢牢锁住编程开发者,2026年3月,其MaaS平台注册用户突破400万,API年度经常性收入飙升至约17亿元,较上年同期提升60倍。
“阶跃星辰虽牵头联合十余家国产芯片厂商组建模芯生态联盟,提前布局国产化算力适配,但合作止步于硬件基础调试,没能落地规模化部署与开发者迁移成果。”田丰表示,“其生态联盟更接近供给侧协同,真正的生态壁垒需要以需求侧的开发者黏性作为回路,这一闭环目前尚未形成。”
回到Step 3.7 Flash本身,这款产品凭借工具调用稳定性与速度成本优势,为阶跃星辰守住了效率赛道的入场资格,但无力在短时间内修复多年积累的生态欠账。其押注Flash模型的路线有其突围价值,可一旦全行业集体扎堆布局Flash产品,阶跃星辰若想不被淹没,必须在同质化中找到那个不可替代的答案。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。