当前位置: 首页 » 资讯 » 科技头条 » 正文

很彻底!预训练+训练框架全放出,这一国产模型在 “小龙虾”上掀起热潮

IP属地 中国·北京 上观新闻 时间:2026-03-04 14:20:52



今天(3月4日),中国大模型创业公司阶跃星辰继开源Step 3.5 Flash模型后,又开源了这款Agent基座模型的预训练权重(Base)、中训练权重(Midtrain)以及配套的Steptron训练框架。这一举动在当前大模型开源趋于保守的环境下,显得颇为彻底,在开源社区引发热烈反响。



据了解,Step 3.5 Flash采用稀疏MoE架构,每个token仅激活约110亿参数(总计1960亿),在单请求代码类任务上最高推理速度可达每秒350个token。在Agent场景和数学任务上,Step 3.5 Flash的能力逼近闭源模型,能够胜任复杂、长链条任务,是阶跃星辰迄今最强的开源基座模型。

在开发者社区和实际应用中,Step 3.5 Flash已经迅速获得了市场验证。截至目前,这款模型在Hugging Face上下载量已超30 万次。就在3月2日,Step 3.5 Flash单日调用量已超过40B,在OpenClaw(被中国网友称为“小龙虾”)的调用量榜中排名第二。


OpenClaw 调用量模型排名

值得一提的是,向来低调的阶跃星辰研发团队,罕见地现身相关社区回答全球开发者有关Step 3.5 Flash的提问。

有开发者提问:在规划Step 3.5 Flash时,你们是否心中已经瞄准了这个特定的“最佳平衡点”:89 tokens/参数,并且正好卡在消费级硬件规模的上限(128GB用于Q4量化,11B激活参数以保证实用的运行速度)?

阶跃星辰CTO朱亦博回复称,团队的确有明确目标,即让相关模型能够运行在128GB内存系统中。他发现,目前市场上约230B规模的模型,刚好超出了其个人MacBook Pro设备4位量化的承受范围,因此他便要求团队对模型规模进行了适当缩减。从开发者的角度去研发产品,而不是让开发者来适应产品。有开发者说,这正是他觉得兴奋的地方。

在与阶跃星辰研发团队的沟通中,有开发者希望阶跃星辰可以将基础模型与指令/思考模型一起发布,这样社区就可以对它进行微调了。

阶跃星辰对开发者有求必应——今天,阶跃星辰将Step 3.5 Flash的预训练权重、中训练权重以及配套的Steptron训练框架一同开源,希望通过更彻底的开源,让开发者能够以Step 3.5 Flash为基座进行更深度模型定制,打造真正属于自己的Agent。


新民晚报记者注意到,短时间内,海外社区对阶跃星辰进一步开源的反馈十分热烈。

业内专家分析,随着OpenClaw等Agent平台热度持续升温,Step 3.5 Flash的开源或将进一步加速中国模型在全球Agent生态中的渗透。

原标题:《很彻底!预训练+训练框架全放出,这一国产模型在 “小龙虾”上掀起热潮》

栏目编辑:马丹 题图东方IC

作者:新民晚报 郜阳

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。