日常生活中,我们经常遇到需要在布满密集小字、且有几处区域高度反光的菜单上,辨别某一特定菜品价格的场景。这对许多人来说很棘手,但对阶跃星辰的大模型Step 3而言却是小菜一碟。它能根据用户指令,在极短时间内定位到餐前小食区域的菜品无骨鸭掌,并准确地识别出它的价格。显然,这样的感知能力,已经超过人类水平。
2025年7月25日,阶跃星辰在上海召开Step 3大模型发布会暨生态联盟成立大会。会上,该公司正式发布了上述新一代基础大模型Step 3,并计划于7月31日面向全球企业和开发者开源。
与此同时,宣布与上海国有资本投资有限公司达成深度战略合作,并联合国内近十家领先的芯片、平台厂商发起成立“模芯生态创新联盟”,致力于通过推动模型和芯片产业链联合创新,加速大模型应用落地。
此外,该公司还邀请沐曦创始人、董事长兼总经理陈维良,天数智芯董事长兼CEO盖鲁江,燧原科技创始人、董事长兼CEO赵立东,以及壁仞科技创始人、董事长兼CEO张文,围绕“大模型与芯片的协同创新”这一话题,展开圆桌对话。
(资料图)
推出新一代基础大模型Step 3,推理效率最高达DeepSeek-R1的300%
阶跃星辰自2023年成立以来,便以实现通用人工智能为目标,聚焦基础大模型的研发,不断推进模型技术迭代。该公司于2024年3月和9月分别发布千亿参数原生多模态大模型Step 1和万亿参数混合专家模型Step 2。
阶跃星辰创始人、CEO姜大昕表示:“从Step 1到Step 2两代基模的快速迭代,促使我们深入思考什么才是最适合应用的模型。”
该公司经过探索发现,模型必须满足“多开好省”的特点。
首先,“多”即多模态。虽然数学与代码常被用于测试模型能力,但多模态在大量应用场景中才是刚需。
其次,“开”即开源。开源模型有利于私有化部署,且便于后训练和微调,能极大地帮助模型适应下游应用需求。
再次,“好”即逻辑能力好。模型既要学识丰富、善解人意,又要逻辑严谨。
最后,“省” 是在保证模型能力优异的前提下,尽可能降低成本。
Step 3正是在上述研发理念的指导下应运而生。
目前,该模型拥有两大突出特点。
其一,模型能力强。其具备强大的视觉感知与复杂推理能力,不管是跨领域的复杂知识理解、数学与视觉信息的交叉分析,还是日常生活中的各类视觉分析问题,它都能准确完成。通过MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench (2024.08-2025.05) 等一系列榜单测评,该模型的得分超过国内外所有开源的同类模型,成绩达到当前开源多模态推理模型的最高水平。
(资料图)
会上,借助几个案例,阶跃星辰对该模型的多模态和推理能力做了展示。除了开头提到的“无骨鸭掌”案例,还包括识别色盲自测图和帮用户计算分摊花销。对于前一个问题,Step 3能够很快正确识别出图中字母为“Step 3”,并打趣它和自己的名字相同是一个有趣的巧合。对于后一个问题,尽管原始设定规则相对复杂,但它通过关联微信截图和购物小票图,依然能准确地计算出每个人应付的钱数。
其二,推理效率高、应用成本低。此前有不少提升模型推理效率的开源工作,例如DeepSeek就做了诸多优化,但这些优化主要针对英伟达H800等高端国外芯片。阶跃星辰希望能开发一些创新方法,让模型可以更好地适配到更多类型的芯片上,包括国产算力。因此,该公司从开始设计模型架构时,便着重考虑硬件和系统的特点,最终使得Step 3能在最广泛的硬件上进行高效处理。
从数据上看,Step 3在某个国产芯片上的推理效率最高可达DeepSeek-R1的300%,在基于英伟达Hopper架构的芯片上进行分布式推理时,相较于DeepSeek-R1的吞吐量提升超70%。
(资料图)
据阶跃星辰联合创始人、副总裁朱亦博透露,Step 3的表现之所以优于其他模型,主要是采用了一款名为多矩阵分解注意力的新型注意力机制架构,因而能在不牺牲模型参数量的条件下,显著减少计算复杂度和显存占用。
也正如姜大昕所说:“更高的处理效率就意味着更低的成本,传导到用户那里就是更低的价格。”
(资料图)
Step 3的多模态能力主要表现在视觉理解和推理上,但在实际应用中,用户对多模态能力的要求则更为丰富,比如能看能写、能听能说、能画能唱,甚至可以生成视频等。
基于此,该公司也构建了“1+N”的Step系列大模型矩阵。其中,“1”是指Step 3基础大模型,“N”是指Step系列的多模态大模型矩阵,广泛覆盖语音、视觉理解、图像编辑、图像和视频生成、音乐等领域。值得关注的是,该公司同期还发布了阶跃首个多模理解生成一体化模型Step 3o Vision、以及第二代端到端语音大模型Step-Audio 2。
会上,该公司对Step-Audio 2做了具体展示。它不仅可以非常流利地使用中文、英文、上海话等各种语言和用户丝滑交流,也能模仿小朋友、男性、女性等不同用户的声音。它还具备多人对话的能力,即便被打断,也能灵敏反应。
据悉,目前这些多模态大模型均可以在“阶跃AI”官网(stepfun.com)和“阶跃AI”App(应用商店搜索下载)进行体验。
会上,阶跃星辰宣布与上海国有资本投资有限公司达成深度战略合作,并举办签约仪式。据了解,双方将围绕加强资本链接、生态业务合作等方面,进行全面深度合作。
此外,过去一段时间,该公司在商业化上也取得了丰硕成果。
在智能终端领域,与国内超过一半的头部国产手机厂商合作,共同打造手机Agent体验;联合吉利汽车推出AI智能座舱,成功实现行业内端到端语音大模型首次量产上车;与千里科技、吉利合作,打造新一代智能座舱产品交互体验;在金融行业,与财跃星辰合作推出“AI小财神Pro”版本,实现高峰期每分钟tokens(模型处理文本时的基本单位)超过五百万。
联合多家芯片厂商发起“模芯生态创新联盟”,加速推动AI业务繁荣
会上,阶跃星辰联合近10家芯片及基础设施厂商成立“模芯生态创新联盟”,,致力于打通芯片、模型和平台全链路技术。通过底层联合创新提升大模型适配性和算力效率,该联盟将为企业和开发者提供高效易用的大模型解决方案,加速应用落地。
(资料图)
该联盟的成立,源于一个全行业共识:大模型推理成本的降低,已成为决定其应用渗透率的关键。
“降低推理成本本质是提升算力应用效率。API价格战只是一时喧嚣,提升模型算力效率需产业联合创新。”姜大昕表示。
实际上,该公司当初在设计Step 3的模型架构时,就已经考虑到国产芯片的硬件特点。这是一个联合设计的过程,也是通过建立联盟来联合创新生态的动机和目标。
据介绍,该联盟的首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。其中,华为昇腾芯片已首先实现Step 3的搭载和运行,沐曦、天数智芯和燧原科技等企业也已初步实现运行Step 3。
在圆桌对话环节,针对如何加强产业链协同,让模型和芯片更好地配合这一话题,各位发言人发表了自己的意见。
陈维良表示,依托“模芯生态创新联盟”,芯片和模型企业应深化算子优化以形成更高效的模型,并借助中国产业链优势,打造自主自强的中国特色解决方案。
盖鲁江说道,一要推动国产芯片在体量和降本上突破;二要深入理解不同应用场景,匹配用户需求并提出一揽子的解决方案;三要通过联盟打通芯片到整机厂商、模型厂商及最终应用场景的链条,建立统一规范和标准。
赵立东认为,国产AI芯片目前面临高端芯片制造和生态两座大山,后者是模型与芯片合作的切入点。
张文则指出,模型与芯片的良好配合需依托国产大模型的发展,当前国产大模型水平已接近国外,但国产芯片仍有较大差距,所以适配国产大模型公司能为芯片产品定义提供重要参考,可根据前者对超长文本、大规模推理等特性的需求调整产品,让国产大模型的发展能有效牵动国产芯片设计的进步。
显然,国产大模型和国产芯片是科技发展的两个支点,只有实现从模型、芯片、平台到应用的全产业链联合创新,推动大模型和算力双向实现价值最大化,才能加速推动AI在各行各业真正落地。