当前位置: 首页 » 资讯 » 科技头条 » 正文

中国芯“混编”战力全开!上海AI实验室新技术破算力瓶颈,沐曦壁仞等均适配

IP属地 中国·北京 文汇报 时间:2026-03-20 06:29:56



随着人工智能(AI)加速演进,社会对高质量、低成本算力的需求持续攀升,但如何整合不同品牌、不同架构(即“异构”)的国产芯片,一直是制约我国AI产业大规模落地的核心瓶颈。

记者从上海人工智能实验室(上海AI实验室)获悉,他们近日正式发布DeepLink混合推理方案,率先实现多元异构芯片的深度混合调度与协同推理。这也是该实验室继去年率先攻克国产芯片混合训练的难题后,在构建我国自主可控、高效协同的算力底座上,再次取得的标志性突破。

算力重心转向推理应用

随着AI大模型应用的普及,社会当前的算力需求正逐渐从训练转向推理。简单说,如果大模型的“训练”是它们在研发阶段“寒窗苦读、习得知识”,那么“推理”就是它们“学成”后步入社会、为千行百业解决具体问题的过程。当前,伴随AI应用的爆发,全社会对推理算力的需求,正呈几何级增长。

然而,此前国产算力推理技术,只能支持单一型号芯片的算力调度。由于各芯片厂商缺乏互联互通的标准,因此异构芯片间调度难、利用率低,难以形成合力。如何突破这一“算力围城”,成为加速AI全面赋能各行各业的关键。

“AI模型的推理,其实像是一场足球赛。”上海AI实验室专家工程师、系统平台中心负责人王辉告诉记者,用单一芯片建设的算力集群,就像是一支由“11个前锋”或“11个后卫”组成的球队,虽然单兵素质挺优秀,但由于位置单一、功能重复,面对复杂赛况却往往难以发挥最大效能。

实际上,模型的推理,包含预填充(Prefill)和解码(Decode)两个关键阶段,前者对算力要求极高,后者则对内存访问性能更敏感。此次上海AI实验室发布的DeepLink混推方案,首次基于多种国产异构算力,将预填充和解码进行了分离(PD分离),从而可以将不同的任务,分配给不同型号的芯片,相当于能根据“球员能力”排兵布阵。


巧妙“布阵”化解“偏科”难题

算力芯片其实都存在一定的“偏科”——有的算力性能强,就好似爆发力突出,适合在推理的“预填充”环节进行“冲击”;有的存储性能优秀,如同耐力好,适合担纲“解码”任务。

王辉表示,根据具体任务需求,选出“最合适球员”的混合组队模式,可让国产芯片从过去的单打独斗转向系统性集团作战。

在DeepLink混合推理方案中,上海AI实验室构建了三大原创技术底座,让异构的国产芯片可在同一个算力集群中丝滑配合、充分发挥所长。其中,DLSolver(策略求解器)就像是高明的“球队经理”,可以对不同芯片的能力进行精准评测,为其找到最适合的“场上位置”;DLRouter(智能流量路由)就像球队教练,能实时调度,确保整个算力集群顺畅运转;DLSlime(异构通信库)发挥了中场衔接作用,能够让不同芯片之间进行高效流量传输。

实测数据显示,在千卡规模的推理算力集群中,DeepLink方案较之传统的单一芯片方案,首字响应时间(TTFT)最大可优化34.5%。这意味着当用户向AI提问时,它“蹦”出第一个字的速度快了约1/3。同时,其推理吞吐能力提升32%,相当于AI持续输出答案的过程也提速近1/3。这表明,借助DeepLink,国产算力集群实现了芯片级的“知人善任”,真正实现了“1+1>2”。

盘活资源赋能“人工智能+”

DeepLink混推方案的发布,不仅是一次技术意义上的“登顶”,更有可能对我国AI产业生态带来积极影响。

当前,国内一方面渴求算力,但由于国产算力难以整合,一定程度上还出现了资源闲置的局面。DeepLink的出现,有助于充分挖掘国产芯片的潜力,将其转化为高价值的算力资源池,从而盘活全国的算力供给。

据透露,DeepLink混合推理方案已基本完成对8款国产芯片的适配,包括昇腾、沐曦、平头哥、壁仞等主流品牌,其推理性能平均提升幅度超过20%。这相当于用户所承担的算力成本相应地下降了20%以上。

由于能有效激活存量算力,国内一些省级算力中心已决定采用这一技术方案。同时,上海AI实验室还在继续推动DeepLink混合推理方案与更多国产芯片开展适配,从而将为更多本土芯片企业提供宝贵的发展空间。

值得一提的是,去年上海AI实验室曾推出DeepLink混合训练方案,成功实现了跨越千公里的多智算中心长稳混合训练千亿参数大模型。此次在“混合推理”上再次突破,意味着他们完成了“训推一体化”的全方位国产算力赋能体系建设。这将对于有效降低我国对特定算力硬件的路径依赖、保障国家算力安全、推动“人工智能+”落地,起到重要的基石作用。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。