![]()
![]()
记忆张量科技有限公司与商汤科技大装置团队联合宣布,成功在国产GPGPU集群上实现了业界首个以“记忆—计算—调度”一体化为核心的PD分离商用推理集群,并在真实生产环境中稳定运行。测试数据显示,该方案综合推理性价比达到同代英伟达A100的150%,标志着国产算力体系在大模型商业化落地方面首次具备了体系级竞争力。
此次突破为国产算力生态找到了差异化突破路径。PD分离从硬件优化升级为记忆中心的设计范式。在MemOS体系中,分离架构可延伸至行为预测、上下文规划、记忆布局等更高维度,成为整体架构的有机组成部分。这也预示着C端场景正式进入“记忆推理”时代。
突破性能天花板
在过去一年中,“PD分离”(Prefill与Decode分离)已成为大模型推理优化的关键技术方向。然而,单纯依靠硬件层面的隔离,其性能提升存在天然上限。随着DeepSeek-R1等高性能模型从B端走向C端大规模应用,“记忆”已成为影响用户体验与成本结构的核心变量。
![]()
记忆张量旗下核心产品MemOS作为业内首个以记忆为中心的系统级基础设施,创新性地将大模型认知结构划分为参数记忆、激活记忆、明文记忆三类,形成了跨时间尺度的智能调度链路。该系统能够精细决策哪些计算应前移至Prefill阶段,哪些必须留在Decode环节,以及任务的保留、降级或淘汰策略。
“只有当PD分离与记忆结构深度耦合,重构‘记忆—计算—调度’整体体系,才有机会真正突破传统性能上限。”记忆张量技术负责人表示。MemOS与PD分离的结合,本质上是为高速算力通道配上了一套精密的“交通指挥系统”,将分离架构的潜力发挥到极致。
从优化技巧到推理范式
本次合作中,商汤大装置提供了系统级基础设施支撑,其IaaS层高效算力池与智能调度能力为模型推理提供了稳定底座。Ignite框架则实现了多后端推理适配、KVCache优化、关键算子加速等性能增强,形成了完整推理优化链路。
算丰信息为集群提供了核心算力支持,管理所有高性能GPGPU计算资源、大规模存储及高速互联网络,确保了PD分离架构的高效稳定运行。
在这一联合架构中,MemOS的记忆体系映射为了清晰的物理分工:
P域(Prefill Domain) 成为“记忆工厂”,专注于影子上下文预测与KV Cache批量预生成,这类吞吐敏感型任务得以集中处理,不再干扰实时交互;
D域(Decode Domain) 则扮演“实时交互前台”,专注于用户请求解码,确保首字生成时间(TTFT)的超低延迟;
跨节点KV Cache 通过高带宽互联与零拷贝路径实现“即产即用”,MemOS的激活记忆机制与商汤大装置的通信优化形成互补,极大降低了传输开销。
“这是一次体系级的结构共振,”商汤大装置架构师指出,“PD分离为MemOS提供了高速算力通道,而MemOS则为PD分离注入了精细到记忆单元的业务调度逻辑。”
全面超越传统架构
在严格的生产级评测环境下(包括2k输入、1k输出、TTFT<2s的SLA约束、72小时稳态运行),该联合方案交出了令人瞩目的成绩单:
集群整体吞吐量提升75%,从基础部署的107.85 tokens/s跃升至189.23 tokens/s;单卡并发能力提升20%,从每卡25.00并发提升至29.42并发,显著增强了C端高并发场景的承载能力;TTFT全程稳定小于2秒,Decode域因职责单一化而避免了资源抢占……综合推理性价比达到同代英伟达A100的150%,在相同负载与SLA约束下实现了体系级正面超越。
“这些数据表明,国产GPU已不再只是‘能跑大模型’的替代选项,而是真正具备了承载R1级C端业务的体系能力。”记忆张量商业化负责人说。
打造记忆原生AI基础设施
基于此次成功实践,记忆张量与商汤科技计划在以下方向深化合作:
一方面,将围绕更大规模国产GPGPU集群,构建完整的记忆驱动流水线推理底座,形成“影子上下文—激活记忆—PD分离—多级缓存—AIOps”的可观测、可演进基础设施体系。
另一方面,双方将在Prefill行为预测自治化、多级记忆管理、跨任务长时记忆一致性、Agent轨迹记忆等前沿方向持续探索,为伴随式AI、具身智能及复杂任务编排提供支撑。
从更宏观视角看,此次突破标志着国产算力体系正从“参数计算”走向“记忆计算”,从“静态推理”走向“动态流水线”,从“模型中心”走向“记忆中心”。在AI技术快速演进的下半场,国产算力基础设施不再仅是追赶者,更有机会成为下一代推理范式的定义者之一。
原标题:《业界首个!记忆张量 × 商汤大装置:国产GPGPU推理成本反超 A100》
栏目主编:戎兵
本文作者:文汇报 沈湫莎
题图本报资料图





京公网安备 11011402013531号