今日凌晨,智谱发布技术博客《Scaling Pain:超大规模Coding Agent推理实践》,首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。包括两个关键Bug的定位及修复、一项性能优化创新、以及一个意外的监控机制突破。
针对Context Parallel策略中的KV Cache冗余存储问题,智谱设计实现了KV Cache分层存储方案 LayerSplit —— 每张GPU仅持有部分层的KV Cache,通过广播机制完成协同计算。在Cache命中率90%条件下,40K至120K请求长度区间内,系统吞吐量提升10%至132%,且上下文越长收益越显著。这一优化直接大幅提升智谱在Coding场景下的服务能力上限。
智谱本次披露的工程突破具备明确的技术深度——团队不仅在自有推理链路中定位并修复了PD分离架构下的KV Cache跨节点复用竞态,更进一步在主流开源推理框架SGLang的源代码层面发现并修复了HiCache模块的加载时序缺失(read-before-ready)问题,修复方案被SGLang开源社区采纳,其底层基础设施能力不仅服务于自身模型,也正在成为大模型行业的公共基础设施之一。
智谱推理优化还在进一步加速,大幅提升单位算力token吞吐效率,降低推理成本。
智谱官宣GLM-5底层基建进展:吞吐最高提升132%,修复方案被SGLang开源社区采纳
IP属地 中国·北京
编辑:格隆汇 格隆汇 时间:2026-05-07 23:13:51
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 618调用超30亿次,ROI涨20%:阿里妈妈的AI,正在重写“人货场”
- 宁王严选,银河通用
- ST百灵(002424.SZ):公司产品中选全国中成药采购联盟集中带量采购
- 博云新材(002297.SZ):2026 年至今博云东方暂未向中钨高新子公司金洲精工供应高端钻针母材产品,未确认销售收入
- “亚洲版SpaceX”--高盛解读“亚洲太空经济全景”
- 沃什重创"美元贬值交易"!黄金崩了,比特币重挫,芯片狂欢还能撑多久?
- 高争民爆(002827.SZ):获中信银行拉萨分行不超1.8亿元贷款承诺函,专项用于回购股份
- 贵州茅台(600519.SH)2025年年度权益分派:每股派现金红利28.02423元
- 从滴露到露露乐蒙,大牌频繁营销翻车问题出在哪了?
- 高通全面进军AI数据中心:Meta签多代CPU大单、微软部署HBC芯片,预计明年贡献数十亿收入
- 涉嫌非法吸收公众存款罪,华恒生物实控人被公安机关刑事拘留
- 七匹狼再赴佛罗伦萨,以东方美学深度对话全球时尚
- 2.3万亿美元!日本推出14年超级投资计划,近1/3押注AI半导体
- 美光公布“王炸”财报:业绩、指引全面开花 盘后大涨13%
- 暂停跨境TRS增额?私募回应





京公网安备 11011402013531号