通过分级管理推理过程中产生的KV Cache记忆数据,UCM能够显著扩大推理上下文窗口,从而提升推理效率,降低每Token的推理成本。 周跃峰博士在演讲中强调,在AI时代,模型训练、推理效率与体验的量纲都以T…
为了解决这个问题,昆仑万维提出了Matrix-Game 2.0,一个交互式世界模型,它通过几步自回归扩散算法实时生成长视频。Matrix-Game 2.0基于Self-Forcing训练策略,通过创新的自…
论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开…
更低的推理成本:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2…
综合能力媲美顶级闭源模型 Claude Sonnet-4
该技术已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20