5月25日,面壁智能联合清华大学、OpenBMB开源社区发布并开源极低位宽模型BitCPM-CANN,系国内首个完全基于国产算力平台(华为昇腾)实现端到端训练并开源的三值(1.58-bit)大模型。
据记者了解,该模型包含0.5B、1B、3B、8B四个尺寸,与面壁同尺寸MiniCPM-4全精度家族相比,新模型在推理阶段可释放约6倍显存红利,模型能力保留率维持在90%至97.2%之间。
采访中,面壁智能AI Infra负责人李宇轩对记者表示,这意味着未来有望在手机上运行60B大模型,手机智能可以大幅提升。
该款模型诞生背景是全球内存价格的持续飙升。表现在市场端,据李宇轩透露,2026年以来内存价格已上涨约5倍,内存涨价倒逼厂商控制成本,进而限制设备内存大小,反向传导到所有要在内存里跑的模型应用程序。行业对于模型内存尺寸的要求压得更加严格,牵引整个Infra方向向更节约内存的路线优化,这也是此次面壁新模型结合市场情况调整的重要原因。
伴随技术发展与市场需求,人工智能算法近年来持续侧重提效,只是每年市场关注点不同。李宇轩向记者表示,端侧大模型的行业共识约在2024年下半年形成——手机上以后一定会跑模型。此后,行业重心从“能不能跑”逐步转向“如何高效”。
![]()
将大模型从高精度压缩成更低精度、更少比特来展示,是AI Infra发展的核心方向。去年行业聚焦 FP8、FP4应用落地,如今FP8已成为主流模型标配,DeepSeek、MiniMax等均普遍采用。受内存价格上涨推动,行业重心转向FP4,并加速推进2-bit、1.58-bit技术落地。
如果说AI运行是货车物流,那么精度便代表货物打包方式,FP8如同标准纸箱,FP4类似真空压缩袋,2-bit为极致捆扎压缩,靠算法适配压缩形态,适配小型终端设备,最大限度节省空间功耗。只是相对前者,极低比特量化的精度损失风险更高,需要通过数据、架构、训练算法协同优化来弥补。
李宇轩称,极低比特模型对数据噪声更敏感,需做更严格的清洗与筛选,避免无效信息干扰模型学习;选用对称、带零点的高性能量化器可以减少压缩损耗;以及在训练层面采用先QAT (量化感知)训练、后大模型蒸馏的组合方案,找到训练与蒸馏的最优平衡点,既保证低比特训练稳定,又最大程度恢复模型能力。
行业内,高通从去年下半年已率先实现2-bit硬件支持,国内DeepSeek、智谱、阿里千问等模型厂商也在推进低位宽量化模式落地。硬件端,过去几乎所有低位宽训练都在英伟达卡上做,此次面壁智能与华为合作,李宇轩称,团队耗时约三周完成昇腾平台的适配与优化,最终实现较小开销。他认为,在8B以内尺寸模型训练上,昇腾体验已经比较好,训练稳定性、芯片利用率接近可比状态。
不过,模型参数越小、位宽越低,能存储的知识越少,能力不是线性下降,而是断档式下调。李宇轩表示,后续可通过更精细的课程学习体系、针对性补基础能力来改善。
目前,BitCPM-CANN全系列模型权重已开源,面壁智能称希望开发者能零门槛体验国产算力在低比特场景的真实性能。





京公网安备 11011402013531号