当前位置: 首页 » 资讯 » 科技头条 » 正文

面壁智能联合清华大学发布中国首个1.58-bit大模型BitCPM-CANN

IP属地 中国·北京 编辑:唐云泽 Chinaz 时间:2026-05-25 16:36:42

近日,面壁智能联合清华大学及 OpenBMB 开源社区,正式发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型 ——BitCPM-CANN。该模型在低比特大模型训练领域取得了重大突破,标志着中国在人工智能技术上的又一里程碑。

BitCPM-CANN 的推出,不仅展示了国产算力平台的强大实力,还实现了从量化算子到训练算法的全链路原生开发。该模型分为0.5B、1B、3B 和8B 四个尺寸,性能表现卓越,相较于同尺寸的全精度家族 MiniCPM4进行了逐项对照评测,结果令人振奋。BitCPM-CANN 在推理阶段能够释放约6倍的显存红利,这意味着一个8B 参数的模型能够轻松运行在当前主流旗舰手机上,为手机产业带来了极大的便利。

官方介绍,面壁智能基于 MindSpeed 与 Megatron-LM 搭建了完整的低比特训练底座,涵盖了环境适配、32K 长序列支持、并行策略、融合算子等工程体系。今后,所有面向昇腾的低比特训练工作都可以依托这一套公共基础设施。这不仅降低了开发门槛,也加快了技术的迭代速度。

为了进一步推动这一技术的应用,BitCPM-CANN 的所有模型权重均已开源,用户可以通过 HuggingFace 和 ModelScope 平台获取。这为开发者提供了一个极具潜力的工具,鼓励更多的创新应用在 AI 领域涌现。

综上所述,BitCPM-CANN 的发布标志着中国在 AI 大模型训练领域迈出了坚实的一步,为未来的智能应用铺平了道路。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新