三值量化突破:面壁智能在华为昇腾上实现 8B 大模型,端侧推理节省 6 倍显存
2026/05/25 12:05阅读量 2
面壁智能联合清华、OpenBMB 发布 BitCPM-CANN 三值大模型系列,首次在华为昇腾上完成端到端训练。模型参数从 0.5B 到 8B,采用 1.58-bit 三值量化,显存节省约 6 倍,能力保留率超 97%。该成果使 8GB 内存手机运行 600 亿参数大模型成为可能,标志着国产算力端侧 AI 的关键突破。
事件概述
面壁智能联合清华大学、OpenBMB 开源社区,在华为鲲鹏昇腾开发者大会(KADC 2026)上发布 BitCPM-CANN 三值大模型系列。这是全球首个在国产昇腾平台上端到端完成训练的三值大模型,覆盖 0.5B、1B、3B、8B 四个尺寸档位,所有版本均已开源。
核心信息
- 技术原理:采用 1.58-bit 三值量化,将模型权重从传统 FP16 的几万种数值压缩到仅三种(-1、0、1),编码三个值只需约 1.58 个二进制位。该方法基于微软 BitNet b1.58 研究,但面壁智能首次在昇腾上落地完整训练流程。
- 性能与效率:相比 BF16 全精度模型,BitCPM-CANN 节省约 6 倍显存。8B 参数模型所需显存从约 16GB 降至不到 3GB,可在手机上流畅运行。在 11 项基准测试(ARC、CMMLU、GSM8K 等)中,3B 档位能力保留率达 97.2%,8B 档位为 95.7%。
- 国产算力适配:训练效率达到常规基线的 95%,证明三值训练方法不依赖 NVIDIA GPU,华为昇腾同样可以高效运行。高通 8850/8397 等芯片已支持 2-bit 原生推理,为端侧部署提供硬件基础。
- 生态基础:BitCPM-CANN 基于面壁智能 MiniCPM 系列,后者 GitHub 星标超 3 万,Hugging Face 下载量超 3000 万。后续结合 MoE 架构,可在 8GB 内存设备上运行 600 亿参数大模型。
值得关注
在 AI 内存需求激增(DRAM 价格涨幅预期达 280%)的背景下,三值量化不再是“用精度换内存”的妥协,而是证明大量精度冗余可以被安全去除。面壁智能从底层训练框架 BM-Train 到端侧模型家族,再到昇腾低比特训练基础设施,构建了完整的国产闭环。这一进展使端侧 AI 竞争从“谁模型更大”转向“谁能让智能真正跑在每台设备上”。
