三值量化突破：面壁智能在华为昇腾上实现 8B 大模型，端侧推理节省 6 倍显存

2026/05/25 12:05阅读量 2

面壁智能联合清华、OpenBMB 发布 BitCPM-CANN 三值大模型系列，首次在华为昇腾上完成端到端训练。模型参数从 0.5B 到 8B，采用 1.58-bit 三值量化，显存节省约 6 倍，能力保留率超 97%。该成果使 8GB 内存手机运行 600 亿参数大模型成为可能，标志着国产算力端侧 AI 的关键突破。

事件概述

面壁智能联合清华大学、OpenBMB 开源社区，在华为鲲鹏昇腾开发者大会（KADC 2026）上发布 BitCPM-CANN 三值大模型系列。这是全球首个在国产昇腾平台上端到端完成训练的三值大模型，覆盖 0.5B、1B、3B、8B 四个尺寸档位，所有版本均已开源。

核心信息

技术原理：采用 1.58-bit 三值量化，将模型权重从传统 FP16 的几万种数值压缩到仅三种（-1、0、1），编码三个值只需约 1.58 个二进制位。该方法基于微软 BitNet b1.58 研究，但面壁智能首次在昇腾上落地完整训练流程。
性能与效率：相比 BF16 全精度模型，BitCPM-CANN 节省约 6 倍显存。8B 参数模型所需显存从约 16GB 降至不到 3GB，可在手机上流畅运行。在 11 项基准测试（ARC、CMMLU、GSM8K 等）中，3B 档位能力保留率达 97.2%，8B 档位为 95.7%。
国产算力适配：训练效率达到常规基线的 95%，证明三值训练方法不依赖 NVIDIA GPU，华为昇腾同样可以高效运行。高通 8850/8397 等芯片已支持 2-bit 原生推理，为端侧部署提供硬件基础。
生态基础：BitCPM-CANN 基于面壁智能 MiniCPM 系列，后者 GitHub 星标超 3 万，Hugging Face 下载量超 3000 万。后续结合 MoE 架构，可在 8GB 内存设备上运行 600 亿参数大模型。

值得关注

在 AI 内存需求激增（DRAM 价格涨幅预期达 280%）的背景下，三值量化不再是“用精度换内存”的妥协，而是证明大量精度冗余可以被安全去除。面壁智能从底层训练框架 BM-Train 到端侧模型家族，再到昇腾低比特训练基础设施，构建了完整的国产闭环。这一进展使端侧 AI 竞争从“谁模型更大”转向“谁能让智能真正跑在每台设备上”。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？