在Qualcomm Hexagon NPU上通过自定义1.58内核运行BitNet模型
2026/06/02 16:00阅读量 2
ENERZAi成功将微软的BitNet b1.58 2B模型部署到Qualcomm QCS6490 Hexagon NPU上。由于QNN SDK不支持ternary操作,团队编写了自定义Hexagon内核来实现1.58-bit计算,验证了超低比特大模型在边缘NPU上运行的可行性,为未来在广泛部署的Snapdragon设备上运行更大规模语言模型铺路。
事件概述
ENERZAi宣布成功在Qualcomm QCS6490 Hexagon NPU上运行BitNet (b1.58) 2B模型。BitNet是微软研究院提出的语言模型架构,权重仅取−1、0、+1三种三元值,理论上约需1.58比特表示,内存占用极低,非常适合边缘部署。但主流NPU SDK(如Qualcomm的QNN)只支持标准量化格式,不支持三元操作,导致BitNet无法直接运行。
核心信息
- 技术障碍:QNN SDK的层库中不包含三元矩阵乘法等1.58-bit操作,没有现成的执行路径。
- 解决方案:ENERZAi基于Qualcomm Hexagon架构底层接口,编写了自定义的低级计算内核(kernel),专门用于1.58-bit运算,实现了硬件-软件协同设计。
- 成果:成功在QCS6490 Hexagon NPU(搭配Adreno GPU)上以合理的吞吐量和内存消耗运行了BitNet b1.58 2B模型。
值得关注
这一成果不仅验证了超低比特大模型在专用NPU上运行的可行性,更重要的是,Qualcomm Snapdragon平台(包含Hexagon NPU)广泛应用于智能手机、AR/VR头显和汽车系统。这意味着低比特语言模型可被部署到数十亿现有设备上,而无需等待SDK原生支持。ENERZAi表示,这只是实现>8B模型在NPU上运行的早期验证,真正的边缘智能需要更大规模的模型。
