面壁智能联合清华开源首个昇腾原生1.58-bit端侧大模型，重构4比特量化格局

AIHOT小编

2026-05-25 16:47

在中国AI产业加速国产化替代的当下，一个经常被提及的质疑是：「国产算力只能跑跑演示级的小模型」。面壁智能与清华大学联合团队的最新开源成果，正在从底层技术上瓦解这一论断——他们发布了全球首个基于华为昇腾平台原生训练的1.58-bit端侧大模型BitCPM-CANN，并在8B参数规模级完成了从训练到端侧推理的全流程验证。

该模型的推出绝非常规的模型迭代，而是对整个大模型「量力而行」逻辑的一次结构性颠覆。传统低比特量化通常作为模型训练后的「减肥」步骤，通过牺牲一定精度换取推理效率。但BitCPM-CANN的突破在于，它实现了1.58-bit「原生瘦身」——即模型从训练阶段就基于二进制化（权重只有\{-1,0,1\}）设计与昇腾架构深度耦合，而非后量化剪枝。这带来的直接后果是：在不改变模型能力基线的前提下，其存储与计算开销被压缩至FP16模型的约10%。

具体性能指标上，一个8B参数规格的1.58-bit模型，经过适配优化后，完全可以在旗舰级手机本地端流畅运行，而不必依赖云端接口。这无疑给端侧AI助理、离线大模型应用爆发提供了坚实基座。更重要的是，整个工程路线是经过昇腾CANN黑盒优化后的原生训练，意味着国产化AI芯片第一次在大规模端侧模型训练链上完成了从「能用」到「好用」的跨越。

客观来看，后量化方案的精度退化是困扰行业多年的痼疾——粗糙的bits直接压掉模型对长尾分布的刻画能力。而原生1.58-bit训练通过极低比特的随机梯度匹配与稳定化策略，保留了答案质量。这一技术路线此前主要由Meta等海外巨头在实验室探索，如今面壁智能率先开源全套训练底座的落地版本，对国内端侧生态的推动不容忽视。对于希望摆脱对英伟达单一芯片依赖的终端厂商而言，这提供了一条包含模型权重、训练脚本、适配CANN算子的全栈开源参考。

趋势研判上，AI模型在端侧的长尾部署正从「轻量知识问答」迈向「全功能多模态交互」，而极低位宽的原生训练很可能是解锁这一能力的关键钥匙。BitCPM-CANN的开源，值得所有关注国产算力生态的开发者和产业领袖重点跟进——毕竟，模型在终端跑起来的那一刻，算力的国界才真正被打破。