在端侧大模型竞赛中,模型大小与推理硬件之间的博弈从未停歇。当业界普遍认为“国产算力只能跑小模型”时,面壁智能联合清华大学开源的BitCPM-CANN模型给出了一个意料之外的答案。这款基于华为昇腾硬件原生训练的1.58-bit端侧大模型,不仅将参数量提升至80亿(8B),更重要的是,它通过极致量化技术将模型体积压缩至旗舰级手机可承载的范围,且全程基于国产算力栈完成训练。
技术上看,1.58-bit量化是BitCPM-CANN的核心突破点。传统大模型多采用8-bit或4-bit量化,而1.58-bit意味着每个参数仅用约1.5比特表示,这使模型体积显著缩小,同时保持可用精度。将80亿参数模型塞进手机端,这在国内尚属首次公开验证。更关键的信号在于“原生训练”:模型从零开始在昇腾硬件上完成训练和微调,而非移植适配,这证明了国产训练框架CANN(Compute Architecture for Neural Networks)对于前沿量化方案的支持深度。
围绕该模型,面壁智能同步开源了全套训练底座,包括训练脚本、量化工具链和推理引擎。这一举措降低了端侧开发者的门槛——任何团队都可以基于这套工具,在昇腾硬件上复现或微调自己的端侧模型。对比当前主流方案,多数端侧模型仍依赖海外厂商的GPU生态。BitCPM-CANN的开源,直接推动了国内端侧AI从“能用”向“好用”进化。
从行业趋势看,端侧大模型正从“能跑”走向“能训练”。此前,端侧模型的训练权几乎被英伟达GPU垄断。BitCPM-CANN的落地意味着国产软硬件协同已经能够支撑起从训练到推理的完整闭环,且产出的模型具备实际部署价值。对于手机、IoT设备厂商而言,这可能是撬动下一轮端侧AI体验升级的支点。
对开发者而言,该模型不仅是一个产品,更是对国产AI基础设施的一次压力测试。它证明:在国产千元级AI加速卡上,同样可以训练出具备竞争力的端侧模型。当生态不再被单一架构锁定,行业创新节奏理应加速。下一步,值得关注的是1.58-bit量化在更多场景中的泛化能力,以及CANN生态能否吸引更多模型开发者入驻。