华为昇腾原生训练，面壁开源1.58-bit端侧大模型BitCPM-CANN

AIHOT小编

2026-05-26 00:12

在国产AI芯片生态快速演进的过程中，一个关键质疑始终存在：国产算力能否胜任大模型的原生训练，而非仅仅扮演推理加速器的角色？面壁智能联合清华大学等机构最新开源的BitCPM-CANN模型，给出了一个标志性答案——不仅可行，而且以1.58-bit极致量化的方式，将8B参数规模的模型塞入了旗舰手机。

这是中国首个基于华为昇腾原生训练的1.58-bit端侧大模型。BitCPM-CANN的推出，打破了“国产算力只能跑小模型”的固有认知。模型采用1.58-bit量化策略（即每个权重仅用1.58比特表示），相比传统FP16或INT8量化，内存占用与计算能耗大幅降低，从而使得8B参数在手机端成为可能。更重要的是，这一量化并非训练后的“事后修剪”，而是从训练之初就在昇腾上完成原生训练，精度和效率均有保障。

从行业背景来看，端侧大模型正成为隐私计算与离线智能的关键载体。然而，端侧部署长期受困于芯片算力与内存瓶颈，参数规模大多限制在1B至3B之间。面壁开源的这套方案，将规模跃升至8B，同时开源了全套训练底座，包括训练代码、模型权重、推理工具链等，这意味着开发者无需从零适配，即可在昇腾硬件上复现或二次开发。相比国外同类工作（如BitNet等），BitCPM-CANN的特殊价值在于“国产算力原生”——它不是从英伟达CUDA生态移植后的精简版本，而是从训练到推理完整运行在昇腾架构上的原生模型。

值得注意的是，1.58-bit量化在学术界被视为“全精度的最后边界”，其训练过程对数值稳定性要求极高。面壁团队此次在昇腾上复现并开源，验证了国产AI芯片在低精度训练领域的底层能力。这对整个国产芯片生态具有指标意义：开发者可以不再依赖国外硬件完成前期训练，再迁移到国产芯片上推理，而是直接“生于斯、长于斯”。

展望未来，BitCPM-CANN的开源可能开启两个趋势：一是端侧模型走向“极致量化+大参数”的新范式，8B乃至更大规模的模型在手机、IoT设备上运行将不再是少数厂商的独家秀；二是国产算力在端侧AI领域形成完整闭环，从芯片、框架到模型、工具链，逐步摆脱对海外生态的路径依赖。当然，极致量化必然伴随精度权衡，实际应用中需根据场景选择性价比最优的量化粒度。对于有志于端侧AI落地的团队而言，关注这套开源底座并评估其与自身硬件、场景的契合度，将是当下最务实的行动方向。