国产芯跑出8B大模型？面壁开源首个昇腾原生训练1.58-bit端侧模型

AIHOT小编

2026-05-25 19:57

国产算力长期被贴上“只能跑小模型”的标签，但这一认知正被一项新进展打破。面壁智能联合清华大学，开源了基于华为昇腾训练的1.58-bit端侧大模型BitCPM-CANN。这不仅是中国首个在昇腾芯片上原生训练的极低比特（1.58-bit）模型，更首次将8B参数规模的模型塞进了旗舰手机——而这一切，均建立在全面开源的基础上。

此次开源的BitCPM-CANN，其核心创新在于将模型权重压缩至1.58-bit（即每个参数仅用1.58比特表示），相较传统的FP16或INT8量化，模型体积骤降约10倍，推理速度提升数倍，而精度损失控制在可接受范围内。更重要的是，这一模型并非事后量化或剪裁获得，而是在训练阶段就原生适配昇腾架构。面壁智能基于华为CANN（华为AI计算框架）重构了训练管线，实现了从底层算子到分布式策略的完全自主可控，这意味着国产算力在端侧大模型训练与推理的“最后一公里”被实质性打通。

在行业背景层面，当前主流端侧大模型多依赖NVIDIA GPU进行训练，再由高通、苹果等芯片进行部署。国产芯片受限于CUDA生态的缺失，长期在训练侧处于弱势。BitCPM-CANN的出现，提供了另一种可能：依托华为昇腾，从训练到部署完全在国内硬件体系内完成，并且通过极致的1.58-bit量化，使旗舰手机（如搭载麒麟芯片的设备）能够原生运行8B参数量级的大模型，而无需依赖云端联动。这对于数据隐私、离线场景以及国产半导体自主化都具有标志性意义。

“开源全套训练底座”是另一关键词。面壁智能同时开放了基于CANN的训练代码、量化工具及推理引擎，并提供了详细的适配文档。这意味着开发者无需从零搭建昇腾环境，即可快速复现并微调自己的1.58-bit端侧模型。这种“交钥匙”式的开源策略，将大幅降低国产算力进入端侧大模型领域的门槛。此前，开源社区中针对昇腾的端侧项目几乎空白，而BitCPM-CANN有望成为一套标准化参考实现，推动更多团队在国产平台上进行极低比特模型的创新。

值得关注的是，1.58-bit并非单纯的“小而美”。面壁智能团队在技术报告中指出，该模型在中文基础问答、指令跟随等任务上，与同参数规模的FP16模型相比，差距控制在5%以内，但在内存占用和功耗上优势显著。考虑到端侧场景对资源敏感，这种“以牺牲少量精度换取大幅效率”的路线，更适合实时交互、离线智能助理等应用。

展望未来，BitCPM-CANN的开源或将引发连锁反应：一方面，国产端侧芯片（如华为昇腾、瑞芯微等）的AI生态将因一个“标杆模型”的落地而加速成熟；另一方面，1.58-bit量化技术如果能够普及，将让更多中低端设备具备运行大模型的能力，而非局限于旗舰机型。对于AI应用开发者而言，是时候重新评估国产算力在端侧的价值了——在开源力量面前，软硬件协同的边界正在被重新定义。