国产算力长期被贴上“只能跑小模型”的标签,但这一认知正被一项新进展打破。面壁智能联合清华大学,开源了基于华为昇腾训练的1.58-bit端侧大模型BitCPM-CANN。这不仅是中国首个在昇腾芯片上原生训练的极低比特(1.58-bit)模型,更首次将8B参数规模的模型塞进了旗舰手机——而这一切,均建立在全面开源的基础上。
此次开源的BitCPM-CANN,其核心创新在于将模型权重压缩至1.58-bit(即每个参数仅用1.58比特表示),相较传统的FP16或INT8量化,模型体积骤降约10倍,推理速度提升数倍,而精度损失控制在可接受范围内。更重要的是,这一模型并非事后量化或剪裁获得,而是在训练阶段就原生适配昇腾架构。面壁智能基于华为CANN(华为AI计算框架)重构了训练管线,实现了从底层算子到分布式策略的完全自主可控,这意味着国产算力在端侧大模型训练与推理的“最后一公里”被实质性打通。
在行业背景层面,当前主流端侧大模型多依赖NVIDIA GPU进行训练,再由高通、苹果等芯片进行部署。国产芯片受限于CUDA生态的缺失,长期在训练侧处于弱势。BitCPM-CANN的出现,提供了另一种可能:依托华为昇腾,从训练到部署完全在国内硬件体系内完成,并且通过极致的1.58-bit量化,使旗舰手机(如搭载麒麟芯片的设备)能够原生运行8B参数量级的大模型,而无需依赖云端联动。这对于数据隐私、离线场景以及国产半导体自主化都具有标志性意义。
“开源全套训练底座”是另一关键词。面壁智能同时开放了基于CANN的训练代码、量化工具及推理引擎,并提供了详细的适配文档。这意味着开发者无需从零搭建昇腾环境,即可快速复现并微调自己的1.58-bit端侧模型。这种“交钥匙”式的开源策略,将大幅降低国产算力进入端侧大模型领域的门槛。此前,开源社区中针对昇腾的端侧项目几乎空白,而BitCPM-CANN有望成为一套标准化参考实现,推动更多团队在国产平台上进行极低比特模型的创新。
值得关注的是,1.58-bit并非单纯的“小而美”。面壁智能团队在技术报告中指出,该模型在中文基础问答、指令跟随等任务上,与同参数规模的FP16模型相比,差距控制在5%以内,但在内存占用和功耗上优势显著。考虑到端侧场景对资源敏感,这种“以牺牲少量精度换取大幅效率”的路线,更适合实时交互、离线智能助理等应用。
展望未来,BitCPM-CANN的开源或将引发连锁反应:一方面,国产端侧芯片(如华为昇腾、瑞芯微等)的AI生态将因一个“标杆模型”的落地而加速成熟;另一方面,1.58-bit量化技术如果能够普及,将让更多中低端设备具备运行大模型的能力,而非局限于旗舰机型。对于AI应用开发者而言,是时候重新评估国产算力在端侧的价值了——在开源力量面前,软硬件协同的边界正在被重新定义。