昇腾原生1.58-bit端侧大模型BitCPM-CANN开源,8B参数塞进旗舰手机

一台手机能否原生运行8B参数的大模型? 面壁智能联合清华大学等机构给出的答案是:可以,而且用的是国产算力。他们正式开源了基于华为昇腾训练的1.58-bit端侧大模型BitCPM-CANN,这是中国首个在昇腾平台上以1.58-bit精度原生训练并开源的端侧模型。

1.58-bit是什么? 传统大模型多采用FP16或INT8精度,推理时需额外量化步骤,精度损失不可避免。BitCPM-CANN直接在训练阶段输出1.58-bit权重(三元值:-1、0、1),无需后量化,存储和计算开销骤降至传统FP16模型的1/10左右。这使得8B规模的模型可以完整装进旗舰手机,且推理延迟控制在毫秒级。

国产算力不再是“小模型专用”。 此前,业界普遍认为华为昇腾等国产芯片更擅长运行轻量化模型,对大模型尤其是端侧场景支持有限。面壁智能此次选择在昇腾上进行原生1.58-bit训练,并公开全部训练代码、CANN算子适配方案和模型权重,证明国产算力完全具备训练和部署端侧大模型的能力。这不仅降低了端侧AI对英伟达GPU的依赖,也为国产芯片生态注入强心剂。

开源背后:降低端侧AI入场门槛。 BitCPM-CANN开源了全套训练底座,包括CANN自定义算子和昇腾PyTorch适配接口。开发者无需从零设计训练流程,可直接在现有昇腾集群上微调或部署。这种“训练-部署一体化”开源策略,有望加速国产AI手机、智能终端、IoT设备等场景的落地。

趋势判断: 端侧大模型的竞争正从“模型大小”转向“比特效率”。面壁智能的1.58-bit原生训练路径,为国产芯片开辟了新的技术路线:与其追赶高精度算力峰值,不如在低比特训练和推理上建立独特优势。未来,更多针对国产芯片优化的端侧模型将涌现,手机AI助手、实时翻译、本地图像生成等体验有望迎来质变。