国产算力破局：面壁智能开源昇腾原生训练1.58-bit端侧大模型BitCPM-CANN，旗舰手机可部署

AIHOT小编

2026-05-25 17:51

国产AI芯片生态近期迎来一次关键“能力证言”。面壁智能联合清华大学，正式开源一款基于华为昇腾平台原生训练的1.58-bit端侧大模型——BitCPM-CANN。此举不仅将大模型部署从云端进一步推向消费级设备，更首次展示了昇腾在训练高效端侧模型方面的潜力。

长期以来，国产算力多聚焦于云端大模型的推理或小规模专用模型训练，面向端侧的超低比特大模型原生训练尚属空白。BitCPM-CANN的出现打破了这一局面。该模型基于面壁MiniCPM架构，核心在于采用了1.58-bit的极致量化技术。通过将参数精度降至仅用“-1、0、1”三个值表征，模型在保持相当推理能力的同时，内存占用和计算能耗大幅降低。一个原本体量庞大的8B（80亿参数）模型，经过原生训练和量化后，理论上能在旗舰级手机芯片上流畅运行，这为离线语音助手、实时图像处理、个人知识管理等端侧AI场景打开了新可能。

更关键的突破在于训练层面。BitCPM-CANN并非简单地将现有模型移植或后训练量化到昇腾平台，而是基于华为CANN（异构计算架构）进行了从零开始的原生训练。这意味着它充分适配了昇腾的硬件特性与算子库，而非依赖英伟达CUDA生态的二次适配。面壁智能同时开源了完整的CANN训练代码和操作指南，包括数据预处理、混合预训练、对齐微调及推理优化等全链路工具链。这对于亟需构建自主AI软硬件栈的中国市场而言，价值显著：它为其他初创团队提供了“如何在国产芯片上复现原SOTA模型训练”的参考范本，降低了端侧模型开发者对英伟达硬件的路径依赖。

在行业对比层面，此举明确了两个趋势。其一，端侧大模型的竞赛已从“能否部署”转向“能否原生训练”。此前开源社区诸多端侧模型（如Phi-3、Gemma系列）多为后量化产物，性能存在折损。BitCPM-CANN的原生超低比特训练表明，量化可以更早地参与训练过程，以提升模型最终表现。其二，国产AI生态正在走向闭环。华为昇腾+国产模型+开源工具的组合，正从单纯承接英伟达的替代品，成长为能够输出独特价值的技术栈。

对于开发者与行业决策者，BitCPM-CANN的推出提供了务实建议：若你正在规划端侧AI产品，可以将其视为一个低门槛的起点。建议重点关注其开源训练底座在自身数据上的微调效果，以及对不同手机芯片（如高通、联发科）推理的移植成本。未来，随着更多模型在国产算力上原生训练并开源，“云端预训练+端侧原生精调”或将成为主流工作流，推动从手机到IoT设备的全面智能化升级。