当业界还在讨论“国产算力是否只能跑小模型”时,面壁智能联合清华大学开源了一个关键答案:基于华为昇腾训练的1.58-bit端侧大模型BitCPM-CANN。这个模型的发布,不仅意味着国产AI芯片在训练复杂大模型方面取得了实质性突破,更将“原生训练”与“端侧部署”串联成了一条完整的国产化技术闭环。
长期以来,外界对昇腾等国产AI硬件的印象多停留在“推理可用,训练吃力”,尤其在大规模参数量(如8B级别)模型的原生训练上,国产算力被认为尚有短板。面壁智能团队的这一工作,正是在挑战这一预设前提。BitCPM-CANN的核心理念在于极致的量化技术1.58-bit。相较于常见的8-bit或4-bit量化,1.58-bit将神经网络的权重压缩到了接近极限的地步,以{ -1, 0, 1 }三值形式表征权重,极大降低了计算复杂度和内存带宽需求。这使得原本需要庞大服务器集群才能训练的8B模型,能够通过特制优化在昇腾平台上完成原生训练,进而可以直接“塞进”旗舰手机。
行业背景同样值得关注。当前,端侧大模型成为AI落地的重要趋势,Apple Intelligence、高通AI Hub等生态都在推动本地化智能。然而,这些方案大多依赖高通、苹果等非国产硬件生态。面壁智能此次选择在国产昇腾芯片上进行原生训练并开源全套训练底座,标志着端侧AI赛道出现了“另起炉灶”的差异化路径。尤其对信创市场、边缘计算场景而言,这意味着不再需要依赖海外算力来完成从模型诞生到终端部署的全流程。
值得强调的是“原生训练”而非“后量化”。很多端侧模型往往是在英伟达等平台上完成训练后,再通过工具链转化为昇腾可推理的格式。BitCPM-CANN则证明,从训练的第一步就可以跑在国产芯片上,这种“根技术”层面的独立,对供应链安全具有深远意义。同时,开源全套训练底座,意味着其他团队可以快速复用这套技术栈,降低国产化落地的门槛。
对于做端侧AI的开发者和厂商而言,一个紧迫的判断是:国产算力的“不可能三角”正在被打破——训练效率、参数规模与端侧部署能力,如今有了一个可行的锚点。面壁智能的实践证明,极致的量化技术可以有效弥合国产硬件与顶尖模型的鸿沟。接下来,更值得关注的是:这个模型在真实手机上的功耗、推理速度及多任务能力。如果体验能达到当前主流4-bit模型的水平,那么国产端侧大模型的商业化进程将迎来真正的加速度。