从预训练到智能体:NVIDIA Vera CPU如何重塑AI扩展定律

AI行业正经历一场悄无声息的范式转移:扩展定律(Scaling Laws)的内涵不再局限于预训练阶段的参数与数据堆叠,而是向多阶段、多模态的智能体协作演进。NVIDIA在其技术博客中发布的Vera CPU,正是为这一“智能体时代”量身定制的算力底座。它的出现,值得每一个AI基础设施从业者重新审视算力互联设计的底层逻辑。

传统认知中,AI扩展遵循清晰的三阶段路径:预训练阶段通过更大的数据集、更多的参数和大规模并行GPU系统提升“智能”基数;后训练阶段借助指令微调与人类反馈(RLHF)提高实用性,同时将GPU重新导向生成式推理任务。然而,最近业界对测试时缩放(Test-Time Scaling)的关注——即通过给模型更多生成token来提升推理能力——暴露了传统GPU架构在实时交互与长时间推理场景下的瓶颈。Vera CPU正是在此背景下诞生:它被设计为“AI工厂”的核心节点,专门处理智能体在多轮对话、代码生成、多步骤推理等场景中持续增长的计算与内存带宽需求。

Vera的技术亮点不在于打破摩尔定律的绝对算力,而在于对高吞吐与能效的深度融合。传统CPU在AI工作负载中往往沦为“等待者”,因为GPU设备间的数据搬运、模型切换、上下文管理会频繁产生I/O瓶颈。Vera通过专用的互联架构(如NVIDIA自家的NVLink-C2C或定制化一致性互联)将CPU与GPU的内存域打通,使得智能体的“思维链”过程中,CPU可以高效地管理长期上下文状态、中介推理结果,并动态调度GPU资源,而无需频繁触发PCIe上的数据拷贝。这种设计直接回应了“后训练”与“测试时缩放”阶段对低延迟、高带宽数据传输的刚性需求。

更深层的战略意义在于,Vera标志着NVIDIA正在从“GPU霸主”向“全栈算力生态”转身。它不再仅仅是加速卡,而是与Grace CPU、Blackwell GPU、BlueField DPU共同构成一张智能体网络的节点。对于AI基础设施团队而言,这意味着未来的集群设计必须放弃“CPU=控制平面、GPU=计算平面”的简单二分法,转而考虑如何让CPU成为“智能体工作流引擎”,在预训练集群之外,为强化学习循环、多智能体协同仿真、在线推理环境提供独立的、可横向扩展的算力平面。

展望未来,随着智能体AI与强化学习持续推动扩展定律的下一阶段,算力基础设施将更加强调“异构协同”与“带宽效率”。Vera CPU给行业带来的实质性建议是:在规划新集群时,除了关注GPU的浮点性能,更应评估CPU的内存带宽、互联拓扑和上下文切换能力,因为这些指标将直接决定智能体能否在“测试时缩放”过程中保持高效。算力的“武器”不再只有显存大小,还有CPU与GPU之间的“高速公路”宽度。