从预训练到智能体：NVIDIA Vera CPU如何重塑AI扩展定律

AIHOT小编

2026-06-01 15:05

AI行业正经历一场悄无声息的范式转移：扩展定律（Scaling Laws）的内涵不再局限于预训练阶段的参数与数据堆叠，而是向多阶段、多模态的智能体协作演进。NVIDIA在其技术博客中发布的Vera CPU，正是为这一“智能体时代”量身定制的算力底座。它的出现，值得每一个AI基础设施从业者重新审视算力互联设计的底层逻辑。

传统认知中，AI扩展遵循清晰的三阶段路径：预训练阶段通过更大的数据集、更多的参数和大规模并行GPU系统提升“智能”基数；后训练阶段借助指令微调与人类反馈（RLHF）提高实用性，同时将GPU重新导向生成式推理任务。然而，最近业界对测试时缩放（Test-Time Scaling）的关注——即通过给模型更多生成token来提升推理能力——暴露了传统GPU架构在实时交互与长时间推理场景下的瓶颈。Vera CPU正是在此背景下诞生：它被设计为“AI工厂”的核心节点，专门处理智能体在多轮对话、代码生成、多步骤推理等场景中持续增长的计算与内存带宽需求。

Vera的技术亮点不在于打破摩尔定律的绝对算力，而在于对高吞吐与能效的深度融合。传统CPU在AI工作负载中往往沦为“等待者”，因为GPU设备间的数据搬运、模型切换、上下文管理会频繁产生I/O瓶颈。Vera通过专用的互联架构（如NVIDIA自家的NVLink-C2C或定制化一致性互联）将CPU与GPU的内存域打通，使得智能体的“思维链”过程中，CPU可以高效地管理长期上下文状态、中介推理结果，并动态调度GPU资源，而无需频繁触发PCIe上的数据拷贝。这种设计直接回应了“后训练”与“测试时缩放”阶段对低延迟、高带宽数据传输的刚性需求。

更深层的战略意义在于，Vera标志着NVIDIA正在从“GPU霸主”向“全栈算力生态”转身。它不再仅仅是加速卡，而是与Grace CPU、Blackwell GPU、BlueField DPU共同构成一张智能体网络的节点。对于AI基础设施团队而言，这意味着未来的集群设计必须放弃“CPU=控制平面、GPU=计算平面”的简单二分法，转而考虑如何让CPU成为“智能体工作流引擎”，在预训练集群之外，为强化学习循环、多智能体协同仿真、在线推理环境提供独立的、可横向扩展的算力平面。

展望未来，随着智能体AI与强化学习持续推动扩展定律的下一阶段，算力基础设施将更加强调“异构协同”与“带宽效率”。Vera CPU给行业带来的实质性建议是：在规划新集群时，除了关注GPU的浮点性能，更应评估CPU的内存带宽、互联拓扑和上下文切换能力，因为这些指标将直接决定智能体能否在“测试时缩放”过程中保持高效。算力的“武器”不再只有显存大小，还有CPU与GPU之间的“高速公路”宽度。