代码智能体的竞赛一直围绕着“更大模型”与“更复杂执行框架”展开,但英伟达研究团队的最新开源成果Polar框架,却开辟了一条截然不同的路径——在保持模型与执行框架完全不变的前提下,仅通过对训练流程的重构,就让既有系统的能力实现数量级飞跃。这则消息在AI工程界引发的震动,不亚于当年AlphaGo以强化学习颠覆围棋棋谱。
Polar框架的核心设计思路极简但高效:在模型API边界处插入一个轻量智能体,将传统监督微调(SFT)替换为GRPO(Group Relative Policy Optimization)强化学习训练。这意味着Codex CLI、Claude Code、Qwen Code、Pi等现有智能体执行框架无需任何重写,就能接入Polar的强化学习管道。英伟达团队以Qwen3.5-4B为基座模型,在SWE-Bench Verified基准上测试:原版Codex的pass@1分数仅为3.8%,接入Polar训练后飙升到26.4%,增幅高达594.74%。更值得注意的是,这一飞跃并非来自更大的参数量或更复杂的提示工程,而是强化学习对智能体行为策略的重新校准。
除了性能提升,Polar在工程效率上也给出了惊喜。传统强化学习框架在代码任务中面临严重的训练瓶颈——单步推理耗时高、GPU利用率低下。Polar创新性地引入prefix_merging技术,将训练步骤从1185次压缩至218次,训练速度提升约5.39倍;GPU平均利用率从20.4%拉升至87.7%,几乎翻了两番。这对于算力有限的团队而言,意味着用小模型+高效训练框架就能逼近甚至超越大模型的基线表现。
放眼行业,当前代码智能体的主流训练范式仍以监督微调(SFT)+ 少量演示(few-shot)为主,强化学习在代码任务中的应用深度远不如游戏或对话场景。英伟达的Polar框架直接证明了:强化学习对代码智能体的行为对齐效率,可能远超数据量的堆砌。尤其在小模型场景下,Polar的GRPO算法避免了传统RLHF对分阶段奖励模型的依赖,更加轻量且易于复现。
对于正在构建代码Agent的团队,Polar的开源意味着一个直接可用的“加速器”:你无需换模型、无需改执行逻辑,只需在API服务器与执行引擎之间套一层Polar壳,就能获得显著的性能增益。建议优先尝试在4B~7B规模的小模型上部署,利用其prefix_merging特性在单卡或双卡环境下快速验证迭代。长远来看,强化学习融入智能体训练将不再是可选项,而是标配——Polar的发布,标志着这个拐点已经到来。