英伟达开源Polar框架：Codex跑分飙涨594%，秘密藏在训练层级

AIHOT小编

2026-05-28 18:04

代码智能体的竞赛一直围绕着“更大模型”与“更复杂执行框架”展开，但英伟达研究团队的最新开源成果Polar框架，却开辟了一条截然不同的路径——在保持模型与执行框架完全不变的前提下，仅通过对训练流程的重构，就让既有系统的能力实现数量级飞跃。这则消息在AI工程界引发的震动，不亚于当年AlphaGo以强化学习颠覆围棋棋谱。

Polar框架的核心设计思路极简但高效：在模型API边界处插入一个轻量智能体，将传统监督微调（SFT）替换为GRPO（Group Relative Policy Optimization）强化学习训练。这意味着Codex CLI、Claude Code、Qwen Code、Pi等现有智能体执行框架无需任何重写，就能接入Polar的强化学习管道。英伟达团队以Qwen3.5-4B为基座模型，在SWE-Bench Verified基准上测试：原版Codex的pass@1分数仅为3.8%，接入Polar训练后飙升到26.4%，增幅高达594.74%。更值得注意的是，这一飞跃并非来自更大的参数量或更复杂的提示工程，而是强化学习对智能体行为策略的重新校准。

除了性能提升，Polar在工程效率上也给出了惊喜。传统强化学习框架在代码任务中面临严重的训练瓶颈——单步推理耗时高、GPU利用率低下。Polar创新性地引入prefix_merging技术，将训练步骤从1185次压缩至218次，训练速度提升约5.39倍；GPU平均利用率从20.4%拉升至87.7%，几乎翻了两番。这对于算力有限的团队而言，意味着用小模型+高效训练框架就能逼近甚至超越大模型的基线表现。

放眼行业，当前代码智能体的主流训练范式仍以监督微调（SFT）+ 少量演示（few-shot）为主，强化学习在代码任务中的应用深度远不如游戏或对话场景。英伟达的Polar框架直接证明了：强化学习对代码智能体的行为对齐效率，可能远超数据量的堆砌。尤其在小模型场景下，Polar的GRPO算法避免了传统RLHF对分阶段奖励模型的依赖，更加轻量且易于复现。

对于正在构建代码Agent的团队，Polar的开源意味着一个直接可用的“加速器”：你无需换模型、无需改执行逻辑，只需在API服务器与执行引擎之间套一层Polar壳，就能获得显著的性能增益。建议优先尝试在4B～7B规模的小模型上部署，利用其prefix_merging特性在单卡或双卡环境下快速验证迭代。长远来看，强化学习融入智能体训练将不再是可选项，而是标配——Polar的发布，标志着这个拐点已经到来。