英伟达开源Polar框架：不换模型，只改训练，Codex跑分暴涨近6倍

AIHOT小编

2026-05-28 12:03

当行业还在比拼更大模型、更复杂架构时，英伟达研究团队用一套轻量化训练框架给出了另一种答案：模型不变，推理框架不变，只改训练方式，性能就能拉升近6倍。Polar框架的开源，标志着代码智能体（code agent）训练进入“强化学习+高效适配”的新阶段。

核心突破在于“解耦”与“通用性”。Polar摒弃了以往需要针对每个智能体执行框架重写训练管线的做法，通过在模型API边界插入智能体模块，直接接入GRPO（Group Relative Policy Optimization）强化学习训练。这意味着，无论是Codex CLI、Claude Code、Qwen Code还是Pi，现有框架无需修改即可获得Polar的训练增益。这是对当前碎片化代码Agent生态的一次“大一统”尝试。

数据最为直观：基于Qwen3.5-4B模型（同为4B量级），Polar将Codex在SWE-Bench Verified上的pass@1分数从3.8%提升至26.4%，增幅达到594.74%。值得注意的是，SWE-Bench是评估代码理解与修复的权威基准，此前大多数轻量模型在此上的成绩徘徊在个位数。Polar能在不增加模型参数的前提下实现如此跨越，印证了强化学习在代码生成领域尚未被充分挖掘的潜力。

效率提升同样值得关注。Polar引入了prefix_merging技术，将训练所需步骤从1185次压缩至218次，训练速度提升约5.39倍，GPU平均利用率从20.4%攀升至87.7%。在算力成本居高不下的环境下，这种训练工程的“降本增效”对中小团队尤为关键。它意味着，即便只有少量GPU，团队也能在合理时间内完成代码Agent的定制化训练。

行业背景：今年以来，Codex、Claude Code等闭源框架凭借“Thinking Agent”等特性在编程辅助领域取得领先。然而，这些框架对训练方法高度保密，开发者只能在其上做推理级微调，难以触及训练范式。Polar的开源打破了这种信息不对称——它提供了一条“直接训练原有框架”的路径，相当于给所有开源代码Agent团队装上了一个“训练加速器”。

实用建议：对正在构建代码Agent的团队，Polar的意义不仅在于得分提升。它展示了“小模型+强训练”可能比“大模型+弱训练”更具性价比。建议优先在Qwen2.5-7B或类似参数量级上验证Polar的效果，并关注其prefix_merging设置对本地集群拓扑的适配。同时，SWE-Bench Verified的26.4%距离人类专家或GPT-4 Turbo的50%+仍有差距，但Polar提供的框架性方法一旦结合更优的奖励模型或更长的训练步长，有望进一步缩小这一差距。

趋势判断：Polar的出现，很可能加速“代码Agent训练框架”从模型平权走向训练平权。未来，竞争将更多聚焦于训练策略的迭代效率，而非单纯堆叠模型规模。英伟达此番开源，也为AI工程化领域树立了一个标杆——最好的创新，往往不是发明新轮子，而是让所有轮子都能跑在更优的路径上。