当行业还在比拼更大模型、更复杂架构时,英伟达研究团队用一套轻量化训练框架给出了另一种答案:模型不变,推理框架不变,只改训练方式,性能就能拉升近6倍。Polar框架的开源,标志着代码智能体(code agent)训练进入“强化学习+高效适配”的新阶段。
核心突破在于“解耦”与“通用性”。Polar摒弃了以往需要针对每个智能体执行框架重写训练管线的做法,通过在模型API边界插入智能体模块,直接接入GRPO(Group Relative Policy Optimization)强化学习训练。这意味着,无论是Codex CLI、Claude Code、Qwen Code还是Pi,现有框架无需修改即可获得Polar的训练增益。这是对当前碎片化代码Agent生态的一次“大一统”尝试。
数据最为直观:基于Qwen3.5-4B模型(同为4B量级),Polar将Codex在SWE-Bench Verified上的pass@1分数从3.8%提升至26.4%,增幅达到594.74%。值得注意的是,SWE-Bench是评估代码理解与修复的权威基准,此前大多数轻量模型在此上的成绩徘徊在个位数。Polar能在不增加模型参数的前提下实现如此跨越,印证了强化学习在代码生成领域尚未被充分挖掘的潜力。
效率提升同样值得关注。Polar引入了prefix_merging技术,将训练所需步骤从1185次压缩至218次,训练速度提升约5.39倍,GPU平均利用率从20.4%攀升至87.7%。在算力成本居高不下的环境下,这种训练工程的“降本增效”对中小团队尤为关键。它意味着,即便只有少量GPU,团队也能在合理时间内完成代码Agent的定制化训练。
行业背景:今年以来,Codex、Claude Code等闭源框架凭借“Thinking Agent”等特性在编程辅助领域取得领先。然而,这些框架对训练方法高度保密,开发者只能在其上做推理级微调,难以触及训练范式。Polar的开源打破了这种信息不对称——它提供了一条“直接训练原有框架”的路径,相当于给所有开源代码Agent团队装上了一个“训练加速器”。
实用建议:对正在构建代码Agent的团队,Polar的意义不仅在于得分提升。它展示了“小模型+强训练”可能比“大模型+弱训练”更具性价比。建议优先在Qwen2.5-7B或类似参数量级上验证Polar的效果,并关注其prefix_merging设置对本地集群拓扑的适配。同时,SWE-Bench Verified的26.4%距离人类专家或GPT-4 Turbo的50%+仍有差距,但Polar提供的框架性方法一旦结合更优的奖励模型或更长的训练步长,有望进一步缩小这一差距。
趋势判断:Polar的出现,很可能加速“代码Agent训练框架”从模型平权走向训练平权。未来,竞争将更多聚焦于训练策略的迭代效率,而非单纯堆叠模型规模。英伟达此番开源,也为AI工程化领域树立了一个标杆——最好的创新,往往不是发明新轮子,而是让所有轮子都能跑在更优的路径上。