标题:4B模型干翻Codex:英伟达框架Polar让SWE-Bench跑分暴涨5.9倍
摘要:英伟达开源智能体强化学习框架Polar,在不训练新模型、不重写现有agent执行框架的前提下,将Qwen3.5-4B在SWE-Bench Verified上的pass@1得分从3.8%提升至26.4%。独特的prefix_merging技术更将训练速度提升5.39倍,GPU利用率从20.4%拉升至87.7%。
代码智能体(Code Agent)正在经历一场由训练框架驱动的静默革命。英伟达研究团队开源的新项目Polar,用一组简洁的框架设计,揭示了当前编程智能体性能瓶颈的真正所在——不是模型不够大,而是训练范式未解耦。
Polar的亮点在于其“零侵入”设计哲学。它无需开发者为特定执行框架(如Codex CLI、Claude Code或Qwen Code)重写代码,而是通过在模型API边界嵌入智能体节点,直接接入GRPO(Group Relative Policy Optimization)训练流程。这一设计打破了“模型训练”与“Agent执行”在代码领域的割裂状态,让强化学习信号可以反向传播至底层的4B参数模型。
实验数据极具说服力。基于Qwen3.5-4B模型,Polar将Codex在SWE-Bench Verified上的pass@1分数从3.8%推至26.4%,相对提升幅度高达594.74%。要知道,SWE-Bench Verified作为最顶尖的软件工程能力评测集,对模型的上下文理解、代码生成与调试、以及错误修复能力提出了极高要求。此前,这一指标上的每一点进步几乎都伴随着参数量的指数级增长。Polar则证明:强化学习训练框架带来的能力增益,完全可以超越堆砌参数的边际收益。
更值得关注的是工程效率层面的突破。Polar内置的prefix_merging技术,通过合并训练过程中大量重复的前缀序列,将原本需要1185步的训练迭代压缩至218步,整体训练速度提升约5.39倍。与此同时,GPU平均利用率从20.4%跃升至87.7%。这一数据对AI工程团队极为关键:在算力成本高企的当下,框架级优化带来的运行效率提升,相当于训练成本直接削减逾80%。
从行业视角来看,Polar的发布暗示了一个明确的技术路线转换。过去两年,代码生成领域的主流叙事始终围绕“更大的基座模型”展开。但Polar的“小模型+强框架”路径,揭示了另一种可能性:只要训练框架足够智能、强化学习策略设计得当,4B参数级别的模型也能在某些任务上与数十倍体量的大模型竞争。这与强化学习在语言模型领域近期的一系列突破(如R1、DeepSeek-Prover系列)形成了技术共振。
对于正在做代码Agent的项目团队,Polar给出了三条明确建议:第一,不要将算力预算全部压在预训练基座上,强化学习微调层同样值得重投入;第二,训练框架的性能优化(如前缀合并、批次调度)能带来远高于模型升级的成本效益;第三,框架应保持对主流执行引擎的“无侵入”兼容,以降低迁移成本。
Polar已在英伟达官方仓库开源,任何团队均可直接取用进行训练。这标志着代码智能体的竞争焦点,正从“谁有更大的模型”转向“谁有更好的训练框架”。对于中小型团队而言,这或许是一个弯道超车的窗口期。