4B模型干翻Codex：英伟达框架Polar让SWE-Bench跑分暴涨5.9倍

AIHOT小编

2026-05-28 15:06

标题：4B模型干翻Codex：英伟达框架Polar让SWE-Bench跑分暴涨5.9倍

摘要：英伟达开源智能体强化学习框架Polar，在不训练新模型、不重写现有agent执行框架的前提下，将Qwen3.5-4B在SWE-Bench Verified上的pass@1得分从3.8%提升至26.4%。独特的prefix_merging技术更将训练速度提升5.39倍，GPU利用率从20.4%拉升至87.7%。

代码智能体（Code Agent）正在经历一场由训练框架驱动的静默革命。英伟达研究团队开源的新项目Polar，用一组简洁的框架设计，揭示了当前编程智能体性能瓶颈的真正所在——不是模型不够大，而是训练范式未解耦。

Polar的亮点在于其“零侵入”设计哲学。它无需开发者为特定执行框架（如Codex CLI、Claude Code或Qwen Code）重写代码，而是通过在模型API边界嵌入智能体节点，直接接入GRPO（Group Relative Policy Optimization）训练流程。这一设计打破了“模型训练”与“Agent执行”在代码领域的割裂状态，让强化学习信号可以反向传播至底层的4B参数模型。

实验数据极具说服力。基于Qwen3.5-4B模型，Polar将Codex在SWE-Bench Verified上的pass@1分数从3.8%推至26.4%，相对提升幅度高达594.74%。要知道，SWE-Bench Verified作为最顶尖的软件工程能力评测集，对模型的上下文理解、代码生成与调试、以及错误修复能力提出了极高要求。此前，这一指标上的每一点进步几乎都伴随着参数量的指数级增长。Polar则证明：强化学习训练框架带来的能力增益，完全可以超越堆砌参数的边际收益。

更值得关注的是工程效率层面的突破。Polar内置的prefix_merging技术，通过合并训练过程中大量重复的前缀序列，将原本需要1185步的训练迭代压缩至218步，整体训练速度提升约5.39倍。与此同时，GPU平均利用率从20.4%跃升至87.7%。这一数据对AI工程团队极为关键：在算力成本高企的当下，框架级优化带来的运行效率提升，相当于训练成本直接削减逾80%。

从行业视角来看，Polar的发布暗示了一个明确的技术路线转换。过去两年，代码生成领域的主流叙事始终围绕“更大的基座模型”展开。但Polar的“小模型+强框架”路径，揭示了另一种可能性：只要训练框架足够智能、强化学习策略设计得当，4B参数级别的模型也能在某些任务上与数十倍体量的大模型竞争。这与强化学习在语言模型领域近期的一系列突破（如R1、DeepSeek-Prover系列）形成了技术共振。

对于正在做代码Agent的项目团队，Polar给出了三条明确建议：第一，不要将算力预算全部压在预训练基座上，强化学习微调层同样值得重投入；第二，训练框架的性能优化（如前缀合并、批次调度）能带来远高于模型升级的成本效益；第三，框架应保持对主流执行引擎的“无侵入”兼容，以降低迁移成本。

Polar已在英伟达官方仓库开源，任何团队均可直接取用进行训练。这标志着代码智能体的竞争焦点，正从“谁有更大的模型”转向“谁有更好的训练框架”。对于中小型团队而言，这或许是一个弯道超车的窗口期。