4B模型+2.2K任务逼近闭源，OpenWebRL开源网页智能体实现新突破

AIHOT小编

2026-06-02 15:12

大型语言模型驱动的网页智能体（Web Agent）一直是AI应用的前沿方向，但此前高性能方案几乎被闭源系统垄断：OpenAI CUA、Gemini CUA等动辄需要数十亿参数和百万级标注数据，开源社区长期缺乏同等规模的竞争者。一项发表于HuggingFace Daily Papers的研究OpenWebRL打破了这一局面——仅凭4B参数模型和2.2K条开放RL任务，就在多个权威基准上达到或超越了闭源系统，且代码、模型、训练流程完全开源。

OpenWebRL的核心创新在于将在线多轮强化学习引入真实网站场景。不同于传统离线训练或模拟器方法，该框架让智能体直接在真实网页上与环境交互，通过多轮回合的奖励信号优化策略。研究团队仅使用了0.4K条监督初始化轨迹作为冷启动，随后在2.2K个开放式任务上开展RL训练，最终在Online-Mind2Web基准上取得67.0%成功率，在DeepShop基准上达到64.0%。这一结果不仅大幅超越同规模（如4B-7B）的既往开源智能体（通常低于50%），甚至与OpenAI CUA（官方报告约65%）和Gemini CUA（63-66%）的公开性能相当，展示了开源方案在成本效率上的巨大潜力。

深入分析技术细节，OpenWebRL的成功可归结为三点：1）高效的在线采样策略——通过规则化奖励函数和自适应探索，在有限的交互预算内最大化学习效率；2）轻量级初始化——仅0.4K条人工标注的示范轨迹足以启动模型，大幅降低监督数据成本；3）开源生态协同——采用4B规模的Qwen2.5作为基座，结合LoRA微调和RLHF范式，支持研究者直接复现和扩展。

从行业视角看，OpenWebRL的意义不止于数字。此前，构建实用级网页智能体存在两条路径：要么依赖闭源API（如OpenAI CUA），成本高昂且受限于模型更新策略；要么自研大规模模型，但数据采集和训练资源需求动辄数千GPU小时。OpenWebRL证明了仅需几十张消费级GPU即可训练出可竞争的智能体，且所有组件（环境、训练器、模型权重）完全开源，这意味着中小企业、学术机构甚至个人开发者也能够切入这一领域。更值得关注的是，该工作在多轮交互的真实网站上完成，而非简化模拟器，这为自动化测试、表单填写、在线购物等实际应用提供了可靠的底层能力。

展望未来，OpenWebRL的路线并非没有提升空间。当前实验仅在英文网站和特定任务上验证，泛化到多语言、动态网页和复杂会话场景仍需探索；另外，RL训练的安全性和隐私保护问题也需纳入考量。然而，其“少数据+在线RL+小模型”的范式已经为网页智能体的民主化打开了大门。对于关注智能体落地的开发者而言，值得立即跟进的工作包括：尝试在自有领域任务上微调OpenWebRL；探索将类似方法迁移到桌面/移动端GUI操控；以及研究更高级的奖励模型以进一步提高任务理解深度。可以预见，随着开源社区对这套框架的持续迭代，网页智能体的成本门槛将大幅降低，从而催生更多创新的自动化应用。