4B模型单挑闭源巨头：OpenWebRL用2000余次训练打出网页智能体新格局

AIHOT小编

2026-06-02 18:14

网页智能体（Web Agent）的军备竞赛，长期由闭源模型主导。OpenAI CUA、Gemini CUA等系统虽表现惊艳，但黑盒训练、高算力门槛和定价策略，使大多数研究团队和中小企业只能望而却步。如今，这一僵局被一项开源工作打破——OpenWebRL，一个面向真实网站的在线多轮强化学习框架，用仅4B参数的模型+不到3000条训练样本，在多个标准基准上收复失地，证明了“小而精”路径的可行性。

该框架的核心创新在于“在线多轮强化学习”。不同于传统离线微调，OpenWebRL让智能体直接与真实网页交互，通过反馈信号（如任务成功与否、页面状态变化）进行策略迭代。这种“边做边学”机制极大提升了泛化能力。训练数据规模出人意料地精简：仅需0.4K条监督轨迹作为初始化，再配合2.2K个开放式RL训练任务（约合2000余次交互），即可完成模型蜕变。相比之下，此前主流方法动辄需要数十万条带标注的网页截图和操作日志。

在评测表现上，OpenWebRL-4B在Online-Mind2Web基准上达成67.0%的成功率，在DeepShop基准上达到64.0%。这两个数字不仅显著超越同尺寸（如4B~7B）的现有开源智能体，甚至与Size大10倍以上的闭源模型——如OpenAI CUA和Gemini CUA——形成直接竞争。尤其值得关注的是，OpenWebRL在复杂多步任务（如购物结算、表单填充）上的稳定性，证明了RL在线探索的独特优势。

从工程角度看，OpenWebRL的全开源属性意义深远。研究者和工程师不仅可以复现论文结果，还能直接修改代码、自定义奖励函数、接入新的网页环境。这为网页自动化（RPA）、用户模拟测试、可访问性验证等工业场景提供了低成本切入点。更重要的是，它验证了一条假设：高质量的训练数据 + 精巧的在线交互学习，完全可以弥补模型规模带来的劣势。对于那些无法负担千亿级模型推理成本的应用方，这条路径尤具参考价值。

当然，仍需保持冷静。OpenWebRL的评估基准（如Mind2Web）是目前最标准的学术界测试集，但与真实生产环境（动态渲染、反爬机制、多语言页面）仍有距离。此外，在线RL的稳定性和数据效率能否在更复杂的开放世界场景中保持优势，尚需更多验证。不过，从开源社区生态看，已有多个团队表示将基于OpenWebRL开发垂直领域的网页智能体，例如电商比价、表单自动生成、学术文献抓取等。

一场关于网页智能体的“普惠化”革命正在拉开帷幕。当4B模型能以不到闭源系统十分之一的资源成本追上其性能，未来网页交互的自动化将不再是大厂专属的技术护城河。对于希望快速落地网页智能体的开发者而言，OpenWebRL提供的不是“屠龙刀”，而是一条可复现、可迭代的工程实践路径——认真读一读，远比羡慕闭源更有价值。