DenoiseRL破局强化学习推理：用弱模型错误重构训练信号

AIHOT小编

2026-05-28 18:04

强化学习（RL）在提升大语言模型推理能力上的进展，长期被一个隐含前提所束缚：训练信号的质量必须来自更强的教师模型或更难的、经过精心筛选的数据集。这种“强者恒强”的范式，使得团队不得不持续投入昂贵算力去蒸馏、蒸馏、再蒸馏，成本高昂且边际收益递减。而DenoiseRL的提出，则直接挑战了这一前提——它证明：即便是弱模型产生的错误推理轨迹，也能通过恰当的框架设计，成为比完美答案更富信息量的学习素材。

具体而言，DenoiseRL并未采用传统PG（策略梯度）或PPO直接优化正确轨迹，而是构建了一个“恢复-优化”闭环：当弱模型在推理任务上产生失败轨迹后（例如计算错误、推理链断裂），框架并不丢弃这些负样本，而是将其视为一种特殊的“噪声”。强化学习的智能体被训练去“去噪”——即学习如何从错误步骤出发，修复推理链条并得到正确答案。这一过程迫使模型不仅要记住正确路径，更要理解错误发生的机制，从而产生更丰富的梯度信号，其多样性远超单纯对正确轨迹的模仿。

这种思路的深层价值在于解耦了“学习信号”与“专家质量”的刚性绑定。当前行业主流的RL for reasoning方法，如R1系列、REINFORCE++，都依赖强模型生成的完整正确轨迹作为正样本，或是通过蒙特卡洛树搜索生成高质量轨迹，本质上仍是“以强带弱”的蒸馏逻辑。DenoiseRL则跳出这一框架：失败轨迹在数学和逻辑推理中天然大量存在，成本为零，且错误类型覆盖范围广——从粗心计算到逻辑断层——这使得模型能接触到更全面的推理边界，而非仅仅聚焦于简单正确路径。实验数据显示，在MATH和GSM8K等竞争性基准上，DenoiseRL持续优于强在策略RL基线，并且随着训练数据中难度提升，模型展现出更强的自我纠正行为，即主动识别并修正自身推理中的缺陷。

从工程视角看，这一框架为团队提供了另一种可能：无需持续迭代教师模型以逼近能力天花板，而是通过构建“错误回收站”，在同一模型内实现推理能力的循环进化。对于资源有限的中小型团队，这意味着降低了强化推理训练的门槛——不必追求千万美元级的高质量数据集，转而利用已有弱模型在自生成数据上的失败案例即可启动迭代。

在未来发展趋势上，DenoiseRL或许会推动RL for reasoning从“静态专家供给”转向“动态自反馈”模式。其隐含的假设是：大语言模型的推理错误并非信息缺失，而是分布覆盖不全，通过恢复失败轨迹可以系统性填补空白。这一思路对于需要长链推理的代码生成、数学证明、逻辑规划等领域尤其具有潜力。当然，目前DenoiseRL的实验主要集中在数学和通用推理任务上，在开放域、强调多样性的生成任务中是否仍然有效，还需进一步验证。但无论如何，它已经撕开了一个口子：高质量训练并不必然意味着高成本数据——有时，错误本身就是最好的老师。