用70个公开任务“喂”出强数据,NVIDIA合成数据方法论全解析

标题:用70个公开任务“喂”出强数据,NVIDIA合成数据方法论全解析
摘要:NVIDIA公开Nemotron训练中的任务种子合成数据生成方法:以lm-eval-harness中约70个公开任务(约700子任务)为种子,自动生成带推理链的新样本,经校验去重后用于续训练。100B token实验使GPQA提升11.1分,MMLU-Pro提升1.8分,为预训练数据合成提供了可复现的工程范式。

在预训练数据日益稀缺的背景下,合成数据已成为提升模型性能的关键技术。NVIDIA近期公开了其在Nemotron系列模型训练中使用的“任务种子合成数据生成”(Task-Seeded SDG)全套方法论,并将相关流程以技术博客形式发布在Hugging Face上。这一方法的核心思路极其简洁:直接从lm-eval-harness评测套件中选取约70个公开任务(对应约700个子任务)的训练集作为“种子”,通过自动化流程生成新的训练示例,同时补充推理链和上下文信息,再经由格式校验、去重和答案验证,最终得到高质量的合成数据集。

与业界常见的“纯合成数据生成”不同,NVIDIA的方法避免了“模型自问自答”可能引入的偏差和知识漂移。种子数据来源于已公开的标准评测任务,保证了样本的多样性和基准难度。生成过程并非简单复制,而是模仿人类出题思路——在种子示例基础上改写问题、调整论证路径、增加干扰项或替换背景。这种“推理链补充”步骤尤其关键:它迫使生成模型不仅产出答案,还要输出完整的思考过程,从而在后续训练中赋予模型更强的推理能力。NVIDIA在Nemotron-3 Nano模型上进行了100B token的续训练对比实验:MMLU-Pro提升1.8分,代码类任务平均提升1.9分,常识理解提升1.6分,而GPQA(研究生级别问答)更是被拉高了11.1分,数学成绩则保持稳定。GPQA作为一项极其困难的推理基准,11个百分点的提升几乎等价于模型推理能力的一次量级跃迁。

这一方法的实用价值在于其可迁移性和工程友好性。lm-eval-harness是开源社区广泛使用的评测工具,覆盖从语言理解到数学推理的各类任务。任何团队均可直接复用其任务定义和种子集,仅需配置一套数据生成管线(例如基于Llama或Nemotron系列模型进行推理增强),即可获得针对性的合成数据。NVIDIA进一步披露,该数据集已被用于训练Nemotron Ultra和Super两个更大规模的模型,暗示这一方法在规模扩展上同样有效。从行业视角看,这标志着“用评测任务反哺训练数据”的闭环策略正在从实验走向生产:过去依赖人工标注或外部语料的数据构建方式,正被可编程、可验证的合成流程部分替代。

对于从事预训练数据工程的研究者,以下几点值得关注:第一,种子任务的选取范围可直接决定数据分布——若目标场景是代码生成,应优先纳入HumanEval、MBPP等代码种子,而非仅依赖通用QA任务。第二,推理链的生成质量是瓶颈,需要设计合理的提示模板和对生成结果的格式校验,避免产生逻辑错误或重复回答。第三,答案验证环节不能跳过,尤其对于数学和多选任务,自动化的正确性检查可以显著降低噪声。NVIDIA公开的验证流程包括对选项一致性、数值计算正确性的检查,这部分代码同样已开源。最后,合成数据并非万能——数学成绩未提升反而稳定,说明种子任务本身对数学推理的覆盖或有不足,或生成过程难以改进符号计算能力,这提示未来可考虑引入更多结构化数学任务(如MATH、GSM8K)作为种子。

长远来看,任务种子合成数据生成将推动“预训练-评测”工具箱的深度融合:数据集不再是被动采集的语料,而是由评测任务主动“生长”出的靶向训练材料。NVIDIA此次开源完整方法论,不仅展示了其实验室级的数据工程能力,也为整个行业提供了一条低成本、高回报的数据增强路径。对于预训练研究者和AI工程团队,现在正是动手复现、迁移和优化这一范式的最佳时机。