用70个公开任务“喂”出强数据，NVIDIA合成数据方法论全解析

AIHOT小编

2026-06-05 00:05

标题：用70个公开任务“喂”出强数据，NVIDIA合成数据方法论全解析
摘要：NVIDIA公开Nemotron训练中的任务种子合成数据生成方法：以lm-eval-harness中约70个公开任务（约700子任务）为种子，自动生成带推理链的新样本，经校验去重后用于续训练。100B token实验使GPQA提升11.1分，MMLU-Pro提升1.8分，为预训练数据合成提供了可复现的工程范式。

在预训练数据日益稀缺的背景下，合成数据已成为提升模型性能的关键技术。NVIDIA近期公开了其在Nemotron系列模型训练中使用的“任务种子合成数据生成”（Task-Seeded SDG）全套方法论，并将相关流程以技术博客形式发布在Hugging Face上。这一方法的核心思路极其简洁：直接从lm-eval-harness评测套件中选取约70个公开任务（对应约700个子任务）的训练集作为“种子”，通过自动化流程生成新的训练示例，同时补充推理链和上下文信息，再经由格式校验、去重和答案验证，最终得到高质量的合成数据集。

与业界常见的“纯合成数据生成”不同，NVIDIA的方法避免了“模型自问自答”可能引入的偏差和知识漂移。种子数据来源于已公开的标准评测任务，保证了样本的多样性和基准难度。生成过程并非简单复制，而是模仿人类出题思路——在种子示例基础上改写问题、调整论证路径、增加干扰项或替换背景。这种“推理链补充”步骤尤其关键：它迫使生成模型不仅产出答案，还要输出完整的思考过程，从而在后续训练中赋予模型更强的推理能力。NVIDIA在Nemotron-3 Nano模型上进行了100B token的续训练对比实验：MMLU-Pro提升1.8分，代码类任务平均提升1.9分，常识理解提升1.6分，而GPQA（研究生级别问答）更是被拉高了11.1分，数学成绩则保持稳定。GPQA作为一项极其困难的推理基准，11个百分点的提升几乎等价于模型推理能力的一次量级跃迁。

这一方法的实用价值在于其可迁移性和工程友好性。lm-eval-harness是开源社区广泛使用的评测工具，覆盖从语言理解到数学推理的各类任务。任何团队均可直接复用其任务定义和种子集，仅需配置一套数据生成管线（例如基于Llama或Nemotron系列模型进行推理增强），即可获得针对性的合成数据。NVIDIA进一步披露，该数据集已被用于训练Nemotron Ultra和Super两个更大规模的模型，暗示这一方法在规模扩展上同样有效。从行业视角看，这标志着“用评测任务反哺训练数据”的闭环策略正在从实验走向生产：过去依赖人工标注或外部语料的数据构建方式，正被可编程、可验证的合成流程部分替代。

对于从事预训练数据工程的研究者，以下几点值得关注：第一，种子任务的选取范围可直接决定数据分布——若目标场景是代码生成，应优先纳入HumanEval、MBPP等代码种子，而非仅依赖通用QA任务。第二，推理链的生成质量是瓶颈，需要设计合理的提示模板和对生成结果的格式校验，避免产生逻辑错误或重复回答。第三，答案验证环节不能跳过，尤其对于数学和多选任务，自动化的正确性检查可以显著降低噪声。NVIDIA公开的验证流程包括对选项一致性、数值计算正确性的检查，这部分代码同样已开源。最后，合成数据并非万能——数学成绩未提升反而稳定，说明种子任务本身对数学推理的覆盖或有不足，或生成过程难以改进符号计算能力，这提示未来可考虑引入更多结构化数学任务（如MATH、GSM8K）作为种子。

长远来看，任务种子合成数据生成将推动“预训练-评测”工具箱的深度融合：数据集不再是被动采集的语料，而是由评测任务主动“生长”出的靶向训练材料。NVIDIA此次开源完整方法论，不仅展示了其实验室级的数据工程能力，也为整个行业提供了一条低成本、高回报的数据增强路径。对于预训练研究者和AI工程团队，现在正是动手复现、迁移和优化这一范式的最佳时机。