从20亿次抓取到具身泛化:NVIDIA用规模化训练解构AI物理世界难题

在计算机视觉顶会CVPR 2026上,NVIDIA Research一口气放出三篇论文,主题高度一致:用规模化模拟训练解决物理世界交互的泛化难题。这并非巧合——当大语言模型通过海量文本数据实现涌现能力,NVIDIA正试图将同样的逻辑迁移至抓取、驾驶与具身智能体。三篇论文分别对应三个核心方向,且均拿出了可落地的成果。

最大的亮点是GraspGen-X,它被称为首个零样本抓取基础模型。传统抓取方法通常针对特定物体或特定末端执行器进行训练,泛化到新环境时往往需要重新标注或微调。GraspGen-X则基于20亿次模拟抓取训练,训练数据横跨数千种物体形状与执行器构型,从而能够零样本地为任意末端执行器生成稳定抓取姿态——即使该执行器从未在训练中出现过。这类似于GPT-3在自然语言上的涌现泛化,NVIDIA将其移植到了机器人领域。

第二篇论文LCDrive关注自动驾驶的推理效率。目前许多端到端驾驶模型依赖文本语言推理(如“前方有障碍物,需要减速”),这在嵌入式硬件上延迟较高。LCDrive提出用紧凑的潜在表示替代显式文本推理,将感知—决策流程压缩为低维向量空间中的前向计算,在功率受限的车载芯片上实现了推理速度翻倍,同时保持安全指标不降。这为实时性要求极高的自动驾驶提供了新的技术路线。

第三篇论文NitroGen则聚焦具身智能体的虚拟训练。它基于NVIDIA Isaac GR00T架构,在大量虚拟环境中训练智能体,使其能够完成多种操作任务,并泛化到未见过的工作台布局与物体组合。不同于传统RL训练依赖逐个场景的奖励设计,NitroGen利用环境多样性和任务随机化,让智能体学到更通用的行为策略。这意味着从虚拟到真实的迁移成本将大幅降低。

除了这三篇论文,NVIDIA还同步发布了CUDA加速运动规划库curoboV2以及闭环抓取模型Grasp-MPC。curoboV2专门为GraspGen-X优化了逆运动学与避障计算,使抓取生成的实时性达到工业级;Grasp-MPC则结合模型预测控制,在抓取过程中动态调整姿态,提升了在动态环境下的鲁棒性。三者共同构成了从感知、规划到控制的完整闭环。

将这些工作放在一起,可以明显看出NVIDIA的布局逻辑:用大规模计算替代手工规则,用基础模型覆盖多样性,再用高效底层库降低部署门槛。对于做具身智能的团队,GraspGen-X的零样本能力可能重新定义夹具设计与物体操作流程;LCDrive的思路提醒我们,在自动驾驶中,特征空间的压缩可能比复杂网络更关键;而NitroGen则展示了虚拟数据如何端到端地驱动泛化。物理AI正在从“每场景一模型”转向“一模型多场景” ,而NVIDIA显然押注于规模化训练这一路径。