从20亿次抓取到具身泛化：NVIDIA用规模化训练解构AI物理世界难题

AIHOT小编

2026-06-04 06:45

在计算机视觉顶会CVPR 2026上，NVIDIA Research一口气放出三篇论文，主题高度一致：用规模化模拟训练解决物理世界交互的泛化难题。这并非巧合——当大语言模型通过海量文本数据实现涌现能力，NVIDIA正试图将同样的逻辑迁移至抓取、驾驶与具身智能体。三篇论文分别对应三个核心方向，且均拿出了可落地的成果。

最大的亮点是GraspGen-X，它被称为首个零样本抓取基础模型。传统抓取方法通常针对特定物体或特定末端执行器进行训练，泛化到新环境时往往需要重新标注或微调。GraspGen-X则基于20亿次模拟抓取训练，训练数据横跨数千种物体形状与执行器构型，从而能够零样本地为任意末端执行器生成稳定抓取姿态——即使该执行器从未在训练中出现过。这类似于GPT-3在自然语言上的涌现泛化，NVIDIA将其移植到了机器人领域。

第二篇论文LCDrive关注自动驾驶的推理效率。目前许多端到端驾驶模型依赖文本语言推理（如“前方有障碍物，需要减速”），这在嵌入式硬件上延迟较高。LCDrive提出用紧凑的潜在表示替代显式文本推理，将感知—决策流程压缩为低维向量空间中的前向计算，在功率受限的车载芯片上实现了推理速度翻倍，同时保持安全指标不降。这为实时性要求极高的自动驾驶提供了新的技术路线。

第三篇论文NitroGen则聚焦具身智能体的虚拟训练。它基于NVIDIA Isaac GR00T架构，在大量虚拟环境中训练智能体，使其能够完成多种操作任务，并泛化到未见过的工作台布局与物体组合。不同于传统RL训练依赖逐个场景的奖励设计，NitroGen利用环境多样性和任务随机化，让智能体学到更通用的行为策略。这意味着从虚拟到真实的迁移成本将大幅降低。

除了这三篇论文，NVIDIA还同步发布了CUDA加速运动规划库curoboV2以及闭环抓取模型Grasp-MPC。curoboV2专门为GraspGen-X优化了逆运动学与避障计算，使抓取生成的实时性达到工业级；Grasp-MPC则结合模型预测控制，在抓取过程中动态调整姿态，提升了在动态环境下的鲁棒性。三者共同构成了从感知、规划到控制的完整闭环。

将这些工作放在一起，可以明显看出NVIDIA的布局逻辑：用大规模计算替代手工规则，用基础模型覆盖多样性，再用高效底层库降低部署门槛。对于做具身智能的团队，GraspGen-X的零样本能力可能重新定义夹具设计与物体操作流程；LCDrive的思路提醒我们，在自动驾驶中，特征空间的压缩可能比复杂网络更关键；而NitroGen则展示了虚拟数据如何端到端地驱动泛化。物理AI正在从“每场景一模型”转向“一模型多场景” ，而NVIDIA显然押注于规模化训练这一路径。