砸了20亿次抓取后，NVIDIA用什么让机器人理解万物？

AIHOT小编

2026-06-04 12:50

在机器人领域，泛化能力长久以来被视为通往通用智能的“圣杯”。NVIDIA Research在CVPR 2026上展示的一系列成果，正试图用规模化数据训练这一方法论，系统性地破解困局。其中三篇论文，逐一指向抓取、驾驶与智能体——三个具身智能落地中最具挑战的核心场景。

最具冲击力的，当属GraspGen-X。这是业界首个真正的“零样本”抓取基础模型，其训练数据规模达到惊人的20亿次模拟抓取。关键在于，该模型并非针对特定机械臂或夹爪设计。输入任意末端执行器的几何描述，GraspGen-X即可即时生成可行抓取姿态。这打破了当前机器人操作领域的多个瓶颈，例如工业机器人换装夹具后需要重新标定的流程。更值得关注的是，NVIDIA同期推出了curoboV2，一款CUDA加速的运动规划库，以及闭环抓取论文Grasp-MPC，形成从“看”到“动”的完整技术栈。

另一方向是车端智能的推理效率革命。LCDrive论文的设计思路大胆且富有前瞻性——抛弃了当前主流的文本推理路径，转而引入紧凑的潜在表示来驱动驾驶决策。传统Vision-Language模型在车载边缘计算设备上运行，往往面临显存与算力的双重瓶颈。LCDrive的潜在空间映射方法，直接将推理延迟减半，且保持了相当的控制质量。这意味着更低的硬件成本与更高的避撞响应速度，对自动驾驶量产具有直接价值。

同时，NitroGen体现了NVIDIA在虚拟世界训练具身智能体的新思路。基于Isaac GR00T架构，该研究将大量具身任务泛化训练移植到类似游戏引擎的虚拟环境中。智能体不再局限于仿真实验室，而是可以在无限接近真实物理规则、同时具备高随机性的场景中反复试错。这与业界主流的“仿真-真实迁移”路线一脉相承，但规模化程度显著提升。NVIDIA一并发布的新的物理AI智能体技能，则进一步降低了开发者复现的门槛。

从产业视角看，这三项成果揭示了一个显著的趋势：预训练大模型正从语言图像领域向机器人操作与决策领域加速迁移。GraspGen-X与NitroGen打破了传统机器人“一个场景一个模型”的开发范式，让20亿次抓取、千万级虚拟交互成为通用能力的底料。对于具身智能从业者，当前最务实的路径是立即利用类似GraspGen-X的基础模型替代手写规则，并关注curoboV2这类高性能底层算子的集成效率。说到底，当数据足够多、训练足够“暴力”，那些曾经折磨机器人工程师的“边缘案例”或许将不再成为障碍。