CVPR 2026：NVIDIA三大基础模型引爆具身智能与自动驾驶规模化革命

AIHOT小编

2026-06-04 15:53

在CVPR 2026上，NVIDIA Research以三篇论文密集轰炸了机器人抓取、自动驾驶与具身智能体三个前沿方向，其共同核心是“规模化训练的泛化能力”。这些成果不仅展示了从模拟到现实的迁移效率，更暗示了AI基础设施从“专用模型”向“基础模型”跨越的节奏正在加快。

GraspGen-X：零样本抓取基础模型的里程碑

作为首个零样本抓取基础模型，GraspGen-X基于20亿次模拟抓取数据训练，直接输出任意末端执行器（从两指夹爪到多指灵巧手）的抓取姿态。对比此前依赖物体模型或人工标注的抓取方法，GraspGen-X的泛化能力体现在一次训练、全类型适配。其底层依赖NVIDIA新推出的CUDA加速运动规划库curoboV2，将运动求解时间压缩至毫秒级。同步发布的闭环抓取论文Grasp-MPC则利用模型预测控制（MPC）在抓取过程中实时修正位姿，解决静态规划在动态干扰下的失效问题。这种“基础模型+闭环控制”的组合，为工业拣选、物流分拣等场景提供了即插即用的方案。

LCDrive：用潜在表示颠覆自动驾驶推理范式

传统自动驾驶系统依赖显式的文本或语义推理（如“红灯停、行人让”），运算延迟高且难以部署于车载嵌入式硬件。LCDrive创新性地引入紧凑潜在表示（latent representation），将感知-规划链路编码为低维隐空间向量，省去逐层符号推理环节。实验数据显示，相比基于Transformer的基线，LCDrive在Jetson Orin等嵌入式平台上的推理速度提升近一倍，同时保持规划控制精度不降。这一思路尤其适合成本敏感的L2+量产方案，为端到端驾驶模型提供了一条轻量化路径。

NitroGen：把Isaac GR00T架构塞进虚拟世界

针对具身智能体在真实环境数据稀缺、试错成本高的问题，NitroGen基于Isaac GR00T架构，在NVIDIA Omniverse平台上构建了覆盖数千种虚拟场景的交互环境，训练机器人执行搬运、装配等复杂任务。关键创新在于利用域随机化与对抗性环境生成，迫使智能体在极端光照、遮挡、重力变化下仍能保持操作成功率。NitroGen输出的策略可直接部署于真实机器人，避免了传统RL训练中枯燥的“仿真-现实”鸿沟。

AI基础设施的“范式转移”信号

三篇论文背后是NVIDIA对物理AI基础设施的系统性布局：GraspGen-X对应抓取基础模型，LCDrive对应驾驶基础模型，NitroGen对应通用具身基础模型。伴随这些模型一同发布的物理AI智能体技能（如动态避让、多机协作）和curoboV2库，正在将“规模化训练”从口号转化为可复用的开源能力。对于从事机器人、自动驾驶及数字孪生开发的团队而言，关注这些基础模型的权重发布与量化蒸馏工具，将大幅降低其泛化问题的调试周期。