CVPR 2026:NVIDIA三大基础模型引爆具身智能与自动驾驶规模化革命

在CVPR 2026上,NVIDIA Research以三篇论文密集轰炸了机器人抓取、自动驾驶与具身智能体三个前沿方向,其共同核心是“规模化训练的泛化能力”。这些成果不仅展示了从模拟到现实的迁移效率,更暗示了AI基础设施从“专用模型”向“基础模型”跨越的节奏正在加快。

GraspGen-X:零样本抓取基础模型的里程碑

作为首个零样本抓取基础模型,GraspGen-X基于20亿次模拟抓取数据训练,直接输出任意末端执行器(从两指夹爪到多指灵巧手)的抓取姿态。对比此前依赖物体模型或人工标注的抓取方法,GraspGen-X的泛化能力体现在一次训练、全类型适配。其底层依赖NVIDIA新推出的CUDA加速运动规划库curoboV2,将运动求解时间压缩至毫秒级。同步发布的闭环抓取论文Grasp-MPC则利用模型预测控制(MPC)在抓取过程中实时修正位姿,解决静态规划在动态干扰下的失效问题。这种“基础模型+闭环控制”的组合,为工业拣选、物流分拣等场景提供了即插即用的方案。

LCDrive:用潜在表示颠覆自动驾驶推理范式

传统自动驾驶系统依赖显式的文本或语义推理(如“红灯停、行人让”),运算延迟高且难以部署于车载嵌入式硬件。LCDrive创新性地引入紧凑潜在表示(latent representation),将感知-规划链路编码为低维隐空间向量,省去逐层符号推理环节。实验数据显示,相比基于Transformer的基线,LCDrive在Jetson Orin等嵌入式平台上的推理速度提升近一倍,同时保持规划控制精度不降。这一思路尤其适合成本敏感的L2+量产方案,为端到端驾驶模型提供了一条轻量化路径。

NitroGen:把Isaac GR00T架构塞进虚拟世界

针对具身智能体在真实环境数据稀缺、试错成本高的问题,NitroGen基于Isaac GR00T架构,在NVIDIA Omniverse平台上构建了覆盖数千种虚拟场景的交互环境,训练机器人执行搬运、装配等复杂任务。关键创新在于利用域随机化与对抗性环境生成,迫使智能体在极端光照、遮挡、重力变化下仍能保持操作成功率。NitroGen输出的策略可直接部署于真实机器人,避免了传统RL训练中枯燥的“仿真-现实”鸿沟。

AI基础设施的“范式转移”信号

三篇论文背后是NVIDIA对物理AI基础设施的系统性布局:GraspGen-X对应抓取基础模型,LCDrive对应驾驶基础模型,NitroGen对应通用具身基础模型。伴随这些模型一同发布的物理AI智能体技能(如动态避让、多机协作)和curoboV2库,正在将“规模化训练”从口号转化为可复用的开源能力。对于从事机器人、自动驾驶及数字孪生开发的团队而言,关注这些基础模型的权重发布与量化蒸馏工具,将大幅降低其泛化问题的调试周期。