NVIDIA CVPR连发三弹：零样本抓取、高效导航、通用游戏AI重构Physical AI版图

AIHOT小编

2026-06-04 00:40

在CVPR 2026上，NVIDIA Research一口气放出三篇Physical AI论文，覆盖机器人抓取、视觉导航与游戏具身智能三大方向。这并非简单的技术堆叠，而是围绕“基础模型+模拟训练”这一核心方法论的系统性突破，标志着Physical AI从专用模型向通用基础模型的转折点。

GraspGen-X：零样本抓取的“开瓶器”。作为首个零样本抓取基础模型，GraspGen-X基于数十亿次模拟抓取数据训练，无需针对具体物体进行微调即可完成抓取规划。此前，业界主流方案依赖领域微调或结构化环境假设，泛化能力有限。GraspGen-X通过大规模合成数据与Transformer架构结合，在未见过的物体、光照与机械臂构型下仍能保持高成功率。对于机器人行业而言，这相当于将以往需要数月数据采集的门槛压缩至零，尤其利好柔性产线与家庭服务场景。

LCDrive：用“压缩”击穿自回归瓶颈。视觉导航长期受限于文本推理的冗余——将图像描述转为自然语言再决策，不仅增加延迟，还损失空间细节。LCDrive另辟蹊径，将视觉观测与动作空间映射为紧凑的潜在表示，直接参与导航决策，相当于用“图像味觉”替代“文字描述”。实验表明，该模型在未见过的布局与动态障碍物场景下，决策效率提升3倍，对资源受限的移动机器人是显著利好。这一思路也为多模态模型在实时控制中的部署提供了新范式。

NitroGen：游戏AI的“万能接口”。通用游戏AI基础模型NitroGen基于NVIDIA Isaac GR00T平台训练，涵盖数百种具身智能体的交互数据。与AlphaStar等专攻单一游戏的方案不同，NitroGen在下棋、物理模拟与开放世界任务中均展现出零样本迁移能力。其关键在于将游戏环境统一抽象为“观察-动作-奖励”的通用接口，再通过大规模模仿学习形成可复用的控制先验。对于游戏开发与自动化测试领域，这意味着能从“每个游戏训练一个模型”转向“一个模型适配所有游戏”。

三篇论文的共性在于：以模拟数据为核心，以基础模型为载体，以零样本泛化为目标。从GraspGen-X的抓取先验，到LCDrive的导航先验，再到NitroGen的游戏控制先验，NVIDIA正在拼接Physical AI的完整“先验拼图”。对于从业者而言，最佳行动路径是：尽快将自身业务中的精标注数据与NVIDIA的模拟生态系统（如Isaac Sim、Omniverse）对齐，利用这些基础模型进行微调，而非从零训练——这将是未来12个月降低机器人研发成本的最优解。

随着CVPR 2026落下帷幕，一个更清晰的信号浮现：Physical AI的“GPT时刻”或许不在对话层，而在抓取、导航与交互的物理层。当零样本成为标配，通用模型成为底座，机器人行业的“Android生态”正在成型。