在CVPR 2026上,NVIDIA Research一口气放出三篇Physical AI论文,覆盖机器人抓取、视觉导航与游戏具身智能三大方向。这并非简单的技术堆叠,而是围绕“基础模型+模拟训练”这一核心方法论的系统性突破,标志着Physical AI从专用模型向通用基础模型的转折点。
GraspGen-X:零样本抓取的“开瓶器”。作为首个零样本抓取基础模型,GraspGen-X基于数十亿次模拟抓取数据训练,无需针对具体物体进行微调即可完成抓取规划。此前,业界主流方案依赖领域微调或结构化环境假设,泛化能力有限。GraspGen-X通过大规模合成数据与Transformer架构结合,在未见过的物体、光照与机械臂构型下仍能保持高成功率。对于机器人行业而言,这相当于将以往需要数月数据采集的门槛压缩至零,尤其利好柔性产线与家庭服务场景。
LCDrive:用“压缩”击穿自回归瓶颈。视觉导航长期受限于文本推理的冗余——将图像描述转为自然语言再决策,不仅增加延迟,还损失空间细节。LCDrive另辟蹊径,将视觉观测与动作空间映射为紧凑的潜在表示,直接参与导航决策,相当于用“图像味觉”替代“文字描述”。实验表明,该模型在未见过的布局与动态障碍物场景下,决策效率提升3倍,对资源受限的移动机器人是显著利好。这一思路也为多模态模型在实时控制中的部署提供了新范式。
NitroGen:游戏AI的“万能接口”。通用游戏AI基础模型NitroGen基于NVIDIA Isaac GR00T平台训练,涵盖数百种具身智能体的交互数据。与AlphaStar等专攻单一游戏的方案不同,NitroGen在下棋、物理模拟与开放世界任务中均展现出零样本迁移能力。其关键在于将游戏环境统一抽象为“观察-动作-奖励”的通用接口,再通过大规模模仿学习形成可复用的控制先验。对于游戏开发与自动化测试领域,这意味着能从“每个游戏训练一个模型”转向“一个模型适配所有游戏”。
三篇论文的共性在于:以模拟数据为核心,以基础模型为载体,以零样本泛化为目标。从GraspGen-X的抓取先验,到LCDrive的导航先验,再到NitroGen的游戏控制先验,NVIDIA正在拼接Physical AI的完整“先验拼图”。对于从业者而言,最佳行动路径是:尽快将自身业务中的精标注数据与NVIDIA的模拟生态系统(如Isaac Sim、Omniverse)对齐,利用这些基础模型进行微调,而非从零训练——这将是未来12个月降低机器人研发成本的最优解。
随着CVPR 2026落下帷幕,一个更清晰的信号浮现:Physical AI的“GPT时刻”或许不在对话层,而在抓取、导航与交互的物理层。当零样本成为标配,通用模型成为底座,机器人行业的“Android生态”正在成型。