标题:SAM 3D斩获CVPR最佳论文提名:从2D分割到3D场景理解的范式跃迁
摘要:Meta团队提出SAM 3D,在CVPR 2026获得最佳论文荣誉提名。该工作将SAM的零样本分割能力从2D图像拓展至3D空间,通过点云与多视角融合实现通用三维分割。本文解读其技术路径、创新点及对自动驾驶、机器人等领域的深远影响。
在计算机视觉顶级会议CVPR 2026上,Meta的SAM 3D团队斩获最佳论文荣誉提名。作为从数千篇投稿中脱颖而出的少数佳作,这项研究成功将风靡业界的Segment Anything Model(SAM)从2D图像推进到3D空间,为三维场景理解开辟了新范式。
原始SAM以其强大的零样本分割能力革新了2D视觉领域。然而,直接将其迁移至3D面临巨大挑战:3D数据(如点云、网格)缺乏固定的网格结构和语义对齐。SAM 3D的核心创新在于构建了一个跨模态对齐框架,通过将3D点云映射至多视角2D图像,利用SAM的预训练特征进行推理,再反投影回3D空间,实现任意物体的三维分割。该方法无需3D标注,仅依赖2D预训练模型即可泛化到未知3D场景。
这一突破并非简单的“2D到3D复制粘贴”。团队设计了一种几何感知的注意力机制,有效处理了3D数据稀疏性与视角不一致问题。在多个公开数据集(如ScanNet、S3DIS)上,SAM 3D在零样本条件下超越了此前需要大量标注的专用模型,证明了其通用性。与同期其他3D分割工作相比,SAM 3D的零样本能力和训练效率成为最大亮点——它标志着3D场景理解正从“封闭集”转向“开放集”范式。
从产业应用角度看,SAM 3D的影响将辐射多个领域。在自动驾驶中,无需逐帧标注即可分割任意障碍物;在机器人抓取中,零样本识别与分割未知物体成为可能;在AR/VR中,用户可像在2D图像上“圈选”一样操作3D场景。此外,其与多模态大模型的结合也值得期待——比如接入语言指令实现“分割红色的椅子”这类高级语义任务。
对于从业者,建议重点关注以下方向:第一,基于SAM 3D的标注数据自动生成,可大幅降低3D标注成本;第二,与扩散模型结合实现3D场景编辑;第三,针对特定场景的微调策略以提升边缘性能。CVPR最佳论文荣誉提名并非终点,SAM 3D打开的是通往通用3D理解的大门。