SAM 3D斩获CVPR最佳论文提名：从2D分割到3D场景理解的范式跃迁

AIHOT小编

2026-06-06 00:27

标题：SAM 3D斩获CVPR最佳论文提名：从2D分割到3D场景理解的范式跃迁
摘要：Meta团队提出SAM 3D，在CVPR 2026获得最佳论文荣誉提名。该工作将SAM的零样本分割能力从2D图像拓展至3D空间，通过点云与多视角融合实现通用三维分割。本文解读其技术路径、创新点及对自动驾驶、机器人等领域的深远影响。

在计算机视觉顶级会议CVPR 2026上，Meta的SAM 3D团队斩获最佳论文荣誉提名。作为从数千篇投稿中脱颖而出的少数佳作，这项研究成功将风靡业界的Segment Anything Model（SAM）从2D图像推进到3D空间，为三维场景理解开辟了新范式。

原始SAM以其强大的零样本分割能力革新了2D视觉领域。然而，直接将其迁移至3D面临巨大挑战：3D数据（如点云、网格）缺乏固定的网格结构和语义对齐。SAM 3D的核心创新在于构建了一个跨模态对齐框架，通过将3D点云映射至多视角2D图像，利用SAM的预训练特征进行推理，再反投影回3D空间，实现任意物体的三维分割。该方法无需3D标注，仅依赖2D预训练模型即可泛化到未知3D场景。

这一突破并非简单的“2D到3D复制粘贴”。团队设计了一种几何感知的注意力机制，有效处理了3D数据稀疏性与视角不一致问题。在多个公开数据集（如ScanNet、S3DIS）上，SAM 3D在零样本条件下超越了此前需要大量标注的专用模型，证明了其通用性。与同期其他3D分割工作相比，SAM 3D的零样本能力和训练效率成为最大亮点——它标志着3D场景理解正从“封闭集”转向“开放集”范式。

从产业应用角度看，SAM 3D的影响将辐射多个领域。在自动驾驶中，无需逐帧标注即可分割任意障碍物；在机器人抓取中，零样本识别与分割未知物体成为可能；在AR/VR中，用户可像在2D图像上“圈选”一样操作3D场景。此外，其与多模态大模型的结合也值得期待——比如接入语言指令实现“分割红色的椅子”这类高级语义任务。

对于从业者，建议重点关注以下方向：第一，基于SAM 3D的标注数据自动生成，可大幅降低3D标注成本；第二，与扩散模型结合实现3D场景编辑；第三，针对特定场景的微调策略以提升边缘性能。CVPR最佳论文荣誉提名并非终点，SAM 3D打开的是通往通用3D理解的大门。