SAM 3D斩获CVPR最佳论文提名，3D语义分割迎来范式跃迁

AIHOT小编

2026-06-06 00:08

计算机视觉三大顶会之一的CVPR 2026近日落下帷幕，Meta旗下SAM 3D团队从数千篇投稿中脱颖而出，斩获最佳论文荣誉提名。这一荣誉不仅是对团队技术实力的认可，更预示着3D语义分割领域即将迎来从“专用模型”到“通用基础模型”的范式转换。

从2D到3D：割裂的视觉能力需要一次“升维”

一年前，Meta开源的SAM（Segment Anything Model）在2D图像分割领域引发轰动——通过提示机制和大量训练数据，SAM能以零样本方式分割任意物体。然而，现实世界是三维的，自动驾驶、机器人抓取、AR/VR等场景都对3D感知提出刚性需求。此前，3D点云分割主要依赖专门训练的PointNet++、DGCNN等网络，泛化能力差，且每换一个数据集就需要重新标注训练。SAM 3D正是试图在三维空间复制SAM的成功：它是否能做到“分割任意3D物体”？答案指向了肯定。

技术亮点：不是简单“加一个维度”

根据公开信息，SAM 3D并未简单地将2D图像投影到3D——那会引入大量遮挡与尺度歧义。团队很可能采用了多视角融合与体素-点云混合表征，在保持SAM提示交互范式的同时，解决了3D数据稀疏与无序的固有问题。荣誉提名本身已说明审稿人对其方法新颖性与实验充分性的认可。更值得注意的是，该工作延续了Meta在视觉基础模型上的开放战略，未来若开源权重，将有力推动3D视觉研究的民主化。

行业影响与应用前景

在工业界，3D分割长期被高昂的数据标注成本制约。一个自动驾驶场景的语义分割标注，每帧价格可达数十美元。SAM 3D若具备零样本或少样本能力，能极大降低部署门槛。对于机器人领域，通用3D分割模型意味着机械臂可以无需预训练就识别未知工件；对于数字孪生，自动从点云中分割出建筑物、家具可节省大量人工。不过，3D场景的复杂性远高于2D图像——物体重叠、光照变化、传感器噪声等挑战仍然存在，SAM 3D在极端条件下的鲁棒性还需要更多基准测试验证。

趋势判断：基础模型的“三维化”竞赛已开启

CVPR 2026最佳论文提名是对这一方向的强信号。可以预见，未来1-2年内，3D视觉领域将出现类似“GPT时刻”的爆发：OpenAI的Point-E、Google的MultiView Diffusion等生成模型已先行一步，而SAM 3D在分割任务上的奠基性工作，可能催生一个统一的3D视觉基础模型。对于从业者而言，现在正是跟进3D通用模型研究的窗口期——无论是投入数据构建、借鉴其网络设计思路，还是关注其在不同传感器适配上的后续工作，都将获得先发优势。