从YOLOv1首次提出“把目标检测当作回归问题”以来,YOLO家族几乎成了工业级视觉检测的代名词。但一个几乎被所有人默认、却始终让人头疼的“技债”长期存在:NMS(非极大值抑制)。它像一名拖沓的后处理考官,每次推理后必须手动去重,既增加延迟,又让端到端优化晦涩难行。YOLO26这一次终于宣告答案:彻底移除NMS,原生端到端推理成为可能。
YOLO26的核心改动在于“双头设计”:一个常规的一对多分支(one-to-many head),负责训练时为正例分配标签;另一个新增的一对一分支(one-to-one head),在推理时直接输出无冗余检测框,无需任何后处理步骤。设计逻辑并不复杂——训练时利用一对多分支学习更丰富的正样本信息,推理时切换至一对一分支直接生成“干净”结果。在业界,DETR风格的端到端检测已有先例,但将其以如此轻量的方式植入YOLO这类纯CNN架构,YOLO26是第一例实用化的开源方案。与之相伴的是DFL(Distribution Focal Loss)也被完全去掉,检测头因此更进一步压缩,回归范围也不再受到任何人为约束——这意味着模型可以更自由地预测任意尺度的目标,对小物体和大幅度变化场景至关重要。
另一个值得关注的非技术却极有行业趣味的亮点是优化器的“混合实验”。YOLO26的训练并未拘泥于经典的SGD或AdamW家族,而是设计了一款名为MuSGD的混合优化器——将近年来大模型预训练中表现出众的Muon优化器(类似Shampoo算法族)与重量级动量SGD的更新思路结合。Muon善于处理高维参数空间的大规模衰退,而SGD在视觉任务中倾向于更稳的局部收敛。MuSGD试图兼顾两者,这是将大模型优化器降维用于实时检测的一次大胆尝试。在COCO上,配合Progressive Loss(训练后期转向推理头损失)和基于STAL的标签分配(专门保正小物体拥有足够正样本),YOLO26全部五个尺度(n/s/m/l/x)在COCO 2017 val上的mAP为40.9—57.5,T4 TensorRT推理延迟从1.7ms到11.8ms不等,其中最小的n模型在21.1 GFLOPs计算量下达到40.9 mAP,效率之强悍甚至超过了大多数两阶段检测器在移动级硬件上的表现。
再往外看一眼,YOLO26同样开放了YOLOE-26版本,支持开放词汇检测。在LVIS minival上用文本提示推理可达40.6 AP(x尺度),按YOLOE架构延续,它依然能无缝衔接分割、姿态估计、旋转框检测和分类五大视觉任务。不需要额外离线标注短语库,就能直接接受任意文本的检测请求,这使其集成到RAG、AI agent或具身智能系统的门槛极大降低。
对于正在构建实时感知管线的团队,YOLO26的方案值得认真尝试:无NMS特性直接降低了工程集成复杂度,尤其在基于TensorRT部署时,省去自定义NMS CUDA算子环节,模型加载/推理流程几乎可以完全标准化。尤其是在低算力边缘设备或机器人端,去掉后处理意味着帧率能再提升一个量级。结合混合优化器的开源训练配置,从YOLOv8/11迁移到26,改的主要不是网络层数,而是训练策略与损失设计。有代码就打,有开源就测,恐怕没有比这更直接的理由去重新考虑一下自己的实时检测基线了。
YOLO26的这次迭代,不仅仅是又一次精度和速度的改进——它象征性地宣告了YOLO家族正式迈入“无NMS + 轻量化检测头 + 异构优化”的时代。这不仅是工程堆叠的胜利,更是架构去中心化和推理路径归一化的一次重要探索。对于做实时AI落地的人,不管是工业质检、自动驾驶感知还是边缘多模态系统,YOLO26都可能是未来半年最值得重新部署的检测模型基线。