大模型“手眼协同”新突破：AFUN一眼看懂物体怎么用

AIHOT小编

2026-06-03 03:23

具身智能长期困于“塞满专家知识却无法应对新物体”的怪圈：机器人在实验室里能精准抓取螺丝刀，换一把没见过的同款却频频失手。核心瓶颈在于，每个物体“哪里能抓”“怎么用”的语义理解被切割成碎片化任务，缺乏跨实体、跨场景的通用可供性（affordance）基础模型。近日HuggingFace每日论文社区热度攀升的AFUN（Affordance Foundation Model for Function Understanding），正是瞄准这一痛点，以“一图+一句话”驱动，将“看明白”与“动起来”统一成端到端预测，释放出具身智能走向开放世界的关键信号。

传统可供性学习要么只能输出二进制分割掩码（“哪部分可用”），要么依赖离线预计算的手部轨迹。AFUN打破这种割裂：它接收单帧RGB-D图像和自然语言任务描述（如“拿起杯子”），同步输出两个核心信号——任务条件功能掩码（where）和3D接触后运动曲线（how）。前者是像素级语义分割，指明具体应接触的物体区域；后者则是一组连续的接触点在物体表面的运动路径，直接指导机器人末端执行器如何贴近并操作。这种“看哪+怎么动”的双输出设计，让机器人第一次跳脱“先检测再规划”的串联架构，在特征空间里直接完成感知与控制的联合推理。

支撑这一能力的，是一套大规模标准化数据管道。研究团队整合了机器人真实操作数据、人类演示视频、仿真环境扫描以及公开RGB-D数据集，经过一致性标注处理后，构建了覆盖数百种物体的可供性知识库。这一管道的关键创新在于统一不同数据源中“可抓”“可按”“可捏”等语义标签的粒度与坐标系，使得模型训练时能够天然学习到跨域泛化特征。对比现有工作，AFUN无需像PerAct那样依赖3D体素化全场景，也不需要像CLIPort那样在2D与3D之间反复投影，它以更轻量的输入（单张RGB-D）实现了更具解释性的输出。

评估结果印证了“基础模型”的含金量：在4个公开基准的8个测试集上，AFUN的可供性分割平均gIoU（广义交并比）和cIoU（类别交并比）分别比最强基线高出23.9和26.3个百分点；接触点预测命中率提升区间为12.7%–61.3%；3D运动曲线预测精度同样全面领先。尤其值得注意的是，这些测试涵盖未见过的物体类型和零样本跨机器人部署场景（从仿真机械臂到真实Franka Panda），模型无需针对特定机器人实体进行任何微调即可直接开环执行，凸显出其在具身智能通用化中的“即插即用”潜力。

当然，AFUN当前仍存在局限：任务描述粒度限于简单操作动词（抓、按、推），尚未能串联多个步骤；接触后运动曲线缺少力反馈，在柔软或易碎物体上存在误差。但作为首个统一功能定位与操作轨迹的可供性基础模型，它为行业指明了方向——未来具身智能的进化，不会是在每个场景里堆砌专家规则，而是像自然语言处理一样，先训练出一个庞大的基础模型，再通过轻量级适配器下放到各类机器人。AFUN的代码与预训练权重已在GitHub开源，对于正在搭建机器人通用操作栈的研发团队而言，这是值得立即上手测试的“工具箱”基础件。