具身智能长期困于“塞满专家知识却无法应对新物体”的怪圈:机器人在实验室里能精准抓取螺丝刀,换一把没见过的同款却频频失手。核心瓶颈在于,每个物体“哪里能抓”“怎么用”的语义理解被切割成碎片化任务,缺乏跨实体、跨场景的通用可供性(affordance)基础模型。近日HuggingFace每日论文社区热度攀升的AFUN(Affordance Foundation Model for Function Understanding),正是瞄准这一痛点,以“一图+一句话”驱动,将“看明白”与“动起来”统一成端到端预测,释放出具身智能走向开放世界的关键信号。
传统可供性学习要么只能输出二进制分割掩码(“哪部分可用”),要么依赖离线预计算的手部轨迹。AFUN打破这种割裂:它接收单帧RGB-D图像和自然语言任务描述(如“拿起杯子”),同步输出两个核心信号——任务条件功能掩码(where)和3D接触后运动曲线(how)。前者是像素级语义分割,指明具体应接触的物体区域;后者则是一组连续的接触点在物体表面的运动路径,直接指导机器人末端执行器如何贴近并操作。这种“看哪+怎么动”的双输出设计,让机器人第一次跳脱“先检测再规划”的串联架构,在特征空间里直接完成感知与控制的联合推理。
支撑这一能力的,是一套大规模标准化数据管道。研究团队整合了机器人真实操作数据、人类演示视频、仿真环境扫描以及公开RGB-D数据集,经过一致性标注处理后,构建了覆盖数百种物体的可供性知识库。这一管道的关键创新在于统一不同数据源中“可抓”“可按”“可捏”等语义标签的粒度与坐标系,使得模型训练时能够天然学习到跨域泛化特征。对比现有工作,AFUN无需像PerAct那样依赖3D体素化全场景,也不需要像CLIPort那样在2D与3D之间反复投影,它以更轻量的输入(单张RGB-D)实现了更具解释性的输出。
评估结果印证了“基础模型”的含金量:在4个公开基准的8个测试集上,AFUN的可供性分割平均gIoU(广义交并比)和cIoU(类别交并比)分别比最强基线高出23.9和26.3个百分点;接触点预测命中率提升区间为12.7%–61.3%;3D运动曲线预测精度同样全面领先。尤其值得注意的是,这些测试涵盖未见过的物体类型和零样本跨机器人部署场景(从仿真机械臂到真实Franka Panda),模型无需针对特定机器人实体进行任何微调即可直接开环执行,凸显出其在具身智能通用化中的“即插即用”潜力。
当然,AFUN当前仍存在局限:任务描述粒度限于简单操作动词(抓、按、推),尚未能串联多个步骤;接触后运动曲线缺少力反馈,在柔软或易碎物体上存在误差。但作为首个统一功能定位与操作轨迹的可供性基础模型,它为行业指明了方向——未来具身智能的进化,不会是在每个场景里堆砌专家规则,而是像自然语言处理一样,先训练出一个庞大的基础模型,再通过轻量级适配器下放到各类机器人。AFUN的代码与预训练权重已在GitHub开源,对于正在搭建机器人通用操作栈的研发团队而言,这是值得立即上手测试的“工具箱”基础件。