VLA / 视觉-语言-动作模型

2512.20014 2026-06-19 cs.RO cs.AI 版本更新专题 85

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Bring My Cup! 使用视觉注意力提示个性化视觉-语言-动作模型

Sangoh Lee, Sangwoo Mo, Wook-Shin Han

专题命中 VLA模型：个性化VLA模型，视觉注意力提示

AI总结针对VLA模型难以处理个性化指令的问题，提出无需训练的视觉注意力提示（VAP）方法，通过参考图像作为非参数记忆，利用开放词汇检测和嵌入匹配定位个人物品，并以视觉提示注入模型，在多个仿真和真实场景中显著提升成功率和正确物体操作。

Comments ICML 2026. Project page: https://vap-project.github.io/

URL PDF HTML