Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting
Bring My Cup! 使用视觉注意力提示个性化视觉-语言-动作模型
专题命中 VLA模型 :个性化VLA模型,视觉注意力提示
AI总结 针对VLA模型难以处理个性化指令的问题,提出无需训练的视觉注意力提示(VAP)方法,通过参考图像作为非参数记忆,利用开放词汇检测和嵌入匹配定位个人物品,并以视觉提示注入模型,在多个仿真和真实场景中显著提升成功率和正确物体操作。
Comments ICML 2026. Project page: https://vap-project.github.io/