Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete
发表机构 * UNIST(全南大学) ; The Catholic University of Korea(韩国天主教大学)
AI总结 该研究提出了一种名为Premover的轻量模块,旨在提升视觉-语言-动作(VLA)策略在实际部署中的响应效率。Premover通过在用户指令完成前进行预计算,有效利用了机器人等待指令的空闲时间,从而加快了整体执行速度。该方法通过冻结VLA主干网络,并引入两个投影头将中间层特征映射到共享空间,结合模拟渲染的目标分割掩码进行监督学习,最终显著减少了任务执行的平均时间,同时保持了较高的成功率。