DAM-VLA: Decoupled Asynchronous Multimodal Vision Language Action model
DAM-VLA: 解耦异步多模态视觉语言动作模型
发表机构 * Intuitive Robots Lab, Karlsruhe Institute of Technology (KIT)(直觉机器人实验室,卡尔斯鲁厄理工学院) ; NVIDIA(英伟达) ; Robotics Institute of Germany(德国机器人研究所)
AI总结 针对VLA模型同步时钟与物理交互中不同模态频率不匹配的问题,提出DAM-VLA,通过解耦各模态时间处理、维护传感器速率更新的潜在缓冲区,并利用门控交叉注意力整合高频模态,在7个真实操作任务中平均成功率提升至95.2%。
Comments 17 pages, 8 figures