2605.10993
2026-05-13
cs.RO
ECHO: Continuous Hierarchical Memory for Vision-Language-Action Models
Yanbin Hu, Jin Cui, Jiayi Lu, Ruixuan Yang, Jun Ye, Boran Zhao, Xingyu Chen, Xuguang Lan, Pengju Ren
发表机构
*
School of Software, Xi’an Jiaotong University(西安交通大学软件学院)
;
School of Artificial Intelligence, Xi’an Jiaotong University(西安交通大学人工智能学院)
;
State Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University(西安交通大学人机混合增强智能国家重点实验室,人工智能与机器人研究院)
AI总结
ECHO 是一种用于视觉-语言-动作(VLA)模型的连续层次记忆框架,旨在提升模型在长时域操作任务中的性能。该方法受人类经验层次组织的启发,通过双曲自编码器将VLA隐藏状态映射到连续层次空间,并利用双曲度量和蕴含约束机制构建语义记忆树,实现高效的自上而下经验检索。同时,背景巩固机制通过几何插值和结构分割持续优化记忆树,支持连续空间中的虚拟记忆合成,显著提升了模型在长任务组合和未知场景中的泛化能力。