2606.04708
2026-06-05
cs.RO
cs.AI
VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training
VISTA: 基于视觉和物理验证的UMI数据适配用于VLA训练
Siyuan Yang, Linzheng Guo, Ouyang Lu, Zhaxizhuoma, Daoran Zhang, Xinmiao Wang, Ting Xiao, Fangzheng Yan, Zhijun Chen, Yan Ding, Chao Yu, Chenjia Bai, Xuelong Li
发表机构
*
Institute of AI (TeleAI), China Telecom(人工智能研究院(TeleAI),中国电信)
;
Lumos Robotics(Lumos机器人)
;
University of Science and Technology of China(中国科学技术大学)
;
Northwestern Polytechnical University(西北工业大学)
;
Shanghai Jiao Tong University(上海交通大学)
;
East China University of Science and Technology(东华大学)
;
Harbin Engineering University(哈尔滨工程大学)
;
Fudan University(复旦大学)
AI总结
提出VISTA框架,通过UMI-VQA数据集对齐视觉表示、物理验证流水线筛选可行轨迹以及两阶段联合训练,解决UMI数据训练VLA模型时的视觉分布偏移和物理不可行动作问题。