VLA / 视觉-语言-动作模型

2606.19297 2026-06-18 cs.LG cs.RO 新提交专题 95

Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

VLA 甚至知道基础知识吗？衡量视觉-语言-动作模型中的常识和世界知识保留

Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

专题命中 VLA模型：提出Act2Answer评估VLA模型知识保留

AI总结提出 Act2Answer 协议，通过动作回答评估 VLA 模型的知识保留，发现模型在简单概念上表现良好，但在丰富语义类别上存在差距，且 VQA 联合训练有助于知识保留。

Comments Project page: https://tttonyalpha.github.io/act2answer/

URL PDF HTML

2606.17846 2026-06-18 cs.RO cs.CV cs.LG 新提交专题 95

Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models

Qwen-RobotManip 技术报告：对齐解锁机器人操作基础模型的规模

Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen

专题命中 VLA模型：提出VLA基础模型用于机器人操作

AI总结提出 Qwen-RobotManip，通过统一的对齐框架（表示、运动和行为维度）实现多源异构操作数据的大规模协同训练，构建约38,100小时预训练语料，在零样本指令跟随、跨本体迁移等泛化能力上超越先前模型。

Comments 44 pages

URL PDF HTML

2606.18955 2026-06-18 cs.CV cs.RO 新提交专题 85

Motion-Focused Latent Action Enables Cross-Embodiment VLA Training from Human EgoVideos

运动聚焦的潜在动作使跨实体VLA训练能从人类自我中心视频中学习

Runze Xu, Yiluo Zhang, Jian Wang, Yu Wang, Jincheng Yu

专题命中 VLA模型：从人类自我中心视频提取动作先验训练VLA。

AI总结提出基于潜在动作的框架，利用混合解耦VQ-VAE从无标签人类视频中提取通用动作先验，通过意图-感知解耦策略减少动作幻觉，仅需50条轨迹即可适配下游任务。

Comments Accepted to IROS 2026

URL PDF HTML

2606.18426 2026-06-18 cs.RO 新提交专题 85

VEGA: Learning Navigation VLAs from In-the-Wild Egocentric Video with Geometric Trajectory Supervision

VEGA: 从野外自我中心视频中通过几何轨迹监督学习导航VLA

Gershom Seneviratne, Yohan Abeysinghe, Jianyu An, Vaibhav Shende, Dinesh Manocha

专题命中 VLA模型：提出VEGA方法训练视觉-语言-动作导航策略

AI总结提出VEGA方法，利用未标注的自我中心视频通过重建场景几何生成障碍感知轨迹，训练流匹配VLA导航策略，在VEGA-Bench上碰撞减少33.0%，真实世界成功率提升至少150.0%。

URL PDF HTML

2606.18890 2026-06-18 cs.AI 新提交专题 70

Skill-Guided Continuation Distillation for GUI Agents

面向GUI代理的技能引导延续蒸馏

Zhimin Fan, Hongwei Yu, Yeqing Shen, Haolong Yan, Guozhen Peng, Tianhao Peng, Yudong Zhang, Xiaowen Zhang, Kaijun Tan, Zheng Ge, Xiangyu Zhang, Daxin Jiang

专题命中 VLA模型：GUI Agent涉及视觉-语言-动作

AI总结提出技能引导延续蒸馏（SGCD）框架，通过技能引导策略生成成功延续轨迹，弥补专家轨迹中未覆盖的状态监督缺失，在OSWorld-Verified上将三个基础模型成功率从30%左右提升至50%以上。

URL PDF HTML

2606.18953 2026-06-18 cs.RO 新提交专题 85

Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement

面向零样本仿真到现实VLA增强的以对象为中心的残差强化学习

Kinam Kim, Namiko Saito, Heecheol Kim, Katsushi Ikeuchi, Jaegul Choo, Yasuyuki Matsushita

专题命中部署与泛化：残差强化学习零样本提升VLA模型鲁棒性。

AI总结提出以对象为中心的残差强化学习框架，在仿真中训练策略，零样本迁移到真实机器人，将VLA模型成功率从42%提升至76%。

Comments 8 pages, 7 figures, 2 tables; 8-page appendix

URL PDF HTML

VLA / 视觉-语言-动作模型

1. VLA模型 5 篇

Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models

Motion-Focused Latent Action Enables Cross-Embodiment VLA Training from Human EgoVideos

VEGA: Learning Navigation VLAs from In-the-Wild Egocentric Video with Geometric Trajectory Supervision

Skill-Guided Continuation Distillation for GUI Agents

2. 部署与泛化 1 篇

Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement