Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
VLA 甚至知道基础知识吗?衡量视觉-语言-动作模型中的常识和世界知识保留
专题命中 VLA模型 :提出Act2Answer评估VLA模型知识保留
AI总结 提出 Act2Answer 协议,通过动作回答评估 VLA 模型的知识保留,发现模型在简单概念上表现良好,但在丰富语义类别上存在差距,且 VQA 联合训练有助于知识保留。
Comments Project page: https://tttonyalpha.github.io/act2answer/