LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization
LIBERO-PRO:超越记忆的视觉-语言-动作模型鲁棒与公平评估
发表机构 * Huazhong University of Science and Technology(华中科技大学) ; College of AI, Tsinghua University(清华大学人工智能学院) ; Wuhan University of Technology(武汉理工大学) ; Lehigh University(莱斯大学)
AI总结 针对LIBERO基准评估中的记忆偏差问题,提出LIBERO-PRO扩展基准,通过在操作对象、初始状态、任务指令和环境四个维度施加合理扰动,揭示现有VLA模型性能从90%以上骤降至0.0%的严重缺陷,并呼吁采用鲁棒评估方法。
Comments 10 pages,7 figures, 0 tables