2606.19338
2026-06-18
cs.CV
新提交
专题 85
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
超越当前观测:评估多模态大语言模型在可控非马尔可夫博弈中的表现
Shengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang
专题命中
多模态评测
:非马尔可夫博弈评估多模态模型记忆
AI总结
提出RNG-Bench基准套件,通过配对记忆和3D迷宫两个博弈,评估多模态大模型在非马尔可夫环境中重建历史观测并据此行动的能力,发现主要错误源于遗忘而非决策,微调可提升性能。