2602.05843
2026-06-05
cs.CL
OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions
OdysseyArena: 为长视界、主动和归纳交互评估大型语言模型
Hang Yan, Fangzhi Xu, Qiushi Sun, Jinyang Wu, Zixian Huang, Muye Huang, Jingyang Gong, Zichen Ding, Kanzhi Cheng, Yian Wang, Xinyu Che, Zeyi Sun, Jian Zhang, Zhangyue Yin, Haoran Luo, Ben Kao, Qika Lin
发表机构
*
National University of Singapore(新加坡国立大学)
AI总结
本文提出OdysseyArena,通过长视界、主动和归纳交互评估大型语言模型,提供120个任务测量归纳效率和长视界发现,并通过OdysseyArena-Challenge测试极端交互视界下的模型稳定性,揭示前沿模型在复杂环境中的归纳能力瓶颈。