2606.01498
2026-06-02
cs.CL
cs.AI
TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning
TimeSage-MT:用于评估智能时间序列推理的多轮基准测试
Yaxuan Kong, Qingren Yao, Yuqi Nie, Yichen Li, Yilei Shao, Stefan Zohren, Anna Vettoruzzo, Joaquin Vanschoren, Ming Jin, Qingsong Wen
发表机构
*
University of Oxford(牛津大学)
;
VulpiVox Intelligence
;
Eindhoven University of Technology(埃因霍温理工大学)
;
Griffith University(格里菲斯大学)
;
Squirrel Ai Learning
;
East China Normal University(华东师范大学)
AI总结
提出TimeSage-MT多轮基准测试,包含240个任务和2680轮对话,覆盖8个真实领域,用于评估LLM智能体在时间序列推理中的表现,揭示其在决策导向任务中的性能下降及记忆、不确定性处理等缺陷。