2605.10912
2026-05-12
cs.CL
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding, Ziyu Liu, Yang JingYi, Penghui Yang, Zhixiong Zhang, Xilin Wei, Xinyu Fang, Yubo Ma, Haodong Duan, Jing Shao, Jiaqi Wang, Dahua Lin, Kai Chen, Yuhang Zang
发表机构
*
Shanghai AI Laboratory(上海人工智能实验室)
;
The Chinese University of Hong Kong(香港中文大学)
;
Fudan University(复旦大学)
;
University of Science and Technology of China(中国科学技术大学)
;
Shanghai Jiao Tong University(上海交通大学)
;
Tsinghua University(清华大学)
;
Shanghai Innovation Institute(上海创新研究院)
;
Zhejiang University(浙江大学)
;
Nanyang Technological University(南洋理工大学)
AI总结
WildClawBench 是一个用于评估真实环境中长期任务执行能力的基准,包含60个由人类编写的双语多模态任务,涵盖六个主题类别。该基准在可复现的Docker容器中运行,使用真实的命令行代理框架和工具,任务平均耗时约8分钟,涉及20次以上工具调用。评估方法结合了规则检查、环境状态审计和大模型语义判断,结果显示当前前沿模型在真实运行时的长期任务表现仍有较大提升空间。