DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration
DeskCraft: 桌面代理在专业工作流与人在环协作中的基准测试
发表机构 * Zhejiang University(浙江大学) ; Tsinghua University(清华大学) ; Tencent(腾讯) ; The University of Hong Kong(香港大学)
AI总结 提出DeskCraft基准,针对专业创意软件中的长周期工作流和主动人机协作,通过多级难度分类和交互协议评估18种代理,发现GPT-5.4在标准任务上达31.6%,交互任务上达27.6%。