Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
发表机构 * Southeast University(东南大学) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学) ; Wuhan University(武汉大学) ; Sun Yat-sen University(中山大学) ; Microsoft(微软公司)
AI总结 该研究针对计算机使用代理(CUA)在处理复杂、低频交互任务时可靠性不足的问题,提出了一种新的基准测试CUActSpot,涵盖GUI、文本、表格、画布和自然图像等多种交互模态及多种操作类型。为解决复杂交互数据稀缺的问题,研究设计了一种基于渲染器的数据合成方法,自动生成场景并生成对应的指令和操作轨迹。实验表明,基于该数据集训练的模型在性能上优于参数量更少的开源模型。