2605.07630
2026-05-11
cs.CL
cs.AI
cs.LG
Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents
Zhengyang Tang, Yi Zhang, Chenxin Li, Xin Lai, Pengyuan Lyu, Yiduo Guo, Weinong Wang, Junyi Li, Yang Ding, Huawen Shen, Zhengyao Fang, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu
AI总结
本文探讨了手机使用代理在避免危害时,究竟是表现出安全性还是仅仅缺乏行动能力的问题。为了解决现有评估方法无法区分这两类情况的缺陷,研究者构建了PhoneSafety基准,包含700个来自130多款应用的真实安全关键时刻。通过分析八个代表性代理的表现,研究发现更强的通用能力并不一定意味着更高的安全性,且无法采取有效行动的情况更多反映的是能力不足而非安全问题,这对手机使用代理的安全评估提出了新的思考方向。