Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents
你能破解RLVER吗?探测RL训练同理心代理的对抗鲁棒性
发表机构 * Department of Artificial Intelligence(人工智能系) ; Sardar Vallabhbhai National Institute of Technology(萨达尔·瓦拉布希·国家理工学院)
AI总结 本文通过构建对抗同理心基准AEB和引入情感一致性评分ECS,评估RL训练同理心代理在对抗环境下的鲁棒性,发现RLVER-PPO-Think在情感响应上优于基线模型,但ECS评分无显著提升,表明RL训练增强了情感响应但未改善可观测状态跟踪。