arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 14 信号源:cs.AI, cs.CL, cs.LG, cs.SE
2606.18142 2026-06-18 cs.AI cs.CL cs.CY 新提交 专题 85

Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models

你的AI旅行代理会为你预订斗牛:前沿AI模型中隐含动物福利的代理基准

Jasmine Brazilek, Joel Christoph, Miles Tidmarsh, Carol Kline, Oliver Tullio, Arturs Kanepajs

专题命中 其他Agent :评估AI代理在旅行预订中的动物福利

AI总结 提出首个代理基准TAC,测试AI代理在为用户执行旅行预订等操作时是否避免涉及动物剥削的选项。评估七个前沿模型,所有模型得分低于随机水平64%,最佳模型仅53%。

2606.12837 2026-06-18 cs.CL 新提交 专题 85

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试

Jiarui Zhao, Rongzhi Zhang, Lingchuan Liu, Hao Yang, Xunliang Cai, Xi Su

专题命中 其他Agent :长时域搜索代理基准测试

AI总结 提出LoHoSearch基准,基于700万维基实体知识图谱自动构建544个复杂问题,评估显示最强模型仅34.74%准确率,远超人类难度上限。

2606.07591 2026-06-18 cs.LG cs.AI cs.CL 版本更新 专题 85

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

ResearchClawBench: 端到端自主科学研究基准

Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Koutian Wu, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang

专题命中 其他Agent :自主科学研究基准评估智能体

AI总结 提出ResearchClawBench基准,包含10个领域40个任务,通过多模态评分标准评估自主科研能力,最强智能体仅得21.5分,揭示当前系统在实验协议、证据匹配和科学核心方面的不足。

2606.19116 2026-06-18 cs.AI cs.CY 新提交 专题 80

Towards an Agent-First Web: Redesigning the Web for AI Agents

迈向智能体优先的Web:为AI智能体重新设计Web

Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty

专题命中 其他Agent :为AI智能体重新设计Web,核心是Agent访问

AI总结 本文提出三层重新设计原则,包括访问层(代理继承人类权限)、经济层(基于意图的代币订阅模型)和内容层(ATML标记语言与加密溯源链),以解决AI智能体作为中间人时Web的访问、经济与内容问题。

2606.19063 2026-06-18 cs.CR 新提交 专题 80

PYPILINE: Malicious PyPI Package Detection via Suspicious API Knowledge and Agent Workflow

PYPILINE:通过可疑API知识和Agent工作流检测恶意PyPI包

Siyuan Pang, Zhengwei Jiang, Yepeng Yao, Zijing Fan, Haozhe Li, Baoxu Liu

专题命中 其他Agent :Agent工作流检测恶意PyPI包。

AI总结 提出PYPILINE方法,结合可疑API知识库与Agent工作流,通过静态分析构建知识库并自动检测恶意PyPI包,在精度、召回率和F1分数上显著优于现有工具。

2606.17454 2026-06-18 cs.AI cs.LG 新提交 专题 80

Dissecting model behavior through agent trajectories

通过智能体轨迹剖析模型行为

Gaurav Gupta, Vatshank Chaturvedi, Jun Huan, Anoop Deoras

专题命中 其他Agent :分析AI代理轨迹以改进模型行为

AI总结 本文提出“意图-执行差距”概念,并设计Simple Strands Agent(SSA)框架,通过分析138k条轨迹揭示模型在自主问题解决中的行为差异。

Comments 106 pages, 50 Figures, 16 Tables

2606.15345 2026-06-18 cs.CL cs.IR 新提交 专题 80

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

超越单语言深度研究:用跨语言 BrowseComp-Plus 评估智能体和检索器

Yuheng Lu, Qingcheng Zeng, Heli Qi, Puxuan Yu, Fuheng Zhao, Rui Yang, Hitomi Yanaka, Naoto Yokoya, Weihao Xuan

专题命中 其他Agent :评估深度研究智能体的跨语言能力

AI总结 提出跨语言基准 XBCP,评估深度研究智能体在证据语言与查询不同时的表现,发现检索和智能体端均存在显著性能下降。

Comments Preprint

2511.13979 2026-06-18 cs.HC 版本更新 专题 80

Personality Pairing Improves Human-AI Collaboration

人格配对改善人机协作

Harang Ju, Sinan Aral

专题命中 其他Agent :研究AI Agent人格与人类协作

AI总结 通过大规模实验,将人类与具有不同大五人格特质的AI配对,发现人格匹配显著影响广告质量和团队表现,外倾人类与尽责AI配对效果最差,而神经质人类与神经质AI配对点击率最高。

Comments 29 pages, 5 figures

2602.22222 2026-06-18 cs.IR cs.MA 版本更新 专题 80

TWICE: Modeling the Temporal Evolution of Personalized User Behavior via Event-Driven Agents

TWICE:通过事件驱动代理建模个性化用户行为的时间演化

Bingrui Jin, Kunyao Lan, Baihan LI, Mengyue Wu

专题命中 其他Agent :基于LLM的事件驱动用户模拟代理,属于AI Agent

AI总结 提出TWICE框架,结合结构化用户画像、事件驱动记忆模块和两阶段工作流,利用LLM模拟用户行为的时间演化,在Twitter数据集上优于基线。

2606.19079 2026-06-18 cs.AI 新提交 专题 75

ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElection

ARIADNE: 推理时适配器动态选择的不可知路由

Enrico Cassano, Michał Brzozowski, Zuzanna Dubanowska, Paolo Mandica, Neo Christopher Chung

专题命中 其他Agent :推理时适配器动态选择,路由框架。

AI总结 提出无训练、与适配器无关的路由框架ARIADNE,通过训练集嵌入质心表示适配器,在推理时基于潜在空间距离选择适配器,无需适配器内部信息或额外训练,在44个任务上达到89.7%的选择准确率。

2606.18259 2026-06-18 cs.HC cs.AI 新提交 专题 75

Caring Without Feeling: Affective Dynamics as the Control Layer of Human-AI Agent Collaboration

无感关怀:情感动态作为人-AI智能体协作的控制层

Junjie Xu, Xingjiao Wu, Zihao Zhang, Yujia Xu, Yuzhe Yang, Jin Zhu, Luwei Xiao, Wen Wu, Liang He

专题命中 其他Agent :综述情感动态在人-AI智能体协作中的控制作用。

AI总结 本文综述情感动态在人-AI智能体协作中的作用,提出将情感视为协调层而非AI内部属性,用于校准信任、委托和治理。

2606.18406 2026-06-18 cs.CL 新提交 专题 70

CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏

Jiaqi Chen, Yongqin Zeng, Shaoshen Chen, Yijian Zhang, Hai-Tao Zheng, Chunxia Ma, XiuTeng Zhou

专题命中 其他Agent :对话代理长期记忆架构

AI总结 提出CoreMem架构,用黎曼检索替代余弦相似度解决高维检索枢纽问题,通过Fisher引导离散令牌蒸馏实现原则性压缩,在8GB显存边缘设备上实现长期记忆对话代理。

Comments 15 pages, 5 figures

2507.23644 2026-06-18 cs.MA 版本更新 专题 70

Agents Trusting Agents? Restoring Lost Capabilities with Inclusive Healthcare

代理信任代理?通过包容性医疗恢复失去的能力

Alba Aguilera, Georgina Curto, Nardine Osman, Ahmed Al-Awah

专题命中 其他Agent :使用基于代理的模拟评估医疗政策,属于AI Agent。

AI总结 本文利用基于代理的模拟和贝叶斯逆强化学习,评估巴塞罗那改善无家可归者医疗公平的政策,通过建模信任关系来恢复其核心能力。

2505.03863 2026-06-18 cs.CR cs.AI 专题 55

Data-Driven Falsification of Cyber-Physical Systems

数据驱动的物理系统验证

Atanu Kundu, Sauvik Gon, Rajarshi Ray

专题命中 其他Agent :数据驱动验证物理系统,涉及智能体验证

AI总结 本文提出一种框架,将物理系统验证与深度神经网络验证联系起来,并利用决策树的可解释性加速验证过程,展示了在ARCH-COMP 2024基准测试中高效发现多个反例的潜力。