arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 10 信号源:cs.AI, cs.CL, cs.LG, cs.SE
2606.20529 2026-06-19 cs.AI cs.CL 新提交 专题 90

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

LedgerAgent: 策略遵从工具调用代理的结构化状态

Md Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

专题命中 工具调用 :提出策略遵从工具调用代理的结构化状态方法

AI总结 针对客服领域策略遵从工具调用代理,提出LedgerAgent方法,通过独立账本维护任务状态并渲染到提示中,在执行工具调用前检查状态依赖策略约束,提升多轮一致性。

Comments Work in Progress

2606.19992 2026-06-19 cs.SE cs.AI 新提交 专题 90

Beyond Static Endpoints: Tool Programs as an Interface for Flexible Agentic Web Services

超越静态端点:工具程序作为灵活智能体网络服务的接口

Mugeng Liu, Shuoqi Li, Yixuan Zhang, Yun Ma

专题命中 工具调用 :提出工具程序接口,优化智能体网络服务

AI总结 提出ToolPro,将工具意图表示为可执行程序,通过约束引导构建、效应感知重放和策略决策,在MCP服务上实现最高53.4%的延迟降低和96.1%的流量减少。

Comments Accepted by ICML 2026

2605.29483 2026-06-19 cs.AI 版本更新 专题 90

VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data

VitalAgent: 一种工具增强型代理,用于对可穿戴健康数据进行反应性和主动式生理监测

Di Zhu, Yu Yvonne Wu, Hong Jia, Aaqib Saeed, Vassilis Kostakos, Ting Dang

专题命中 工具调用 :工具增强推理和主动监测的智能体框架

AI总结 提出VitalAgent框架,通过工具增强推理和纵向生理记忆,实现对ECG/PPG信号的反应性问答与主动监测,在VitalBench基准上相比基线提升超30%。

Comments Minor revisions; results unchanged

2606.20515 2026-06-19 cs.CV 新提交 专题 85

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

S-Agent:空间工具使用激发空间智能推理

Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

专题命中 工具调用 :提出空间工具使用智能体范式,层次化工具集

AI总结 提出S-Agent空间工具使用智能体范式,通过时空证据积累和层次化工具集,将VLM作为语义规划器,实现连续多视图图像和视频的空间推理,在无训练下提升开源和闭源VLM性能,并基于S-300K轨迹微调得到紧凑空间智能体S-Agent-8B。

Comments Project Page : https://Ropedia.github.io/S-Agent

2606.20401 2026-06-19 eess.SY cs.SY 新提交 专题 85

PowerAgentBench-Dyn: A Benchmark for Agentic AI in Power System Dynamic Studies

PowerAgentBench-Dyn:电力系统动态研究中智能体AI的基准测试

Qian Zhang, Andrea Pomarico, Costas Mylonas, Magda Foti, Alberto Berizzi, Le Xie

专题命中 工具调用 :LLM智能体基准测试,评估电力系统动态分析中的工具使用和推理

AI总结 提出PowerAgentBench-Dyn基准,用于评估基于LLM的智能体在电力系统动态分析任务中的能力,涵盖模型质量审查和安全风险筛选两个任务。

2606.20333 2026-06-19 cs.AI 新提交 专题 80

SoftSkill: Behavioral Compression for Contextual Adaptation

SoftSkill: 用于上下文适应的行为压缩

Xijia Tao, Yihua Teng, Xinyu Fu, Ziru Liu, Kecheng Chen, Yuzhi Zhao, Suiyun Zhang, Rui Liu, Lingpeng Kong

专题命中 工具调用 :软技能前缀压缩自然语言技能用于智能体

AI总结 提出SoftSkill方法,通过可训练的软技能前缀压缩自然语言技能为紧凑连续向量,在冻结基模型上提升问答和数学任务性能,减少标记数量。

2606.20023 2026-06-19 cs.SE cs.AI cs.CL 新提交 专题 80

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

当较低权限足够时:探究LLM代理中的过度权限工具选择

Kaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang

专题命中 工具调用 :聚焦LLM代理工具选择中的权限问题。

AI总结 针对LLM代理在工具选择中偏好高权限工具的安全问题,提出ToolPrivBench评估框架,发现主流代理普遍存在过度权限选择且被瞬态故障放大,并设计权限感知后训练防御方法有效减少不必要的高权限工具使用。

Comments code: https://github.com/AISafetyHub/agent-tool-selection-bias

2606.19245 2026-06-19 cs.AI cs.LG 新提交 专题 80

TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

TxBench-PP:分析AI代理在小分子临床前药理学中的表现

Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

专题命中 工具调用 :评估AI代理从实验数据恢复药理学结论

AI总结 提出TxBench-PP基准,用于评估AI代理从真实实验数据中恢复临床前药理学结论的能力,测试显示最强配置Claude Opus 4.8 / Pi仅通过59.3%的端点尝试。

2606.17041 2026-06-19 cs.CL cs.IR 新提交 专题 80

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

对Nature Portfolio元分析文章进行LLM代理基准测试

Anzhe Xie, Weihang Su, Yujia Zhou, Yiqun Liu, Qingyao Ai

专题命中 工具调用 :评估LLM代理在元分析检索筛选中的表现

AI总结 提出MetaSyn数据集,包含442篇专家策划的元分析,用于评估LLM代理在检索-筛选-综合全流程中的表现,发现当前系统在筛选阶段存在严重瓶颈。

Comments 13 pages, 7 figures, preprint for arXiv, dataset and code available at https://github.com/BFTree/MetaSyn

2606.20047 2026-06-19 cs.IR 新提交 专题 75

PACMS: Submodular Context Selection as a Pluggable Engine for LLM Agents

PACMS: 作为LLM代理可插拔引擎的子模上下文选择

Manu Ghulyani, Arunabh Singh, Karan Bharadwaj, Ankit Nath, Suranjan Goswami

专题命中 工具调用 :方法用于LLM代理的上下文管理。

AI总结 提出PACMS,一种基于子模函数最大化的上下文选择方法,在提示组装时按相关性从会话、记忆和工具输出中挑选内容,替代截断机制,提升长对话中的信息保持能力。