AI Agent

2508.04086 2026-06-18 cs.CL 版本更新专题 95

ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"

ToolGrad：利用文本“梯度”高效生成工具使用数据集

Zhongyi Zhou, Kohei Uehara, Haoyu Zhang, Jingtao Zhou, Lin Gu, Ruofei Du, Zheng Xu, Tatsuya Harada

专题命中工具调用：提出ToolGrad框架生成工具使用数据集

AI总结提出ToolGrad框架，通过文本“梯度”引导的迭代过程先构建有效工具使用链再合成用户查询，实现低成本、高成功率的数据生成，训练模型性能超越基线。

Comments ACL 2026 Findings. Source code: https://github.com/zhongyi-zhou/toolgrad

URL PDF HTML

2605.29676 2026-06-18 cs.AI cs.CL 版本更新专题 85

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

符号至关重要：智能体AI系统中令牌优化格式的基准研究

Lorenz Kutschka, Bernhard Geiger

专题命中工具调用：智能体系统中令牌优化格式，提升工具调用效率

AI总结本研究在四个智能体基准上评估了两种令牌优化格式TOON和TRON，发现TRON在保持准确率的同时最多减少27%的令牌，而TOON虽减少18%但存在多轮解析失败和并行工具调用输出崩溃的问题。

Comments 16 pages, 6 figures, 4 tables

URL PDF HTML

2606.01139 2026-06-18 cs.AI 版本更新专题 90

SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision

SkillRevise: 通过轨迹条件技能修订改进LLM撰写的智能体技能

Yuxuan Liu, Zhaochen Su, Lingyun Xie, Yuhao Zhang, Qing Zong, Jiahe Guo, Zhongwei Xie, Yiyan Ji, Yauwai Yim, Hongyu Luo, Xiyu Ren, Ruan Chenyu, Haoran Li, Yangqiu Song

专题命中软件智能体：智能体技能迭代优化，提升LLM agent成功率

AI总结提出SkillRevise框架，通过执行证据诊断、修复原则检索和执行锚定编辑，迭代优化初始技能，在SkillsBench上将基础智能体成功率从36.05%提升至61.63%，并展现跨模型迁移性。

Comments 15 pages, 4 figures

URL PDF HTML

2604.06367 2026-06-18 cs.CR cs.AI cs.LG 版本更新专题 90

WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks

WebSP-Eval：在网站安全与隐私任务上评估网络代理

Guruprasad Viswanathan Ramesh, Asmit Nayak, Basieem Siddique, Kassem Fawaz

专题命中软件智能体：评估Web Agent在安全隐私任务上的表现

AI总结提出WebSP-Eval框架，通过200个任务实例和自动化评估器，测试多模态大模型在网站安全与隐私任务上的表现，发现状态UI元素（如开关）导致超过45%的任务失败。

Comments Accepted at PETS 2026. Project Page: https://wiscprivacy.com/webspeval/

URL PDF HTML

2506.09046 2026-06-18 cs.LG cs.AI cs.MA 版本更新专题 90

Self-Evolving Multi-Agent Systems via Textual Backpropagation

通过文本反向传播的自进化多智能体系统

Xiaowen Ma, Yunpu Ma, Chenyang Lin, Sikuan Yan, Jinhe Bi, Zixuan Cao, Yijun Tian, Volker Tresp, Hinrich Schuetze

专题命中多智能体：提出自进化多智能体系统，通过文本反向传播优化协作。

AI总结提出Agentic Neural Network框架，将多智能体协作建模为分层神经网络，通过前向分解任务和反向传播反馈实现智能体角色、提示和协作的自进化，在七个基准数据集上超越现有方法。

URL PDF HTML

2605.25929 2026-06-18 cs.MA cs.LG 版本更新专题 85

Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?

多智能体系统是专家混合：谁成为影响者？

Franka Bause, Jonas Niederle, Martin Pawelczyk, Rebekka Burkholz

专题命中多智能体：研究多智能体LLM协商机制，属于多智能体系统。

AI总结本文通过Friedkin-Johnsen意见动力学模型分析多智能体LLM协商机制，揭示输入依赖的FJ参数使系统成为专家混合，并探讨基于自信度、感知自信度和初始观点对齐的影响者形成机制。

Comments Accepted at the 2nd Workshop on Compositional Learning at ICML 2026

URL PDF HTML

2605.18185 2026-06-18 cs.MA 版本更新专题 85

The Dynamics of Policy Gradient in Social Dilemmas with Partner Selection

在有伴侣选择的社交困境中政策梯度的动力学

Benedict Russell, Chin-wing Leung, Paolo Turrini

专题命中多智能体：研究多智能体社交困境中的策略梯度动力学。

AI总结本文研究了在有伴侣选择的多智能体环境中政策梯度动力学，揭示了伴侣选择如何改变对手分布及奖励景观，并证明在简单规则下促进合作的必要条件是种群方差。

URL PDF HTML

2508.21720 2026-06-18 cs.AI 版本更新专题 85

PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation

PosterForest: 用于科学海报生成的分层多智能体协作

Jiho Choi, Seojeong Park, Seongjong Song, Hyunjung Shim

专题命中多智能体：分层多智能体协作生成科学海报

AI总结提出PosterForest，一种无需训练的科学海报生成框架，通过Poster Tree分层表示文档结构，并利用内容与布局智能体进行分层推理与递归优化，实现内容与布局的联合优化，提升语义连贯性、逻辑流畅性和视觉平衡。

Comments ACL 2026

URL PDF HTML

2605.01818 2026-06-18 nlin.AO physics.soc-ph 版本更新专题 80

Emergent Macro-Criticality from Micro-Critical Agents

从微观临界主体涌现的宏观临界性

Nicolas Bessone, Erwan Plantec

专题命中多智能体：多智能体系统，微观临界性涌现宏观临界

AI总结通过多智能体系统研究微观临界性如何影响集体行为，发现宏观临界性依赖于交互网络的连接性，而非单个智能体的临界动力学。

URL PDF HTML

2606.05882 2026-06-18 q-fin.TR 版本更新专题 80

Market Informedness and Market-Maker Profitability: The Trade-Off Between Adverse Selection and Price Discovery

市场知情度对做市商盈利能力的影响

Konrad Ochędzan, Nino Antulov-Fantulin

专题命中多智能体：多智能体强化学习研究市场知情度影响

AI总结本文通过多智能体强化学习框架研究市场知情度对做市商盈利能力的影响，发现知情订单流在低知情市场中导致严重逆向选择风险，但整体上市场知情度提高带来的价格发现效应抵消了逆向选择的负面影响，使做市商盈利能力呈上升趋势。

URL PDF HTML

2603.01221 2026-06-18 cs.MA 版本更新专题 80

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

认知增益，偶然成本：多智能体辩论中的不确定性分解用于数学推理

Dan Qiao, Binbin Chen, Fengyu Cai, Jianlong Chen, Wenhao Li, Fuxin Jiang, Zuzhi Chen, Hongyuan Zha, Tieying Zhang, Baoxiang Wang

专题命中多智能体：多智能体辩论框架，强化学习优化

AI总结本文提出贝叶斯不确定性分析框架，将多智能体辩论中的预测不确定性分解为认知不确定性和偶然不确定性，并设计不确定性引导的多智能体强化学习算法，在控制偶然成本的同时提升认知增益，从而提高推理准确性和辩论效率。

Comments ICML2026

URL PDF HTML

2606.07591 2026-06-18 cs.LG cs.AI cs.CL 版本更新专题 85

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

ResearchClawBench: 端到端自主科学研究基准

Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Koutian Wu, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang

专题命中其他Agent ：自主科学研究基准评估智能体

AI总结提出ResearchClawBench基准，包含10个领域40个任务，通过多模态评分标准评估自主科研能力，最强智能体仅得21.5分，揭示当前系统在实验协议、证据匹配和科学核心方面的不足。

URL PDF HTML

2511.13979 2026-06-18 cs.HC 版本更新专题 80

Personality Pairing Improves Human-AI Collaboration

人格配对改善人机协作

Harang Ju, Sinan Aral

专题命中其他Agent ：研究AI Agent人格与人类协作

AI总结通过大规模实验，将人类与具有不同大五人格特质的AI配对，发现人格匹配显著影响广告质量和团队表现，外倾人类与尽责AI配对效果最差，而神经质人类与神经质AI配对点击率最高。

Comments 29 pages, 5 figures

URL PDF HTML

2602.22222 2026-06-18 cs.IR cs.MA 版本更新专题 80

TWICE: Modeling the Temporal Evolution of Personalized User Behavior via Event-Driven Agents

TWICE：通过事件驱动代理建模个性化用户行为的时间演化

Bingrui Jin, Kunyao Lan, Baihan LI, Mengyue Wu

专题命中其他Agent ：基于LLM的事件驱动用户模拟代理，属于AI Agent

AI总结提出TWICE框架，结合结构化用户画像、事件驱动记忆模块和两阶段工作流，利用LLM模拟用户行为的时间演化，在Twitter数据集上优于基线。

URL PDF HTML

2507.23644 2026-06-18 cs.MA 版本更新专题 70

Agents Trusting Agents? Restoring Lost Capabilities with Inclusive Healthcare

代理信任代理？通过包容性医疗恢复失去的能力

Alba Aguilera, Georgina Curto, Nardine Osman, Ahmed Al-Awah

专题命中其他Agent ：使用基于代理的模拟评估医疗政策，属于AI Agent。

AI总结本文利用基于代理的模拟和贝叶斯逆强化学习，评估巴塞罗那改善无家可归者医疗公平的政策，通过建模信任关系来恢复其核心能力。

URL PDF HTML

2605.30880 2026-06-18 cs.CL cs.AI 版本更新专题 85

PatchWorld: Gradient-Free Optimization of Executable World Models

PatchWorld：可执行世界模型的免梯度优化

Jiaxin Bai, Yue Guo, Yifei Dong, Jiaxuan Xiong, Tianshi Zheng, Yixia Li, Tianqing Fang, Yufei Li, Yisen Gao, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Zihao Wang, Lihui Liu, Jeff Z. Pan, Yangqiu Song

专题命中规划决策：可执行世界模型，用于智能体规划与预测

AI总结提出 PatchWorld 框架，通过反例引导的代码修复将离线轨迹转化为可执行的 Python 世界模型，实现无需梯度优化的符号信念状态程序，在 AgentGym 环境中达到 76.4% 的宏观成功率。

Comments 40 pages

URL PDF HTML

2603.00656 2026-06-18 cs.AI 版本更新专题 85

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

InfoPO：面向用户智能体的信息驱动策略优化

Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu

专题命中规划决策：信息驱动策略优化，面向用户智能体

AI总结针对多轮交互中信用分配和优势信号不足的问题，提出信息增益奖励与自适应方差门控融合的InfoPO方法，在意图澄清、协作编码等任务上优于现有基线。

URL PDF HTML

2603.00026 2026-06-18 cs.CL cs.AI cs.IR 版本更新专题 85

ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

ActMem：弥合LLM代理中记忆检索与推理之间的差距

Xiaohui Zhang, Zequn Sun, Chengyuan Yang, Yaqin Jin, Yazhong Zhang, Wei Hu

专题命中规划决策：记忆检索与推理结合，主动因果推理

AI总结提出ActMem框架，通过将非结构化对话历史转化为结构化因果语义图，结合反事实推理和常识补全，实现主动因果推理，显著提升LLM代理在复杂记忆依赖任务中的表现。

URL PDF HTML

2510.05107 2026-06-18 cs.AI 版本更新专题 85

Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents (Extended Revision: From Behavioral Architecture to Epistemic Accountability)

大型语言模型代理中行为智能的结构化认知循环（扩展修订：从行为架构到认知问责）

Myung Ho Kim

专题命中规划决策：结构化认知循环实现LLM代理可问责行为

AI总结提出结构化认知循环（SCL）架构，通过分离认知、记忆、控制和行动模块，实现LLM代理的可问责行为，在360个任务中成功率86.3%，优于基线方法。

Comments This revised version extends the original SCL framework from a behavioral architecture for reliable LLM agents into a broader architecture of epistemic accountability, integrating context-aware Human-in-the-Loop control, Pool-Gated Retrieval, and the Horizon-Warrant-Commitment structure

URL PDF HTML

2605.22142 2026-06-18 cs.LG cs.AI 版本更新专题 80

Short-Term-to-Long-Term Memory Transfer for Knowledge Graphs under Partial Observability

知识图谱下的短期到长期记忆转移：在部分可观测性下的短期到长期记忆转移

Taewoon Kim, Vincent François-Lavet, Michael Cochez

专题命中规划决策：强化学习中记忆转移，属于智能体决策。

AI总结本文研究了在部分可观测性下知识图谱中的短期到长期记忆转移问题，提出了一种基于神经符号价值决策的方法，通过在长期插入前决定保留或丢弃观察到的三元组，从而提升记忆效率，并在RoomKG基准测试中优于符号和神经基线方法。

URL PDF HTML

2604.03208 2026-06-18 cs.LG 版本更新专题 80

Hierarchical Planning with Latent World Models

基于潜在世界模型的分层规划

Wancong Zhang, Basile Terver, Artem Zholus, Soham Chitnis, Harsh Sutaria, Mido Assran, Randall Balestriero, Amir Bar, Adrien Bardes, Yann LeCun, Nicolas Ballas

专题命中规划决策：分层世界模型用于长时域规划，属智能体规划

AI总结提出HWM架构，通过多时间尺度潜在世界模型和潜在匹配实现分层模型预测控制，解决长时域任务中单层规划失败和计算爆炸问题。

URL PDF HTML

2411.10399 2026-06-18 cs.GT cs.CR cs.DC 版本更新专题 80

Game Theoretic Liquidity Provisioning in Concentrated Liquidity Market Makers

集中流动性做市商中的博弈论流动性提供

Weizhao Tang, Rachid El-Azouzi, Cheng Han Lee, Ethan Chan, Giulia Fanti

专题命中规划决策：博弈论模型分析流动性提供策略

AI总结针对集中流动性做市商中流动性提供者的策略互动，建立博弈论模型，证明其可简化为具有唯一纳什均衡的线性复杂度博弈，均衡遵循水填充策略，并基于真实数据发现LP策略偏离均衡，调整后可提升日收益率。

URL PDF HTML

2510.03635 2026-06-18 eess.SY cs.SY 版本更新专题 70

Cyber Resilience of Three-phase Unbalanced Distribution System Restoration under Sparse Adversarial Attack on Load Forecasting

三相不平衡配电系统恢复在负荷预测稀疏对抗攻击下的网络弹性

Chen Chao, Zixiao Ma, Ziang Zhang

专题命中规划决策：攻击下的恢复规划，涉及决策

AI总结本文量化对抗性攻击对负荷预测的影响，提出梯度稀疏攻击方法，并建立恢复感知验证框架，揭示系统级故障，为设计网络安全感知的恢复规划提供见解。

Comments 10 pages, 7 figures

URL PDF HTML

2402.08128 2026-06-18 cs.AI cs.GT 版本更新专题 70

Recursive Joint Simulation in Games

博弈中的递归联合模拟

Vojtech Kovarik, Caspar Oesterheld, Vincent Conitzer

专题命中规划决策：研究AI智能体递归联合模拟实现合作

AI总结研究AI智能体通过递归联合模拟实现合作，证明该过程等价于原博弈的无限重复版本，从而可直接应用民间定理等现有结论。

URL PDF HTML

2603.09344 2026-06-18 cs.AI stat.ML 版本更新专题 65

Robust Regularized Policy Iteration under Transition Uncertainty

鲁棒正则化策略迭代在转移不确定性下

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

专题命中规划决策：离线强化学习用于智能体决策

AI总结提出鲁棒正则化策略迭代（RRPI），通过将离线强化学习建模为鲁棒策略优化，使用KL正则化替代难解的双层目标，并基于鲁棒正则化贝尔曼算子实现高效策略迭代，理论保证收敛性，实验在D4RL基准上表现优异。

URL PDF HTML

2601.14288 2026-06-18 astro-ph.CO cs.AI cs.CE gr-qc hep-th 版本更新专题 85

DeepInflation: an AI agent for research and model discovery of inflation

DeepInflation：用于暴胀研究与模型发现的AI智能体

Ze-Yu Peng, Hao-Shi Yuan, Qi Lai, Jun-Qian Jiang, Gen Ye, Jun Zhang, Yun-Song Piao

专题命中工作流自动化：多智能体架构自动发现暴胀势模型

AI总结提出基于多智能体架构的AI智能体DeepInflation，集成大语言模型、符号回归引擎和检索增强生成知识库，自动发现与最新观测一致的单场慢滚暴胀势，并解释理论背景。

URL PDF HTML

1. 工具调用 2 篇

ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

2. 软件智能体 2 篇

SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision

WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks

3. 多智能体 7 篇

Self-Evolving Multi-Agent Systems via Textual Backpropagation

Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?

The Dynamics of Policy Gradient in Social Dilemmas with Partner Selection

PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation

Emergent Macro-Criticality from Micro-Critical Agents

Market Informedness and Market-Maker Profitability: The Trade-Off Between Adverse Selection and Price Discovery

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

4. 其他Agent 4 篇

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Personality Pairing Improves Human-AI Collaboration

TWICE: Modeling the Temporal Evolution of Personalized User Behavior via Event-Driven Agents

Agents Trusting Agents? Restoring Lost Capabilities with Inclusive Healthcare

5. 规划决策 10 篇

PatchWorld: Gradient-Free Optimization of Executable World Models

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents (Extended Revision: From Behavioral Architecture to Epistemic Accountability)

Short-Term-to-Long-Term Memory Transfer for Knowledge Graphs under Partial Observability

Hierarchical Planning with Latent World Models

Game Theoretic Liquidity Provisioning in Concentrated Liquidity Market Makers

Cyber Resilience of Three-phase Unbalanced Distribution System Restoration under Sparse Adversarial Attack on Load Forecasting

Recursive Joint Simulation in Games

Robust Regularized Policy Iteration under Transition Uncertainty

6. 工作流自动化 1 篇

DeepInflation: an AI agent for research and model discovery of inflation