AI Agent

2606.18448 2026-06-18 cs.CL 新提交专题 95

VISUALSKILL: Multimodal Skills for Computer-Use Agents

VISUALSKILL：面向计算机使用智能体的多模态技能

Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

专题命中软件智能体：面向计算机使用智能体的多模态技能库

AI总结提出VISUALSKILL分层多模态技能库，通过结合文档与UI探索构建，使智能体在CUA基准上平均得分提升15.3点，且多模态优于纯文本技能。

URL PDF HTML

2606.19319 2026-06-18 cs.MA cs.AI cs.DB 新提交专题 90

Data Intelligence Agents: Interpreting, Modeling, and Querying Enterprise Data via Autonomous Coding Agents

数据智能代理：通过自主编码代理解释、建模和查询企业数据

Anoushka Vyas, Aarushi Dhanuka, Sina Khoshfetrat Pakazad, Henrik Ohlsson

专题命中软件智能体：自主编码代理处理企业数据集成

AI总结提出Data Intelligence Agents (DIA)系统，由三个自主编码代理组成，通过执行、验证和修复工件来压缩数据集成工作流，在七个SQL基准测试中达到或超越最佳结果。

URL PDF HTML

2606.18890 2026-06-18 cs.AI 新提交专题 90

Skill-Guided Continuation Distillation for GUI Agents

面向GUI代理的技能引导延续蒸馏

Zhimin Fan, Hongwei Yu, Yeqing Shen, Haolong Yan, Guozhen Peng, Tianhao Peng, Yudong Zhang, Xiaowen Zhang, Kaijun Tan, Zheng Ge, Xiangyu Zhang, Daxin Jiang

专题命中软件智能体：技能引导蒸馏提升GUI Agent成功率

AI总结提出技能引导延续蒸馏（SGCD）框架，通过技能引导策略生成成功延续轨迹，弥补专家轨迹中未覆盖的状态监督缺失，在OSWorld-Verified上将三个基础模型成功率从30%左右提升至50%以上。

URL PDF HTML

2606.18976 2026-06-18 cs.SE cs.AI 新提交专题 85

CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System

CAPRA: 使用多智能体LLM系统对软件架构交付物进行反馈扩展

Marco Becattini, Niccolò Caselli, Matteo Minin, Roberto Verdecchia, Enrico Vicario

专题命中软件智能体：多智能体LLM系统自动生成软件架构反馈。

AI总结提出CAPRA多智能体LLM系统，通过多模态文档提取、确定性证据锚定和一致性管理，自动生成软件架构交付物的个性化LaTeX反馈，在10份学生报告中满足88.8%的评估标准。

Comments Accepted for publication at the 38th International Conference on Software Engineering Education and Training

URL PDF HTML

2606.18728 2026-06-18 cs.CL 新提交专题 85

LegalWorld: A Life-Cycle Interactive Environment for Legal Agents

LegalWorld: 法律智能体的生命周期交互环境

Songhan Zuo, Shengbin Yue, Tao Chiang, Guanying Li, Yun Song, Xuanjing Huang, Zhongyu Wei

专题命中软件智能体：法律智能体生命周期交互环境。

AI总结提出LegalWorld，一个将中国民事诉讼建模为五阶段因果链的生命周期交互环境，基于75309对判决书构建，并评估多智能体在连续诉讼中的能力差异。

URL PDF HTML

2606.18671 2026-06-18 cs.HC 新提交专题 85

HANSEL: Extracting Breadcrumbs from Web Agent Trajectories for Interactive Verification

HANSEL: 从Web智能体轨迹中提取面包屑用于交互式验证

Yujin Zhang, Daye Nam

专题命中软件智能体：Web智能体轨迹提取证据用于验证

AI总结提出HANSEL系统，从AI智能体轨迹中提取可交互验证的证据，减少用户审查负担，在基准测试中达到83.7%精确率和88.9%召回率，用户研究显示显著降低任务完成时间和感知努力。

Comments 13 pages, 6 figures

URL PDF HTML

2606.16000 2026-06-18 cs.CL cs.LG 新提交专题 85

GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science

GRACE-DS：数据科学中的受保护奖励引导智能体修正环境

Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasiya Palienko

专题命中软件智能体：评估LLM驱动的AutoML智能体环境

AI总结提出GRACE-DS，一个用于评估LLM驱动的AutoML智能体在部署前性能的隔离环境，通过隐藏的可执行验证器衡量预测性能、泄漏避免、可重复性等指标，实验证明其灵活迭代交互模式优于基线方法。

URL PDF HTML

2606.13681 2026-06-18 cs.CL 新提交专题 85

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

EvoArena: 追踪记忆演化以构建动态环境中的鲁棒LLM智能体

Jundong Xu, Qingchuan Li, Jiaying Wu, Yihuai Lan, Shuyue Stella Li, Huichi Zhou, Bowen Jiang, Lei Wang, Jun Wang, Anh Tuan Luu, Caiming Xiong, Hae Won Park, Bryan Hooi, Zhiyuan Hu

专题命中软件智能体：动态环境中LLM智能体的记忆演化基准

AI总结提出EvoArena基准套件模拟终端、软件和社交领域的渐进环境变化，并设计基于补丁的记忆范式EvoMem记录结构化更新历史，使智能体能通过记忆变化推理环境演化，实验表明当前智能体在动态环境中表现不佳，EvoMem可稳定提升性能。

URL PDF HTML

2606.18947 2026-06-18 cs.AI cs.CL cs.IR cs.MA 新提交专题 90

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

将搜索与推理解耦：面向LLM Agent的供应商无关的接地架构

Emmanuel Aboah Boateng, Kyle MacDonald, Amardeep Kumar, Siddharth Kodwani, Sudeep Das

专题命中工具调用：提出解耦搜索接地架构，增强LLM Agent搜索能力

AI总结提出解耦搜索接地（DSG）架构，将搜索接地从推理模型中分离，通过MCP兼容网关实现供应商路由、缓存等控制，在降低成本和延迟的同时保持或提升准确性。

Comments 15 pages, Figure 8

URL PDF HTML

2606.18467 2026-06-18 stat.ML cs.LG 新提交专题 85

ToolChain-CRC: Conformal Risk Control for Agentic AI Under Retrieval and Tool-Use Drift

ToolChain-CRC: 检索与工具使用漂移下代理型AI的共形风险控制

Jeffery Opoku, David Banahene

专题命中工具调用：代理型AI工具使用风险控制

AI总结针对检索增强和工具使用代理在漂移下的风险控制问题，提出ToolChain-CRC方法，通过构建轨迹级风险评分并校准接受或干预规则，实现可证明的轨迹级风险控制。

Comments 26 pages, 11 figures

URL PDF HTML

2606.19242 2026-06-18 cs.SE 新提交专题 85

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中工具调用：AI代理运行时合规性验证框架

AI总结提出C-Trace框架，通过运行时监控和形式化策略谓词，确保AI代理在工具调用和对话中遵守GDPR规则，将攻击成功率降至12%以下。

URL PDF HTML

2606.19047 2026-06-18 cs.AI 新提交专题 85

RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

RODS: 面向多轮工具使用智能体的奖励驱动在线数据合成

Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

专题命中工具调用：多轮工具使用智能体，奖励驱动数据合成。

AI总结针对多轮工具使用强化学习中静态数据集信息样本快速耗尽的问题，提出RODS方法，利用进度奖励方差作为零成本边界检测器，在线合成与智能体能力边界匹配的样本，以约800样本达到17K样本离线管道的性能。

URL PDF HTML

2606.18902 2026-06-18 cs.CL 新提交专题 85

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE: 基于智能体引导探索的随机提示优化

Ziyi Zhu, Luka Smyth, Saki Shinoda, Jinghong Chen

专题命中工具调用：多智能体诊断代码执行实现提示优化

AI总结提出随机提示优化框架SPO，其中SAGE方法通过多智能体诊断代码执行实现黑盒搜索，在多个基准测试中表现依赖于错误类型，并在心理健康聊天机器人中通过连续优化显著提升次日留存率。

URL PDF HTML

2606.18789 2026-06-18 eess.SY cs.SY 新提交专题 85

PowerAgentBench-SS: A Benchmark for Agentic AI in Power System Steady-State Studies

PowerAgentBench-SS：电力系统稳态研究中智能体AI的基准测试

Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

专题命中工具调用：LLM智能体执行电力系统工作流

AI总结提出PowerAgentBench-SS基准框架，用于评估LLM智能体在电力系统稳态研究中执行工程工作流的能力，通过工具API、验证预算和风险敏感指标区分智能体性能。

URL PDF HTML

2606.18837 2026-06-18 cs.MA cs.AI cs.LG 新提交专题 90

Skill-MAS: Evolving Meta-Skill for Automatic Multi-Agent Systems

Skill-MAS: 演化元技能以自动生成多智能体系统

Hehai Lin, Qi Yang, Chengwei Qin

专题命中多智能体：自动生成多智能体系统，元技能演化。

AI总结提出Skill-MAS，通过将高层编排能力解耦为可演化的元技能，在无需参数更新的情况下实现经验保留，利用多轨迹采样和选择性反思优化元技能，在多个基准和LLM上取得显著性能提升且成本可控。

URL PDF HTML

2606.18668 2026-06-18 cs.MA cs.CL 新提交专题 90

EARS: Explanatory Abstention for Reliable Sub-Agent Modeling in Large-scale Multi-Agent Systems

EARS：大规模多智能体系统中可靠子智能体建模的解释性弃权

Shuang Xie, Yunan Lu, Han Li, Lingyun Wang

专题命中多智能体：多智能体系统中子智能体弃权机制

AI总结针对大规模多智能体系统中子智能体过度回答导致幻觉的问题，提出EARS框架，通过将弃权重构为智能体间通信协议，利用校准的LLM裁判模型生成结构化弃权标签和理由，微调子智能体以检测故障并返回理由，在电商助手系统中将响应通过率从68.5%提升至78.9%。

URL PDF HTML

2606.18648 2026-06-18 physics.comp-ph 新提交专题 90

Deep Research in Physical Sciences: A Multi-Agent Framework and Comprehensive Benchmark

物理科学中的深度研究：多智能体框架与综合基准

Yigeng Jiang, Tengchao Yang, Taoyong Cui, Jiaxing Wan, Yuan Wang, Weida Wang, Zhiyu Liu, Chuyi Peng, Binzhao Luo, Maoli Gao, Huaihai Huang, Yuqianer Zeng, Ziyang Zheng, Dongchen Huang, Chao Chen, Zichao Liu, Weiping Shen, Shuchen Pu, Siyu Zhou, Runmin Ma, Yusong Hu, Fei Chao, Bo Zhang, Xiawu Zheng, Zifu Wang, Lei Bai, Yunqi Cai, Shufei Zhang

专题命中多智能体：多智能体框架DelveAgent，物理科学深度研究

AI总结提出PhySciBench基准评估LLM在物理科学中的深度研究能力，并开发DelveAgent多智能体框架，通过自适应规划、双粒度记忆和分层反思机制提升准确率并降低推理成本。

Comments 19 pages, 5 figures, 1 table;

URL PDF HTML

2606.19308 2026-06-18 cs.CL cs.MA 新提交专题 85

Enhancing Decision-Making with Large Language Models through Multi-Agent Fictitious Play

通过多智能体虚拟博弈增强大语言模型的决策能力

Leyang Shen, Yang Zhang, Xiaoyan Zhao, Chun Kai Ling, Tat-Seng Chua

专题命中多智能体：多智能体虚拟博弈增强决策

AI总结针对多智能体系统中决策任务因立场纠缠而难以分解的问题，提出基于虚拟博弈的多智能体虚拟博弈（MAFP）范式，通过迭代最佳响应实现均衡求解，提升决策质量和鲁棒性。

Comments 18 pages, 8 figures

URL PDF HTML

2606.19111 2026-06-18 cs.CL cs.AI cs.MA 新提交专题 85

Leadership as Coordination Control: Behavioral Signatures and the Recovery-Advantage Boundary in Multi-Agent LLM Teams

领导力作为协调控制：多智能体LLM团队中的行为特征与恢复优势边界

Haewoon Kwak

专题命中多智能体：多智能体LLM团队中领导力作为协调控制

AI总结研究多智能体LLM团队中过程级协调控制何时增加价值，通过行为特征和消融实验发现，控制器的优势仅在初始多数投票不可靠、任务可恢复且无指导交互无法修复时出现，验证了权变理论。

Comments 33 pages

URL PDF HTML

2606.18268 2026-06-18 cs.SI cs.AI 新提交专题 85

Towards Multi-Agent-Simulation-Based Community Note Evaluation

迈向基于多智能体模拟的社区笔记评估

Changxi Wen, Shuning Zhang, Bohao Chu, Yuwei Chuai, Hui Wang, Dai Shi, Xin Yi, Hewu Li

专题命中多智能体：提出MultiCom多智能体框架模拟社区笔记评估。

AI总结针对社区事实核查中跨共识延迟和低比例问题，提出ComRate数据集和MultiCom多智能体框架，通过矩阵分解聚类与校准聚合实现高精度评估。

URL PDF HTML

2606.18264 2026-06-18 cs.SI cs.AI cs.CL 新提交专题 85

Simulating Hate Speech Cascades with Multi-LLM Agents: Empirical Grounding, Modeling Fidelity, and Intervention Strategies

使用多LLM智能体模拟仇恨言论级联：实证基础、建模保真度与干预策略

Fan Huang

专题命中多智能体：使用多LLM智能体模拟仇恨言论传播与干预策略。

AI总结本研究通过多LLM智能体系统模拟在线仇恨言论传播，发现其能再现实证数据中的立场单一性和毒性同质性，并通过消融实验识别出智能体异质性为关键保真因素，提出针对密集网络的放大器干预策略。

URL PDF HTML

2606.15504 2026-06-18 cs.AI 新提交专题 85

Toward Vibe Medicine: A Self-Evolving Multi-Agent Framework for Clinical Decision Support

迈向振动医学：一种用于临床决策支持的自演化多智能体框架

Qianxue Zhang, Yiming Ren, Shihuan Qin, Xiao Zhang, Liao Zhang, Jinyang Huang, Zhengliang Liu, Chenbin Liu, Hongying Feng, Jingyuan Chen, Yuzhen Ding, Weihang You, Hanqi Jiang, Yi Pan, Yifan Zhou, Junhao Chen, Lifeng Chen, Wei Liu, Tianming Liu, Zengren Zhao, Lian Zhang

专题命中多智能体：提出多智能体框架，包含三个专用智能体

AI总结提出VIBEMed多智能体框架，通过自演化机制和架构级安全沙箱，从交互历史中动态学习，实现个性化临床决策支持。

URL PDF HTML

2606.07150 2026-06-18 cs.CR cs.AI cs.MA cs.NI 新提交专题 85

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

从隐私到工作流完整性：自主智能体互操作性中的通信图元数据

Bijaya Dangol

专题命中多智能体：研究智能体互操作性协议中的通信图元数据威胁

AI总结针对智能体通信图元数据泄露问题，提出工作流完整性威胁模型，定义传输层与引导层隐私属性，并通过A2A案例验证元数据保护可有效抑制任务推断。

Comments 22 pages, 7 figures, 6 tables

URL PDF HTML

2606.18543 2026-06-18 cs.AI cs.CL cs.SE 新提交专题 90

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench：智能体能否玩转长期博弈？

Haozhe Chen, Karthik Narasimhan, Zhuang Liu

专题命中规划决策：模拟500天运营初创公司任务

AI总结提出CEO-Bench，通过模拟500天运营初创公司的任务，评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。

URL PDF HTML

2606.18633 2026-06-18 cs.MA 新提交专题 85

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

PersonalPlan: 面向个性化编程学习的多智能体系统规划

Zhiyuan Wen, Jiannong Cao, Peng Gao, Haochen Shi, Wengpan Kuan, Bo Yuan, Xiuxiu Qi

专题命中规划决策：多智能体规划器用于个性化编程学习

AI总结提出PersonalPlan，一种两阶段多智能体规划器，通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划，在MAP-PPL数据集上优于现有方法。

URL PDF HTML

2606.18502 2026-06-18 cs.CL 新提交专题 90

Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications

面向企业应用的多智能体系统可扩展定制与部署

Paresh Dashore, Shreyas Kulkarni, Uttam Gurram, Nadia Bathaee, Kartik Balasubramaniam, Genta Indra Winata, Sambit Sahu, Shi-Xiong Zhang

专题命中工作流自动化：多智能体系统定制与部署框架

AI总结提出统一框架，通过智能体模型定制（持续预训练、微调、偏好优化）和推理优化（推测解码、FP8量化），实现领域自适应和4.48倍吞吐加速，保持性能并提升长尾场景鲁棒性。

Comments Preprint

URL PDF HTML

2606.18661 2026-06-18 cs.CV cs.AI 新提交专题 85

LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis

LandslideAgent与多模态LandslideBench：一种面向自主滑坡识别与分析的领域规则增强型智能体

Chengfu Liu, Dongyang Hou, Junwu Xiang, Cheng Yang, Xuezhi Cui, Zeyuan Wang, Liangtian Liu, Zelang Miao

专题命中工作流自动化：指令驱动智能体框架，自主识别分析滑坡

AI总结提出指令驱动智能体框架，包含多模态数据集LandslideBench、滑坡专用视觉语言模型LandslideVLM及领域规则增强智能体LandslideAgent，实现自主滑坡识别与分析。

URL PDF HTML

2606.18425 2026-06-18 cs.SE cs.AI cs.DC 新提交专题 85

From Specification to Execution: AI Assisted Scientific Workflow Management

从规范到执行：AI辅助的科学工作流管理

Komal Thareja, Hamza Safri, Rajiv Mayani, Anirban Mandal, Ewa Deelman

专题命中工作流自动化：AI辅助科学工作流生成与调试

AI总结提出一种AI辅助方法，通过规范驱动的工作流生成、自动化调试和分布式执行，结合Pegasus与MCP层，实现从自然语言到大规模科学工作流的端到端管理。

URL PDF HTML

2606.18142 2026-06-18 cs.AI cs.CL cs.CY 新提交专题 85

Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models

你的AI旅行代理会为你预订斗牛：前沿AI模型中隐含动物福利的代理基准

Jasmine Brazilek, Joel Christoph, Miles Tidmarsh, Carol Kline, Oliver Tullio, Arturs Kanepajs

专题命中其他Agent ：评估AI代理在旅行预订中的动物福利

AI总结提出首个代理基准TAC，测试AI代理在为用户执行旅行预订等操作时是否避免涉及动物剥削的选项。评估七个前沿模型，所有模型得分低于随机水平64%，最佳模型仅53%。

URL PDF HTML

2606.12837 2026-06-18 cs.CL 新提交专题 85

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试

Jiarui Zhao, Rongzhi Zhang, Lingchuan Liu, Hao Yang, Xunliang Cai, Xi Su

专题命中其他Agent ：长时域搜索代理基准测试

AI总结提出LoHoSearch基准，基于700万维基实体知识图谱自动构建544个复杂问题，评估显示最强模型仅34.74%准确率，远超人类难度上限。

URL PDF HTML

1. 软件智能体 8 篇

VISUALSKILL: Multimodal Skills for Computer-Use Agents

Data Intelligence Agents: Interpreting, Modeling, and Querying Enterprise Data via Autonomous Coding Agents

Skill-Guided Continuation Distillation for GUI Agents

CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System

LegalWorld: A Life-Cycle Interactive Environment for Legal Agents

HANSEL: Extracting Breadcrumbs from Web Agent Trajectories for Interactive Verification

GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

2. 工具调用 6 篇

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

ToolChain-CRC: Conformal Risk Control for Agentic AI Under Retrieval and Tool-Use Drift

Runtime Compliance Verification for AI Agents

RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

PowerAgentBench-SS: A Benchmark for Agentic AI in Power System Steady-State Studies

3. 多智能体 9 篇

Skill-MAS: Evolving Meta-Skill for Automatic Multi-Agent Systems

EARS: Explanatory Abstention for Reliable Sub-Agent Modeling in Large-scale Multi-Agent Systems

Deep Research in Physical Sciences: A Multi-Agent Framework and Comprehensive Benchmark

Enhancing Decision-Making with Large Language Models through Multi-Agent Fictitious Play

Leadership as Coordination Control: Behavioral Signatures and the Recovery-Advantage Boundary in Multi-Agent LLM Teams

Towards Multi-Agent-Simulation-Based Community Note Evaluation

Simulating Hate Speech Cascades with Multi-LLM Agents: Empirical Grounding, Modeling Fidelity, and Intervention Strategies

Toward Vibe Medicine: A Self-Evolving Multi-Agent Framework for Clinical Decision Support

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

4. 规划决策 2 篇

CEO-Bench: Can Agents Play the Long Game?

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

5. 工作流自动化 3 篇

Towards Scalable Customization and Deployment of Multi-Agent Systems for Enterprise Applications

LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis

From Specification to Execution: AI Assisted Scientific Workflow Management

6. 其他Agent 2 篇

Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling