AI Agent - arXivDaily 专题

2508.04086 2026-06-18 cs.CL 版本更新专题 95

ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"

ToolGrad：利用文本“梯度”高效生成工具使用数据集

Zhongyi Zhou, Kohei Uehara, Haoyu Zhang, Jingtao Zhou, Lin Gu, Ruofei Du, Zheng Xu, Tatsuya Harada

专题命中工具调用：提出ToolGrad框架生成工具使用数据集

AI总结提出ToolGrad框架，通过文本“梯度”引导的迭代过程先构建有效工具使用链再合成用户查询，实现低成本、高成功率的数据生成，训练模型性能超越基线。

Comments ACL 2026 Findings. Source code: https://github.com/zhongyi-zhou/toolgrad

URL PDF HTML

2606.18947 2026-06-18 cs.AI cs.CL cs.IR cs.MA 新提交专题 90

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

将搜索与推理解耦：面向LLM Agent的供应商无关的接地架构

Emmanuel Aboah Boateng, Kyle MacDonald, Amardeep Kumar, Siddharth Kodwani, Sudeep Das

专题命中工具调用：提出解耦搜索接地架构，增强LLM Agent搜索能力

AI总结提出解耦搜索接地（DSG）架构，将搜索接地从推理模型中分离，通过MCP兼容网关实现供应商路由、缓存等控制，在降低成本和延迟的同时保持或提升准确性。

Comments 15 pages, Figure 8

URL PDF HTML

2606.18467 2026-06-18 stat.ML cs.LG 新提交专题 85

ToolChain-CRC: Conformal Risk Control for Agentic AI Under Retrieval and Tool-Use Drift

ToolChain-CRC: 检索与工具使用漂移下代理型AI的共形风险控制

Jeffery Opoku, David Banahene

专题命中工具调用：代理型AI工具使用风险控制

AI总结针对检索增强和工具使用代理在漂移下的风险控制问题，提出ToolChain-CRC方法，通过构建轨迹级风险评分并校准接受或干预规则，实现可证明的轨迹级风险控制。

Comments 26 pages, 11 figures

URL PDF HTML

2606.19242 2026-06-18 cs.SE 新提交专题 85

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中工具调用：AI代理运行时合规性验证框架

AI总结提出C-Trace框架，通过运行时监控和形式化策略谓词，确保AI代理在工具调用和对话中遵守GDPR规则，将攻击成功率降至12%以下。

URL PDF HTML

2606.19047 2026-06-18 cs.AI 新提交专题 85

RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

RODS: 面向多轮工具使用智能体的奖励驱动在线数据合成

Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

专题命中工具调用：多轮工具使用智能体，奖励驱动数据合成。

AI总结针对多轮工具使用强化学习中静态数据集信息样本快速耗尽的问题，提出RODS方法，利用进度奖励方差作为零成本边界检测器，在线合成与智能体能力边界匹配的样本，以约800样本达到17K样本离线管道的性能。

URL PDF HTML

2606.18902 2026-06-18 cs.CL 新提交专题 85

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE: 基于智能体引导探索的随机提示优化

Ziyi Zhu, Luka Smyth, Saki Shinoda, Jinghong Chen

专题命中工具调用：多智能体诊断代码执行实现提示优化

AI总结提出随机提示优化框架SPO，其中SAGE方法通过多智能体诊断代码执行实现黑盒搜索，在多个基准测试中表现依赖于错误类型，并在心理健康聊天机器人中通过连续优化显著提升次日留存率。

URL PDF HTML

2606.18789 2026-06-18 eess.SY cs.SY 新提交专题 85

PowerAgentBench-SS: A Benchmark for Agentic AI in Power System Steady-State Studies

PowerAgentBench-SS：电力系统稳态研究中智能体AI的基准测试

Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

专题命中工具调用：LLM智能体执行电力系统工作流

AI总结提出PowerAgentBench-SS基准框架，用于评估LLM智能体在电力系统稳态研究中执行工程工作流的能力，通过工具API、验证预算和风险敏感指标区分智能体性能。

URL PDF HTML

2605.29676 2026-06-18 cs.AI cs.CL 版本更新专题 85

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

符号至关重要：智能体AI系统中令牌优化格式的基准研究

Lorenz Kutschka, Bernhard Geiger

专题命中工具调用：智能体系统中令牌优化格式，提升工具调用效率

AI总结本研究在四个智能体基准上评估了两种令牌优化格式TOON和TRON，发现TRON在保持准确率的同时最多减少27%的令牌，而TOON虽减少18%但存在多轮解析失败和并行工具调用输出崩溃的问题。

Comments 16 pages, 6 figures, 4 tables

URL PDF HTML

2606.18803 2026-06-18 cs.AI cs.CY 新提交专题 80

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像

Tengfei Lyu, Zirui Yuan, Xu Liu, Kai Wan, Zihao Lu, Li Ma, Hao Liu

专题命中工具调用：LLM智能体用于网约车调度用户画像

AI总结提出ProfiLLM，一种通过工具增强全局知识挖掘和效用对齐画像探索的智能LLM数据管道，解决工业网约车调度中大规模行为日志的用户画像问题，在滴滴生产系统中实现AUC提升6.14%、GMV提升4.35%。

URL PDF HTML

2606.18550 2026-06-18 cs.CR 新提交专题 70

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

门仅与其合约一样诚实：面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中工具调用：保护工具增强型LLM代理

AI总结针对工具增强型LLM代理的间接提示注入，提出ContractGuard，通过验证合约完整性（而非风险标签）来防御攻击，在基准测试中实现零注入成功率。

URL PDF HTML