arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 10 信号源:cs.AI, cs.CL, cs.LG, cs.SE
2508.04086 2026-06-18 cs.CL 版本更新 专题 95

ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"

ToolGrad:利用文本“梯度”高效生成工具使用数据集

Zhongyi Zhou, Kohei Uehara, Haoyu Zhang, Jingtao Zhou, Lin Gu, Ruofei Du, Zheng Xu, Tatsuya Harada

专题命中 工具调用 :提出ToolGrad框架生成工具使用数据集

AI总结 提出ToolGrad框架,通过文本“梯度”引导的迭代过程先构建有效工具使用链再合成用户查询,实现低成本、高成功率的数据生成,训练模型性能超越基线。

Comments ACL 2026 Findings. Source code: https://github.com/zhongyi-zhou/toolgrad

2606.18947 2026-06-18 cs.AI cs.CL cs.IR cs.MA 新提交 专题 90

Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

将搜索与推理解耦:面向LLM Agent的供应商无关的接地架构

Emmanuel Aboah Boateng, Kyle MacDonald, Amardeep Kumar, Siddharth Kodwani, Sudeep Das

专题命中 工具调用 :提出解耦搜索接地架构,增强LLM Agent搜索能力

AI总结 提出解耦搜索接地(DSG)架构,将搜索接地从推理模型中分离,通过MCP兼容网关实现供应商路由、缓存等控制,在降低成本和延迟的同时保持或提升准确性。

Comments 15 pages, Figure 8

2606.18467 2026-06-18 stat.ML cs.LG 新提交 专题 85

ToolChain-CRC: Conformal Risk Control for Agentic AI Under Retrieval and Tool-Use Drift

ToolChain-CRC: 检索与工具使用漂移下代理型AI的共形风险控制

Jeffery Opoku, David Banahene

专题命中 工具调用 :代理型AI工具使用风险控制

AI总结 针对检索增强和工具使用代理在漂移下的风险控制问题,提出ToolChain-CRC方法,通过构建轨迹级风险评分并校准接受或干预规则,实现可证明的轨迹级风险控制。

Comments 26 pages, 11 figures

2606.19242 2026-06-18 cs.SE 新提交 专题 85

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中 工具调用 :AI代理运行时合规性验证框架

AI总结 提出C-Trace框架,通过运行时监控和形式化策略谓词,确保AI代理在工具调用和对话中遵守GDPR规则,将攻击成功率降至12%以下。

2606.19047 2026-06-18 cs.AI 新提交 专题 85

RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

RODS: 面向多轮工具使用智能体的奖励驱动在线数据合成

Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

专题命中 工具调用 :多轮工具使用智能体,奖励驱动数据合成。

AI总结 针对多轮工具使用强化学习中静态数据集信息样本快速耗尽的问题,提出RODS方法,利用进度奖励方差作为零成本边界检测器,在线合成与智能体能力边界匹配的样本,以约800样本达到17K样本离线管道的性能。

2606.18902 2026-06-18 cs.CL 新提交 专题 85

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

SAGE: 基于智能体引导探索的随机提示优化

Ziyi Zhu, Luka Smyth, Saki Shinoda, Jinghong Chen

专题命中 工具调用 :多智能体诊断代码执行实现提示优化

AI总结 提出随机提示优化框架SPO,其中SAGE方法通过多智能体诊断代码执行实现黑盒搜索,在多个基准测试中表现依赖于错误类型,并在心理健康聊天机器人中通过连续优化显著提升次日留存率。

2606.18789 2026-06-18 eess.SY cs.SY 新提交 专题 85

PowerAgentBench-SS: A Benchmark for Agentic AI in Power System Steady-State Studies

PowerAgentBench-SS:电力系统稳态研究中智能体AI的基准测试

Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

专题命中 工具调用 :LLM智能体执行电力系统工作流

AI总结 提出PowerAgentBench-SS基准框架,用于评估LLM智能体在电力系统稳态研究中执行工程工作流的能力,通过工具API、验证预算和风险敏感指标区分智能体性能。

2605.29676 2026-06-18 cs.AI cs.CL 版本更新 专题 85

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

符号至关重要:智能体AI系统中令牌优化格式的基准研究

Lorenz Kutschka, Bernhard Geiger

专题命中 工具调用 :智能体系统中令牌优化格式,提升工具调用效率

AI总结 本研究在四个智能体基准上评估了两种令牌优化格式TOON和TRON,发现TRON在保持准确率的同时最多减少27%的令牌,而TOON虽减少18%但存在多轮解析失败和并行工具调用输出崩溃的问题。

Comments 16 pages, 6 figures, 4 tables

2606.18803 2026-06-18 cs.AI cs.CY 新提交 专题 80

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像

Tengfei Lyu, Zirui Yuan, Xu Liu, Kai Wan, Zihao Lu, Li Ma, Hao Liu

专题命中 工具调用 :LLM智能体用于网约车调度用户画像

AI总结 提出ProfiLLM,一种通过工具增强全局知识挖掘和效用对齐画像探索的智能LLM数据管道,解决工业网约车调度中大规模行为日志的用户画像问题,在滴滴生产系统中实现AUC提升6.14%、GMV提升4.35%。

2606.18550 2026-06-18 cs.CR 新提交 专题 70

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

门仅与其合约一样诚实:面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中 工具调用 :保护工具增强型LLM代理

AI总结 针对工具增强型LLM代理的间接提示注入,提出ContractGuard,通过验证合约完整性(而非风险标签)来防御攻击,在基准测试中实现零注入成功率。