arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 101 信号源:cs.AI, cs.CL, cs.LG, cs.SE

1. 规划决策 4 篇

2606.20014 2026-06-19 cs.LG cs.AI 新提交 专题 85

Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

多智能体博弈中的层次化控制:基于LLM的规划与RL执行

Jannik Hösch, Alessandro Sestini, Florian Fuchs, Amir Baghi, Joakim Bergdahl, Konrad Tollmar, Jean-Philippe Barrette-LaPierre, Linus Gisslén

专题命中 规划决策 :LLM作为规划器选择RL技能策略。

AI总结 提出LLM作为中央策略控制器选择RL技能策略的层次化架构,在2v2对抗环境中达到与手工BT相当的胜率,且被感知为最类人。

Comments 12 pages, 9 figures

2606.19729 2026-06-19 cs.RO cs.AI 新提交 专题 85

VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents

VOiLA: 基于学习扩散模型的向量化在线规划用于POMDP智能体

Marcus Hoerger, Rishikesh Joshi, Rahul Shome, Ian Manchester, Hanna Kurniawati

专题命中 规划决策 :在线规划智能体,处理部分可观测环境。

AI总结 提出VOiLA框架,利用条件扩散模型学习POMDP模型,通过蒸馏加速采样并与向量化在线规划器集成,在三个基准任务和实物机器人上实现高效在线规划。

Comments Submitted to the 2026 International Symposium of Robotics Research (ISRR)

2606.15197 2026-06-19 cs.LG cs.AI 新提交 专题 85

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR: 协同树搜索与测试时强化学习用于优化建模

Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang

专题命中 规划决策 :树搜索与强化学习用于优化建模

AI总结 提出StarOR框架,结合蒙特卡洛树搜索与测试时强化学习,通过四阶段分解和GRPO更新LoRA适配器,实现无监督细粒度奖励的中间决策优化,在5个基准上以4B模型达到最优性能。

Comments 41pages, V1, preprint

2606.10616 2026-06-19 cs.AI 新提交 专题 85

Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

学习记住什么:通过约束优化实现长时域语言代理的观测安全记忆保留

Qingcan Kang, Liu Mingyang, Shixiong Kai, Kaichao Liang, Tao Zhong, Mingxuan Yuan

专题命中 规划决策 :长时域语言代理的记忆保留优化问题

AI总结 针对长时域语言代理的有限上下文窗口,提出OSL-MR框架,将记忆保留建模为约束随机优化问题,通过在线可观测特征与离线监督的严格分离学习查询条件化的证据价值,实验表明在严格预算下优于现有方法。

2. 工作流自动化 6 篇

2606.20002 2026-06-19 cs.LG cs.AI cs.CL 新提交 专题 85

Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

Connect the Dots:通过强化学习训练具备跨域泛化能力的长期生命周期智能体

Yanxi Chen, Weijie Shi, Yuexiang Xie, Boyi Hu, Yaliang Li, Bolin Ding, Jingren Zhou

专题命中 工作流自动化 :训练LLM作为长期生命周期智能体。

AI总结 提出Connect the Dots框架,通过端到端强化学习训练LLM在长期任务中自我更新上下文并泛化到新领域,实验验证了跨域泛化能力。

Comments Work in progress; we will continuously update the codebase and arXiv version

2606.19795 2026-06-19 cs.SE cs.AI 新提交 专题 85

Agentic Electronic Design Automation: A Handoff Perspective

代理式电子设计自动化:一种交接视角

Jiawei Liu, Peiyi Han, Yuntao Lu, Su Zheng, Fengyu Yan, Bei Yu

专题命中 工作流自动化 :讨论基于LLM的代理在EDA中的交接与自动化。

AI总结 本文从交接有效性角度出发,将EDA流程中的代理系统分为三类,并提出五层代理通信协议,以解决多阶段、多工具间的状态传递和验证问题。

2606.19390 2026-06-19 cs.SE cs.AI 新提交 专题 85

Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework

面向执行约束的自主AI自动化:一种可复现的AIBOM驱动的CSAF-VEX框架

Petar Radanliev, Omar Santos, Carsten Maple, Kay Atefi

专题命中 工作流自动化 :提出协议驱动框架,用于自主AI工作负载的自动化。

AI总结 提出一种协议驱动框架,通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测,结合静态与运行时证据生成CSAF VEX公告,经密码签名和确定性重放验证,在合成自主AI工作负载上评估。

Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384

2606.20394 2026-06-19 cs.RO math.OC 新提交 专题 85

Agentic AutoResearch forSpace Autonomy: An Auditable, LLM-Driven Research Agent for Aerospace Control Problems

面向空间自主性的智能体自动研究:用于航空航天控制问题的可审计、LLM驱动的研究代理

Amit Jain, Richard Linares

专题命中 工作流自动化 :LLM驱动的研究代理自动开发航天控制策略

AI总结 提出AutoResearch框架,利用大语言模型作为离线研究代理,自动迭代开发航天控制策略,并通过内置可信层审计结果,消除种子噪声影响,在交会和对接问题上验证了有效性。

2606.18191 2026-06-19 cs.AI cs.MA 新提交 专题 85

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

DRFLOW:用于个性化工作流预测的深度研究基准

Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. Laradji

专题命中 工作流自动化 :评估AI代理预测个性化工作流的能力

AI总结 提出DRFLOW基准,评估AI代理从异构源预测个性化工作流的能力,包含5领域100任务,并设计7个诊断指标,实验显示现有代理性能有限。

2604.08552 2026-06-19 cs.DB cs.AI 版本更新 专题 85

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

使用本体约束的LLM代理自动化标准化遗留生物医学元数据

Josef Hardi, Martin J. O'Connor, Marcos Martinez-Romero, Jean G. Rosario, Stephen A. Fisher, Mark A. Musen

专题命中 工作流自动化 :LLM代理自动化标准化生物医学元数据

AI总结 提出基于LLM的元数据标准化系统,通过实时查询标准指南和本体服务,在839条HuBMAP记录上验证,相比纯LLM方法显著提升预测准确性。

3. 软件智能体 5 篇

2606.19930 2026-06-19 cs.HC 新提交 专题 85

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

MobileForge:基于分层反馈引导策略优化的移动GUI智能体免标注适配

Guangyi Liu, Pengxiang Zhao, Gao Wu, Yiwen Yin, Mading Li, Liang Liu, Congxiao Liu, Zhang Qi, Mengyan Wang, Liang Guo, Yong Liu

专题命中 软件智能体 :提出移动GUI智能体免标注适配系统MobileForge

AI总结 提出MobileForge系统,通过MobileGym环境实现任务生成与评估,结合分层反馈引导策略优化(HiFPO)将轨迹结果、步骤反馈和修正提示转化为步骤级GRPO更新,实现移动GUI智能体免标注适配,在AndroidWorld上达到67.2% Pass@3。

Comments Project page: https://mobile-forge.github.io/

2606.19926 2026-06-19 cs.HC 新提交 专题 85

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

MemGUI-Agent: 一种具有主动上下文管理的端到端长时移动GUI智能体

Guangyi Liu, Gao Wu, Congxiao Liu, Pengxiang Zhao, Liang Liu, Mading Li, Qi Zhang, Mengyan Wang, Liang Guo, Yong Liu

专题命中 软件智能体 :提出长时移动GUI智能体MemGUI-Agent

AI总结 提出MemGUI-Agent,通过主动上下文管理机制(ConAct)将上下文管理作为一等动作,解决长时任务中提示膨胀和关键信息稀释问题,在8B模型上达到最佳性能。

Comments 33 pages, 6 figures. Project page: https://memgui-agent.github.io/

2606.14066 2026-06-19 cs.SE 新提交 专题 85

FastContext: Training Efficient Repository Explorer for Coding Agents

FastContext: 为编码智能体训练高效的仓库探索器

Shaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Tori Gong, Sheng Chen, Rao Fu, Anisha Agarwal, Spandan Grag, Gabriel Ryan, Colin Merkel, Yufan Huang, Shengyu Fu

专题命中 软件智能体 :专用探索子智能体

AI总结 提出专用探索子智能体FastContext,通过并行工具调用和专注上下文生成,分离仓库探索与问题解决,在SWE-bench等任务上提升修复率达5.5%,降低编码智能体token消耗达60%。

Comments 34 pages, 7 figures

2508.04266 2026-06-19 cs.CL 版本更新 专题 85

ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents

ShoppingBench:面向LLM智能体的真实世界意图导向购物基准

Jiangyuan Wang, Kejun Xiao, Qi Sun, Huaipeng Zhao, Tao Luo, Jian Dong Zhang, Xiaoyi Zeng

专题命中 软件智能体 :提出购物基准测试LLM智能体,属于软件智能体

AI总结 提出ShoppingBench基准,包含多层级真实购物意图任务,通过模拟环境和250万商品评估LLM智能体,发现GPT-4.1成功率低于50%,并提出轨迹蒸馏策略提升小模型性能。

Comments Accepted for oral presentation at AAAI 2026

2606.20520 2026-06-19 cs.CR cs.AI cs.DC cs.LG 新提交 专题 80

Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes

主权执行代理:在智能体控制平面中强制执行证书绑定权限

Jun He, Deying Yu

专题命中 软件智能体 :自主代理执行时的权限控制机制

AI总结 针对自主代理在生产环境中执行变更时缺乏强制权限验证的问题,提出主权执行代理(SEB),通过证书验证、状态检查和范围身份实现运行时强制权限控制,并在AWS和Kubernetes上验证了其安全性和性能。

Comments 19 pages, 6 figures, 10 tables

4. 多智能体 7 篇

2606.19911 2026-06-19 cs.AI cs.CL cs.IR 新提交 专题 85

Multi-Agent Transactive Memory

多智能体交互记忆

To Eun Kim, Xuhong He, Dishank Jain, Ambuj Agrawal, Negar Arabzadeh, Fernando Diaz

专题命中 多智能体 :提出多智能体交互记忆框架,实现异构智能体知识复用。

AI总结 提出MATM框架,通过共享存储和检索智能体轨迹,实现异构智能体群体间的知识复用,提升下游任务性能并减少交互步骤。

2606.19537 2026-06-19 cs.MA cs.DC 新提交 专题 85

Mesh Inference: A Formal Model of Collective Intelligence Without a Center

网格推理:无中心集体智能的形式模型

Hongwei Xu

专题命中 多智能体 :多智能体无中心协作推理的数学模型

AI总结 提出网格推理形式模型,通过耦合自由能实现无中心多智能体协作推理,证明收敛唯一性、识别完备性和观测唯一性,并分析线性高斯情况下的延迟代价。

Comments 21 pages, 2 figures

2606.19494 2026-06-19 cs.AI 新提交 专题 85

Hidden Anchors in Multi-Agent LLM Deliberation

多智能体LLM协商中的隐藏锚点

Apurba Pokharel, Ram Dantu

专题命中 多智能体 :多智能体LLM协商的隐藏锚点动力学模型

AI总结 将多智能体LLM协商建模为闭环动力系统,每个智能体有隐藏内部信念(锚点),解释协商如何超越初始信念凸包,并通过恢复锚点预测模型行为。

Comments 13 pages, 6 figures, 7 tables

2606.18413 2026-06-19 cs.AI cs.HC 新提交 专题 85

Searching for Synergy in Shared Workspace Human-AI Collaboration

在共享工作空间的人机协作中寻找协同效应

Nachiket Kotalwar, Rohini Das, Carolyn Rose

专题命中 多智能体 :研究共享工作空间人机团队协作,涉及多智能体协调

AI总结 研究共享工作空间的人机团队协作,通过Collaborative Gym环境实验发现,缺乏协调结构时增加协作者会降低性能,而结合共享记忆和模拟人在环门控的脚手架可提升团队绩效。

Comments Accepted at ICML 2026 Workshop on Human-AI Co-Creativity

2605.27864 2026-06-19 cs.AI 版本更新 专题 85

FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research

FundaPod: 一个具有知识图谱记忆的多角色智能体平台,用于AI辅助的基础投资研究

Di Zhu, Lei Nico Zheng, Zihan Chen

专题命中 多智能体 :多角色智能体平台,支持独立研究和知识图谱记忆

AI总结 提出FundaPod平台,通过多角色独立研究、知识图谱记忆和事后裁决机制,支持人类投资经理进行透明、可验证的基础投资决策。

Comments 32 pages; 12 figures

2511.17625 2026-06-19 cs.MA cs.GT 版本更新 专题 85

Iterative Negotiation and Oversight: A Case Study in Decentralized Air Traffic Management

迭代协商与监督:去中心化空中交通管理案例研究

Jaehan Im, John-Paul Clarke, Ufuk Topcu, David Fridovich-Keil

专题命中 多智能体 :提出去中心化协商框架用于空中交通管理。

AI总结 提出一种受监管的去中心化协商框架,通过交易拍卖实现共识,并引入税收式监督机制引导系统效率和公平性,理论保证有限时间终止,案例验证了框架在去中心化空中交通管理中的有效性。

2606.20243 2026-06-19 cs.SE cs.MA 新提交 专题 80

Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs

Phoenix: 通过多智能体LLM实现安全的GitHub问题解决

Kipngeno Koech, Muhammad Adam, Baimam Boukar Jean Jacques, Joao Barros

专题命中 多智能体 :多智能体协作解决软件工程任务

AI总结 提出多智能体LLM系统Phoenix,通过六个专业智能体和七层安全控制,在SWE-bench Lite子集上达到75%的解决率,并在真实问题中保持100%正确性。

5. 其他Agent 7 篇

2606.19893 2026-06-19 cs.AI 新提交 专题 85

MetaResearcher: Scaling Deep Research via Self-Reflective Reinforcement Learning in Adversarial Virtual Environments

MetaResearcher: 通过对抗虚拟环境中的自我反思强化学习扩展深度研究

Wei Yu, Suxing Liu, Minjie Yu, Jiahao Wang, Zhijian Zheng, Haocheng Deng, Bing Li

专题命中 其他Agent :深度研究智能体训练框架,对抗环境。

AI总结 提出MetaResearcher框架,通过演化虚拟世界、发现导向任务、自我反思元奖励和异构多智能体架构,在对抗环境中扩展深度研究智能体的训练,提升基准性能和认知鲁棒性。

2606.19847 2026-06-19 cs.CL 新提交 专题 85

AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts

AtomMem: 通过原子事实构建简单有效的LLM智能体记忆系统

Yanyu Yao, Shangze Li, Zhi Zheng, Hui Zheng, Qi Liu, Tong Xu, Enhong Chen

专题命中 其他Agent :为LLM智能体设计长期记忆系统,存储和检索原子事实。

AI总结 针对现有记忆系统存储粗粒度、更新不稳定的问题,提出AtomMem,通过事实执行器提取高价值原子事实作为高效记忆表示,并组织为层次化事件结构和时间档案,实现价值密集存储和稳定演化,在LoCoMo基准上取得最优性能。

Comments 19 pages, 10 figures, 5 tables

2606.19749 2026-06-19 cs.AI cs.CL 新提交 专题 85

Benchmarking Agentic Review Systems

基准测试智能审稿系统

Dang Nguyen, Wanqing Hao, Yanai Elazar, Chenhao Tan

专题命中 其他Agent :基准测试智能审稿系统,属于AI代理应用。

AI总结 针对AI辅助研究给同行评审带来的压力,新兴智能审稿系统涌现,但缺乏评估标准。本文评估了多种系统,发现最佳配置(OpenAIReview + GPT-5.5)在成对准确性上达83.0%,能捕获71.6%注入错误,且用户反馈正面。

Comments 11 pages, 7 tables, 4 figures

2606.19464 2026-06-19 cs.AI cs.MA 新提交 专题 85

Deontic Policies for Runtime Governance of Agentic AI Systems

面向自主AI系统运行时治理的道义策略

Anupam Joshi, Tim Finin, Karuna Pande Joshi, Lalana Kagal

专题命中 其他Agent :提出道义策略框架用于自主AI系统运行时治理。

AI总结 针对大语言模型驱动的自主AI系统在安全、隐私和合规方面的治理挑战,提出AgenticRei框架,利用基于Rei的道义策略语言(OWL表示)在运行时通过逻辑引擎强制执行义务、豁免、冲突解决等治理约束,并兼容A2AS等标准。

Comments 10 pages, 1 figure. To be published in the 2026 IEEE Symposium on Agentic Services which is part of the IEEE Conference on Web Services

2606.19416 2026-06-19 cs.LG 新提交 专题 85

MortarBench: Evaluating Mortgage Loan Origination Agents

MortarBench: 评估抵押贷款发起代理

Matthew Toles, Yunan Lu, Manav Munjal, Bojun Liu, Yuanhao Deng, Stephanie Selig, Derek Rindner, Cheng Li, Zhou Yu

专题命中 其他Agent :评估大语言模型在抵押贷款发起任务中的表现。

AI总结 提出MortarBench基准,通过金融数据合成与变异管道生成覆盖边缘案例的示例,评估大语言模型在贷款发起任务中的表现,发现模型准确率低且存在偏见,并引入CRIT校准框架提升准确率至80.5%。

2605.13438 2026-06-19 cs.AI cs.CL 版本更新 专题 85

CogniFold: Always-On Proactive Memory via Cognitive Folding

CogniFold: 通过认知折叠实现始终在线的主动记忆

Suli Wang, Yiqun Duan, Yu Deng, Rundong Zhao, Dai Shi, Minghua Deng, Chen Chen, Xinliang Zhou

专题命中 其他Agent :主动记忆系统,持续认知结构涌现

AI总结 提出CogniFold,一种受大脑启发的主动记忆系统,通过将互补学习系统扩展为三层(海马体、新皮层、前额叶意图层)并利用图拓扑自组织,实现事件流的持续认知结构涌现,在认知评估和常规记忆基准上均表现优异。

Comments Code is available at https://github.com/OpenNorve/CogniFold

2606.20474 2026-06-19 cs.LG cs.AI cs.PF 新提交 专题 80

UltraQuant: 4-bit KV Caching for Context-Heavy Agents

UltraQuant: 面向上下文密集型智能体的4位KV缓存

Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao

专题命中 其他Agent :面向上下文密集型智能体的KV缓存压缩,提升推理效率。

AI总结 针对上下文密集型智能体场景,提出UltraQuant方法,通过4位KV缓存压缩、旋转量化和代码本量化,结合AMD GPU优化,在长上下文多轮任务中延迟降低3.47倍,吞吐量提升1.63倍。

Comments 11 pages, 9 figures

6. 工具调用 1 篇

2606.20333 2026-06-19 cs.AI 新提交 专题 80

SoftSkill: Behavioral Compression for Contextual Adaptation

SoftSkill: 用于上下文适应的行为压缩

Xijia Tao, Yihua Teng, Xinyu Fu, Ziru Liu, Kecheng Chen, Yuzhi Zhao, Suiyun Zhang, Rui Liu, Lingpeng Kong

专题命中 工具调用 :软技能前缀压缩自然语言技能用于智能体

AI总结 提出SoftSkill方法,通过可训练的软技能前缀压缩自然语言技能为紧凑连续向量,在冻结基模型上提升问答和数学任务性能,减少标记数量。