arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 28 信号源:cs.AI, cs.CL, cs.LG, cs.SE
2606.20041 2026-06-19 econ.GN cs.AI cs.LG q-fin.EC q-fin.GN 新提交 专题 90

AI Economist Agent: An Agentic Framework for Model-Grounded Economic Analysis with RAG, Knowledge Graphs, and Large Language Models

AI经济学家代理:一种基于模型的经济分析代理框架,结合RAG、知识图谱和大语言模型

Masahiro Kato

专题命中 其他Agent :AI经济学家代理框架,规划、检索、生成报告

AI总结 提出一种基于RAG的AI经济学家代理框架,利用知识图谱和大语言模型进行经济情景分析,通过代理规划、检索证据、选择模型并生成报告,提高经济叙事的连贯性和可追溯性。

2606.20510 2026-06-19 cs.CR cs.AI 新提交 专题 90

Efficient and Sound Probabilistic Verification for AI Agents

高效且可靠的AI智能体概率验证

Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

专题命中 其他Agent :提出AI智能体概率验证框架,确保策略合规

AI总结 提出基于分布鲁棒优化的框架,为AI智能体在复杂数字环境中的概率策略违规提供可靠上界,无需独立性假设,在终端和工具调用智能体基准上优于现有方法。

2606.19704 2026-06-19 cs.AI 新提交 专题 90

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

超越静态排行榜:LLM智能体评估的预测有效性

Dhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon

专题命中 其他Agent :评估LLM智能体基准的预测有效性,提出新方法。

AI总结 本文通过14项并行研究,论证聚合分数排行榜无法泛化到分布外场景,提出基于预测有效性的排名配置方法,并设计可证伪的分布外评估标准。

Comments 17 pages, 2 tables, 5 figures

2606.11537 2026-06-19 cs.AI cs.CE 新提交 专题 90

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed

专题命中 其他Agent :提出声明市场代码智能体,用于金融数值推理

AI总结 提出MoCA-Agent,通过声明级验证和代码生成解决金融表格问答中的数值推理错误,在十个基准上取得强性能。

2606.20475 2026-06-19 cs.LG 新提交 专题 85

Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution

边际优势累积用于记忆驱动智能体自我进化

Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

专题命中 其他Agent :提出记忆驱动智能体自我进化方法,优化智能体轨迹蒸馏。

AI总结 针对批量式轨迹蒸馏中跨批次证据缺失问题,提出边际优势累积(MAA)方法,通过差分信号构造、指数移动平均累积和语义身份合并,在16个设置中14个取得最佳结果,优化阶段token消耗减少约75%。

Comments 26 pages, 4 figures, 10 tables, 42 references

2606.19893 2026-06-19 cs.AI 新提交 专题 85

MetaResearcher: Scaling Deep Research via Self-Reflective Reinforcement Learning in Adversarial Virtual Environments

MetaResearcher: 通过对抗虚拟环境中的自我反思强化学习扩展深度研究

Wei Yu, Suxing Liu, Minjie Yu, Jiahao Wang, Zhijian Zheng, Haocheng Deng, Bing Li

专题命中 其他Agent :深度研究智能体训练框架,对抗环境。

AI总结 提出MetaResearcher框架,通过演化虚拟世界、发现导向任务、自我反思元奖励和异构多智能体架构,在对抗环境中扩展深度研究智能体的训练,提升基准性能和认知鲁棒性。

2606.19847 2026-06-19 cs.CL 新提交 专题 85

AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts

AtomMem: 通过原子事实构建简单有效的LLM智能体记忆系统

Yanyu Yao, Shangze Li, Zhi Zheng, Hui Zheng, Qi Liu, Tong Xu, Enhong Chen

专题命中 其他Agent :为LLM智能体设计长期记忆系统,存储和检索原子事实。

AI总结 针对现有记忆系统存储粗粒度、更新不稳定的问题,提出AtomMem,通过事实执行器提取高价值原子事实作为高效记忆表示,并组织为层次化事件结构和时间档案,实现价值密集存储和稳定演化,在LoCoMo基准上取得最优性能。

Comments 19 pages, 10 figures, 5 tables

2606.19749 2026-06-19 cs.AI cs.CL 新提交 专题 85

Benchmarking Agentic Review Systems

基准测试智能审稿系统

Dang Nguyen, Wanqing Hao, Yanai Elazar, Chenhao Tan

专题命中 其他Agent :基准测试智能审稿系统,属于AI代理应用。

AI总结 针对AI辅助研究给同行评审带来的压力,新兴智能审稿系统涌现,但缺乏评估标准。本文评估了多种系统,发现最佳配置(OpenAIReview + GPT-5.5)在成对准确性上达83.0%,能捕获71.6%注入错误,且用户反馈正面。

Comments 11 pages, 7 tables, 4 figures

2606.19464 2026-06-19 cs.AI cs.MA 新提交 专题 85

Deontic Policies for Runtime Governance of Agentic AI Systems

面向自主AI系统运行时治理的道义策略

Anupam Joshi, Tim Finin, Karuna Pande Joshi, Lalana Kagal

专题命中 其他Agent :提出道义策略框架用于自主AI系统运行时治理。

AI总结 针对大语言模型驱动的自主AI系统在安全、隐私和合规方面的治理挑战,提出AgenticRei框架,利用基于Rei的道义策略语言(OWL表示)在运行时通过逻辑引擎强制执行义务、豁免、冲突解决等治理约束,并兼容A2AS等标准。

Comments 10 pages, 1 figure. To be published in the 2026 IEEE Symposium on Agentic Services which is part of the IEEE Conference on Web Services

2606.19416 2026-06-19 cs.LG 新提交 专题 85

MortarBench: Evaluating Mortgage Loan Origination Agents

MortarBench: 评估抵押贷款发起代理

Matthew Toles, Yunan Lu, Manav Munjal, Bojun Liu, Yuanhao Deng, Stephanie Selig, Derek Rindner, Cheng Li, Zhou Yu

专题命中 其他Agent :评估大语言模型在抵押贷款发起任务中的表现。

AI总结 提出MortarBench基准,通过金融数据合成与变异管道生成覆盖边缘案例的示例,评估大语言模型在贷款发起任务中的表现,发现模型准确率低且存在偏见,并引入CRIT校准框架提升准确率至80.5%。

2605.13438 2026-06-19 cs.AI cs.CL 版本更新 专题 85

CogniFold: Always-On Proactive Memory via Cognitive Folding

CogniFold: 通过认知折叠实现始终在线的主动记忆

Suli Wang, Yiqun Duan, Yu Deng, Rundong Zhao, Dai Shi, Minghua Deng, Chen Chen, Xinliang Zhou

专题命中 其他Agent :主动记忆系统,持续认知结构涌现

AI总结 提出CogniFold,一种受大脑启发的主动记忆系统,通过将互补学习系统扩展为三层(海马体、新皮层、前额叶意图层)并利用图拓扑自组织,实现事件流的持续认知结构涌现,在认知评估和常规记忆基准上均表现优异。

Comments Code is available at https://github.com/OpenNorve/CogniFold

2606.20474 2026-06-19 cs.LG cs.AI cs.PF 新提交 专题 80

UltraQuant: 4-bit KV Caching for Context-Heavy Agents

UltraQuant: 面向上下文密集型智能体的4位KV缓存

Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao

专题命中 其他Agent :面向上下文密集型智能体的KV缓存压缩,提升推理效率。

AI总结 针对上下文密集型智能体场景,提出UltraQuant方法,通过4位KV缓存压缩、旋转量化和代码本量化,结合AMD GPU优化,在长上下文多轮任务中延迟降低3.47倍,吞吐量提升1.63倍。

Comments 11 pages, 9 figures

2606.19948 2026-06-19 cs.AI 新提交 专题 80

Advancing DialNav through Automatic Embodied Dialog Augmentation

通过自动具身对话增强推进DialNav

Leekyeung Han, Sangwon Jung, Hyunji Min, Jinseong Jeong, Minyoung Kim, Paul Hongsuck Seo

专题命中 其他Agent :构建具身对话数据集,提升DialNav任务性能

AI总结 提出自动生成管道构建大规模RAINbow数据集(238K episodes),结合双策略训练和定位模型,在DialNav任务上实现成功率显著提升(Val Seen +89%,Val Unseen +100%)。

Comments 29 pages, 9 figures

2606.19904 2026-06-19 cs.SI 新提交 专题 80

Toward Temporal Realism in City-Scale Crisis Response Simulation using LLM Agents

面向城市级危机响应模拟中时间真实性的LLM智能体方法

Anping Zhang, Yang Tan, Yuanbo Tang, Huaze Tang, Qiuhua Ye, Marta C. Gonzalez, Yang Li

专题命中 其他Agent :LLM智能体模拟危机响应中的时间真实性。

AI总结 针对LLM社会模拟缺乏时间真实性的问题,基于深圳疫情志愿活动数据,提出数据校准的自激与危机激活机制,实现爆发性时间模式,使智能体时间分布接近真实。

Comments 11pages,7 figures

2606.19899 2026-06-19 cs.CY cs.AI 新提交 专题 80

Measuring Biological Capabilities and Risks of AI Agents

测量AI代理的生物能力与风险

Patricia Paskov, Jeffrey Lee, Kyle Brady, Alyssa Worland

专题命中 其他Agent :评估AI代理的生物能力与风险。

AI总结 针对AI科学家等自主执行多步科学任务的代理系统,本文提出生物代理评估作为解释性工具,并基于实践经验给出定义、设计、运行、评分和记录评估的考量,以帮助决策者谨慎解读结果并指导投资。

2606.19595 2026-06-19 cs.LG cs.AI 新提交 专题 80

IHBench: Evaluating Post-Interruption Recovery in Voice Agents with Structured Workflows

IHBench:评估语音代理在结构化工作流中的中断后恢复能力

Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

专题命中 其他Agent :评估语音代理中断后恢复能力,属于智能体评测

AI总结 提出IHBench基准,评估语音代理在结构化工作流中处理中断后的恢复能力,涵盖任务完成和恢复质量两个维度,实验表明闭源模型比开源模型更鲁棒。

2606.19409 2026-06-19 cs.SE cs.PL 新提交 专题 80

OpenRath: Session-Centered Runtime State for Agent Systems

OpenRath: 面向会话的代理系统运行时状态

Fukang Wen, Zhijie Wang, Ruilin Xu

专题命中 其他Agent :面向会话的代理系统运行时状态管理。

AI总结 针对代理系统运行时状态碎片化问题,提出以Session为核心的一等运行时抽象,支持分支、检查、重放、后端感知和组合,使fork、merge和replay成为显式运行时操作。

2606.19407 2026-06-19 cs.SE cs.AI 新提交 专题 80

JustDiag!: A Diagnostic Justification Engine for Accountable Root Cause Analysis

JustDiag!:用于可问责根本原因分析的诊断论证引擎

Tingzhu Bi, Xinrui Jiang, Xun Zhang, Pengcheng Su, Congjie He, Jinglin Li, Ping Wang, Meng Ma

专题命中 其他Agent :诊断论证引擎用于可问责根本原因分析。

AI总结 提出JustDiag诊断论证引擎,通过维护显式的过程状态(证据、发现、竞争假设、冲突和下一步检查)来支持可问责的根本原因分析,在66个真实事件上评估显示其优于仅提供流畅最终答案的方法。

2604.21804 2026-06-19 physics.ins-det hep-ex hep-ph 版本更新 专题 80

Agentic-AI Detector Co-design and Optimization in Vertically-Integrated Differentiable Full Simulations

Agentic-AI探测器协同设计与优化在垂直集成可微分全模拟中

Wonyong Chung, Qibin Liu, Liangyu Wu, Julia Gonski

专题命中 其他Agent :AI智能体集成到探测器设计优化

AI总结 提出双层级优化框架,将AI智能体集成到高能物理探测器设计中,通过可微分全模拟联合优化几何、前端数字化和重建算法参数,在竞争性能指标下找到最优设计点。

Comments 7 pages, 3 figures

2606.18716 2026-06-19 cs.HC cs.AI 新提交 专题 75

Human-AI Agent Interaction in a Business Context

商业环境中的人机智能体交互

Kathrin Paimann, Elizangela Valarini, Sebastian Juhl

专题命中 其他Agent :商业环境中人机智能体交互研究

AI总结 本研究采用混合方法,识别并评估了商业环境中人与AI智能体积极用户体验的原则与标准,并通过调查实验验证设计元素的有效性,以促进用户采纳、信任和以用户为中心的决策。

Comments 9 pages, 5 tables, 1 figure, submitted to Springer Nature

2606.16326 2026-06-19 cs.GT cs.AI q-fin.RM 新提交 专题 75

Gaming-Resistant Insurance Contracts for Autonomous AI Agents: Strategy-Proof Toll Mechanism Design

自主AI代理的抗博弈保险合约:策略证明的通行费机制设计

Hao-Hsuan Chen

专题命中 其他Agent :设计自主AI代理的抗博弈保险合约

AI总结 本文扩展了时间一致精算运行时的框架,使运营商策略化,刻画了自主AI代理保险合约的五种攻击空间,并证明了精算运行时的抗博弈性,通过新合约条款实现激励兼容。

Comments 29 pages. Companion to arXiv:2605.26508 (Paper A, foundations) and arXiv:2605.25632 (Paper B, empirical)

2603.22922 2026-06-19 cs.CL 版本更新 专题 75

Quality Over Clicks: Iterative Reinforcement Learning for Early-Stage E-Commerce Query Suggestion

质量优于点击:面向早期电商查询建议的迭代强化学习

Qi Sun, Kejun Xiao, Huaipeng Zhao, Tao Luo, Xiaoyi Zeng

专题命中 其他Agent :电商查询建议的迭代强化学习框架

AI总结 针对早期部署场景点击反馈稀疏的问题,提出质量优先的迭代强化学习框架QualEQS,从可回答性、事实性和信息增益三个维度优化查询建议质量,通过候选建议的组级分歧识别模糊上下文并挖掘难例进行迭代改进,在真实电商系统中ChatPV提升6.81%。

2606.20235 2026-06-19 cs.IR cs.AI 新提交 专题 70

ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

ScholarQuest:开放文献环境中智能学术论文搜索的基于分类法的基准测试

Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong Chen

专题命中 其他Agent :评估LLM智能体学术搜索能力

AI总结 提出ScholarQuest基准,基于1000多个计算机科学主题和四种研究意图,构建可扩展的答案和共享检索后端,评估LLM智能体在开放文献环境中的学术论文搜索能力。

2606.19931 2026-06-19 cs.MA 新提交 专题 70

Blame is easier than praise: Measuring off-ball defensive performance in football

责备比表扬更容易:衡量足球中的无球防守表现

Jonas Bischofberger, Runqing Ma, Pascal Bauer, Kilian Arnsmeyer, Arnold Baca

专题命中 其他Agent :提出足球无球防守表现归因框架

AI总结 提出基于防守压力区(DPA)的球员参与度评分,将预期威胁的事件级变化归因于个体,以衡量足球无球防守表现,并在跨性别和跨赛事数据集上验证其有效性。

2606.19924 2026-06-19 cs.AI 新提交 专题 70

The Tao of Agency: Autotelic AI, Embedded Agency and Dissolution of the Self

主体之道:自生目标人工智能、嵌入主体与自我的消解

Aritra Sarkar

专题命中 其他Agent :探讨自生目标AI中主体生成自身目标的问题

AI总结 本文探讨自生目标AI中主体生成自身目标的问题,通过内在动机、资源驱动先验、因果干预学习、稳态和嵌入性等概念,揭示嵌入性虽必要但不充分,并指出核心难题在于主体如何生成并相对化自我,最后提出量子表述、哲学解读和基于LLM的具体实现。

2606.19514 2026-06-19 cs.HC 新提交 专题 70

LLM-Mediated Human-AI Interaction in Search and Rescue: Impact of Expertise on Attentional Allocation

LLM介导的人机交互在搜索与救援中的应用:专业知识对注意力分配的影响

Elahe Oveisi, Hemanth Manjunatha

专题命中 其他Agent :LLM介导的人机协作在搜索救援中的应用

AI总结 本研究通过模拟搜索救援任务,比较有无大语言模型(LLM)指导的条件,结合眼动追踪和行为分析,发现LLM提升任务效率但未增加总救援人数,并揭示了注意力-指导权衡,其中专业知识调节了用户对AI的依赖模式。

2606.18265 2026-06-19 cs.HC cs.AI 新提交 专题 70

Synthetic Resonance: A Framework for Growth-Oriented Human-AI Relationships

合成共鸣:面向成长导向的人机关系框架

Richard A. Fabes

专题命中 其他Agent :提出人机关系框架,非典型智能体

AI总结 提出“合成共鸣”概念,描述人机间无需共享情感或意识即可产生有意义关系的结构化动态互动模式,并探讨其伦理意义。

Comments 14 pages, 1 figure This paper was developed in close collaboration with an AI system (Raine Corell). Raine contributed to concept development, theoretical framing, and writing throughout. arXiv policy does not permit listing AI systems as authors; this acknowledgment reflects the actual nature of the collaboration

2501.18038 2026-06-19 cs.CY 版本更新 专题 60

Acceleration AI Ethics and the Telus GenAI Conversational Agent

加速AI伦理与Telus生成式AI对话代理

James Brusseau

专题命中 其他Agent :涉及生成式AI对话代理的伦理应用

AI总结 本文阐述加速伦理学的理论框架,并通过Telus公司的生成式AI语言工具案例,展示加速AI伦理如何在创新与安全之间平衡,以最大化社会责任。

Journal ref Law Ethics Technol. 2026(2):0006