AI Agent

2606.15504 2026-06-18 cs.AI 新提交专题 85

Toward Vibe Medicine: A Self-Evolving Multi-Agent Framework for Clinical Decision Support

迈向振动医学：一种用于临床决策支持的自演化多智能体框架

Qianxue Zhang, Yiming Ren, Shihuan Qin, Xiao Zhang, Liao Zhang, Jinyang Huang, Zhengliang Liu, Chenbin Liu, Hongying Feng, Jingyuan Chen, Yuzhen Ding, Weihang You, Hanqi Jiang, Yi Pan, Yifan Zhou, Junhao Chen, Lifeng Chen, Wei Liu, Tianming Liu, Zengren Zhao, Lian Zhang

专题命中多智能体：提出多智能体框架，包含三个专用智能体

AI总结提出VIBEMed多智能体框架，通过自演化机制和架构级安全沙箱，从交互历史中动态学习，实现个性化临床决策支持。

URL PDF HTML

2606.07150 2026-06-18 cs.CR cs.AI cs.MA cs.NI 新提交专题 85

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

从隐私到工作流完整性：自主智能体互操作性中的通信图元数据

Bijaya Dangol

专题命中多智能体：研究智能体互操作性协议中的通信图元数据威胁

AI总结针对智能体通信图元数据泄露问题，提出工作流完整性威胁模型，定义传输层与引导层隐私属性，并通过A2A案例验证元数据保护可有效抑制任务推断。

Comments 22 pages, 7 figures, 6 tables

URL PDF HTML

2605.25929 2026-06-18 cs.MA cs.LG 版本更新专题 85

Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?

多智能体系统是专家混合：谁成为影响者？

Franka Bause, Jonas Niederle, Martin Pawelczyk, Rebekka Burkholz

专题命中多智能体：研究多智能体LLM协商机制，属于多智能体系统。

AI总结本文通过Friedkin-Johnsen意见动力学模型分析多智能体LLM协商机制，揭示输入依赖的FJ参数使系统成为专家混合，并探讨基于自信度、感知自信度和初始观点对齐的影响者形成机制。

Comments Accepted at the 2nd Workshop on Compositional Learning at ICML 2026

URL PDF HTML

2605.18185 2026-06-18 cs.MA 版本更新专题 85

The Dynamics of Policy Gradient in Social Dilemmas with Partner Selection

在有伴侣选择的社交困境中政策梯度的动力学

Benedict Russell, Chin-wing Leung, Paolo Turrini

专题命中多智能体：研究多智能体社交困境中的策略梯度动力学。

AI总结本文研究了在有伴侣选择的多智能体环境中政策梯度动力学，揭示了伴侣选择如何改变对手分布及奖励景观，并证明在简单规则下促进合作的必要条件是种群方差。

URL PDF HTML

2508.21720 2026-06-18 cs.AI 版本更新专题 85

PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation

PosterForest: 用于科学海报生成的分层多智能体协作

Jiho Choi, Seojeong Park, Seongjong Song, Hyunjung Shim

专题命中多智能体：分层多智能体协作生成科学海报

AI总结提出PosterForest，一种无需训练的科学海报生成框架，通过Poster Tree分层表示文档结构，并利用内容与布局智能体进行分层推理与递归优化，实现内容与布局的联合优化，提升语义连贯性、逻辑流畅性和视觉平衡。

Comments ACL 2026

URL PDF HTML

2606.19135 2026-06-18 cs.MA cs.AI cs.NI 新提交专题 80

A Technical Taxonomy of LLM Agent Communication Protocols

LLM智能体通信协议的技术分类法

Linus Sander, Habtom Kahsay Gidey, Alexander Lenz, Alois Knoll

专题命中多智能体：分类LLM智能体通信协议，核心是Agent通信

AI总结针对大语言模型智能体通信协议碎片化问题，提出包含五个维度的技术分类法，分析九种开源协议，揭示架构模式并预测协议演进趋势。

URL PDF HTML

2606.19080 2026-06-18 eess.SY cs.SY 新提交专题 80

Byzantine-Resilient Federated Multi-Agent Optimization Framework for Cyber-Secure Interconnected Microgrids

面向网络安全互联微电网的拜占庭弹性联邦多智能体优化框架

Ali Peivand, Seyyed Mostafa Nosratabadi

专题命中多智能体：联邦多智能体优化，拜占庭弹性。

AI总结提出BR-FedMAPPO框架，结合三重表面移动目标防御与自适应隔离策略，通过两阶段拜占庭弹性聚合规则抵御隐蔽虚假数据注入攻击，保护分布式学习通道并维持经济调度性能。

URL PDF HTML

2606.18829 2026-06-18 cs.LG cs.CL 新提交专题 80

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

GateMem：多主体共享内存代理中的内存治理基准

Zhe Ren, Yibo Yang, Yimeng Chen, Zijun Zhao, Benshuo Fu, Zhihao Shu, Bingjie Zhang, Yangyang Xu, Dandan Guo, Shuicheng Yan

专题命中多智能体：多主体共享内存代理的记忆治理基准

AI总结提出GateMem基准，评估多主体共享内存代理在效用、访问控制和遗忘三方面的治理能力，发现现有方法无法同时满足三者。

Comments 24 pages, 8 figures. Code and dataset are available at https://github.com/rzhub/GateMem and https://huggingface.co/datasets/Ray368/GateMem

URL PDF HTML

2606.18276 2026-06-18 cs.MA cs.SI physics.soc-ph 新提交专题 80

Characterizing Opinion Evolution of Networked LLMs

表征网络化大语言模型的意见演化

Caleb Probine, Yigit Ege Bayiz, Filippos Fotiadis, Samuel Li, Yunhao Yang, Ufuk Topcu

专题命中多智能体：研究网络化LLM多智能体系统中的意见演化动力学。

AI总结研究经典意见动力学模型能否描述多智能体系统中大语言模型（LLM）的意见传播，发现引入偏置项可显著提升建模精度，将平均意见误差降低高达88%。

Comments 19 pages, 2 figures

URL PDF HTML

2605.01818 2026-06-18 nlin.AO physics.soc-ph 版本更新专题 80

Emergent Macro-Criticality from Micro-Critical Agents

从微观临界主体涌现的宏观临界性

Nicolas Bessone, Erwan Plantec

专题命中多智能体：多智能体系统，微观临界性涌现宏观临界

AI总结通过多智能体系统研究微观临界性如何影响集体行为，发现宏观临界性依赖于交互网络的连接性，而非单个智能体的临界动力学。

URL PDF HTML

2606.19152 2026-06-18 cond-mat.mtrl-sci cs.AI 新提交专题 80

AdsMind: A Physics-Grounded Multi-Agent System for Self-Correcting Discovery of Adsorption Configurations on Heterogeneous Catalyst Surfaces

AdsMind: 一种基于物理的多智能体系统，用于异质催化剂表面吸附构型的自校正发现

Zongmin Zhang, Yuyang Lou, Bowen Zhang, Junwu Chen, Ryo Kuroki, Xuan Vu Nguyen, Edvin Fako, Lixue Cheng, Philippe Schwaller

专题命中多智能体：提出闭环多智能体框架，自主纠错搜索。

AI总结提出AdsMind闭环多智能体框架，利用机器学习力场弛豫反馈实现吸附构型搜索的自主纠错，在基准测试中成功率高达100%和98.8%，且仅需少量弛豫步骤，显著优于启发式枚举和单次方法。

Comments 37 pages, 5 figures

URL PDF HTML

2606.13681 2026-06-18 cs.CL 新提交专题 85

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

EvoArena: 追踪记忆演化以构建动态环境中的鲁棒LLM智能体

Jundong Xu, Qingchuan Li, Jiaying Wu, Yihuai Lan, Shuyue Stella Li, Huichi Zhou, Bowen Jiang, Lei Wang, Jun Wang, Anh Tuan Luu, Caiming Xiong, Hae Won Park, Bryan Hooi, Zhiyuan Hu

专题命中软件智能体：动态环境中LLM智能体的记忆演化基准

AI总结提出EvoArena基准套件模拟终端、软件和社交领域的渐进环境变化，并设计基于补丁的记忆范式EvoMem记录结构化更新历史，使智能体能通过记忆变化推理环境演化，实验表明当前智能体在动态环境中表现不佳，EvoMem可稳定提升性能。

URL PDF HTML

2606.18294 2026-06-18 physics.ins-det nucl-ex physics.app-ph 新提交专题 80

Vision AI Agent for Continuous Material Monitoring of LEGEND-1000 LoFi Reentrant Tube

用于LEGEND-1000 LoFi回旋管连续材料监测的视觉AI智能体

Sonata Simonaitis-Boyd, Soonhong Lee, Lauren N. O'Brien, Brandon T. Turner, Ralph Massarczyk, Steven R. Elliott, Aobo Li, Alexander F. Leder

专题命中软件智能体：LangChain智能体流水线，自动材料监测

AI总结提出基于LangChain和Claude Haiku 4.5的视觉AI智能体流水线，通过SAM2分割和混合OCR验证从静水压测试视频中自动提取OFHC铜圆柱的直径和应变，计算屈服强度并与模拟对比。

Comments 27 pages, 8 figures, 5 tables, submitted to PRX Intelligence

URL PDF HTML

2606.12837 2026-06-18 cs.CL 新提交专题 85

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试

Jiarui Zhao, Rongzhi Zhang, Lingchuan Liu, Hao Yang, Xunliang Cai, Xi Su

专题命中其他Agent ：长时域搜索代理基准测试

AI总结提出LoHoSearch基准，基于700万维基实体知识图谱自动构建544个复杂问题，评估显示最强模型仅34.74%准确率，远超人类难度上限。

URL PDF HTML

2606.07591 2026-06-18 cs.LG cs.AI cs.CL 版本更新专题 85

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

ResearchClawBench: 端到端自主科学研究基准

Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Koutian Wu, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang

专题命中其他Agent ：自主科学研究基准评估智能体

AI总结提出ResearchClawBench基准，包含10个领域40个任务，通过多模态评分标准评估自主科研能力，最强智能体仅得21.5分，揭示当前系统在实验协议、证据匹配和科学核心方面的不足。

URL PDF HTML

2606.19116 2026-06-18 cs.AI cs.CY 新提交专题 80

Towards an Agent-First Web: Redesigning the Web for AI Agents

迈向智能体优先的Web：为AI智能体重新设计Web

Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty

专题命中其他Agent ：为AI智能体重新设计Web，核心是Agent访问

AI总结本文提出三层重新设计原则，包括访问层（代理继承人类权限）、经济层（基于意图的代币订阅模型）和内容层（ATML标记语言与加密溯源链），以解决AI智能体作为中间人时Web的访问、经济与内容问题。

URL PDF HTML

2606.19063 2026-06-18 cs.CR 新提交专题 80

PYPILINE: Malicious PyPI Package Detection via Suspicious API Knowledge and Agent Workflow

PYPILINE：通过可疑API知识和Agent工作流检测恶意PyPI包

Siyuan Pang, Zhengwei Jiang, Yepeng Yao, Zijing Fan, Haozhe Li, Baoxu Liu

专题命中其他Agent ：Agent工作流检测恶意PyPI包。

AI总结提出PYPILINE方法，结合可疑API知识库与Agent工作流，通过静态分析构建知识库并自动检测恶意PyPI包，在精度、召回率和F1分数上显著优于现有工具。

URL PDF HTML

2606.17454 2026-06-18 cs.AI cs.LG 新提交专题 80

Dissecting model behavior through agent trajectories

通过智能体轨迹剖析模型行为

Gaurav Gupta, Vatshank Chaturvedi, Jun Huan, Anoop Deoras

专题命中其他Agent ：分析AI代理轨迹以改进模型行为

AI总结本文提出“意图-执行差距”概念，并设计Simple Strands Agent（SSA）框架，通过分析138k条轨迹揭示模型在自主问题解决中的行为差异。

Comments 106 pages, 50 Figures, 16 Tables

URL PDF HTML

2605.30880 2026-06-18 cs.CL cs.AI 版本更新专题 85

PatchWorld: Gradient-Free Optimization of Executable World Models

PatchWorld：可执行世界模型的免梯度优化

Jiaxin Bai, Yue Guo, Yifei Dong, Jiaxuan Xiong, Tianshi Zheng, Yixia Li, Tianqing Fang, Yufei Li, Yisen Gao, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Zihao Wang, Lihui Liu, Jeff Z. Pan, Yangqiu Song

专题命中规划决策：可执行世界模型，用于智能体规划与预测

AI总结提出 PatchWorld 框架，通过反例引导的代码修复将离线轨迹转化为可执行的 Python 世界模型，实现无需梯度优化的符号信念状态程序，在 AgentGym 环境中达到 76.4% 的宏观成功率。

Comments 40 pages

URL PDF HTML

2603.00656 2026-06-18 cs.AI 版本更新专题 85

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

InfoPO：面向用户智能体的信息驱动策略优化

Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu

专题命中规划决策：信息驱动策略优化，面向用户智能体

AI总结针对多轮交互中信用分配和优势信号不足的问题，提出信息增益奖励与自适应方差门控融合的InfoPO方法，在意图澄清、协作编码等任务上优于现有基线。

URL PDF HTML

2603.00026 2026-06-18 cs.CL cs.AI cs.IR 版本更新专题 85

ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

ActMem：弥合LLM代理中记忆检索与推理之间的差距

Xiaohui Zhang, Zequn Sun, Chengyuan Yang, Yaqin Jin, Yazhong Zhang, Wei Hu

专题命中规划决策：记忆检索与推理结合，主动因果推理

AI总结提出ActMem框架，通过将非结构化对话历史转化为结构化因果语义图，结合反事实推理和常识补全，实现主动因果推理，显著提升LLM代理在复杂记忆依赖任务中的表现。

URL PDF HTML

2510.05107 2026-06-18 cs.AI 版本更新专题 85

Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents (Extended Revision: From Behavioral Architecture to Epistemic Accountability)

大型语言模型代理中行为智能的结构化认知循环（扩展修订：从行为架构到认知问责）

Myung Ho Kim

专题命中规划决策：结构化认知循环实现LLM代理可问责行为

AI总结提出结构化认知循环（SCL）架构，通过分离认知、记忆、控制和行动模块，实现LLM代理的可问责行为，在360个任务中成功率86.3%，优于基线方法。

Comments This revised version extends the original SCL framework from a behavioral architecture for reliable LLM agents into a broader architecture of epistemic accountability, integrating context-aware Human-in-the-Loop control, Pool-Gated Retrieval, and the Horizon-Warrant-Commitment structure

URL PDF HTML

2606.18847 2026-06-18 cs.AI 新提交专题 80

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines: 对长时域有状态具身智能体进行基准测试与建模

Yehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen

专题命中规划决策：具身智能体长时记忆与任务规划。

AI总结提出WorldLines基准，通过构建带时间跨度的家庭轨迹（含对话、动作、状态变化等）评估具身智能体的长时记忆与任务规划能力，并设计ObsMem记忆框架提升状态感知决策。

Comments 27 pages, 18 figures

URL PDF HTML

2606.18746 2026-06-18 cs.AI 新提交专题 80

What Must Generalist Agents Remember?

通用型智能体必须记住什么？

Khurram Yamin, Namrata Deka, Maitreyi Swaroop, Albert Ting, Jeff Schneider, Bryan Wilder

专题命中规划决策：通用智能体记忆需求的形式化分析。

AI总结本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动，必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作，并证明记忆可用于重构局部转移动态。

URL PDF HTML

2606.18105 2026-06-18 cs.NI cs.LG 新提交专题 80

OmniPlan: An Adaptive Framework for Timely and Near-Optimal Network Planning Optimization

OmniPlan：一种用于及时且近乎最优的网络规划优化的自适应框架

Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen

专题命中规划决策：自适应框架动态选择求解器进行规划

AI总结提出OmniPlan自适应框架，利用大语言模型解析用户意图，通过混合专家架构动态选择MIP求解器、启发式算法或深度强化学习模型，实现网络规划优化的及时性与近乎最优性，在分布式机器学习推理卸载任务中延迟降低97.8%，资源消耗降低11.5%。

Comments Accepted by ACM KDD 2026

URL PDF HTML

2606.17453 2026-06-18 cs.AI 新提交专题 80

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

MapSatisfyBench: 通过行为隐含决策因素基准测试满意度感知的地图智能体

Lubin Bai, Mengyu Cao, Sixue Wang, Zhongwei Wan, Yue Pan, Jiale Hou, Xiang Li, Xiuyuan Zhang

专题命中规划决策：评估地图智能体的隐含需求满足能力

AI总结提出MapSatisfyBench基准，通过恢复用户行为链中的隐含决策因素来评估地图智能体的满意度感知能力，实验表明现有智能体在显式任务完成上表现良好，但在满足隐含需求方面仍有局限。

URL PDF HTML

2605.29676 2026-06-18 cs.AI cs.CL 版本更新专题 85

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

符号至关重要：智能体AI系统中令牌优化格式的基准研究

Lorenz Kutschka, Bernhard Geiger

专题命中工具调用：智能体系统中令牌优化格式，提升工具调用效率

AI总结本研究在四个智能体基准上评估了两种令牌优化格式TOON和TRON，发现TRON在保持准确率的同时最多减少27%的令牌，而TOON虽减少18%但存在多轮解析失败和并行工具调用输出崩溃的问题。

Comments 16 pages, 6 figures, 4 tables

URL PDF HTML

2606.18803 2026-06-18 cs.AI cs.CY 新提交专题 80

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像

Tengfei Lyu, Zirui Yuan, Xu Liu, Kai Wan, Zihao Lu, Li Ma, Hao Liu

专题命中工具调用：LLM智能体用于网约车调度用户画像

AI总结提出ProfiLLM，一种通过工具增强全局知识挖掘和效用对齐画像探索的智能LLM数据管道，解决工业网约车调度中大规模行为日志的用户画像问题，在滴滴生产系统中实现AUC提升6.14%、GMV提升4.35%。

URL PDF HTML

2601.14288 2026-06-18 astro-ph.CO cs.AI cs.CE gr-qc hep-th 版本更新专题 85

DeepInflation: an AI agent for research and model discovery of inflation

DeepInflation：用于暴胀研究与模型发现的AI智能体

Ze-Yu Peng, Hao-Shi Yuan, Qi Lai, Jun-Qian Jiang, Gen Ye, Jun Zhang, Yun-Song Piao

专题命中工作流自动化：多智能体架构自动发现暴胀势模型

AI总结提出基于多智能体架构的AI智能体DeepInflation，集成大语言模型、符号回归引擎和检索增强生成知识库，自动发现与最新观测一致的单场慢滚暴胀势，并解释理论背景。

URL PDF HTML

2606.18874 2026-06-18 cs.AI 新提交专题 80

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

通过研究框架将AI科学家的研究综合与验证外部化

Zijian Wang, Hanqi Li, Ziyue Yang, Zijian Hu, Shenghan Zuo, Yunzhe Zhang, Da Ma, Danyu Luo, Chenrun Wang, Jing Peng, Tiancheng Huang, Sijia Guo, Huayang Wang, Zichen Zhu, Senyu Han, Yilu Cao, Kai Yu, Lu Chen

专题命中工作流自动化：自动化科学研究工作流，外部化综合与验证。

AI总结提出Xcientist框架，将研究综合与实验验证外部化为可检查的合同驱动过程，解决自动研究中的声明漂移问题，并在多个领域验证其有效性。

Comments 65 pages, 14 figures, 19 tables

URL PDF HTML

1. 多智能体 11 篇

Toward Vibe Medicine: A Self-Evolving Multi-Agent Framework for Clinical Decision Support

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?

The Dynamics of Policy Gradient in Social Dilemmas with Partner Selection

PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation

A Technical Taxonomy of LLM Agent Communication Protocols

Byzantine-Resilient Federated Multi-Agent Optimization Framework for Cyber-Secure Interconnected Microgrids

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

Characterizing Opinion Evolution of Networked LLMs

Emergent Macro-Criticality from Micro-Critical Agents

AdsMind: A Physics-Grounded Multi-Agent System for Self-Correcting Discovery of Adsorption Configurations on Heterogeneous Catalyst Surfaces

2. 软件智能体 2 篇

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

Vision AI Agent for Continuous Material Monitoring of LEGEND-1000 LoFi Reentrant Tube

3. 其他Agent 5 篇

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Towards an Agent-First Web: Redesigning the Web for AI Agents

PYPILINE: Malicious PyPI Package Detection via Suspicious API Knowledge and Agent Workflow

Dissecting model behavior through agent trajectories

4. 规划决策 8 篇

PatchWorld: Gradient-Free Optimization of Executable World Models

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents (Extended Revision: From Behavioral Architecture to Epistemic Accountability)

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

What Must Generalist Agents Remember?

OmniPlan: An Adaptive Framework for Timely and Near-Optimal Network Planning Optimization

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

5. 工具调用 2 篇

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

6. 工作流自动化 2 篇

DeepInflation: an AI agent for research and model discovery of inflation

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness