AI Agent - arXivDaily 专题

2606.18543 2026-06-18 cs.AI cs.CL cs.SE 新提交专题 90

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench：智能体能否玩转长期博弈？

Haozhe Chen, Karthik Narasimhan, Zhuang Liu

专题命中规划决策：模拟500天运营初创公司任务

AI总结提出CEO-Bench，通过模拟500天运营初创公司的任务，评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。

URL PDF HTML

2606.18633 2026-06-18 cs.MA 新提交专题 85

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

PersonalPlan: 面向个性化编程学习的多智能体系统规划

Zhiyuan Wen, Jiannong Cao, Peng Gao, Haochen Shi, Wengpan Kuan, Bo Yuan, Xiuxiu Qi

专题命中规划决策：多智能体规划器用于个性化编程学习

AI总结提出PersonalPlan，一种两阶段多智能体规划器，通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划，在MAP-PPL数据集上优于现有方法。

URL PDF HTML

2605.30880 2026-06-18 cs.CL cs.AI 版本更新专题 85

PatchWorld: Gradient-Free Optimization of Executable World Models

PatchWorld：可执行世界模型的免梯度优化

Jiaxin Bai, Yue Guo, Yifei Dong, Jiaxuan Xiong, Tianshi Zheng, Yixia Li, Tianqing Fang, Yufei Li, Yisen Gao, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Zihao Wang, Lihui Liu, Jeff Z. Pan, Yangqiu Song

专题命中规划决策：可执行世界模型，用于智能体规划与预测

AI总结提出 PatchWorld 框架，通过反例引导的代码修复将离线轨迹转化为可执行的 Python 世界模型，实现无需梯度优化的符号信念状态程序，在 AgentGym 环境中达到 76.4% 的宏观成功率。

Comments 40 pages

URL PDF HTML

2603.00656 2026-06-18 cs.AI 版本更新专题 85

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

InfoPO：面向用户智能体的信息驱动策略优化

Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu

专题命中规划决策：信息驱动策略优化，面向用户智能体

AI总结针对多轮交互中信用分配和优势信号不足的问题，提出信息增益奖励与自适应方差门控融合的InfoPO方法，在意图澄清、协作编码等任务上优于现有基线。

URL PDF HTML

2603.00026 2026-06-18 cs.CL cs.AI cs.IR 版本更新专题 85

ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

ActMem：弥合LLM代理中记忆检索与推理之间的差距

Xiaohui Zhang, Zequn Sun, Chengyuan Yang, Yaqin Jin, Yazhong Zhang, Wei Hu

专题命中规划决策：记忆检索与推理结合，主动因果推理

AI总结提出ActMem框架，通过将非结构化对话历史转化为结构化因果语义图，结合反事实推理和常识补全，实现主动因果推理，显著提升LLM代理在复杂记忆依赖任务中的表现。

URL PDF HTML

2510.05107 2026-06-18 cs.AI 版本更新专题 85

Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents (Extended Revision: From Behavioral Architecture to Epistemic Accountability)

大型语言模型代理中行为智能的结构化认知循环（扩展修订：从行为架构到认知问责）

Myung Ho Kim

专题命中规划决策：结构化认知循环实现LLM代理可问责行为

AI总结提出结构化认知循环（SCL）架构，通过分离认知、记忆、控制和行动模块，实现LLM代理的可问责行为，在360个任务中成功率86.3%，优于基线方法。

Comments This revised version extends the original SCL framework from a behavioral architecture for reliable LLM agents into a broader architecture of epistemic accountability, integrating context-aware Human-in-the-Loop control, Pool-Gated Retrieval, and the Horizon-Warrant-Commitment structure

URL PDF HTML

2606.18847 2026-06-18 cs.AI 新提交专题 80

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

WorldLines: 对长时域有状态具身智能体进行基准测试与建模

Yehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen

专题命中规划决策：具身智能体长时记忆与任务规划。

AI总结提出WorldLines基准，通过构建带时间跨度的家庭轨迹（含对话、动作、状态变化等）评估具身智能体的长时记忆与任务规划能力，并设计ObsMem记忆框架提升状态感知决策。

Comments 27 pages, 18 figures

URL PDF HTML

2606.18746 2026-06-18 cs.AI 新提交专题 80

What Must Generalist Agents Remember?

通用型智能体必须记住什么？

Khurram Yamin, Namrata Deka, Maitreyi Swaroop, Albert Ting, Jeff Schneider, Bryan Wilder

专题命中规划决策：通用智能体记忆需求的形式化分析。

AI总结本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动，必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作，并证明记忆可用于重构局部转移动态。

URL PDF HTML

2606.18105 2026-06-18 cs.NI cs.LG 新提交专题 80

OmniPlan: An Adaptive Framework for Timely and Near-Optimal Network Planning Optimization

OmniPlan：一种用于及时且近乎最优的网络规划优化的自适应框架

Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen

专题命中规划决策：自适应框架动态选择求解器进行规划

AI总结提出OmniPlan自适应框架，利用大语言模型解析用户意图，通过混合专家架构动态选择MIP求解器、启发式算法或深度强化学习模型，实现网络规划优化的及时性与近乎最优性，在分布式机器学习推理卸载任务中延迟降低97.8%，资源消耗降低11.5%。

Comments Accepted by ACM KDD 2026

URL PDF HTML

2606.17453 2026-06-18 cs.AI 新提交专题 80

MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors

MapSatisfyBench: 通过行为隐含决策因素基准测试满意度感知的地图智能体

Lubin Bai, Mengyu Cao, Sixue Wang, Zhongwei Wan, Yue Pan, Jiale Hou, Xiang Li, Xiuyuan Zhang

专题命中规划决策：评估地图智能体的隐含需求满足能力

AI总结提出MapSatisfyBench基准，通过恢复用户行为链中的隐含决策因素来评估地图智能体的满意度感知能力，实验表明现有智能体在显式任务完成上表现良好，但在满足隐含需求方面仍有局限。

URL PDF HTML

2606.14202 2026-06-18 cs.NE cs.AI 新提交专题 80

MeEvo: Metacognitive Evolution Combined with Natural Evolution for Automatic Heuristic Design

MeEvo: 元认知进化与自然进化相结合用于自动启发式设计

Zishang Qiu, Xinan Chen, Rong Qu, Ruibin Bai

专题命中规划决策：自动启发式设计框架，结合进化与元认知

AI总结提出MeEvo框架，通过循环耦合自然进化（探索启发式代码）和元认知进化（反思历史生成改进启发式），解决现有方法知识继承弱、探索不足的问题，在五个优化问题上表现更优。

URL PDF HTML

2605.22142 2026-06-18 cs.LG cs.AI 版本更新专题 80

Short-Term-to-Long-Term Memory Transfer for Knowledge Graphs under Partial Observability

知识图谱下的短期到长期记忆转移：在部分可观测性下的短期到长期记忆转移

Taewoon Kim, Vincent François-Lavet, Michael Cochez

专题命中规划决策：强化学习中记忆转移，属于智能体决策。

AI总结本文研究了在部分可观测性下知识图谱中的短期到长期记忆转移问题，提出了一种基于神经符号价值决策的方法，通过在长期插入前决定保留或丢弃观察到的三元组，从而提升记忆效率，并在RoomKG基准测试中优于符号和神经基线方法。

URL PDF HTML

2604.03208 2026-06-18 cs.LG 版本更新专题 80

Hierarchical Planning with Latent World Models

基于潜在世界模型的分层规划

Wancong Zhang, Basile Terver, Artem Zholus, Soham Chitnis, Harsh Sutaria, Mido Assran, Randall Balestriero, Amir Bar, Adrien Bardes, Yann LeCun, Nicolas Ballas

专题命中规划决策：分层世界模型用于长时域规划，属智能体规划

AI总结提出HWM架构，通过多时间尺度潜在世界模型和潜在匹配实现分层模型预测控制，解决长时域任务中单层规划失败和计算爆炸问题。

URL PDF HTML

2411.10399 2026-06-18 cs.GT cs.CR cs.DC 版本更新专题 80

Game Theoretic Liquidity Provisioning in Concentrated Liquidity Market Makers

集中流动性做市商中的博弈论流动性提供

Weizhao Tang, Rachid El-Azouzi, Cheng Han Lee, Ethan Chan, Giulia Fanti

专题命中规划决策：博弈论模型分析流动性提供策略

AI总结针对集中流动性做市商中流动性提供者的策略互动，建立博弈论模型，证明其可简化为具有唯一纳什均衡的线性复杂度博弈，均衡遵循水填充策略，并基于真实数据发现LP策略偏离均衡，调整后可提升日收益率。

URL PDF HTML

2606.18888 2026-06-18 cs.AI 新提交专题 75

Generative-Model Predictive Planning for Navigation in Partially Observable Environments

部分可观测环境下导航的生成模型预测规划

Thomas Quilter, Yifan Zhu, Guorui Quan, Mingfei Sun, Samuel Kaski

专题命中规划决策：生成模型预测规划用于导航

AI总结提出BeliefDiffusion框架，结合扩散模型和模型预测控制，显式建模多模态信念分布并进行前瞻规划，在合成地图环境中显著优于无模型强化学习和生成方法。

URL PDF HTML

2606.19214 2026-06-18 econ.GN q-fin.EC 新提交专题 70

Testing Centralized and Polycentric Computational Planning

测试集中式和多中心计算规划

Ricardo Alonzo Fernández Salguero

专题命中规划决策：比较计算规划者与基于代理的市场，涉及规划决策

AI总结本文提出一个可复现的合成基准，在模拟经济中比较计算规划者、基于代理的市场和混合元市场，发现规划者福利损失更低，但结果受设计选择影响，主要贡献是方法论而非意识形态。

URL PDF HTML

2606.18963 2026-06-18 cs.LG 新提交专题 70

Online Reward-Punishment Learning from Fixed-Channel Perceptual Event Streams without Environment Rewards

无环境奖励的固定通道感知事件流在线奖惩学习

Zirong Li

专题命中规划决策：提出无环境奖励的在线奖惩学习框架。

AI总结提出OHIRL框架，在无标量奖励下通过固定通道感知流进行在线奖惩学习，利用内部轨迹评估器推断感知维度的效价，在XOR任务和CartPole等控制任务中达到高准确率。

Comments 9 pages, 5 figures, 6 tables; 13-page technical supplement

URL PDF HTML

2606.18388 2026-06-18 cs.LG cs.AI cs.CL cs.MA 新提交专题 70

LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents

LLMZero: 通过LLM智能体发现RL后训练的自适应训练策略

Haoyang Fang, Wei Zhu, Boran Han, Alex Zhang, Zhenyu Pan, Shuo Yang, Shuai Zhang, Jiading Gai, Peng Tang, Cuixiong Hu, Xuan Zhu, Huzefa Rangwala, George Karypis, Bernie Wang

专题命中规划决策：利用LLM智能体进行树搜索发现训练策略

AI总结提出LLMZero系统，利用LLM智能体通过树搜索发现多阶段RL后训练的自适应策略，揭示容量参数单调累积、正则化参数振荡的规律，在4个GRPO任务上相对基线提升9%-140%。

URL PDF HTML

2510.03635 2026-06-18 eess.SY cs.SY 版本更新专题 70

Cyber Resilience of Three-phase Unbalanced Distribution System Restoration under Sparse Adversarial Attack on Load Forecasting

三相不平衡配电系统恢复在负荷预测稀疏对抗攻击下的网络弹性

Chen Chao, Zixiao Ma, Ziang Zhang

专题命中规划决策：攻击下的恢复规划，涉及决策

AI总结本文量化对抗性攻击对负荷预测的影响，提出梯度稀疏攻击方法，并建立恢复感知验证框架，揭示系统级故障，为设计网络安全感知的恢复规划提供见解。

Comments 10 pages, 7 figures

URL PDF HTML

2402.08128 2026-06-18 cs.AI cs.GT 版本更新专题 70

Recursive Joint Simulation in Games

博弈中的递归联合模拟

Vojtech Kovarik, Caspar Oesterheld, Vincent Conitzer

专题命中规划决策：研究AI智能体递归联合模拟实现合作

AI总结研究AI智能体通过递归联合模拟实现合作，证明该过程等价于原博弈的无限重复版本，从而可直接应用民间定理等现有结论。

URL PDF HTML

2606.19134 2026-06-18 cs.LG cs.AI 新提交专题 65

Pareto Q-Learning with Reward Machines

带奖励机的帕累托Q学习

Arnaud Lequen, Clément Legrand-Lixon, Léo Saulières

专题命中规划决策：多目标强化学习算法，用于智能体决策

AI总结提出PQLRM算法，结合帕累托Q学习和奖励机，在多目标强化学习中高效逼近帕累托前沿，并处理非马尔可夫奖励。

Comments Accepted at the ICAPS 2026 Workshop on Bridging the Gap Between AI Planning and (Reinforcement) Learning (PRL)

URL PDF HTML

2606.18537 2026-06-18 cs.LG 新提交专题 65

Do as the Romans Do: Learning Universal Behaviors from Heterogeneous Agents

入乡随俗：从异构智能体学习通用行为

Caleb Chang, Davin Win Kyi, Natasha Jaques, Karen Leung

专题命中规划决策：提取通用奖励训练通用智能体

AI总结提出GRID方法，从追求不同目标的异构示范者中提取通用奖励，训练通用智能体以学习环境通用能力，避免模式平均偏差，提升下游任务微调效率。

URL PDF HTML

2603.09344 2026-06-18 cs.AI stat.ML 版本更新专题 65

Robust Regularized Policy Iteration under Transition Uncertainty

鲁棒正则化策略迭代在转移不确定性下

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

专题命中规划决策：离线强化学习用于智能体决策

AI总结提出鲁棒正则化策略迭代（RRPI），通过将离线强化学习建模为鲁棒策略优化，使用KL正则化替代难解的双层目标，并基于鲁棒正则化贝尔曼算子实现高效策略迭代，理论保证收敛性，实验在D4RL基准上表现优异。

URL PDF HTML

2606.18730 2026-06-18 cs.RO cs.AI math.CO math.OC 新提交专题 60

Two-Phase Bilevel Search for the Moving-Target Traveling Salesman Problem with Moving Obstacles

带移动障碍物的移动目标旅行商问题的两阶段双层搜索

Allen George Philip, Anoop Bhat, Sivakumar Rathinam, Howie Choset

专题命中规划决策：移动目标TSP的两阶段双层搜索算法

AI总结针对带移动障碍物的移动目标旅行商问题，提出混合整数锥规划公式和两阶段双层搜索算法，显著优于基线方法。

URL PDF HTML

2412.15472 2026-06-18 cs.GT econ.TH 专题 60

On the Fairness of Additive Welfarist Rules

关于加法福利主义规则的公平性

Karen Frilya Celine, Warut Suksompong, Sheung Man Yuen

专题命中规划决策：公平分配规则研究，与多智能体系统相关

AI总结本文研究了加法福利主义规则在公平分配中的公平性，证明了MNW规则是唯一能保证EF1的规则，同时探讨了不同实例类型下的规则特性。

Comments Appears in the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 2025

Journal ref ACM Transactions on Economics and Computation, 14(2):5 (2026)

URL PDF HTML

2606.19175 2026-06-18 econ.TH 新提交专题 55

To Gamble, Perchance to Grow

赌博，或许为了增长

Mark Whitmeyer

专题命中规划决策：研究增长最优投资组合问题，涉及决策优化

AI总结研究增长最优（凯利）投资组合问题中的收益变换，刻画了产生更保守投资组合的变换条件，并推导了理性疏忽代理人的风险厌恶比较。

URL PDF HTML