大模型推理能力 - arXivDaily 专题

2606.11918 2026-06-18 cs.AI 新提交专题 90

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

提问的艺术：一致性增强空间推理中的事实性

Theo Uscidda, Marta Tintore Gazulla, Maks Ovsjanikov, Federico Tombari, Leonidas Guibas

专题命中规划推理：自监督强化学习提升空间推理能力

AI总结提出自监督强化学习框架，通过几何与语义一致性验证器（如图像翻转、文本对象顺序交换）对齐预训练模型的内在空间推理能力，无需标注数据即可达到接近监督方法的精度。

URL PDF HTML

2606.18686 2026-06-18 cs.AI cs.CL cs.LG 新提交专题 85

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim：一个模拟世界预测基准

Jaeho Lee, Nick Merrill, Ezra Karger

专题命中规划推理：模拟世界预测基准，评估概率推理

AI总结提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim，通过游戏回滚生成可控、即时可解的预测问题，用于评估AI系统的概率推理能力。

Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026

URL PDF HTML

2605.29649 2026-06-18 cs.AI 版本更新专题 85

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

LLM进化的符号AI规划领域无关启发式

Elliot Gestrin, Jendrik Seipp

专题命中规划推理：LLM进化领域无关启发式，用于符号规划

AI总结本文使用进化搜索让大语言模型生成领域无关的启发式函数，在未见测试域上超越手工最优启发式，并首次系统评估了启发式的信息性-速度权衡。

Comments Accepted at the LM4Plan workshop at ICAPS 2026

URL PDF HTML

2606.18543 2026-06-18 cs.AI cs.CL cs.SE 新提交专题 80

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench：智能体能否玩转长期博弈？

Haozhe Chen, Karthik Narasimhan, Zhuang Liu

专题命中规划推理：长期不确定环境下的决策能力

AI总结提出CEO-Bench，通过模拟500天运营初创公司的任务，评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。

URL PDF HTML

2606.19328 2026-06-18 cs.LG cs.AI cs.RO 新提交专题 70

UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning

UBP2: 不确定性平衡的偏好规划用于高效基于偏好的强化学习

Mohamed Nabail, Leo Cheng, Jingmin Wang, Nicholas Rhinehart

专题命中规划推理：不确定性平衡的偏好规划

AI总结提出UBP2方法，通过联合推理奖励、动力学和值函数的不确定性来主动引导探索，在Meta-World基准上显著提高了样本效率。

URL PDF HTML

2603.09344 2026-06-18 cs.AI stat.ML 版本更新专题 70

Robust Regularized Policy Iteration under Transition Uncertainty

鲁棒正则化策略迭代在转移不确定性下

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

专题命中规划推理：鲁棒策略迭代用于离线强化学习

AI总结提出鲁棒正则化策略迭代（RRPI），通过将离线强化学习建模为鲁棒策略优化，使用KL正则化替代难解的双层目标，并基于鲁棒正则化贝尔曼算子实现高效策略迭代，理论保证收敛性，实验在D4RL基准上表现优异。

URL PDF HTML

2606.18633 2026-06-18 cs.MA 新提交专题 60

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

PersonalPlan: 面向个性化编程学习的多智能体系统规划

Zhiyuan Wen, Jiannong Cao, Peng Gao, Haochen Shi, Wengpan Kuan, Bo Yuan, Xiuxiu Qi

专题命中规划推理：分层SFT和奖励自适应生成可执行计划

AI总结提出PersonalPlan，一种两阶段多智能体规划器，通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划，在MAP-PPL数据集上优于现有方法。

URL PDF HTML