大模型推理能力

2605.29649 2026-06-18 cs.AI 版本更新专题 85

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

LLM进化的符号AI规划领域无关启发式

Elliot Gestrin, Jendrik Seipp

专题命中规划推理：LLM进化领域无关启发式，用于符号规划

AI总结本文使用进化搜索让大语言模型生成领域无关的启发式函数，在未见测试域上超越手工最优启发式，并首次系统评估了启发式的信息性-速度权衡。

Comments Accepted at the LM4Plan workshop at ICAPS 2026

URL PDF HTML

2603.09344 2026-06-18 cs.AI stat.ML 版本更新专题 70

Robust Regularized Policy Iteration under Transition Uncertainty

鲁棒正则化策略迭代在转移不确定性下

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

专题命中规划推理：鲁棒策略迭代用于离线强化学习

AI总结提出鲁棒正则化策略迭代（RRPI），通过将离线强化学习建模为鲁棒策略优化，使用KL正则化替代难解的双层目标，并基于鲁棒正则化贝尔曼算子实现高效策略迭代，理论保证收敛性，实验在D4RL基准上表现优异。

URL PDF HTML

2604.28076 2026-06-18 cs.CL cs.AI cs.LG 版本更新专题 85

TopBench: A Benchmark for Implicit Predictive Reasoning in Tabular Question Answering

TopBench：表格问答中隐式预测推理的基准

An-Yang Ji, Jun-Peng Jiang, De-Chuan Zhan, Han-Jia Ye

专题命中复杂问题求解：表格问答中隐式预测推理的基准

AI总结提出TopBench基准，包含779个样本和四个子任务，评估大语言模型在表格问答中识别隐式预测意图并进行可靠推理的能力，发现当前模型在意图识别上存在困难。

URL PDF HTML

2509.22363 2026-06-18 cs.LG eess.AS 版本更新专题 70

Investigating Faithfulness in Large Audio Language Models

大型音频语言模型中的忠实性研究

Pooneh Mousavi, Lovenya Jain, Mirco Ravanelli, Cem Subakan

专题命中复杂问题求解：研究链式推理的忠实性，涉及推理评估

AI总结提出系统框架评估大型音频语言模型在推理链忠实性上的表现，定义三个音频忠实性标准，并通过基准测试发现模型推理与音频输入存在脱节。

Comments Accepted to Interspeech 2026

URL PDF HTML

2603.05128 2026-06-18 eess.AS cs.SD 版本更新专题 70

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

PolyBench：多声部音频中组合推理的基准测试

Yuanjian Chen, Yang Xiao, Han Yin, Xubo Liu, Jinjie Huang, Ting Dang

专题命中复杂问题求解：评估音频大模型的组合推理能力

AI总结针对多声部音频中组合推理评估缺失的问题，提出PolyBench基准，包含计数、分类、检测、并发和时长估计五个子集，评估发现现有大音频语言模型在多声部场景下性能持续下降。

Comments Accepted by INTERSPEECH 2026

URL PDF HTML

2503.01805 2026-06-18 cs.LG cs.AI cs.CL 版本更新专题 70

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

图任务算法推理中Transformer的深度-宽度权衡

Gilad Yehudai, Clayton Sanford, Maya Bechler-Speicher, Orr Fischer, Ran Gilad-Bachrach, Amir Globerson

专题命中复杂问题求解：研究Transformer在图算法任务中的推理能力。

AI总结研究Transformer在图算法任务中深度与宽度的权衡，发现线性宽度下常数深度足以解决许多图问题，而某些问题需要二次宽度，实验验证了宽模型在保持精度的同时训练和推理更快。

Comments Updated ISF grant number

URL PDF HTML

2601.17226 2026-06-18 cs.CL cs.AI 版本更新专题 70

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

复述、奖励、重复：面向叙事理论启发的故事复述的强化学习

David Y. Liu, Xanthe Muston, Dipankar Srirag, Aditya Joshi, Sebastian Sequoiah-Grayson

专题命中复杂问题求解：提升故事复述的逻辑性和合理性

AI总结提出RRR强化学习框架，结合结构主义叙事学与标量叙事性，通过d-RLAIF从文本特征中获取训练信号，无需参考输出，提升LLM故事复述的逻辑性、合理性和完整性。

Comments 8 Pages, 7 figures

URL PDF HTML

2603.01221 2026-06-18 cs.MA 版本更新专题 85

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

认知增益，偶然成本：多智能体辩论中的不确定性分解用于数学推理

Dan Qiao, Binbin Chen, Fengyu Cai, Jianlong Chen, Wenhao Li, Fuxin Jiang, Zuzhi Chen, Hongyuan Zha, Tieying Zhang, Baoxiang Wang

专题命中数学推理：多智能体辩论中的数学推理不确定性分解

AI总结本文提出贝叶斯不确定性分析框架，将多智能体辩论中的预测不确定性分解为认知不确定性和偶然不确定性，并设计不确定性引导的多智能体强化学习算法，在控制偶然成本的同时提升认知增益，从而提高推理准确性和辩论效率。

Comments ICML2026

URL PDF HTML

2505.23851 2026-06-18 cs.CL cs.AI cs.SC 版本更新专题 85

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

ASyMOB：代数符号数学运算基准

Michael Shalyt, Rotem Elimelech, Ido Kaminer

专题命中数学推理：基准测试评估大模型符号数学推理鲁棒性

AI总结提出ASyMOB基准，包含35,368个符号数学问题，通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足，并发现LLM与CAS的互补潜力。

Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark

URL PDF HTML

2605.03460 2026-06-18 cs.AI cs.LG 版本更新专题 80

FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models

FinSTaR：面向时间序列推理模型的金融推理

Seunghan Lee, Jun Seo, Jaehoon Lee, Sungdong Yoo, Minjae Kim, Tae Yoon Lim, Dongwan Kang, Hwanil Choi, Soonyoung Lee, Wonbin Ahn

专题命中数学推理：金融时间序列推理，涉及数学推理和链式思维。

AI总结针对时间序列推理模型在金融领域的失效问题，提出基于2x2能力分类法的FinSTaR模型，通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。

Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)

URL PDF HTML

2505.12369 2026-06-18 cs.AI cs.LG cs.LO 版本更新专题 70

Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations

知识图谱上具有传递关系的全几何多跳推理

Fernando Zhapa-Camacho, Robert Hoehndorf

专题命中逻辑推理：知识图谱多跳逻辑推理，几何嵌入方法

AI总结提出GeometrE方法，将逻辑操作映射为纯几何变换，并引入传递损失函数，在保持可解释性的同时提升多跳推理性能。

Comments Accepted at ESWC 2026

Journal ref The Semantic Web. ESWC 2026. Lecture Notes in Computer Science, vol 16549. Springer, Cham (2026)

URL PDF HTML

1. 规划推理 2 篇

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

Robust Regularized Policy Iteration under Transition Uncertainty

2. 复杂问题求解 5 篇

TopBench: A Benchmark for Implicit Predictive Reasoning in Tabular Question Answering

Investigating Faithfulness in Large Audio Language Models

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

3. 数学推理 3 篇

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models

4. 逻辑推理 1 篇

Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations