大模型推理能力

2606.19257 2026-06-18 cs.CL 新提交专题 90

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

DreamReasoner-8B：面向扩散推理模型的块大小课程学习

Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong

专题命中数学推理：块扩散语言模型用于长链推理

AI总结提出块大小课程学习，通过从细粒度到粗粒度的渐进训练，解决块扩散语言模型在长链推理中性能差距问题，DreamReasoner-8B在数学和代码推理上达到与Qwen3-8B相当的水平。

URL PDF HTML

2606.19236 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 90

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE: 基于惊讶度的令牌级优势重加权以实现策略熵稳定性

Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

专题命中数学推理：GRPO策略熵稳定性方法，提升推理

AI总结针对GRPO等RL算法中策略熵崩溃问题，提出STARE方法，通过惊讶度分位数识别熵关键令牌并重加权其优势，结合目标熵闭环门控稳定熵，在1.5B-32B模型和多种任务上实现稳定训练，AIME24/25准确率提升4%-8%。

Comments LLM, Reinforcement Learning

URL PDF HTML

2606.18844 2026-06-18 cs.LG 新提交专题 85

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Zhilin Huang, Hang Gao, Ziqiang Dong, Yuan Chen, Yifeng Luo, Chujun Qin, Jingyi Wang, Yang Yang, Guanjun Jiang

专题命中数学推理：自蒸馏改进数学推理，轨迹对比学习。

AI总结提出TAPO方法，通过对比正确与错误轨迹构建微反思修正，实现从隐式分布对齐到显式轨迹构建的自蒸馏改进，在多个数学推理基准上优于GRPO。

URL PDF HTML

2606.18453 2026-06-18 cs.CL 新提交专题 85

LLM Parameters for Math Across Languages: Shared or Separate?

跨语言数学问题的LLM参数：共享还是分离？

Behzad Shomali, Luisa Victor, Tim Selbach, Ali Hamza Bashir, David Berghaus, Joachim Koehler, Mehdi Ali, Markus Frey

专题命中数学推理：跨语言数学推理的机制分析

AI总结通过跨语言机制分析，发现多语言LLM中数学相关参数存在部分跨语言重叠，且主要集中在中间层，英语参数集最大，低资源语言参数集较小。

Comments 5 pages. Accepted at ACL Student Research Workshop (SRW) 2026. Code: https://github.com/luisavictor/math-across-languages Translated Datasets: https://huggingface.co/math-across-languages Webpage: https://math-across-languages.github.io

URL PDF HTML

2603.01221 2026-06-18 cs.MA 版本更新专题 85

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

认知增益，偶然成本：多智能体辩论中的不确定性分解用于数学推理

Dan Qiao, Binbin Chen, Fengyu Cai, Jianlong Chen, Wenhao Li, Fuxin Jiang, Zuzhi Chen, Hongyuan Zha, Tieying Zhang, Baoxiang Wang

专题命中数学推理：多智能体辩论中的数学推理不确定性分解

AI总结本文提出贝叶斯不确定性分析框架，将多智能体辩论中的预测不确定性分解为认知不确定性和偶然不确定性，并设计不确定性引导的多智能体强化学习算法，在控制偶然成本的同时提升认知增益，从而提高推理准确性和辩论效率。

Comments ICML2026

URL PDF HTML

2505.23851 2026-06-18 cs.CL cs.AI cs.SC 版本更新专题 85

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

ASyMOB：代数符号数学运算基准

Michael Shalyt, Rotem Elimelech, Ido Kaminer

专题命中数学推理：基准测试评估大模型符号数学推理鲁棒性

AI总结提出ASyMOB基准，包含35,368个符号数学问题，通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足，并发现LLM与CAS的互补潜力。

Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark

URL PDF HTML

2605.03460 2026-06-18 cs.AI cs.LG 版本更新专题 80

FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models

FinSTaR：面向时间序列推理模型的金融推理

Seunghan Lee, Jun Seo, Jaehoon Lee, Sungdong Yoo, Minjae Kim, Tae Yoon Lim, Dongwan Kang, Hwanil Choi, Soonyoung Lee, Wonbin Ahn

专题命中数学推理：金融时间序列推理，涉及数学推理和链式思维。

AI总结针对时间序列推理模型在金融领域的失效问题，提出基于2x2能力分类法的FinSTaR模型，通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。

Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)

URL PDF HTML

2606.18810 2026-06-18 cs.LG cs.AI 新提交专题 75

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

从自身解中学习：面向可验证奖励强化学习的自条件化信用分配

Yingyu Shan, Yuhang Guo, Zihao Cheng, Zeming Liu, Xiangrong Zhu, Xinyi Wang, Jiashu Yao, Wei Lin, Hongru Wang, Heyan Huang

专题命中数学推理：在数学、代码和智能体任务上提升推理

AI总结提出SC-GRPO方法，利用自条件化分布间的KL散度作为GRPO梯度的乘性权重，实现细粒度信用分配，在数学、代码和智能体任务上平均提升8.1%。

URL PDF HTML

2606.18910 2026-06-18 cs.LG cs.CL 新提交专题 90

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

REVES：通过修订与验证增强的测试时扩展训练

Yuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong

专题命中测试时计算：通过修订与验证增强测试时扩展推理

AI总结提出REVES框架，通过将中间步骤的“接近正确”答案转化为解耦的修订和验证提示，实现高效的离策略数据生成，提升大语言模型的多步推理能力，在LiveCodeBench上比强化学习基线高6.5分。

URL PDF HTML

2606.11918 2026-06-18 cs.AI 新提交专题 90

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

提问的艺术：一致性增强空间推理中的事实性

Theo Uscidda, Marta Tintore Gazulla, Maks Ovsjanikov, Federico Tombari, Leonidas Guibas

专题命中规划推理：自监督强化学习提升空间推理能力

AI总结提出自监督强化学习框架，通过几何与语义一致性验证器（如图像翻转、文本对象顺序交换）对齐预训练模型的内在空间推理能力，无需标注数据即可达到接近监督方法的精度。

URL PDF HTML

2606.18686 2026-06-18 cs.AI cs.CL cs.LG 新提交专题 85

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim：一个模拟世界预测基准

Jaeho Lee, Nick Merrill, Ezra Karger

专题命中规划推理：模拟世界预测基准，评估概率推理

AI总结提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim，通过游戏回滚生成可控、即时可解的预测问题，用于评估AI系统的概率推理能力。

Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026

URL PDF HTML

2605.29649 2026-06-18 cs.AI 版本更新专题 85

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

LLM进化的符号AI规划领域无关启发式

Elliot Gestrin, Jendrik Seipp

专题命中规划推理：LLM进化领域无关启发式，用于符号规划

AI总结本文使用进化搜索让大语言模型生成领域无关的启发式函数，在未见测试域上超越手工最优启发式，并首次系统评估了启发式的信息性-速度权衡。

Comments Accepted at the LM4Plan workshop at ICAPS 2026

URL PDF HTML

2606.18543 2026-06-18 cs.AI cs.CL cs.SE 新提交专题 80

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench：智能体能否玩转长期博弈？

Haozhe Chen, Karthik Narasimhan, Zhuang Liu

专题命中规划推理：长期不确定环境下的决策能力

AI总结提出CEO-Bench，通过模拟500天运营初创公司的任务，评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。

URL PDF HTML

2606.19328 2026-06-18 cs.LG cs.AI cs.RO 新提交专题 70

UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning

UBP2: 不确定性平衡的偏好规划用于高效基于偏好的强化学习

Mohamed Nabail, Leo Cheng, Jingmin Wang, Nicholas Rhinehart

专题命中规划推理：不确定性平衡的偏好规划

AI总结提出UBP2方法，通过联合推理奖励、动力学和值函数的不确定性来主动引导探索，在Meta-World基准上显著提高了样本效率。

URL PDF HTML

2603.09344 2026-06-18 cs.AI stat.ML 版本更新专题 70

Robust Regularized Policy Iteration under Transition Uncertainty

鲁棒正则化策略迭代在转移不确定性下

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

专题命中规划推理：鲁棒策略迭代用于离线强化学习

AI总结提出鲁棒正则化策略迭代（RRPI），通过将离线强化学习建模为鲁棒策略优化，使用KL正则化替代难解的双层目标，并基于鲁棒正则化贝尔曼算子实现高效策略迭代，理论保证收敛性，实验在D4RL基准上表现优异。

URL PDF HTML

2606.18633 2026-06-18 cs.MA 新提交专题 60

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

PersonalPlan: 面向个性化编程学习的多智能体系统规划

Zhiyuan Wen, Jiannong Cao, Peng Gao, Haochen Shi, Wengpan Kuan, Bo Yuan, Xiuxiu Qi

专题命中规划推理：分层SFT和奖励自适应生成可执行计划

AI总结提出PersonalPlan，一种两阶段多智能体规划器，通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划，在MAP-PPL数据集上优于现有方法。

URL PDF HTML

2606.18954 2026-06-18 cs.CL 新提交专题 85

GraphPO: Graph-based Policy Optimization for Reasoning Models

GraphPO：基于图的推理模型策略优化

Yuliang Zhan, Xinyu Tang, Jian Li, Dandan Zheng, Weilong Chai, Jingdong Chen, Jun Zhou, Ge Wu, Wenyue Tang, Hao Sun

专题命中复杂问题求解：基于图的策略优化提高推理模型效率。

AI总结提出GraphPO框架，将推理轨迹建模为有向无环图，通过合并语义等价路径减少冗余探索，并利用边级优势函数提高推理效率，在多个基准上优于链式和树式方法。

URL PDF HTML

2604.28076 2026-06-18 cs.CL cs.AI cs.LG 版本更新专题 85

TopBench: A Benchmark for Implicit Predictive Reasoning in Tabular Question Answering

TopBench：表格问答中隐式预测推理的基准

An-Yang Ji, Jun-Peng Jiang, De-Chuan Zhan, Han-Jia Ye

专题命中复杂问题求解：表格问答中隐式预测推理的基准

AI总结提出TopBench基准，包含779个样本和四个子任务，评估大语言模型在表格问答中识别隐式预测意图并进行可靠推理的能力，发现当前模型在意图识别上存在困难。

URL PDF HTML

2606.18831 2026-06-18 cs.CL cs.AI 新提交专题 80

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

超越奖励工程：长上下文强化学习的数据配方

Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao

专题命中复杂问题求解：提升长上下文推理，涉及检索、多证据合成和推理任务

AI总结提出一种简单有效的数据配方，结合最小化基于结果的GRPO设置，显著提升大语言模型的长上下文推理能力，在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。

Comments 15 pages, 6 figures, 12 tables

URL PDF HTML

2509.22363 2026-06-18 cs.LG eess.AS 版本更新专题 70

Investigating Faithfulness in Large Audio Language Models

大型音频语言模型中的忠实性研究

Pooneh Mousavi, Lovenya Jain, Mirco Ravanelli, Cem Subakan

专题命中复杂问题求解：研究链式推理的忠实性，涉及推理评估

AI总结提出系统框架评估大型音频语言模型在推理链忠实性上的表现，定义三个音频忠实性标准，并通过基准测试发现模型推理与音频输入存在脱节。

Comments Accepted to Interspeech 2026

URL PDF HTML

2603.05128 2026-06-18 eess.AS cs.SD 版本更新专题 70

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

PolyBench：多声部音频中组合推理的基准测试

Yuanjian Chen, Yang Xiao, Han Yin, Xubo Liu, Jinjie Huang, Ting Dang

专题命中复杂问题求解：评估音频大模型的组合推理能力

AI总结针对多声部音频中组合推理评估缺失的问题，提出PolyBench基准，包含计数、分类、检测、并发和时长估计五个子集，评估发现现有大音频语言模型在多声部场景下性能持续下降。

Comments Accepted by INTERSPEECH 2026

URL PDF HTML

2503.01805 2026-06-18 cs.LG cs.AI cs.CL 版本更新专题 70

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

图任务算法推理中Transformer的深度-宽度权衡

Gilad Yehudai, Clayton Sanford, Maya Bechler-Speicher, Orr Fischer, Ran Gilad-Bachrach, Amir Globerson

专题命中复杂问题求解：研究Transformer在图算法任务中的推理能力。

AI总结研究Transformer在图算法任务中深度与宽度的权衡，发现线性宽度下常数深度足以解决许多图问题，而某些问题需要二次宽度，实验验证了宽模型在保持精度的同时训练和推理更快。

Comments Updated ISF grant number

URL PDF HTML

2601.17226 2026-06-18 cs.CL cs.AI 版本更新专题 70

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

复述、奖励、重复：面向叙事理论启发的故事复述的强化学习

David Y. Liu, Xanthe Muston, Dipankar Srirag, Aditya Joshi, Sebastian Sequoiah-Grayson

专题命中复杂问题求解：提升故事复述的逻辑性和合理性

AI总结提出RRR强化学习框架，结合结构主义叙事学与标量叙事性，通过d-RLAIF从文本特征中获取训练信号，无需参考输出，提升LLM故事复述的逻辑性、合理性和完整性。

Comments 8 Pages, 7 figures

URL PDF HTML

2606.19185 2026-06-18 cs.LG 新提交专题 60

AGDN: Learning to Solve Traveling Salesman Problem with Anisotropic Graph Diffusion Network

AGDN：利用各向异性图扩散网络学习求解旅行商问题

Bolin Shen, Ziwei Huang, Zhiguang Cao, Yushun Dong

专题命中复杂问题求解：图神经网络求解TSP，属于组合优化推理

AI总结提出各向异性图扩散网络（AGDN），通过MixScore转移矩阵和各向异性扩散策略，有效利用图结构信息求解旅行商问题，在多种实例规模和分布上优于现有方法。

Comments Accepted at the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)

URL PDF HTML

2606.18557 2026-06-18 cs.AI cs.LG cs.LO 新提交专题 85

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb：基础模型中可废止溯因的可验证基准

Patrick Cooper, Alvaro Velasquez

专题命中逻辑推理：测试逻辑推理和理论推理能力

AI总结提出DeFAb基准，通过将知识库转换为可验证的溯因实例，评估基础模型在可废止推理中的创造力与理论推理能力，发现前沿模型准确率远低于符号求解器。

Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc

URL PDF HTML

2606.15633 2026-06-18 cs.LG 新提交专题 85

Formalizing and Mitigating Structural Distortion in LLM Attention for Graph Reasoning

形式化并缓解大语言模型注意力中的结构失真以实现零样本图推理

Donald Loveland, Puja Trivedi, Ari Weinstein, Edward W Huang, Danai Koutra

专题命中逻辑推理：图推理中的结构失真缓解，提升LLM推理

AI总结本文形式化了大语言模型处理文本属性图时因图线性化导致的结构失真机制，并提出轻量级推理时修改方法GaLA，通过校正注意力偏差提升零样本图推理性能。

Comments Accepted to KDD 2026

URL PDF HTML

2606.18624 2026-06-18 cs.CL 新提交专题 80

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST：用于语用语言理解的自我强化反事实推理

Jihyung Park, Minchao Huang, Leqi Liu, Elias Stengel-Eskin

专题命中逻辑推理：自我强化反事实推理提升语用语言理解

AI总结提出PragReST框架，通过自监督构建语用问答数据、生成反事实推理轨迹，结合监督微调和强化学习提升大语言模型的语用推理能力，在四个基准上显著优于基线模型。

Comments First two authors contributed equally. Code and models: https://github.com/jihyung803/PragReST

URL PDF HTML

2505.12369 2026-06-18 cs.AI cs.LG cs.LO 版本更新专题 70

Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations

知识图谱上具有传递关系的全几何多跳推理

Fernando Zhapa-Camacho, Robert Hoehndorf

专题命中逻辑推理：知识图谱多跳逻辑推理，几何嵌入方法

AI总结提出GeometrE方法，将逻辑操作映射为纯几何变换，并引入传递损失函数，在保持可解释性的同时提升多跳推理性能。

Comments Accepted at ESWC 2026

Journal ref The Semantic Web. ESWC 2026. Lecture Notes in Computer Science, vol 16549. Springer, Cham (2026)

URL PDF HTML

2606.18521 2026-06-18 cs.LG cs.AI 新提交专题 60

Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging

稀疏性诅咒：从模型合并理解RLVR模型参数空间

Chenrui Wu, Zexi Li, Jiajun Bu, Jiangchuan Liu, Haishuai Wang

专题命中其他推理：RLVR增强推理能力

AI总结本文发现RLVR模型的稀疏更新在参数空间中分散更远，形成近正交捷径导致合并脆弱，并提出SAR-Merging方法解决该问题。

Comments Accepted by KDD 2026

URL PDF HTML

1. 数学推理 8 篇

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

LLM Parameters for Math Across Languages: Shared or Separate?

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

2. 测试时计算 1 篇

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

3. 规划推理 7 篇

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

CEO-Bench: Can Agents Play the Long Game?

UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning

Robust Regularized Policy Iteration under Transition Uncertainty

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

4. 复杂问题求解 8 篇

GraphPO: Graph-based Policy Optimization for Reasoning Models

TopBench: A Benchmark for Implicit Predictive Reasoning in Tabular Question Answering

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

Investigating Faithfulness in Large Audio Language Models

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

AGDN: Learning to Solve Traveling Salesman Problem with Anisotropic Graph Diffusion Network

5. 逻辑推理 4 篇

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

Formalizing and Mitigating Structural Distortion in LLM Attention for Graph Reasoning

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations

6. 其他推理 1 篇

Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging