大模型推理能力

2606.19257 2026-06-18 cs.CL 新提交专题 90

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

DreamReasoner-8B：面向扩散推理模型的块大小课程学习

Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong

专题命中数学推理：块扩散语言模型用于长链推理

AI总结提出块大小课程学习，通过从细粒度到粗粒度的渐进训练，解决块扩散语言模型在长链推理中性能差距问题，DreamReasoner-8B在数学和代码推理上达到与Qwen3-8B相当的水平。

URL PDF HTML

2606.19236 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 90

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE: 基于惊讶度的令牌级优势重加权以实现策略熵稳定性

Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

专题命中数学推理：GRPO策略熵稳定性方法，提升推理

AI总结针对GRPO等RL算法中策略熵崩溃问题，提出STARE方法，通过惊讶度分位数识别熵关键令牌并重加权其优势，结合目标熵闭环门控稳定熵，在1.5B-32B模型和多种任务上实现稳定训练，AIME24/25准确率提升4%-8%。

Comments LLM, Reinforcement Learning

URL PDF HTML

2606.18844 2026-06-18 cs.LG 新提交专题 85

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Zhilin Huang, Hang Gao, Ziqiang Dong, Yuan Chen, Yifeng Luo, Chujun Qin, Jingyi Wang, Yang Yang, Guanjun Jiang

专题命中数学推理：自蒸馏改进数学推理，轨迹对比学习。

AI总结提出TAPO方法，通过对比正确与错误轨迹构建微反思修正，实现从隐式分布对齐到显式轨迹构建的自蒸馏改进，在多个数学推理基准上优于GRPO。

URL PDF HTML

2606.18453 2026-06-18 cs.CL 新提交专题 85

LLM Parameters for Math Across Languages: Shared or Separate?

跨语言数学问题的LLM参数：共享还是分离？

Behzad Shomali, Luisa Victor, Tim Selbach, Ali Hamza Bashir, David Berghaus, Joachim Koehler, Mehdi Ali, Markus Frey

专题命中数学推理：跨语言数学推理的机制分析

AI总结通过跨语言机制分析，发现多语言LLM中数学相关参数存在部分跨语言重叠，且主要集中在中间层，英语参数集最大，低资源语言参数集较小。

Comments 5 pages. Accepted at ACL Student Research Workshop (SRW) 2026. Code: https://github.com/luisavictor/math-across-languages Translated Datasets: https://huggingface.co/math-across-languages Webpage: https://math-across-languages.github.io

URL PDF HTML

2606.18810 2026-06-18 cs.LG cs.AI 新提交专题 75

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

从自身解中学习：面向可验证奖励强化学习的自条件化信用分配

Yingyu Shan, Yuhang Guo, Zihao Cheng, Zeming Liu, Xiangrong Zhu, Xinyi Wang, Jiashu Yao, Wei Lin, Hongru Wang, Heyan Huang

专题命中数学推理：在数学、代码和智能体任务上提升推理

AI总结提出SC-GRPO方法，利用自条件化分布间的KL散度作为GRPO梯度的乘性权重，实现细粒度信用分配，在数学、代码和智能体任务上平均提升8.1%。

URL PDF HTML

2606.18910 2026-06-18 cs.LG cs.CL 新提交专题 90

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

REVES：通过修订与验证增强的测试时扩展训练

Yuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong

专题命中测试时计算：通过修订与验证增强测试时扩展推理

AI总结提出REVES框架，通过将中间步骤的“接近正确”答案转化为解耦的修订和验证提示，实现高效的离策略数据生成，提升大语言模型的多步推理能力，在LiveCodeBench上比强化学习基线高6.5分。

URL PDF HTML

2606.11918 2026-06-18 cs.AI 新提交专题 90

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

提问的艺术：一致性增强空间推理中的事实性

Theo Uscidda, Marta Tintore Gazulla, Maks Ovsjanikov, Federico Tombari, Leonidas Guibas

专题命中规划推理：自监督强化学习提升空间推理能力

AI总结提出自监督强化学习框架，通过几何与语义一致性验证器（如图像翻转、文本对象顺序交换）对齐预训练模型的内在空间推理能力，无需标注数据即可达到接近监督方法的精度。

URL PDF HTML

2606.18686 2026-06-18 cs.AI cs.CL cs.LG 新提交专题 85

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim：一个模拟世界预测基准

Jaeho Lee, Nick Merrill, Ezra Karger

专题命中规划推理：模拟世界预测基准，评估概率推理

AI总结提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim，通过游戏回滚生成可控、即时可解的预测问题，用于评估AI系统的概率推理能力。

Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026

URL PDF HTML

2606.18543 2026-06-18 cs.AI cs.CL cs.SE 新提交专题 80

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench：智能体能否玩转长期博弈？

Haozhe Chen, Karthik Narasimhan, Zhuang Liu

专题命中规划推理：长期不确定环境下的决策能力

AI总结提出CEO-Bench，通过模拟500天运营初创公司的任务，评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。

URL PDF HTML

2606.19328 2026-06-18 cs.LG cs.AI cs.RO 新提交专题 70

UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning

UBP2: 不确定性平衡的偏好规划用于高效基于偏好的强化学习

Mohamed Nabail, Leo Cheng, Jingmin Wang, Nicholas Rhinehart

专题命中规划推理：不确定性平衡的偏好规划

AI总结提出UBP2方法，通过联合推理奖励、动力学和值函数的不确定性来主动引导探索，在Meta-World基准上显著提高了样本效率。

URL PDF HTML

2606.18633 2026-06-18 cs.MA 新提交专题 60

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

PersonalPlan: 面向个性化编程学习的多智能体系统规划

Zhiyuan Wen, Jiannong Cao, Peng Gao, Haochen Shi, Wengpan Kuan, Bo Yuan, Xiuxiu Qi

专题命中规划推理：分层SFT和奖励自适应生成可执行计划

AI总结提出PersonalPlan，一种两阶段多智能体规划器，通过分层SFT和奖励自适应GRPO生成可执行、个性化且具有教学支架的计划，在MAP-PPL数据集上优于现有方法。

URL PDF HTML

2606.18954 2026-06-18 cs.CL 新提交专题 85

GraphPO: Graph-based Policy Optimization for Reasoning Models

GraphPO：基于图的推理模型策略优化

Yuliang Zhan, Xinyu Tang, Jian Li, Dandan Zheng, Weilong Chai, Jingdong Chen, Jun Zhou, Ge Wu, Wenyue Tang, Hao Sun

专题命中复杂问题求解：基于图的策略优化提高推理模型效率。

AI总结提出GraphPO框架，将推理轨迹建模为有向无环图，通过合并语义等价路径减少冗余探索，并利用边级优势函数提高推理效率，在多个基准上优于链式和树式方法。

URL PDF HTML

2606.18831 2026-06-18 cs.CL cs.AI 新提交专题 80

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

超越奖励工程：长上下文强化学习的数据配方

Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao

专题命中复杂问题求解：提升长上下文推理，涉及检索、多证据合成和推理任务

AI总结提出一种简单有效的数据配方，结合最小化基于结果的GRPO设置，显著提升大语言模型的长上下文推理能力，在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。

Comments 15 pages, 6 figures, 12 tables

URL PDF HTML

2606.19185 2026-06-18 cs.LG 新提交专题 60

AGDN: Learning to Solve Traveling Salesman Problem with Anisotropic Graph Diffusion Network

AGDN：利用各向异性图扩散网络学习求解旅行商问题

Bolin Shen, Ziwei Huang, Zhiguang Cao, Yushun Dong

专题命中复杂问题求解：图神经网络求解TSP，属于组合优化推理

AI总结提出各向异性图扩散网络（AGDN），通过MixScore转移矩阵和各向异性扩散策略，有效利用图结构信息求解旅行商问题，在多种实例规模和分布上优于现有方法。

Comments Accepted at the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)

URL PDF HTML

2606.18557 2026-06-18 cs.AI cs.LG cs.LO 新提交专题 85

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb：基础模型中可废止溯因的可验证基准

Patrick Cooper, Alvaro Velasquez

专题命中逻辑推理：测试逻辑推理和理论推理能力

AI总结提出DeFAb基准，通过将知识库转换为可验证的溯因实例，评估基础模型在可废止推理中的创造力与理论推理能力，发现前沿模型准确率远低于符号求解器。

Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc

URL PDF HTML

2606.15633 2026-06-18 cs.LG 新提交专题 85

Formalizing and Mitigating Structural Distortion in LLM Attention for Graph Reasoning

形式化并缓解大语言模型注意力中的结构失真以实现零样本图推理

Donald Loveland, Puja Trivedi, Ari Weinstein, Edward W Huang, Danai Koutra

专题命中逻辑推理：图推理中的结构失真缓解，提升LLM推理

AI总结本文形式化了大语言模型处理文本属性图时因图线性化导致的结构失真机制，并提出轻量级推理时修改方法GaLA，通过校正注意力偏差提升零样本图推理性能。

Comments Accepted to KDD 2026

URL PDF HTML

2606.18624 2026-06-18 cs.CL 新提交专题 80

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST：用于语用语言理解的自我强化反事实推理

Jihyung Park, Minchao Huang, Leqi Liu, Elias Stengel-Eskin

专题命中逻辑推理：自我强化反事实推理提升语用语言理解

AI总结提出PragReST框架，通过自监督构建语用问答数据、生成反事实推理轨迹，结合监督微调和强化学习提升大语言模型的语用推理能力，在四个基准上显著优于基线模型。

Comments First two authors contributed equally. Code and models: https://github.com/jihyung803/PragReST

URL PDF HTML

2606.18521 2026-06-18 cs.LG cs.AI 新提交专题 60

Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging

稀疏性诅咒：从模型合并理解RLVR模型参数空间

Chenrui Wu, Zexi Li, Jiajun Bu, Jiangchuan Liu, Haishuai Wang

专题命中其他推理：RLVR增强推理能力

AI总结本文发现RLVR模型的稀疏更新在参数空间中分散更远，形成近正交捷径导致合并脆弱，并提出SAR-Merging方法解决该问题。

Comments Accepted by KDD 2026

URL PDF HTML

1. 数学推理 5 篇

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

LLM Parameters for Math Across Languages: Shared or Separate?

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

2. 测试时计算 1 篇

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

3. 规划推理 5 篇

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

CEO-Bench: Can Agents Play the Long Game?

UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning

PersonalPlan: Planning Multi-Agent Systems for Personalized Programming Learning

4. 复杂问题求解 3 篇

GraphPO: Graph-based Policy Optimization for Reasoning Models

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

AGDN: Learning to Solve Traveling Salesman Problem with Anisotropic Graph Diffusion Network

5. 逻辑推理 3 篇

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

Formalizing and Mitigating Structural Distortion in LLM Attention for Graph Reasoning

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

6. 其他推理 1 篇

Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging