大模型推理能力 - arXivDaily 专题

2606.19257 2026-06-18 cs.CL 新提交专题 90

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

DreamReasoner-8B：面向扩散推理模型的块大小课程学习

Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong

专题命中数学推理：块扩散语言模型用于长链推理

AI总结提出块大小课程学习，通过从细粒度到粗粒度的渐进训练，解决块扩散语言模型在长链推理中性能差距问题，DreamReasoner-8B在数学和代码推理上达到与Qwen3-8B相当的水平。

URL PDF HTML

2606.19236 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 90

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE: 基于惊讶度的令牌级优势重加权以实现策略熵稳定性

Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

专题命中数学推理：GRPO策略熵稳定性方法，提升推理

AI总结针对GRPO等RL算法中策略熵崩溃问题，提出STARE方法，通过惊讶度分位数识别熵关键令牌并重加权其优势，结合目标熵闭环门控稳定熵，在1.5B-32B模型和多种任务上实现稳定训练，AIME24/25准确率提升4%-8%。

Comments LLM, Reinforcement Learning

URL PDF HTML

2606.18844 2026-06-18 cs.LG 新提交专题 85

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

从自身错误中学习：为自蒸馏构建可学习的微反思轨迹

Zhilin Huang, Hang Gao, Ziqiang Dong, Yuan Chen, Yifeng Luo, Chujun Qin, Jingyi Wang, Yang Yang, Guanjun Jiang

专题命中数学推理：自蒸馏改进数学推理，轨迹对比学习。

AI总结提出TAPO方法，通过对比正确与错误轨迹构建微反思修正，实现从隐式分布对齐到显式轨迹构建的自蒸馏改进，在多个数学推理基准上优于GRPO。

URL PDF HTML

2606.18453 2026-06-18 cs.CL 新提交专题 85

LLM Parameters for Math Across Languages: Shared or Separate?

跨语言数学问题的LLM参数：共享还是分离？

Behzad Shomali, Luisa Victor, Tim Selbach, Ali Hamza Bashir, David Berghaus, Joachim Koehler, Mehdi Ali, Markus Frey

专题命中数学推理：跨语言数学推理的机制分析

AI总结通过跨语言机制分析，发现多语言LLM中数学相关参数存在部分跨语言重叠，且主要集中在中间层，英语参数集最大，低资源语言参数集较小。

Comments 5 pages. Accepted at ACL Student Research Workshop (SRW) 2026. Code: https://github.com/luisavictor/math-across-languages Translated Datasets: https://huggingface.co/math-across-languages Webpage: https://math-across-languages.github.io

URL PDF HTML

2603.01221 2026-06-18 cs.MA 版本更新专题 85

Epistemic Gain, Aleatoric Cost: Uncertainty Decomposition in Multi-Agent Debate for Math Reasoning

认知增益，偶然成本：多智能体辩论中的不确定性分解用于数学推理

Dan Qiao, Binbin Chen, Fengyu Cai, Jianlong Chen, Wenhao Li, Fuxin Jiang, Zuzhi Chen, Hongyuan Zha, Tieying Zhang, Baoxiang Wang

专题命中数学推理：多智能体辩论中的数学推理不确定性分解

AI总结本文提出贝叶斯不确定性分析框架，将多智能体辩论中的预测不确定性分解为认知不确定性和偶然不确定性，并设计不确定性引导的多智能体强化学习算法，在控制偶然成本的同时提升认知增益，从而提高推理准确性和辩论效率。

Comments ICML2026

URL PDF HTML

2505.23851 2026-06-18 cs.CL cs.AI cs.SC 版本更新专题 85

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

ASyMOB：代数符号数学运算基准

Michael Shalyt, Rotem Elimelech, Ido Kaminer

专题命中数学推理：基准测试评估大模型符号数学推理鲁棒性

AI总结提出ASyMOB基准，包含35,368个符号数学问题，通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足，并发现LLM与CAS的互补潜力。

Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark

URL PDF HTML

2605.03460 2026-06-18 cs.AI cs.LG 版本更新专题 80

FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models

FinSTaR：面向时间序列推理模型的金融推理

Seunghan Lee, Jun Seo, Jaehoon Lee, Sungdong Yoo, Minjae Kim, Tae Yoon Lim, Dongwan Kang, Hwanil Choi, Soonyoung Lee, Wonbin Ahn

专题命中数学推理：金融时间序列推理，涉及数学推理和链式思维。

AI总结针对时间序列推理模型在金融领域的失效问题，提出基于2x2能力分类法的FinSTaR模型，通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。

Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)

URL PDF HTML

2606.18810 2026-06-18 cs.LG cs.AI 新提交专题 75

Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

从自身解中学习：面向可验证奖励强化学习的自条件化信用分配

Yingyu Shan, Yuhang Guo, Zihao Cheng, Zeming Liu, Xiangrong Zhu, Xinyi Wang, Jiashu Yao, Wei Lin, Hongru Wang, Heyan Huang

专题命中数学推理：在数学、代码和智能体任务上提升推理

AI总结提出SC-GRPO方法，利用自条件化分布间的KL散度作为GRPO梯度的乘性权重，实现细粒度信用分配，在数学、代码和智能体任务上平均提升8.1%。

URL PDF HTML