大模型推理能力 - arXivDaily 专题

2606.18954 2026-06-18 cs.CL 新提交专题 85

GraphPO: Graph-based Policy Optimization for Reasoning Models

GraphPO：基于图的推理模型策略优化

Yuliang Zhan, Xinyu Tang, Jian Li, Dandan Zheng, Weilong Chai, Jingdong Chen, Jun Zhou, Ge Wu, Wenyue Tang, Hao Sun

专题命中复杂问题求解：基于图的策略优化提高推理模型效率。

AI总结提出GraphPO框架，将推理轨迹建模为有向无环图，通过合并语义等价路径减少冗余探索，并利用边级优势函数提高推理效率，在多个基准上优于链式和树式方法。

URL PDF HTML

2604.28076 2026-06-18 cs.CL cs.AI cs.LG 版本更新专题 85

TopBench: A Benchmark for Implicit Predictive Reasoning in Tabular Question Answering

TopBench：表格问答中隐式预测推理的基准

An-Yang Ji, Jun-Peng Jiang, De-Chuan Zhan, Han-Jia Ye

专题命中复杂问题求解：表格问答中隐式预测推理的基准

AI总结提出TopBench基准，包含779个样本和四个子任务，评估大语言模型在表格问答中识别隐式预测意图并进行可靠推理的能力，发现当前模型在意图识别上存在困难。

URL PDF HTML

2606.18831 2026-06-18 cs.CL cs.AI 新提交专题 80

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

超越奖励工程：长上下文强化学习的数据配方

Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao

专题命中复杂问题求解：提升长上下文推理，涉及检索、多证据合成和推理任务

AI总结提出一种简单有效的数据配方，结合最小化基于结果的GRPO设置，显著提升大语言模型的长上下文推理能力，在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。

Comments 15 pages, 6 figures, 12 tables

URL PDF HTML

2509.22363 2026-06-18 cs.LG eess.AS 版本更新专题 70

Investigating Faithfulness in Large Audio Language Models

大型音频语言模型中的忠实性研究

Pooneh Mousavi, Lovenya Jain, Mirco Ravanelli, Cem Subakan

专题命中复杂问题求解：研究链式推理的忠实性，涉及推理评估

AI总结提出系统框架评估大型音频语言模型在推理链忠实性上的表现，定义三个音频忠实性标准，并通过基准测试发现模型推理与音频输入存在脱节。

Comments Accepted to Interspeech 2026

URL PDF HTML

2603.05128 2026-06-18 eess.AS cs.SD 版本更新专题 70

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

PolyBench：多声部音频中组合推理的基准测试

Yuanjian Chen, Yang Xiao, Han Yin, Xubo Liu, Jinjie Huang, Ting Dang

专题命中复杂问题求解：评估音频大模型的组合推理能力

AI总结针对多声部音频中组合推理评估缺失的问题，提出PolyBench基准，包含计数、分类、检测、并发和时长估计五个子集，评估发现现有大音频语言模型在多声部场景下性能持续下降。

Comments Accepted by INTERSPEECH 2026

URL PDF HTML

2503.01805 2026-06-18 cs.LG cs.AI cs.CL 版本更新专题 70

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

图任务算法推理中Transformer的深度-宽度权衡

Gilad Yehudai, Clayton Sanford, Maya Bechler-Speicher, Orr Fischer, Ran Gilad-Bachrach, Amir Globerson

专题命中复杂问题求解：研究Transformer在图算法任务中的推理能力。

AI总结研究Transformer在图算法任务中深度与宽度的权衡，发现线性宽度下常数深度足以解决许多图问题，而某些问题需要二次宽度，实验验证了宽模型在保持精度的同时训练和推理更快。

Comments Updated ISF grant number

URL PDF HTML

2601.17226 2026-06-18 cs.CL cs.AI 版本更新专题 70

Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Retelling

复述、奖励、重复：面向叙事理论启发的故事复述的强化学习

David Y. Liu, Xanthe Muston, Dipankar Srirag, Aditya Joshi, Sebastian Sequoiah-Grayson

专题命中复杂问题求解：提升故事复述的逻辑性和合理性

AI总结提出RRR强化学习框架，结合结构主义叙事学与标量叙事性，通过d-RLAIF从文本特征中获取训练信号，无需参考输出，提升LLM故事复述的逻辑性、合理性和完整性。

Comments 8 Pages, 7 figures

URL PDF HTML

2606.19185 2026-06-18 cs.LG 新提交专题 60

AGDN: Learning to Solve Traveling Salesman Problem with Anisotropic Graph Diffusion Network

AGDN：利用各向异性图扩散网络学习求解旅行商问题

Bolin Shen, Ziwei Huang, Zhiguang Cao, Yushun Dong

专题命中复杂问题求解：图神经网络求解TSP，属于组合优化推理

AI总结提出各向异性图扩散网络（AGDN），通过MixScore转移矩阵和各向异性扩散策略，有效利用图结构信息求解旅行商问题，在多种实例规模和分布上优于现有方法。

Comments Accepted at the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)

URL PDF HTML