AI 大模型
大模型推理能力
大模型数学、逻辑、规划、多步推理和测试时计算能力。
1. 数学推理 5 篇
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
STARE: 基于惊讶度的令牌级优势重加权以实现策略熵稳定性
专题命中 数学推理 :GRPO策略熵稳定性方法,提升推理
AI总结 针对GRPO等RL算法中策略熵崩溃问题,提出STARE方法,通过惊讶度分位数识别熵关键令牌并重加权其优势,结合目标熵闭环门控稳定熵,在1.5B-32B模型和多种任务上实现稳定训练,AIME24/25准确率提升4%-8%。
Comments LLM, Reinforcement Learning
LLM Parameters for Math Across Languages: Shared or Separate?
跨语言数学问题的LLM参数:共享还是分离?
专题命中 数学推理 :跨语言数学推理的机制分析
AI总结 通过跨语言机制分析,发现多语言LLM中数学相关参数存在部分跨语言重叠,且主要集中在中间层,英语参数集最大,低资源语言参数集较小。
Comments 5 pages. Accepted at ACL Student Research Workshop (SRW) 2026. Code: https://github.com/luisavictor/math-across-languages Translated Datasets: https://huggingface.co/math-across-languages Webpage: https://math-across-languages.github.io
2. 测试时计算 1 篇
3. 规划推理 5 篇
ForecastBench-Sim: A Simulated-World Forecasting Benchmark
ForecastBench-Sim:一个模拟世界预测基准
专题命中 规划推理 :模拟世界预测基准,评估概率推理
AI总结 提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim,通过游戏回滚生成可控、即时可解的预测问题,用于评估AI系统的概率推理能力。
Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026
4. 复杂问题求解 3 篇
AGDN: Learning to Solve Traveling Salesman Problem with Anisotropic Graph Diffusion Network
AGDN:利用各向异性图扩散网络学习求解旅行商问题
专题命中 复杂问题求解 :图神经网络求解TSP,属于组合优化推理
AI总结 提出各向异性图扩散网络(AGDN),通过MixScore转移矩阵和各向异性扩散策略,有效利用图结构信息求解旅行商问题,在多种实例规模和分布上优于现有方法。
Comments Accepted at the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)
5. 逻辑推理 3 篇
DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
DeFAb:基础模型中可废止溯因的可验证基准
专题命中 逻辑推理 :测试逻辑推理和理论推理能力
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc
PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding
PragReST:用于语用语言理解的自我强化反事实推理
专题命中 逻辑推理 :自我强化反事实推理提升语用语言理解
AI总结 提出PragReST框架,通过自监督构建语用问答数据、生成反事实推理轨迹,结合监督微调和强化学习提升大语言模型的语用推理能力,在四个基准上显著优于基线模型。
Comments First two authors contributed equally. Code and models: https://github.com/jihyung803/PragReST