AI 大模型
大模型推理能力
大模型数学、逻辑、规划、多步推理和测试时计算能力。
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
STARE: 基于惊讶度的令牌级优势重加权以实现策略熵稳定性
专题命中 数学推理 :GRPO策略熵稳定性方法,提升推理
AI总结 针对GRPO等RL算法中策略熵崩溃问题,提出STARE方法,通过惊讶度分位数识别熵关键令牌并重加权其优势,结合目标熵闭环门控稳定熵,在1.5B-32B模型和多种任务上实现稳定训练,AIME24/25准确率提升4%-8%。
Comments LLM, Reinforcement Learning
LLM Parameters for Math Across Languages: Shared or Separate?
跨语言数学问题的LLM参数:共享还是分离?
专题命中 数学推理 :跨语言数学推理的机制分析
AI总结 通过跨语言机制分析,发现多语言LLM中数学相关参数存在部分跨语言重叠,且主要集中在中间层,英语参数集最大,低资源语言参数集较小。
Comments 5 pages. Accepted at ACL Student Research Workshop (SRW) 2026. Code: https://github.com/luisavictor/math-across-languages Translated Datasets: https://huggingface.co/math-across-languages Webpage: https://math-across-languages.github.io
ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark
ASyMOB:代数符号数学运算基准
专题命中 数学推理 :基准测试评估大模型符号数学推理鲁棒性
AI总结 提出ASyMOB基准,包含35,368个符号数学问题,通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足,并发现LLM与CAS的互补潜力。
Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark
FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models
FinSTaR:面向时间序列推理模型的金融推理
专题命中 数学推理 :金融时间序列推理,涉及数学推理和链式思维。
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)