AI 大模型
大模型推理能力
大模型数学、逻辑、规划、多步推理和测试时计算能力。
1. 规划推理 2 篇
2. 复杂问题求解 5 篇
3. 数学推理 3 篇
ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark
ASyMOB:代数符号数学运算基准
专题命中 数学推理 :基准测试评估大模型符号数学推理鲁棒性
AI总结 提出ASyMOB基准,包含35,368个符号数学问题,通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足,并发现LLM与CAS的互补潜力。
Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark
FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models
FinSTaR:面向时间序列推理模型的金融推理
专题命中 数学推理 :金融时间序列推理,涉及数学推理和链式思维。
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)
4. 逻辑推理 1 篇
Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations
知识图谱上具有传递关系的全几何多跳推理
专题命中 逻辑推理 :知识图谱多跳逻辑推理,几何嵌入方法
AI总结 提出GeometrE方法,将逻辑操作映射为纯几何变换,并引入传递损失函数,在保持可解释性的同时提升多跳推理性能。
Comments Accepted at ESWC 2026
Journal ref The Semantic Web. ESWC 2026. Lecture Notes in Computer Science, vol 16549. Springer, Cham (2026)