arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 4 信号源:cs.CL, cs.AI, cs.LG
2606.18557 2026-06-18 cs.AI cs.LG cs.LO 新提交 专题 85

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb:基础模型中可废止溯因的可验证基准

Patrick Cooper, Alvaro Velasquez

专题命中 逻辑推理 :测试逻辑推理和理论推理能力

AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。

Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc

2606.15633 2026-06-18 cs.LG 新提交 专题 85

Formalizing and Mitigating Structural Distortion in LLM Attention for Graph Reasoning

形式化并缓解大语言模型注意力中的结构失真以实现零样本图推理

Donald Loveland, Puja Trivedi, Ari Weinstein, Edward W Huang, Danai Koutra

专题命中 逻辑推理 :图推理中的结构失真缓解,提升LLM推理

AI总结 本文形式化了大语言模型处理文本属性图时因图线性化导致的结构失真机制,并提出轻量级推理时修改方法GaLA,通过校正注意力偏差提升零样本图推理性能。

Comments Accepted to KDD 2026

2606.18624 2026-06-18 cs.CL 新提交 专题 80

PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding

PragReST:用于语用语言理解的自我强化反事实推理

Jihyung Park, Minchao Huang, Leqi Liu, Elias Stengel-Eskin

专题命中 逻辑推理 :自我强化反事实推理提升语用语言理解

AI总结 提出PragReST框架,通过自监督构建语用问答数据、生成反事实推理轨迹,结合监督微调和强化学习提升大语言模型的语用推理能力,在四个基准上显著优于基线模型。

Comments First two authors contributed equally. Code and models: https://github.com/jihyung803/PragReST

2505.12369 2026-06-18 cs.AI cs.LG cs.LO 版本更新 专题 70

Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations

知识图谱上具有传递关系的全几何多跳推理

Fernando Zhapa-Camacho, Robert Hoehndorf

专题命中 逻辑推理 :知识图谱多跳逻辑推理,几何嵌入方法

AI总结 提出GeometrE方法,将逻辑操作映射为纯几何变换,并引入传递损失函数,在保持可解释性的同时提升多跳推理性能。

Comments Accepted at ESWC 2026

Journal ref The Semantic Web. ESWC 2026. Lecture Notes in Computer Science, vol 16549. Springer, Cham (2026)