Process-Verified Reinforcement Learning for Theorem Proving via Lean
基于Lean的过程验证强化学习用于定理证明
发表机构 * KAIST AI(韩国科学技术院人工智能系)
专题命中 数学推理 :定理证明强化学习
AI总结 提出利用Lean证明助手提供过程级验证信号,结合GRPO风格强化学习目标,通过策略级监督提升定理证明性能。
AI 大模型
大模型数学、逻辑、规划、多步推理和测试时计算能力。
基于Lean的过程验证强化学习用于定理证明
发表机构 * KAIST AI(韩国科学技术院人工智能系)
专题命中 数学推理 :定理证明强化学习
AI总结 提出利用Lean证明助手提供过程级验证信号,结合GRPO风格强化学习目标,通过策略级监督提升定理证明性能。
CombEval:评估大语言模型中组合计数的框架
发表机构 * School of Artificial Intelligence, Jilin University(吉林大学人工智能学院) ; Czech Technical University in Prague(捷克布拉格理工大学) ; CRRC Zhuzhou Institute(中车株洲研究所) ; Tengen Intelligence Institute(天元智能研究院) ; International Center of Future Science, Jilin University(吉林大学未来科学国际合作中心) ; Engineering Research Center of Knowledge-Driven Human-Machine Intelligence, MOE(教育部知识驱动人机智能工程研究中心)
专题命中 数学推理 :评估LLM在组合计数问题上的推理能力。
AI总结 提出CombEval动态基准,通过类型化Cofola规范生成组合计数问题,评估11个大语言模型在直接和代码增强设置下的表现,发现模型在有序对象、不可区分元素、相对位置约束和嵌套对象依赖上存在脆弱性。
Comments under review. Code: https://github.com/YuxuZhou-CN/combination-problem-generation
VERITAS:验证器引导的零样本形式定理证明搜索
发表机构 * Department of Computer Science, Vanderbilt University(范德堡大学计算机科学系) ; Amazon(亚马逊)
专题命中 数学推理 :验证器引导的零样本形式定理证明。
AI总结 提出VERITAS框架,通过两阶段协议(Best-of-N采样+批评引导MCTS)利用验证器反馈进行零样本定理证明,在miniF2F上达40.6%准确率,并发布组合学基准VERITAS-CombiBench。
高效表示链式思维Transformer中的算法
发表机构 * Allen Institute for AI(艾伦人工智能研究所) ; ETH Zürich(苏黎世联邦理工学院)
专题命中 数学推理 :证明CoT Transformer高效模拟Word RAM算法,涉及排序等推理
AI总结 本文证明链式思维Transformer能以多对数开销高效模拟Word RAM算法,包括排序和Dijkstra算法,优于模拟图灵机的二次开销。
困难还是未触及?诊断数学推理难度估计中的采样盲点
发表机构 * Sapienza University of Rome(罗马大学)
专题命中 数学推理 :诊断数学推理难度估计中的采样盲点,提出确定性采样。
AI总结 发现pass@k在数学推理难度估计中存在盲点,通过激活嫁接的确定性采样可恢复10.3-22.9%的零解样本,揭示结构可识别性。
Comments 9 pages of main paper, 4 figures and 5 tables in the main paper, with more in the appendix
VIMPO: 值隐式策略优化用于大语言模型
发表机构 * UC Berkeley(加州大学伯克利分校) ; Yale University(耶鲁大学)
专题命中 数学推理 :方法在数学推理基准上优于GRPO。
AI总结 提出VIMPO方法,通过KL正则化强化学习的最优条件导出策略隐含值函数,无需训练评论家,实现细粒度信用分配,在数学推理基准上优于GRPO。
MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体
发表机构 * University of Innsbruck(因斯布鲁克大学) ; University of British Columbia(不列颠哥伦比亚大学) ; Toronto Metropolitan University(多伦多都会大学)
专题命中 数学推理 :处理金融数值推理,涉及多步计算
AI总结 提出MoCA-Agent,通过声明级验证和代码生成解决金融表格问答中的数值推理错误,在十个基准上取得强性能。