TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics
TheoremBench: 评估LLMs在形式数学中的定理证明能力
发表机构 * Skolkovo Institute of Science and Technology(斯科尔科沃科学技术研究所) ; HSE University(高等经济大学) ; Artificial Intelligence Research Institute(人工智能研究所) ; Sberbank(俄罗斯联邦储蓄银行)
AI总结 提出TheoremBench基准,通过结构化定理族和细粒度评估指标,揭示当前证明器在复杂定理上的行为偏差。
Comments Preprint version (20 pages, 10 figures)