DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
DeFAb:基础模型中可废止溯因的可验证基准
专题命中 逻辑推理 :测试逻辑推理和理论推理能力
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc