Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights
发表机构 * Amazon(亚马逊公司) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文针对大语言模型(LLM)幻觉检测的评估方法进行了重新思考,提出了一个用于构建有效幻觉检测基准(HDB)的期望属性列表,并指出现有基准在长上下文的RAG(检索增强生成)基准和真实标签噪声支持方面存在明显不足。为此,作者构建并开源了一个新的RAG-based幻觉检测基准T RIVIA+,该基准包含当前最长的上下文样本,并引入了多种噪声标签以模拟真实场景。实验表明,现有检测方法在RAG任务上仍有较大提升空间,且标签噪声对检测性能有显著影响。
Comments ACL 2026 main conference