BEAVER: An Enterprise Benchmark for Text-to-SQL
AI总结 BEAVER 是首个基于私有数据仓库构建的文本到 SQL 基准测试集,旨在评估大语言模型在复杂企业环境中的表现。该基准包含来自真实查询日志的 9128 个问题-SQL 对,覆盖 19 个不同领域,涵盖复杂的数据库结构和专业领域知识。为解决企业数据稀缺和评估指标不足的问题,BEAVER 通过合成高质量专家验证查询,并引入细粒度子任务评估指标,揭示了当前先进模型在实际企业场景中的显著性能差距。
Comments Dataset and code are available at https://beaverbench.github.io/