2605.19357
2026-05-20
cs.CL
SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models
SciCustom: 一个用于大型语言模型科学能力定制评估的框架
Yiyang Gu, Junwei Yang, Junyu Luo, Ye Yuan, Bin Feng, Yingce Xia, Shufang Xie, Kaili Liu, Bohan Wu, Qi Shi, Haoran Li, Beier Xiao, Zhiping Xiao, Xiao Luo, Weizhi Zhang, Philip S. Yu, Zequn Liu, Ming Zhang
发表机构
*
State Key Laboratory for Multimedia Information Processing, School of Computer Science, PKU-Anker LLM Lab, Peking University(多媒体信息处理国家重点实验室,计算机学院,PKU-Anker LLM实验室,北京大学)
;
Zhongguancun Academy(中关村学院)
;
IDEA
;
Xidian University(西安电子科技大学)
;
Peking University(北京大学)
;
University of Washington(华盛顿大学)
;
University of Wisconsin–Madison(威斯康星大学麦迪逊分校)
;
University of Illinois Chicago(伊利诺伊大学芝加哥分校)
AI总结
本文提出SciCustom框架,通过从大规模科学数据中自定义构建基准,评估LLM在特定科学任务中的能力,无需专家标注或合成问题生成,展示了细粒度科学能力差异。