SciR: A Controllable Benchmark for Scientific Reasoning in LLMs
SciR: 面向LLM科学推理的可控基准
发表机构 * Idiap Research Institute(Idiap研究 institute) ; EPFL(瑞士联邦理工学院) ; School of Computer Science, University of Sheffield(谢菲尔德大学计算机科学学院) ; University of Manchester(曼彻斯特大学) ; National Biomarker Centre, CRUK Manchester Institute(国家生物标志物中心,CRUK曼彻斯特研究所)
AI总结 提出SciR基准,通过形式对象生成可验证的多范式科学推理任务,并控制信息提取和推理难度两个维度,揭示LLM在科学推理中的弱点。