2606.14516
2026-06-15
cs.AI
cs.CL
cs.CY
新提交
Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results
Every Eval Ever:AI评估结果的统一模式与社区仓库
Jan Batzner, Sree Harsha Nelaturu, Anastassia Kornilova, Jon Crall, Tommaso Cerruti, Yanan Long, Yifan Mai, Sanchit Ahuja, Asaf Yehudai, Marek Šuppa, John P. Lalor, Oluwagbemike Olowe, Jatin Ganhotra, Brian H. Hu, Eliya Habba, Andrew M. Bean, Chang Liu, Sander Land, Steven Dillmann, Aniketh Garikaparthi, Elron Bandel, Saki Imai, James Edgell, Wm. Matthew Kennedy, Jenny Chim, Patrick Meusling, Asteria Kaeberlein, Venkata Ramachandra Karthik Chundi, Manasi Patwardhan, Martin Ku, Austin Meek, Leon Knauer, Brian Wingenroth, Srishti Yadav, Usman Gohar, Felix Friedrich, Michelle Lin, Jennifer Mickel, Arman Cohan, Stella Biderman, Irene Solaiman, Zeerak Talat, Anka Reuel, Mubashara Akhtar, Gjergji Kasneci, Avijit Ghosh, Leshem Choshen
发表机构
*
Technical University Munich(慕尼黑工业大学)
;
Munich Center for Machine Learning(慕尼黑机器学习中心)
;
Weizenbaum Institute(魏岑鲍姆研究所)
;
Zuse Institute Berlin(柏林祖泽研究所)
;
Evidence Prime
;
Trustible
;
Kitware
;
ETH Zurich(苏黎世联邦理工学院)
;
StickFlux Labs
;
Stanford University(斯坦福大学)
;
Northeastern University(东北大学)
;
IBM Research(IBM研究院)
;
Comenius University Bratislava(布拉迪斯拉发夸美纽斯大学)
;
Cisco(思科)
;
University of Notre Dame(圣母大学)
;
Hebrew University of Jerusalem(耶路撒冷希伯来大学)
;
University of Oxford(牛津大学)
;
Ohio University(俄亥俄大学)
;
Writer
;
TCS Research(塔塔咨询服务研究院)
;
Oxford University Press(牛津大学出版社)
;
Queen Mary University of London(伦敦玛丽女王大学)
;
Technical University Berlin(柏林工业大学)
;
University of Delaware(特拉华大学)
;
Cinemo
;
Johns Hopkins University(约翰霍普金斯大学)
;
University of Copenhagen(哥本哈根大学)
;
ELLIS(欧洲学习与智能系统实验室)
;
Iowa State University(爱荷华州立大学)
;
Meta FAIR
;
University of Montreal(蒙特利尔大学)
;
Mila Quebec AI Institute(Mila魁北克人工智能研究所)
;
EleutherAI
;
Yale University(耶鲁大学)
;
Hugging Face
;
University of Edinburgh(爱丁堡大学)
;
Harvard University(哈佛大学)
;
ETH AI Center(ETH人工智能中心)
;
MIT(麻省理工学院)
;
MIT-IBM Watson Lab(MIT-IBM沃森实验室)
AI总结
针对AI评估结果格式不统一、难以比较的问题,提出首个共享模式与社区众包仓库,通过标准化表示、自动转换器和社区数据库实现跨评估框架的统一。