Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints
发表机构 * University of Toronto(多伦多大学) ; Vector Institute(向量研究所) ; Max Planck Institute for Intelligent Systems(智能系统马克斯·普朗克研究所) ; ELLIS Institute Tübingen(图宾根ELLIS研究所)
AI总结 本文介绍了 Stargazer,一个用于评估人工智能代理在天体物理约束下进行动态模型拟合任务的可扩展基准环境。该环境基于径向速度时间序列数据,包含120个任务,涵盖从高信噪比单行星系统到复杂低信噪比多行星系统的多种场景,并包含20个真实档案案例。研究发现,尽管现有前沿代理在统计拟合上表现良好,但在物理参数恢复方面仍存在显著不足,且增加计算资源带来的提升有限。Stargazer 为训练和评估人工智能代理在实际科研相关模型拟合问题上的能力提供了重要平台。