2605.13301
2026-05-14
cs.AI
cs.CL
Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng
发表机构
*
Shanghai AI Laboratory(上海人工智能实验室)
;
The Chinese University of Hong Kong(香港中文大学)
;
Tsinghua University(清华大学)
;
Shanghai Jiao Tong University(上海交通大学)
;
Peking University(北京大学)
AI总结
本文提出了一种简单统一的方法,将预训练的推理模型转化为能够达到国际数学和物理奥林匹克竞赛金牌水平的解题系统。该方法通过逆困惑度课程进行监督微调,培养严格的证明搜索与自我检查能力,并通过两阶段强化学习流程逐步提升模型性能,最终通过测试时扩展进一步提高解题效果。实验表明,基于该方法训练的模型SU-01在数学与物理竞赛中表现出色,同时在科学推理的跨领域泛化能力方面也表现出色。