AdaGRPO: A Capability-Aware Adaptive Enhancement for Flow-based GRPO
AdaGRPO: 一种面向基于流的GRPO的能力感知自适应增强方法
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; S-Lab, Nanyang Technological University(南洋理工大学S实验室) ; Shanghai AI Laboratory(上海人工智能实验室) ; University of Science and Technology of China(中国科学技术大学) ; Stanford University(斯坦福大学) ; Shanghai Innovation Institute(上海创新研究院) ; The Chinese University of Hong Kong(香港中文大学) ; Fudan University(复旦大学) ; CPII under InnoHK(InnoHK下的CPII) ; Adobe Research(Adobe研究)
AI总结 提出AdaGRPO,通过在线课程过滤策略和跨层级优势融合,解决流模型GRPO中提示选择随机和优势估计缺乏全局视角的问题,提升训练稳定性和性能。
Comments Project Website: https://bujiazi.github.io/adagrpo.github.io/