SEIF: Self-Evolving Reinforcement Learning for Instruction Following
SEIF:用于指令跟随的自演化强化学习
发表机构 * Shanghai Key Laboratory of Data Science, College of Computer Science and Artificial Intelligence, Fudan University(上海数据科学 key laboratory,计算机科学与人工智能学院,复旦大学) ; School of Data Science, Fudan University(数据科学学院,复旦大学) ; Ant Group(蚂蚁集团)
AI总结 SEIF提出了一种自演化框架,通过闭环自我进化提升大语言模型的指令跟随能力,通过动态调整指令难度与模型能力相互促进,实验表明其在多模型规模上均有效提升性能。