On-Policy Distillation with Curriculum Turn-level Guidance for Multi-turn Agents
基于课程回合级指导的在线策略蒸馏用于多轮智能体
发表机构 * Foundation Model Research Center, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所基础模型研究中心) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; Large Language Model Department, Tencent(腾讯大语言模型部) ; University of Science and Technology of China(中国科学技术大学) ; Zhejiang University(浙江大学) ; National University of Singapore(新加坡国立大学) ; Wuhan AI Research(武汉人工智能研究院)
AI总结 针对多轮智能体在线策略蒸馏中错误累积导致教师监督失效的问题,提出混合教师和学生生成回合的Guided-OPD算法,通过课程式衰减教师干预概率,在ALFWorld等任务上平均提升21.1%得分和25.5%成功率。