A Survey of On-Policy Distillation for Large Language Models
大型语言模型的在线策略蒸馏综述
发表机构 * Tencent, China(腾讯,中国)
专题命中 后训练 :综述在线策略蒸馏方法,涉及LLM后训练
AI总结 本文综述了大型语言模型的在线策略蒸馏方法,探讨了蒸馏过程中如何通过反馈减少累积误差,提出了基于f-散度最小化的蒸馏框架,并分析了蒸馏与强化学习之间的联系。
Comments Ongoing Work
AI 大模型
大语言模型、预训练、指令微调、后训练和语言模型应用。
大型语言模型的在线策略蒸馏综述
发表机构 * Tencent, China(腾讯,中国)
专题命中 后训练 :综述在线策略蒸馏方法,涉及LLM后训练
AI总结 本文综述了大型语言模型的在线策略蒸馏方法,探讨了蒸馏过程中如何通过反馈减少累积误差,提出了基于f-散度最小化的蒸馏框架,并分析了蒸馏与强化学习之间的联系。
Comments Ongoing Work
面向LLM推理的强化学习感知知识蒸馏
发表机构 * Meta ; Guo et al. ; Lin et al. ; Xu et al. ; Shao et al. ; Schulman et al. ; Xie et al.
专题命中 后训练 :强化学习感知知识蒸馏用于LLM推理
AI总结 提出RL感知蒸馏(RLAD),通过信任区域比率蒸馏(TRRD)在强化学习后训练中实现选择性模仿,解决分布不匹配和目标干扰问题,在逻辑推理和数学基准上优于现有方法。
AAPA:用于大型语言模型后训练的对抗锚定偏好对齐
发表机构 * Southwest University of Finance and Economics(西南财经大学)
专题命中 后训练 :提出对抗锚定偏好对齐框架,增强后训练目标
AI总结 提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。
模型汤只需一种成分
发表机构 * EPFL(瑞士联邦理工学院) ; EPFL LTS4(瑞士联邦理工学院 LTS4)
专题命中 后训练 :MonoSoup方法通过SVD实现单检查点模型汤
AI总结 提出MonoSoup方法,利用SVD分解单检查点的层更新,通过熵有效秩自动重加权成分,实现强分布内-分布外平衡,无需多检查点。