AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models
AAPA:用于大型语言模型后训练的对抗锚定偏好对齐
发表机构 * Southwest University of Finance and Economics(西南财经大学)
专题命中 偏好对齐 :对抗锚定方法用于偏好对齐,防止策略漂移
AI总结 提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。