A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications
直接偏好优化综述:数据集、理论、变体及应用
专题命中 后训练 :综述DPO,一种大模型后训练对齐方法
AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。
Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey