A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications
直接偏好优化综述:数据集、理论、变体及应用
专题命中 偏好对齐 :DPO是偏好对齐的核心方法之一
AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。
Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey