大模型对齐与安全 - arXivDaily 专题

2410.15595 2026-06-18 cs.AI cs.CL cs.LG 版本更新专题 95

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

直接偏好优化综述：数据集、理论、变体及应用

Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu

专题命中偏好对齐：DPO是偏好对齐的核心方法之一

AI总结综述直接偏好优化（DPO）在理论、变体、数据集和应用方面的进展，指出其作为RL-free替代方案的潜力与局限，并提出未来研究方向。

Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey

URL PDF HTML

2606.18606 2026-06-18 cs.CL cs.AI 新提交专题 90

Steerable Cultural Preference Optimization of Reward Models

可引导的文化偏好优化奖励模型

Minsik Oh, Advit Deepak, Sophie Wu, Douwe Kiela, Ekaterina Shutova

专题命中偏好对齐：提出SCPO算法优化奖励模型文化偏好对齐

AI总结提出SCPO算法，通过平衡多种文化偏好训练奖励模型，在PRISM和GlobalOpinionQA数据集上提升少数群体偏好预测准确率最多7点，训练效率提高280%。

Comments Accepted to Pluralistic Alignment @ ICML 2026

URL PDF HTML

2606.18487 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 90

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

SFT 过训练通过熵崩溃预测 RLVR 下的排名反转

Siddharth Aphale, Kelly Liu

专题命中偏好对齐：SFT过训练导致RLVR下排名反转

AI总结研究发现 SFT 过度训练导致 rollout 分布熵降低，使 GRPO 中优势信号消失，从而引发排名反转；提出基于熵的两阶段诊断方法可预警高风险检查点。

Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026

URL PDF HTML

2606.16276 2026-06-18 cs.AI 新提交专题 90

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

SpecAlign: 通过合成数据实现高效的大语言模型规范对齐

Wenjie Wang, Yue Huang, Zhengqing Yuan, Han Bao, Shiyi Du, Yuchen Ma, Yue Zhao, Yanfang Ye, Xiangliang Zhang

专题命中偏好对齐：规范对齐框架，合成数据实现规则遵守

AI总结提出规范对齐新范式，通过从规范文档合成数据（SpecAlign框架），结合结构化规则标注、可控规范实例化和多智能体对抗数据合成，生成细粒度偏好对，提升规则遵守度且不损害通用能力。

Comments 58 pages

URL PDF HTML

2601.17637 2026-06-18 cs.CY cs.HC 专题 90

Scaling Laws for Moral Machine Judgment in Large Language Models

大语言模型中道德机器判断的扩展规律

Kazuhiro Takemoto

专题命中偏好对齐：研究LLM道德判断与人类偏好对齐的扩展规律

AI总结研究通过评估75种大语言模型配置，发现模型规模与人类偏好距离呈幂律关系，扩展推理模型在较小规模时表现更优，为价值判断的扩展规律研究提供依据。

Comments 12 pages, 4 figures, 3 tables

Journal ref R Soc Open Sci. (2026) 13 (6): 260202

URL PDF HTML

2606.18327 2026-06-18 cs.LG cs.AI 新提交专题 70

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL：基于强化学习的自一致性训练

Itamar Pres, Laura Ruis, Melat Ghebreselassie, Belinda Z. Li, Jacob Andreas

专题命中偏好对齐：通过强化学习优化语言模型自我解释与行为一致性。

AI总结提出Self-CTRL方法，通过强化学习优化语言模型自我解释与行为之间的一致性，在概率推理和宪法AI任务上显著提升一致性和安全性。

Comments 34 pages, 12 figures, includes appendices

URL PDF HTML

2606.19162 2026-06-18 cs.LG cs.CV 新提交专题 60

The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

奖励一直就在你的数据中：用判别器引导的强化学习纠正流匹配

Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal

专题命中偏好对齐：使用RL进行偏好对齐，但主要针对图像生成

AI总结针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷，提出判别器引导的强化学习（DRL），利用预训练空间中判别器的logit作为奖励，显著提升无引导FID和语义FD，并改善偏好对齐。

Comments 84 pages, including appendices

URL PDF HTML