AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 提示注入 1 篇
2. 偏好对齐 1 篇
A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications
直接偏好优化综述:数据集、理论、变体及应用
专题命中 偏好对齐 :DPO是偏好对齐的核心方法之一
AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。
Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey
3. 越狱攻击 2 篇
4. 安全评测 5 篇
Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads
基于不确定性感知注意力头的高效大语言模型幻觉检测
专题命中 安全评测 :无监督幻觉检测,提升LLM可靠性
AI总结 提出RAUQ框架,利用不确定性感知注意力头与令牌级置信度,通过单次前向传递实现无监督、高效的序列级幻觉检测,在12个数据集上优于现有方法且额外计算少于1%。
Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea, 2026
RUB: Evaluating Residual Knowledge in Unlearned Models
RUB: 评估未学习模型中的残留知识
专题命中 安全评测 :评估未学习模型残留知识,对抗攻击
AI总结 提出鲁棒未学习原则及统一基准RUB,通过未学习映射攻击(UMA)检测残留信息,揭示现有方法在对抗评估下的脆弱性。
Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2026, pages 8550-8559