AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 安全评测 18 篇
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior
SAE干预不可靠:干预后抑制行为的恢复
专题命中 安全评测 :揭示SAE特征干预不可靠,存在可恢复失败模式。
AI总结 研究发现稀疏自编码器(SAE)特征干预虽能抑制行为,但存在可恢复的失败模式,通过优化残差扰动可恢复原始行为,揭示特征级控制与行为完整性之间的差距。
Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/
RUB: Evaluating Residual Knowledge in Unlearned Models
RUB: 评估未学习模型中的残留知识
专题命中 安全评测 :评估未学习模型残留知识,对抗攻击
AI总结 提出鲁棒未学习原则及统一基准RUB,通过未学习映射攻击(UMA)检测残留信息,揭示现有方法在对抗评估下的脆弱性。
Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2026, pages 8550-8559
RELIANCE: Curating and Evaluating Reproductive Health Information on Social Media
RELIANCE: 策展与评估社交媒体上的生殖健康信息
专题命中 安全评测 :评估LLM在生殖健康信息事实核查中的能力与安全。
AI总结 针对TikTok上孕期和产后健康信息,构建专家标注数据集RELIANCE,评估LLM事实核查能力,发现近60%信息准确,但整体与具体声明评估存在15%差距。
Comments Accepted at Datasets and Benchmarks Track, ACM Knowledge Discovery and Data Mining (KDD) 2026. Project page: https://realize-lab.github.io/RELIANCE/
Giskard : Byzantine Robust and Confidential Aggregation for Large-Scale Decentralized Learning
Giskard: 大规模去中心化学习中的拜占庭鲁棒与机密聚合
专题命中 安全评测 :去中心化学习中的拜占庭鲁棒聚合,涉及安全
AI总结 针对去中心化学习中同时保证机密性和抵御拜占庭行为的挑战,提出Giskard协议,通过树状委员会结构和BGW风格MPC实现近似中位数聚合,在百万级参与者下降低通信复杂度并保持模型效用。
Comments 17 pages, with appendix
As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language
像火箭科学一样简单:评估大型语言模型解释比喻语言中否定能力的研究
专题命中 安全评测 :理解否定与比喻属于语言能力评测
AI总结 本研究通过开发新的注释数据集,测试多种大型语言模型在比喻语言中理解否定的能力,发现否定与比喻的组合对模型构成挑战,且性能高度依赖提示风格。
Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics
DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
DeFAb:基础模型中可废止溯因的可验证基准
专题命中 安全评测 :评估模型推理的严谨性
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc
2. 偏好对齐 2 篇
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
奖励一直就在你的数据中:用判别器引导的强化学习纠正流匹配
专题命中 偏好对齐 :使用RL进行偏好对齐,但主要针对图像生成
AI总结 针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷,提出判别器引导的强化学习(DRL),利用预训练空间中判别器的logit作为奖励,显著提升无引导FID和语义FD,并改善偏好对齐。
Comments 84 pages, including appendices