AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 安全评测 22 篇
SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents
SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害
专题命中 安全评测 :提出工具使用LLM代理安全基准,区分语义、审计和沙箱危害。
AI总结 提出SafeClawBench基准,通过三个独立端点(语义攻击接受、审计可见危害证据、沙箱观察危害)评估工具使用LLM代理的安全性,揭示不同失败模式并支持可复现比较。
Comments 32 pages, 5 figures
"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器
专题命中 安全评测 :评估语言模型谎言检测器
AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。
Comments 12 pages, 6 figures
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior
SAE干预不可靠:干预后抑制行为的恢复
专题命中 安全评测 :揭示SAE特征干预不可靠,存在可恢复失败模式。
AI总结 研究发现稀疏自编码器(SAE)特征干预虽能抑制行为,但存在可恢复的失败模式,通过优化残差扰动可恢复原始行为,揭示特征级控制与行为完整性之间的差距。
Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/
2. 偏好对齐 5 篇
SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR
SFT 过训练通过熵崩溃预测 RLVR 下的排名反转
专题命中 偏好对齐 :SFT过训练导致RLVR下排名反转
AI总结 研究发现 SFT 过度训练导致 rollout 分布熵降低,使 GRPO 中优势信号消失,从而引发排名反转;提出基于熵的两阶段诊断方法可预警高风险检查点。
Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026
3. 提示注入 3 篇
Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks
评估基于提示的防御策略对抗领域伪装注入攻击
专题命中 提示注入 :评估防御领域伪装注入攻击
AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。
Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026