AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents
SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害
专题命中 安全评测 :提出工具使用LLM代理安全基准,区分语义、审计和沙箱危害。
AI总结 提出SafeClawBench基准,通过三个独立端点(语义攻击接受、审计可见危害证据、沙箱观察危害)评估工具使用LLM代理的安全性,揭示不同失败模式并支持可复现比较。
Comments 32 pages, 5 figures
"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器
专题命中 安全评测 :评估语言模型谎言检测器
AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。
Comments 12 pages, 6 figures
Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads
基于不确定性感知注意力头的高效大语言模型幻觉检测
专题命中 安全评测 :无监督幻觉检测,提升LLM可靠性
AI总结 提出RAUQ框架,利用不确定性感知注意力头与令牌级置信度,通过单次前向传递实现无监督、高效的序列级幻觉检测,在12个数据集上优于现有方法且额外计算少于1%。
Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea, 2026
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior
SAE干预不可靠:干预后抑制行为的恢复
专题命中 安全评测 :揭示SAE特征干预不可靠,存在可恢复失败模式。
AI总结 研究发现稀疏自编码器(SAE)特征干预虽能抑制行为,但存在可恢复的失败模式,通过优化残差扰动可恢复原始行为,揭示特征级控制与行为完整性之间的差距。
Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/
RUB: Evaluating Residual Knowledge in Unlearned Models
RUB: 评估未学习模型中的残留知识
专题命中 安全评测 :评估未学习模型残留知识,对抗攻击
AI总结 提出鲁棒未学习原则及统一基准RUB,通过未学习映射攻击(UMA)检测残留信息,揭示现有方法在对抗评估下的脆弱性。
Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2026, pages 8550-8559
RELIANCE: Curating and Evaluating Reproductive Health Information on Social Media
RELIANCE: 策展与评估社交媒体上的生殖健康信息
专题命中 安全评测 :评估LLM在生殖健康信息事实核查中的能力与安全。
AI总结 针对TikTok上孕期和产后健康信息,构建专家标注数据集RELIANCE,评估LLM事实核查能力,发现近60%信息准确,但整体与具体声明评估存在15%差距。
Comments Accepted at Datasets and Benchmarks Track, ACM Knowledge Discovery and Data Mining (KDD) 2026. Project page: https://realize-lab.github.io/RELIANCE/