AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 4 篇信号源：cs.CL, cs.AI, cs.CY, cs.LG

2605.17986 2026-06-18 cs.CR cs.AI 版本更新专题 95

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

LivePI：更真实的智能体对抗间接提示注入基准测试

Lei Zhao, Abhay Bhaskar, Edgar Dobriban

专题命中提示注入：基准测试AI智能体对抗间接提示注入，核心是安全。

AI总结提出LivePI基准，覆盖7种输入表面、12种攻击/渲染家族和5种恶意目标，在真实虚拟机环境中评估多个AI智能体，发现攻击成功率10.7%-29.6%，并验证了两层防御的有效性。

URL PDF HTML

2606.18550 2026-06-18 cs.CR 新提交专题 85

门仅与其合约一样诚实：面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中提示注入：防御间接提示注入攻击

AI总结针对工具增强型LLM代理的间接提示注入，提出ContractGuard，通过验证合约完整性（而非风险标签）来防御攻击，在基准测试中实现零注入成功率。

URL PDF HTML

2606.18530 2026-06-18 cs.CR cs.CL cs.LG 新提交专题 85

评估基于提示的防御策略对抗领域伪装注入攻击

Aaditya Pai

专题命中提示注入：评估防御领域伪装注入攻击

AI总结针对领域伪装注入攻击，评估五种基于提示的防御方法（如释义、重点标记等）在三个模型家族和三个部署领域中的有效性，发现释义法最有效，可将伪装攻击成功率降低55-84%。

Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026

URL PDF HTML

2606.19235 2026-06-18 cs.CR 新提交专题 80

CodeSentinel：代码上下文中针对间接提示注入的三层防御

Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

专题命中提示注入：针对代码上下文的提示注入防御

AI总结针对代码大语言模型在检索外部代码时面临的间接提示注入攻击，提出CodeSentinel三层推理时净化器，结合语法引导预过滤、CST引导动态Min-K%评分和节点扰动分析，实现0.80节点级F1，优于现有方法。

URL PDF HTML