arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 4 信号源:cs.CL, cs.AI, cs.CY, cs.LG
2605.17986 2026-06-18 cs.CR cs.AI 版本更新 专题 95

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

LivePI:更真实的智能体对抗间接提示注入基准测试

Lei Zhao, Abhay Bhaskar, Edgar Dobriban

专题命中 提示注入 :基准测试AI智能体对抗间接提示注入,核心是安全。

AI总结 提出LivePI基准,覆盖7种输入表面、12种攻击/渲染家族和5种恶意目标,在真实虚拟机环境中评估多个AI智能体,发现攻击成功率10.7%-29.6%,并验证了两层防御的有效性。

2606.18550 2026-06-18 cs.CR 新提交 专题 85

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

门仅与其合约一样诚实:面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中 提示注入 :防御间接提示注入攻击

AI总结 针对工具增强型LLM代理的间接提示注入,提出ContractGuard,通过验证合约完整性(而非风险标签)来防御攻击,在基准测试中实现零注入成功率。

2606.18530 2026-06-18 cs.CR cs.CL cs.LG 新提交 专题 85

Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks

评估基于提示的防御策略对抗领域伪装注入攻击

Aaditya Pai

专题命中 提示注入 :评估防御领域伪装注入攻击

AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。

Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026

2606.19235 2026-06-18 cs.CR 新提交 专题 80

CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts

CodeSentinel:代码上下文中针对间接提示注入的三层防御

Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

专题命中 提示注入 :针对代码上下文的提示注入防御

AI总结 针对代码大语言模型在检索外部代码时面临的间接提示注入攻击,提出CodeSentinel三层推理时净化器,结合语法引导预过滤、CST引导动态Min-K%评分和节点扰动分析,实现0.80节点级F1,优于现有方法。