arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 2 信号源:cs.CL, cs.AI, cs.CY, cs.LG
2604.23130 2026-06-18 cs.CL cs.AI 版本更新 专题 90

From Concept-Aligned Tokens to Vulnerable Features: Mechanistic Localization of Jailbreaks

从概念对齐的Token到脆弱特征:越狱的机制定位

Nilanjana Das, Mathew Dawit, Aman Chadha, Manas Gaur

专题命中 越狱攻击 :机制定位越狱漏洞,分析有害特征

AI总结 提出一种基于Token的机制流水线,通过稀疏自编码器特征子组定位越狱漏洞,发现单个有害Token足以定位脆弱特征,且这些特征集中在中后期层。

2511.20002 2026-06-18 cs.CV cs.AI cs.CR 版本更新 专题 85

Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation

语义路由器:通过单一对抗扰动劫持多模态大语言模型的可行性研究

Changyue Li, Jiaying Li, Youliang Yuan, Jiaming He, Zhicong Huang, Pinjia He

专题命中 越狱攻击 :提出语义感知通用扰动劫持MLLM,属于越狱攻击。

AI总结 提出语义感知通用扰动(SAUP),作为语义路由器同时劫持多个无状态决策,通过理论分析和SORT优化策略实现,在Qwen上对五个目标达到66%攻击成功率。

Comments Accepted to ICML 2026