AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks
评估基于提示的防御策略对抗领域伪装注入攻击
专题命中 提示注入 :评估防御领域伪装注入攻击
AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。
Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026