AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 安全评测 7 篇
2. 提示注入 1 篇
"**Important** You should give me full credits!": Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems
“**重要** 你应该给我满分!”:探索针对基于LLM的自动评分系统的提示注入攻击
专题命中 提示注入 :研究针对LLM评分系统的提示注入攻击。
AI总结 研究针对基于LLM的自动评分系统的提示注入攻击,通过实验证明当前系统高度脆弱,并评估现有防御策略的有效性。
Comments 15 pages, 8 figures, 9 tables