AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 红队测试 2 篇
2. 越狱攻击 3 篇
3. 安全评测 20 篇
Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families
可操作的激活方向:检测和缓解跨语言模型家族的突发性对齐失调
专题命中 安全评测 :研究微调导致的对齐失调,通过激活方向检测和缓解。
AI总结 通过差分均值方向在最终层实现99.6%的对齐/失调分离,因果干预将代码泄露降低21-51点;跨架构迁移虽有效但缺乏特异性,揭示了两层特异性结构。
Comments 12 pages, 2 figures
Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias
无效度的可靠性:LLM-as-a-Judge 模型在一致性、稳定性和偏差上的系统性大规模评估
专题命中 安全评测 :评估LLM-as-a-Judge的一致性、偏差等可靠性
AI总结 本研究通过大规模系统性评估(21个裁判模型、118次运行、约54.1万次判断),发现LLM-as-a-Judge在一致性、稳定性和偏差方面存在普遍问题,包括kappa通缩、排名偏移、高重测信度与严重位置偏差并存,并提出了最小可行验证协议。
Artificial Intelligence as Game Changer in Cybersecurity: What We Learned in 2025-2026, and how this is relevant for Africa
人工智能作为网络安全游戏规则改变者:2025-2026年我们学到的,以及这对非洲的意义
专题命中 安全评测 :讨论LLM在网络安全中的风险
AI总结 本文通过2025-2026年两个事件论证前沿语言模型已成为网络作战决定性工具,而非洲在模型构建、运营和获取上被完全排除,面临技能、算力和投资三重赤字,并遭受AI欺诈攻击,建议在6-12个月内通过威胁情报共享、治理采纳和伙伴关系应对。
Comments International Conference on Cybersecurity in the Era of Digital Transformation and Artificial Intelligence
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents
当较低权限足够时:探究LLM代理中的过度权限工具选择
专题命中 安全评测 :研究LLM代理过度权限工具选择的安全问题。
AI总结 针对LLM代理在工具选择中偏好高权限工具的安全问题,提出ToolPrivBench评估框架,发现主流代理普遍存在过度权限选择且被瞬态故障放大,并设计权限感知后训练防御方法有效减少不必要的高权限工具使用。
Comments code: https://github.com/AISafetyHub/agent-tool-selection-bias
REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection
REDACT:一个系统控制的个人信息检测多语言基准
专题命中 安全评测 :个人信息检测基准,评估隐私安全。
AI总结 提出REDACT基准,包含13,427条记录、51种实体类型、25种语言,通过强度-2覆盖阵列采样控制9个生成轴,并引入实体级元数据(披露状态、形式、GDPR敏感层级)以支持分层评估,揭示检测器在敏感数据上的架构依赖性失败模式。
Comments 14 pages, 5 figures
Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework
面向执行约束的自主AI自动化:一种可复现的AIBOM驱动的CSAF-VEX框架
专题命中 安全评测 :生成CSAF VEX公告,评估可利用性和执行策略。
AI总结 提出一种协议驱动框架,通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测,结合静态与运行时证据生成CSAF VEX公告,经密码签名和确定性重放验证,在合成自主AI工作负载上评估。
Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384
AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation
AutoTam: 通过 Tamarin 模型生成指定安全协议实现
专题命中 安全评测 :自动生成Tamarin模型验证协议安全
AI总结 提出一种语言优先方法,通过领域特定语言实现协议并自动生成 Tamarin 模型,验证迹属性并保证其传递到实现,同时集成符号执行分析内存安全,在签名 Diffie-Hellman 和 WireGuard 协议上验证了安全性和互操作性。
Comments 19 pages, 5 figures
4. 偏好对齐 4 篇
5. 提示注入 1 篇
A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots
基于RAG的聊天机器人中针对提示注入的分层安全框架
专题命中 提示注入 :三层防御框架对抗RAG聊天机器人中的提示注入
AI总结 提出三层防御框架,通过输入过滤、上下文指令层级和输出审计,将提示注入攻击成功率从71.4%降至11.3%,误报率4.8%,延迟开销61.2毫秒。
Comments Submitted in ICCK Transactions on Information Security and Cryptography