大模型对齐与安全

2606.20408 2026-06-19 cs.CR cs.AI 新提交专题 95

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

LLM智能体安全性、多轮红队测试、越狱基准、对抗鲁棒性、安全关键系统

Hanwool Lee, Dasol Choi, Bokyeong Kim, Seung Geun Kim, Haon Park

专题命中红队测试：多轮红队测试基准评估LLM智能体在安全关键系统中的鲁棒性

AI总结提出NRT-Bench基准，通过模拟核电站控制室的多轮红队测试，评估LLM智能体在安全关键系统中的对抗鲁棒性，发现不同模型的漏洞几乎不重叠，且防御效果高度依赖模型。

URL PDF HTML

2606.19887 2026-06-19 cs.CR cs.AI 新提交专题 90

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

FFinRED：面向金融大语言模型红队测试的专家引导基准生成与评估框架

Chaeyun Kim, Daeyoung Park, Junghwan Kim, Jinyoung Jeong, Eunji Song, Yongtaek Lim, Minwoo Kim

专题命中红队测试：金融LLM红队测试框架，专家引导。

AI总结提出FinRED框架，通过专家引导的两级分类法将全球金融标准映射为威胁，并利用真实金融文档生成上下文丰富的红队行为提示，结合专家验证的评估标准，有效降低关键假阴性。

URL PDF HTML

2606.20508 2026-06-19 cs.AI cs.LG 新提交专题 90

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

安全对齐的LLM从混合顺从演示中学到了什么？

Sihui Dai, Mann Patel

专题命中越狱攻击：研究混合顺从演示对LLM有害顺从的影响

AI总结研究通过混合良性顺从演示和有害顺从演示，探究演示组成如何驱动有害顺从，发现演示内容、顺序和训练方法影响模型提取的信息。

URL PDF HTML

2606.20470 2026-06-19 cs.CR cs.AI 新提交专题 90

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

分析针对基于模型引导的自动化攻击的防御性误导策略在智能体AI系统中的应用

Reza Soosahabi, Vivek Namsani

专题命中越狱攻击：分析防御性误导策略对抗自动化越狱攻击。

AI总结本文通过概率模型分析智能体AI系统的攻击-防御场景，提出“检测-误导”策略（如CMPE）以替代传统“检测-拦截”方法，通过产生误导性响应降低攻击者成功率，并在基准测试中将攻击成功率上限降低两个数量级。

URL PDF HTML

2606.19535 2026-06-19 cs.CR cs.LG 新提交专题 90

FloatDoor: Platform-Triggered Backdoors in LLMs

FloatDoor: 大语言模型中的平台触发后门

Nils Loose, Jonas Sander, Felix Mächtle, Thomas Eisenbarth

专题命中越狱攻击：提出平台触发的后门攻击方法

AI总结提出FloatDoor，首个输入无关、平台触发的后门攻击，利用浮点运算平台差异，通过两个轻量LoRA适配器在目标平台触发恶意行为，同时保持模型正常效用。

URL PDF HTML

2606.20225 2026-06-19 cs.CL 新提交专题 90

Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families

可操作的激活方向：检测和缓解跨语言模型家族的突发性对齐失调

Abdul Rafay Syed

专题命中安全评测：研究微调导致的对齐失调，通过激活方向检测和缓解。

AI总结通过差分均值方向在最终层实现99.6%的对齐/失调分离，因果干预将代码泄露降低21-51点；跨架构迁移虽有效但缺乏特异性，揭示了两层特异性结构。

Comments 12 pages, 2 figures

URL PDF HTML

2606.19890 2026-06-19 cs.CY 新提交专题 90

Open Weight AI Models Require Proportional Evaluation Approaches

开放权重AI模型需要比例评估方法

Patricia Paskov, Christopher Rodriguez, Sunishchal Dev, Stephen Casper

专题命中安全评测：开放权重模型比例评估方法，安全评测。

AI总结本文针对开放权重AI模型（OWMs）的独特风险因素，提出四种比例评估方法（PE1-PE4），并系统审查2025年至2026年4月发布的37个OWM系列，发现仅一个满足所有评估要求。

URL PDF HTML

2606.19755 2026-06-19 cs.CR cs.AI 新提交专题 90

SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling

SafeSpec: 通过动态反射采样实现快速且安全的LLM

Haotian Xu, Zeyang Zhang, Linbao Li, Huadi Zheng, Yu Li, Cheng Zhuo

专题命中安全评测：提出安全感知的推测解码框架，防御越狱攻击。

AI总结提出SafeSpec框架，将轻量安全头集成到推测解码的验证过程中，通过风险估计和反射采样恢复安全生成，在保持加速的同时显著降低攻击成功率。

URL PDF HTML

2606.19544 2026-06-19 cs.CL 新提交专题 90

Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias

无效度的可靠性：LLM-as-a-Judge 模型在一致性、稳定性和偏差上的系统性大规模评估

Justin D. Norman, Michael U. Rivera, D. Alex Hughes

专题命中安全评测：评估LLM-as-a-Judge的一致性、偏差等可靠性

AI总结本研究通过大规模系统性评估（21个裁判模型、118次运行、约54.1万次判断），发现LLM-as-a-Judge在一致性、稳定性和偏差方面存在普遍问题，包括kappa通缩、排名偏移、高重测信度与严重位置偏差并存，并提出了最小可行验证协议。

URL PDF HTML

2606.08892 2026-06-19 cs.LG 新提交专题 90

Diffuse AI Control on Fuzzy Tasks

模糊任务上的扩散AI控制

Mikhail Terekhov, Caglar Gulcehre, Vivek Hebbar, Joe Benton

专题命中安全评测：蓝队红队对抗框架，研究AI长期扩散威胁

AI总结针对AI在模糊任务上的长期扩散威胁，提出蓝队与红队对抗框架，通过弱模型评分训练强模型，并发现红队可利用多目标进化提示优化找到评分高但性能差的子版本行为，蓝队则通过对抗优化提升鲁棒性。

URL PDF HTML

2606.19714 2026-06-19 stat.ML cs.AI cs.LG stat.CO stat.ME 新提交专题 85

AURA: Adaptive Uncertainty-aware Refinement for LLM-as-a-Judge Auditing

AURA: 用于LLM作为评判审计的自适应不确定性感知精炼

Zilong Zhang, Yi-Ting Hung, Weiyi He, Junxi Zhang, Lei Ding, Chi-Kuang Yeh

专题命中安全评测：审计LLM评判可靠性，提升对齐性

AI总结提出AURA框架，通过自适应不确定性感知精炼，在少量人工验证下迭代学习人类一致性信号，优先审核不确定比较，提升LLM评判的可靠性。

URL PDF HTML

2606.20102 2026-06-19 cs.CY cs.CR 新提交专题 85

Artificial Intelligence as Game Changer in Cybersecurity: What We Learned in 2025-2026, and how this is relevant for Africa

人工智能作为网络安全游戏规则改变者：2025-2026年我们学到的，以及这对非洲的意义

Mikael Alemu Gorsky

专题命中安全评测：讨论LLM在网络安全中的风险

AI总结本文通过2025-2026年两个事件论证前沿语言模型已成为网络作战决定性工具，而非洲在模型构建、运营和获取上被完全排除，面临技能、算力和投资三重赤字，并遭受AI欺诈攻击，建议在6-12个月内通过威胁情报共享、治理采纳和伙伴关系应对。

Comments International Conference on Cybersecurity in the Era of Digital Transformation and Artificial Intelligence

URL PDF HTML

2606.20023 2026-06-19 cs.SE cs.AI cs.CL 新提交专题 85

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

当较低权限足够时：探究LLM代理中的过度权限工具选择

Kaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang

专题命中安全评测：研究LLM代理过度权限工具选择的安全问题。

AI总结针对LLM代理在工具选择中偏好高权限工具的安全问题，提出ToolPrivBench评估框架，发现主流代理普遍存在过度权限选择且被瞬态故障放大，并设计权限感知后训练防御方法有效减少不必要的高权限工具使用。

Comments code: https://github.com/AISafetyHub/agent-tool-selection-bias

URL PDF HTML

2606.19380 2026-06-19 cs.SE cs.LG 新提交专题 85

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

AgentArmor：编码代理失败的框架、评估与缓解

Kenneth Ge, Andre Assis

专题命中安全评测：评估编码代理的安全性并提出改进。

AI总结提出AgentArmor框架，通过系统提示增强、命令分类器、三振政策等机制，缓解编码代理因规范不足、能力错误和工具错误导致的失败，显著提升安全性。

URL PDF HTML

2606.19356 2026-06-19 cs.CL cs.AI 新提交专题 85

Trustworthy Multi-Agent Systems: Mitigating Semantic Drift with the Argent Signaling Protocol

可信多智能体系统：使用Argent信令协议缓解语义漂移

Anantha Sharma

专题命中安全评测：提出协议缓解多智能体语义漂移，提升可信度

AI总结提出Argent信令协议(ASP)，通过结构化质量信号区分可修复与不可修复的失败，在文档问答和多智能体系统中分别提升通过率和阻断无依据传播。

Comments 17 pages

URL PDF HTML

2606.18996 2026-06-19 cs.CR cs.AI 新提交专题 85

TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

TRAP：任务完成与主动隐私提取抵抗基准

Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

专题命中安全评测：评估智能体隐私泄露，属于安全评测

AI总结提出TRAP基准，评估智能体在文档密集型任务中平衡任务准确性与隐私泄露的能力，发现所有模型均存在非平凡泄露，并证明基于提示的防御无法同时实现高任务成功率和零泄露概率，提出结构化的私有字段隔离方法。

URL PDF HTML

2606.20205 2026-06-19 cs.AI cs.CL cs.HC 新提交专题 80

Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact

大语言模型的心理特征很大程度上是测量假象

Jelena Meyer, David Garcia, Dirk U. Wulff

专题命中安全评测：揭示LLM心理特征为测量假象，影响安全评估。

AI总结通过心理测量框架分析56个指令微调LLM，发现模型间差异主要源于方向性响应偏差而非特质，该偏差解释了81-90%的变异，且可通过题目选择操控，表明LLM心理特征是测量假象。

URL PDF HTML

2606.19881 2026-06-19 cs.CL 新提交专题 80

REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection

REDACT：一个系统控制的个人信息检测多语言基准

Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

专题命中安全评测：个人信息检测基准，评估隐私安全。

AI总结提出REDACT基准，包含13,427条记录、51种实体类型、25种语言，通过强度-2覆盖阵列采样控制9个生成轴，并引入实体级元数据（披露状态、形式、GDPR敏感层级）以支持分层评估，揭示检测器在敏感数据上的架构依赖性失败模式。

Comments 14 pages, 5 figures

URL PDF HTML

2606.19390 2026-06-19 cs.SE cs.AI 新提交专题 80

Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework

面向执行约束的自主AI自动化：一种可复现的AIBOM驱动的CSAF-VEX框架

Petar Radanliev, Omar Santos, Carsten Maple, Kay Atefi

专题命中安全评测：生成CSAF VEX公告，评估可利用性和执行策略。

AI总结提出一种协议驱动框架，通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测，结合静态与运行时证据生成CSAF VEX公告，经密码签名和确定性重放验证，在合成自主AI工作负载上评估。

Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384

URL PDF HTML

2606.19344 2026-06-19 cs.CL cs.AI 新提交专题 80

Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation

揭示未言明之事：通过随机路径聚合可视化隐藏的LLM偏见

Matteo Pelossi, Rita Sevastjanova, Thilo Spinner, Mennatallah El-Assady

专题命中安全评测：可视化工具揭示LLM隐藏偏见

AI总结提出TreeTracer工具，通过系统扰动分析、语法对齐聚合和分类感知节点合并，利用桑基图对比不同语义上下文，揭示LLM中隐藏的代表性和句法偏见。

Comments 14 pages

URL PDF HTML

2606.18649 2026-06-19 cs.MA cs.CL cs.CY 新提交专题 80

Gender Bias in LLM Hiring Decisions: Evidence from a Japanese Context and Evaluation of Mitigation Strategies

LLM招聘决策中的性别偏见：来自日本语境的证据及缓解策略评估

Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

专题命中安全评测：评估LLM招聘中的性别偏见

AI总结本研究通过60份日本履历书格式的简历和5个先进LLM，发现所有模型均存在显著的亲女性偏见，且简单的提示指令无法缓解，而移除姓名几乎完全消除该偏见。

URL PDF HTML

2606.16682 2026-06-19 cs.LG cs.CL 新提交专题 80

Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents

多模态评估者偏好坍缩：自进化智能体中的跨模态传染

Zewen Liu

专题命中安全评测：研究多模态自评估中的偏好坍缩

AI总结研究多模态自评估中偏好坍缩的加剧现象，发现跨模态传染导致策略选择扭曲，并引入传染矩阵量化风险。

Comments 19 pages, 0 figures

URL PDF HTML

2606.20510 2026-06-19 cs.CR cs.AI 新提交专题 75

Efficient and Sound Probabilistic Verification for AI Agents

高效且可靠的AI智能体概率验证

Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

专题命中安全评测：涉及智能体安全策略的概率验证

AI总结提出基于分布鲁棒优化的框架，为AI智能体在复杂数字环境中的概率策略违规提供可靠上界，无需独立性假设，在终端和工具调用智能体基准上优于现有方法。

URL PDF HTML

2606.20493 2026-06-19 cs.LG cs.AI cs.MA 新提交专题 75

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

传染网络：多智能体LLM系统中的评估者偏见传播

Zewen Liu

专题命中安全评测：量化评估者偏见传播，涉及系统安全性

AI总结提出传染网络框架，量化评估者偏见在多智能体LLM系统中的传播，发现同模型智能体间偏见传播系数为0.157-0.352，且增大评估委员会规模可减少72.4%的传播效应。

Comments 20 pages, 4 figures, 4 tables

URL PDF HTML

2606.19937 2026-06-19 cs.CR 新提交专题 75

AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation

AutoTam: 通过 Tamarin 模型生成指定安全协议实现

Johannes Wilson, Mikael Asplund, Niklas Johansson

专题命中安全评测：自动生成Tamarin模型验证协议安全

AI总结提出一种语言优先方法，通过领域特定语言实现协议并自动生成 Tamarin 模型，验证迹属性并保证其传递到实现，同时集成符号执行分析内存安全，在签名 Diffie-Hellman 和 WireGuard 协议上验证了安全性和互操作性。

Comments 19 pages, 5 figures

URL PDF HTML

2606.19818 2026-06-19 cs.LG cs.AI 新提交专题 90

Uncertainty-Aware Reward Modeling for Stable RLHF

不确定性感知的奖励建模用于稳定的RLHF

Licheng Pan, Haocheng Yang, Haoxuan Li, Yichen Sun, Yunsheng Lu, Shijian Wang, Lei Shen, Yuan Lu, Zhixuan Chu, Hao Wang

专题命中偏好对齐：不确定性感知奖励建模用于稳定RLHF，缓解奖励黑客。

AI总结提出不确定性感知奖励建模（UARM），通过分位数保形预测校准不确定性并利用异方差方差分解重加权GRPO优势，以缓解奖励黑客问题，提升对齐质量。

URL PDF HTML

2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交专题 90

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越统一遗忘：不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中偏好对齐：核心研究偏好优化方法DPO的顺序应用与遗忘模式。

AI总结研究顺序DPO在不同偏好设置下的影响，发现遗忘模式并非统一，而是取决于目标关系、信号强度和训练顺序，并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

URL PDF HTML

2606.19527 2026-06-19 cs.AI 新提交专题 90

Emergent Alignment

涌现对齐

Martin Kolář

专题命中偏好对齐：在线对齐技术使LLM自我纠正非伦理输出

AI总结提出一种在线对齐技术，通过引入良心步骤和基于直接偏好优化的对齐损失，使大语言模型在训练、微调、对抗提示和零样本学习中自我纠正非伦理输出。

Comments Rejected from ICML 2026

URL PDF HTML

2606.20482 2026-06-19 cs.CL cs.HC cs.LG 新提交专题 85

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

你的鼠标和眼睛悄悄泄露你的偏好：利用用户隐式反馈进行LLM对齐

Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

专题命中偏好对齐：利用隐式反馈进行LLM对齐

AI总结针对显式反馈稀缺的问题，提出利用鼠标轨迹和眼动数据等隐式反馈训练奖励模型，将文本奖励模型准确率从55%提升至64%，并显著提高DPO对齐后响应质量。

URL PDF HTML

2606.19660 2026-06-19 cs.CR cs.CL 新提交专题 90

A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots

基于RAG的聊天机器人中针对提示注入的分层安全框架

Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan

专题命中提示注入：三层防御框架对抗RAG聊天机器人中的提示注入

AI总结提出三层防御框架，通过输入过滤、上下文指令层级和输出审计，将提示注入攻击成功率从71.4%降至11.3%，误报率4.8%，延迟开销61.2毫秒。

Comments Submitted in ICCK Transactions on Information Security and Cryptography

URL PDF HTML

1. 红队测试 2 篇

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

2. 越狱攻击 3 篇

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

FloatDoor: Platform-Triggered Backdoors in LLMs

3. 安全评测 20 篇

Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families

Open Weight AI Models Require Proportional Evaluation Approaches

SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling

Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias

Diffuse AI Control on Fuzzy Tasks

AURA: Adaptive Uncertainty-aware Refinement for LLM-as-a-Judge Auditing

Artificial Intelligence as Game Changer in Cybersecurity: What We Learned in 2025-2026, and how this is relevant for Africa

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

Trustworthy Multi-Agent Systems: Mitigating Semantic Drift with the Argent Signaling Protocol

TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact

REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection

Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework

Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation

Gender Bias in LLM Hiring Decisions: Evidence from a Japanese Context and Evaluation of Mitigation Strategies

Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents

Efficient and Sound Probabilistic Verification for AI Agents

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation

4. 偏好对齐 4 篇

Uncertainty-Aware Reward Modeling for Stable RLHF

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

Emergent Alignment

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

5. 提示注入 1 篇

A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots