arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 41 信号源:cs.CL, cs.AI, cs.CY, cs.LG

1. 安全评测 22 篇

2606.18673 2026-06-18 cs.CR 新提交 专题 95

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

理解并缓解真实世界基于LLM的应用中的提示泄露攻击

Yong Yang, Chong Fu, Tong Zhang, Rui Zeng, Qingming Li, Tianyu Du, Zonghui Wang, Shouling Ji, Wenzhi Chen

专题命中 安全评测 :系统提示泄露攻击与防御

AI总结 本研究系统测量了1200个真实世界基于LLM的应用,发现超过80%会泄露系统提示,并提出了基于注意力漂移分析的AREA防御方法,在保持可用性的同时有效防止泄露。

Comments Accepted at ACM CCS 2026

2606.19222 2026-06-18 cs.LG cs.AI 新提交 专题 90

Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning

机制引导的选择性遗忘:针对RLVR诱导的推理

Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

专题命中 安全评测 :针对RLVR推理的遗忘方法,涉及模型安全

AI总结 提出MAST方法,通过机制引导选择性更新参数,在遗忘RLVR诱导的推理行为时,显著降低对保留性能的附带损害。

Comments 15 pages, 4 figures, 7 tables

2606.19168 2026-06-18 cs.AI cs.LG 新提交 专题 90

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

超越安全数据:具有正则安全反射的预训练阶段对齐

Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu

专题命中 安全评测 :预训练阶段安全对齐方法,属于安全

AI总结 提出安全反射预训练方法,在预训练语料中插入安全反思,使模型具备自我监控能力,实验表明该方法能有效降低推理和微调攻击成功率。

2606.19023 2026-06-18 cs.CR cs.LG 新提交 专题 90

Lifecycle-Aware Dynamic Analysis for Secure ML Model Execution

生命周期感知的动态分析用于安全ML模型执行

Gabriele Digregorio, Marco Di Gennaro, Francesco Pastore, Stefano Zanero, Stefano Longari, Michele Carminati

专题命中 安全评测 :提出动态生命周期分析方法检测ML模型恶意行为。

AI总结 提出Moat,一种动态生命周期感知方法,通过监控模型执行各阶段与宿主系统的结构化交互来检测恶意行为,在多个框架上实现零误报率。

2606.18656 2026-06-18 cs.CL 新提交 专题 90

The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

错误的正确:量化和定位大语言模型中的失调对齐

Naihao Deng, Yiming Feng, Chimaobi Okite, Kaijian Zou, Lu Wang, Rada Mihalcea, Yulong Chen

专题命中 安全评测 :提出失调对齐基准VETO和量化指标MAR

AI总结 本文提出VETO基准和失调对齐率(MAR)指标,发现所有LLM在刻板印象相关问题上均存在非平凡的失调对齐,且人类为0%,机制分析表明对齐诱导的线索会放大该现象。

2606.18430 2026-06-18 cs.LG cs.CR 新提交 专题 90

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

签名过滤:大型语言模型中统计水印检测的轻量级增强方法

Chih-Duo Hong, Yen-Pang Chen, Fang Yu

专题命中 安全评测 :提出签名过滤增强LLM水印检测

AI总结 提出签名过滤模块,通过移除干扰水印检测的签名令牌,在弱信号和低熵设置下将检测率从8-31%提升至78-99%,同时保持可控的假阳性率。

2606.18356 2026-06-18 cs.CR cs.AI 新提交 专题 90

SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害

Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu, Xinghao Chen, Hanting Chen, Yu Wang

专题命中 安全评测 :提出工具使用LLM代理安全基准,区分语义、审计和沙箱危害。

AI总结 提出SafeClawBench基准,通过三个独立端点(语义攻击接受、审计可见危害证据、沙箱观察危害)评估工具使用LLM代理的安全性,揭示不同失败模式并支持可复现比较。

Comments 32 pages, 5 figures

2606.19106 2026-06-18 cs.CR cs.CY 新提交 专题 85

Quantifying Compromise Risk in Exceptional Access Architectures Under Sparse and Indirect Evidence

在稀疏和间接证据下量化特殊访问架构中的泄露风险

Alan Woodward

专题命中 安全评测 :量化特殊访问架构的系统性泄露风险,属于安全评测。

AI总结 针对特殊访问系统缺乏公开泄露数据的问题,构建结构化不确定性框架,通过历史类比、蒙特卡洛场景、信道独立性分解和贝叶斯结构风险模型,量化传输层与平台层EA架构的系统性泄露风险,发现两类架构风险均高于无EA基线,且分布形态不同。

2606.18936 2026-06-18 cs.AI cs.CY 新提交 专题 85

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench:面向AI4Science安全的风险维度感知基准

Linghao Feng, Yinqian Sun, Dongqi Liang, Sicheng Shen, Chenfei Yan, Yuxuan Peng, Yilin Zhao, Haibo Tong, Kai Li, FeiFei Zhao, Yi Zeng

专题命中 安全评测 :提出科学领域安全基准,评测风险维度

AI总结 提出SciRisk-Bench基准,从显式风险维度和科学学科两个角度评估AI4Science安全,覆盖7个学科、31个子学科和10个风险维度,实验揭示主流及科学大模型的安全薄弱环节。

2606.18782 2026-06-18 cs.CL cs.AI 新提交 专题 85

RedactionBench

RedactionBench:基于上下文完整性的隐私保护基准测试

Sean Brynjólfsson, Shashvat Jayakrishnan, Esha Sali, Diptanshu Purwar, Madhav Aggarwal

专题命中 安全评测 :提出隐私保护基准测试,评估大模型上下文完整性。

AI总结 RedactionBench通过200个跨11个领域的文档,评估红actions的上下文隐私问题,提出R-Score指标,揭示红actions的主观性,推动隐私保护系统的发展。

2606.18473 2026-06-18 cs.CL 新提交 专题 85

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

PreUnlearn: 在大语言模型遗忘之前审计附带知识损害

Bo Su, Ankit Shah, Thai Le

专题命中 安全评测 :审计大模型遗忘的附带知识损害

AI总结 提出PreUnlearn方法,通过数据特征预测遗忘操作对同领域和远距离知识的附带损害,实现遗忘前的风险审计。

Comments 12 pages, 6 figures

2606.12618 2026-06-18 cs.AI 新提交 专题 85

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器

Alan Cooney, David Africa, Geoffrey Irving

专题命中 安全评测 :评估语言模型谎言检测器

AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。

Comments 12 pages, 6 figures

2606.19057 2026-06-18 stat.ML cs.LG stat.CO stat.ME 新提交 专题 80

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

通过正-无标签学习量化与审计大语言模型评估

Zilong Zhang, Yi-Ting Hung, Lei Ding, Chi-Kuang Yeh

专题命中 安全评测 :审计LLM评估偏差

AI总结 针对大语言模型作为评估者存在的系统性偏差(如冗长偏好),提出基于部分最优传输的几何审计框架,利用少量人工验证正样本校正偏差,无需重训练即可提升与人类偏好的一致性。

2606.19262 2026-06-18 cs.LG 新提交 专题 80

Detecting Hidden ML Training With Zero-Overhead Telemetry

使用零开销遥测检测隐藏的机器学习训练

Robi Rahman, Sabiha Tajdari

专题命中 安全评测 :检测隐藏ML训练,用于AI治理安全

AI总结 本文评估了仅使用零开销、隐私保护的NVML遥测(内容无关信号)对GPU工作负载分类的对抗鲁棒性,开发了一个分类器,在识别训练工作负载时达到98.2%的二元准确率,并对最具挑战性的意外工作负载达到43-87%的准确率。

Comments Technical AI Governance Research workshop at ICML 2026

2606.19242 2026-06-18 cs.SE 新提交 专题 80

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中 安全评测 :运行时监控确保GDPR合规

AI总结 提出C-Trace框架,通过运行时监控和形式化策略谓词,确保AI代理在工具调用和对话中遵守GDPR规则,将攻击成功率降至12%以下。

2606.18767 2026-06-18 cs.CL 新提交 专题 80

Output Vector Editing for Memorization Mitigation in Large Language Models

输出向量编辑:缓解大型语言模型中的记忆化问题

Ahmad Dawar Hakimi, Kaiwei Lei, Isabelle Augenstein, Hinrich Schütze

专题命中 安全评测 :缓解LLM记忆化,输出向量编辑方法。

AI总结 提出输出向量编辑方法,通过约束优化修改MLP神经元输出向量引入干扰项,在不改变激活值的情况下抑制记忆化序列,在OLMo-7B上实现87.9%抑制率,并揭示MLP编辑的机制边界。

2606.18532 2026-06-18 cs.CR cs.AI cs.RO cs.SE 新提交 专题 80

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

AI沙箱:威胁模型、分类法与测量框架

Inderjeet Singh, Haitham Mahmoud, Andrés Murillo

专题命中 安全评测 :AI沙箱威胁模型与测量框架

AI总结 提出AI沙箱的威胁模型、分类法和测量框架,形式化沙箱边界与最弱链规则,定义网络物理威胁模型,并通过三个案例验证。

Comments 50 pages, 8 figures, 10 tables

2606.18322 2026-06-18 cs.LG cs.AI 新提交 专题 75

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

SAE干预不可靠:干预后抑制行为的恢复

Mingyue Cui, Linghui Shen, Xingyi Yang

专题命中 安全评测 :揭示SAE特征干预不可靠,存在可恢复失败模式。

AI总结 研究发现稀疏自编码器(SAE)特征干预虽能抑制行为,但存在可恢复的失败模式,通过优化残差扰动可恢复原始行为,揭示特征级控制与行为完整性之间的差距。

Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/

2606.18946 2026-06-18 cs.CL 新提交 专题 70

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

SenFlow: 面向混合文档中AI生成文本检测的句间流建模

Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

专题命中 安全评测 :AI文本检测属于安全评测范畴

AI总结 针对人机混合文档的句子级AI文本检测,提出SenFlow模型,通过图传播和CRF解码建模句间依赖,在MOSAIC基准上跨域F1提升4.15个百分点。

Comments 16 pages, 4 figures, 9 tables

2606.18924 2026-06-18 cs.SD 新提交 专题 70

Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs

谁赢得冲突?音频大模型中文本偏差的机制可解释性

Hyebin Cho, Suho Yoo, Jaehyuk Jang, Changick Kim, Joon Son Chung

专题命中 安全评测 :研究文本主导偏差,缓解幻觉

AI总结 本文通过机制分析揭示音频大模型中的文本主导偏差,发现文本路径主动抑制完整音频表征,并提出无训练干预方法back-patching以增强音频表征,缓解文本主导。

Comments Preprint

2606.18632 2026-06-18 cs.RO 新提交 专题 70

ROBOSHACKLES: A Safety Dataset for Human-Injury Prevention in Embodied Foundation Models

ROBOSHACKLES: 面向具身基础模型中人体伤害预防的安全数据集

Zhuowen Yin, Chongyang Liu, Wenzhang Yang, Renjue Li, Yinxing Xue

专题命中 安全评测 :评估模型在安全关键场景下的不安全动作

AI总结 为解决机器人伤害人类数据难以安全收集的问题,提出基于真实观测的安全数据构建流水线,生成包含1万条视频的ROBOSHACKLES数据集,涵盖直接和间接伤害类别,评估发现现有模型在安全关键场景下100%产生不安全动作。

2606.18310 2026-06-18 cs.CR cs.AI 新提交 专题 70

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

冲突感知检索器编辑:针对基于LLM的RAG系统的知识注入攻击

Xinru Liu, Xianglong Zhang, Di Cai, Zhumin Chen, Pengfei Hu, Xin Xin

专题命中 安全评测 :针对RAG系统的知识注入攻击。

AI总结 提出冲突感知检索器编辑框架CAREATTACK,通过模型中心攻击将恶意知识注入RAG系统,利用图检测和参数编辑投影解决冲突,并轻量校准保持攻击效果。

2. 偏好对齐 5 篇

2606.18606 2026-06-18 cs.CL cs.AI 新提交 专题 90

Steerable Cultural Preference Optimization of Reward Models

可引导的文化偏好优化奖励模型

Minsik Oh, Advit Deepak, Sophie Wu, Douwe Kiela, Ekaterina Shutova

专题命中 偏好对齐 :提出SCPO算法优化奖励模型文化偏好对齐

AI总结 提出SCPO算法,通过平衡多种文化偏好训练奖励模型,在PRISM和GlobalOpinionQA数据集上提升少数群体偏好预测准确率最多7点,训练效率提高280%。

Comments Accepted to Pluralistic Alignment @ ICML 2026

2606.18487 2026-06-18 cs.LG cs.AI cs.CL 新提交 专题 90

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

SFT 过训练通过熵崩溃预测 RLVR 下的排名反转

Siddharth Aphale, Kelly Liu

专题命中 偏好对齐 :SFT过训练导致RLVR下排名反转

AI总结 研究发现 SFT 过度训练导致 rollout 分布熵降低,使 GRPO 中优势信号消失,从而引发排名反转;提出基于熵的两阶段诊断方法可预警高风险检查点。

Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026

2606.16276 2026-06-18 cs.AI 新提交 专题 90

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

SpecAlign: 通过合成数据实现高效的大语言模型规范对齐

Wenjie Wang, Yue Huang, Zhengqing Yuan, Han Bao, Shiyi Du, Yuchen Ma, Yue Zhao, Yanfang Ye, Xiangliang Zhang

专题命中 偏好对齐 :规范对齐框架,合成数据实现规则遵守

AI总结 提出规范对齐新范式,通过从规范文档合成数据(SpecAlign框架),结合结构化规则标注、可控规范实例化和多智能体对抗数据合成,生成细粒度偏好对,提升规则遵守度且不损害通用能力。

Comments 58 pages

2601.17637 2026-06-18 cs.CY cs.HC 专题 90

Scaling Laws for Moral Machine Judgment in Large Language Models

大语言模型中道德机器判断的扩展规律

Kazuhiro Takemoto

专题命中 偏好对齐 :研究LLM道德判断与人类偏好对齐的扩展规律

AI总结 研究通过评估75种大语言模型配置,发现模型规模与人类偏好距离呈幂律关系,扩展推理模型在较小规模时表现更优,为价值判断的扩展规律研究提供依据。

Comments 12 pages, 4 figures, 3 tables

Journal ref R Soc Open Sci. (2026) 13 (6): 260202

2606.18327 2026-06-18 cs.LG cs.AI 新提交 专题 70

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL:基于强化学习的自一致性训练

Itamar Pres, Laura Ruis, Melat Ghebreselassie, Belinda Z. Li, Jacob Andreas

专题命中 偏好对齐 :通过强化学习优化语言模型自我解释与行为一致性。

AI总结 提出Self-CTRL方法,通过强化学习优化语言模型自我解释与行为之间的一致性,在概率推理和宪法AI任务上显著提升一致性和安全性。

Comments 34 pages, 12 figures, includes appendices

3. 提示注入 3 篇

2606.18550 2026-06-18 cs.CR 新提交 专题 85

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

门仅与其合约一样诚实:面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中 提示注入 :防御间接提示注入攻击

AI总结 针对工具增强型LLM代理的间接提示注入,提出ContractGuard,通过验证合约完整性(而非风险标签)来防御攻击,在基准测试中实现零注入成功率。

2606.18530 2026-06-18 cs.CR cs.CL cs.LG 新提交 专题 85

Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks

评估基于提示的防御策略对抗领域伪装注入攻击

Aaditya Pai

专题命中 提示注入 :评估防御领域伪装注入攻击

AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。

Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026

2606.19235 2026-06-18 cs.CR 新提交 专题 80

CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts

CodeSentinel:代码上下文中针对间接提示注入的三层防御

Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

专题命中 提示注入 :针对代码上下文的提示注入防御

AI总结 针对代码大语言模型在检索外部代码时面临的间接提示注入攻击,提出CodeSentinel三层推理时净化器,结合语法引导预过滤、CST引导动态Min-K%评分和节点扰动分析,实现0.80节点级F1,优于现有方法。