大模型对齐与安全 - arXivDaily 专题

2606.18673 2026-06-18 cs.CR 新提交专题 95

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

理解并缓解真实世界基于LLM的应用中的提示泄露攻击

Yong Yang, Chong Fu, Tong Zhang, Rui Zeng, Qingming Li, Tianyu Du, Zonghui Wang, Shouling Ji, Wenzhi Chen

专题命中安全评测：系统提示泄露攻击与防御

AI总结本研究系统测量了1200个真实世界基于LLM的应用，发现超过80%会泄露系统提示，并提出了基于注意力漂移分析的AREA防御方法，在保持可用性的同时有效防止泄露。

Comments Accepted at ACM CCS 2026

URL PDF HTML

2606.19222 2026-06-18 cs.LG cs.AI 新提交专题 90

Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning

机制引导的选择性遗忘：针对RLVR诱导的推理

Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

专题命中安全评测：针对RLVR推理的遗忘方法，涉及模型安全

AI总结提出MAST方法，通过机制引导选择性更新参数，在遗忘RLVR诱导的推理行为时，显著降低对保留性能的附带损害。

Comments 15 pages, 4 figures, 7 tables

URL PDF HTML

2606.19168 2026-06-18 cs.AI cs.LG 新提交专题 90

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

超越安全数据：具有正则安全反射的预训练阶段对齐

Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu

专题命中安全评测：预训练阶段安全对齐方法，属于安全

AI总结提出安全反射预训练方法，在预训练语料中插入安全反思，使模型具备自我监控能力，实验表明该方法能有效降低推理和微调攻击成功率。

URL PDF HTML

2606.19023 2026-06-18 cs.CR cs.LG 新提交专题 90

Lifecycle-Aware Dynamic Analysis for Secure ML Model Execution

生命周期感知的动态分析用于安全ML模型执行

Gabriele Digregorio, Marco Di Gennaro, Francesco Pastore, Stefano Zanero, Stefano Longari, Michele Carminati

专题命中安全评测：提出动态生命周期分析方法检测ML模型恶意行为。

AI总结提出Moat，一种动态生命周期感知方法，通过监控模型执行各阶段与宿主系统的结构化交互来检测恶意行为，在多个框架上实现零误报率。

URL PDF HTML

2606.18656 2026-06-18 cs.CL 新提交专题 90

The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

错误的正确：量化和定位大语言模型中的失调对齐

Naihao Deng, Yiming Feng, Chimaobi Okite, Kaijian Zou, Lu Wang, Rada Mihalcea, Yulong Chen

专题命中安全评测：提出失调对齐基准VETO和量化指标MAR

AI总结本文提出VETO基准和失调对齐率（MAR）指标，发现所有LLM在刻板印象相关问题上均存在非平凡的失调对齐，且人类为0%，机制分析表明对齐诱导的线索会放大该现象。

URL PDF HTML

2606.18430 2026-06-18 cs.LG cs.CR 新提交专题 90

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

签名过滤：大型语言模型中统计水印检测的轻量级增强方法

Chih-Duo Hong, Yen-Pang Chen, Fang Yu

专题命中安全评测：提出签名过滤增强LLM水印检测

AI总结提出签名过滤模块，通过移除干扰水印检测的签名令牌，在弱信号和低熵设置下将检测率从8-31%提升至78-99%，同时保持可控的假阳性率。

URL PDF HTML

2606.18356 2026-06-18 cs.CR cs.AI 新提交专题 90

SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害

Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu, Xinghao Chen, Hanting Chen, Yu Wang

专题命中安全评测：提出工具使用LLM代理安全基准，区分语义、审计和沙箱危害。

AI总结提出SafeClawBench基准，通过三个独立端点（语义攻击接受、审计可见危害证据、沙箱观察危害）评估工具使用LLM代理的安全性，揭示不同失败模式并支持可复现比较。

Comments 32 pages, 5 figures

URL PDF HTML

2412.16468 2026-06-18 cs.LG 版本更新专题 90

The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment

通往人工超级智能之路：超级对齐的全面综述

HyunJin Kim, DongHyun Ryu, Xiaoyuan Yi, Jing Yao, Jianxun Lian, Muhua Huang, Shitong Duan, JinYeong Bak, Xing Xie

专题命中安全评测：综述超级对齐问题，分析可扩展监督范式

AI总结本文综述了超级对齐问题，通过分析可扩展监督范式（夹层、自我增强和弱到强泛化）及其局限性，探讨了监督、控制和管理人工超级智能的挑战与路径。

Comments 24 pages

URL PDF HTML

2606.19106 2026-06-18 cs.CR cs.CY 新提交专题 85

Quantifying Compromise Risk in Exceptional Access Architectures Under Sparse and Indirect Evidence

在稀疏和间接证据下量化特殊访问架构中的泄露风险

Alan Woodward

专题命中安全评测：量化特殊访问架构的系统性泄露风险，属于安全评测。

AI总结针对特殊访问系统缺乏公开泄露数据的问题，构建结构化不确定性框架，通过历史类比、蒙特卡洛场景、信道独立性分解和贝叶斯结构风险模型，量化传输层与平台层EA架构的系统性泄露风险，发现两类架构风险均高于无EA基线，且分布形态不同。

URL PDF HTML

2606.18936 2026-06-18 cs.AI cs.CY 新提交专题 85

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench：面向AI4Science安全的风险维度感知基准

Linghao Feng, Yinqian Sun, Dongqi Liang, Sicheng Shen, Chenfei Yan, Yuxuan Peng, Yilin Zhao, Haibo Tong, Kai Li, FeiFei Zhao, Yi Zeng

专题命中安全评测：提出科学领域安全基准，评测风险维度

AI总结提出SciRisk-Bench基准，从显式风险维度和科学学科两个角度评估AI4Science安全，覆盖7个学科、31个子学科和10个风险维度，实验揭示主流及科学大模型的安全薄弱环节。

URL PDF HTML

2606.18782 2026-06-18 cs.CL cs.AI 新提交专题 85

RedactionBench

RedactionBench：基于上下文完整性的隐私保护基准测试

Sean Brynjólfsson, Shashvat Jayakrishnan, Esha Sali, Diptanshu Purwar, Madhav Aggarwal

专题命中安全评测：提出隐私保护基准测试，评估大模型上下文完整性。

AI总结 RedactionBench通过200个跨11个领域的文档，评估红actions的上下文隐私问题，提出R-Score指标，揭示红actions的主观性，推动隐私保护系统的发展。

URL PDF HTML

2606.18473 2026-06-18 cs.CL 新提交专题 85

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

PreUnlearn: 在大语言模型遗忘之前审计附带知识损害

Bo Su, Ankit Shah, Thai Le

专题命中安全评测：审计大模型遗忘的附带知识损害

AI总结提出PreUnlearn方法，通过数据特征预测遗忘操作对同领域和远距离知识的附带损害，实现遗忘前的风险审计。

Comments 12 pages, 6 figures

URL PDF HTML

2606.12618 2026-06-18 cs.AI 新提交专题 85

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

“你撒谎了吗？”评估不同规模模型和信念验证模型生物体的谎言检测器

Alan Cooney, David Africa, Geoffrey Irving

专题命中安全评测：评估语言模型谎言检测器

AI总结本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集，评估了四种谎言检测器在不同规模模型上的表现，发现基于激活和概率的检测器在训练模型生物体上性能显著下降，而思维链法官保持较强性能，但存在伪影。

Comments 12 pages, 6 figures

URL PDF HTML

2505.20045 2026-06-18 cs.CL 版本更新专题 85

Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads

基于不确定性感知注意力头的高效大语言模型幻觉检测

Artem Vazhentsev, Lyudmila Rvanova, Gleb Kuzmin, Ekaterina Fadeeva, Ivan Lazichny, Alexander Panchenko, Maxim Panov, Mrinmaya Sachan, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

专题命中安全评测：无监督幻觉检测，提升LLM可靠性

AI总结提出RAUQ框架，利用不确定性感知注意力头与令牌级置信度，通过单次前向传递实现无监督、高效的序列级幻觉检测，在12个数据集上优于现有方法且额外计算少于1%。

Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea, 2026

URL PDF HTML

2606.19057 2026-06-18 stat.ML cs.LG stat.CO stat.ME 新提交专题 80

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

通过正-无标签学习量化与审计大语言模型评估

Zilong Zhang, Yi-Ting Hung, Lei Ding, Chi-Kuang Yeh

专题命中安全评测：审计LLM评估偏差

AI总结针对大语言模型作为评估者存在的系统性偏差（如冗长偏好），提出基于部分最优传输的几何审计框架，利用少量人工验证正样本校正偏差，无需重训练即可提升与人类偏好的一致性。

URL PDF HTML

2606.19262 2026-06-18 cs.LG 新提交专题 80

Detecting Hidden ML Training With Zero-Overhead Telemetry

使用零开销遥测检测隐藏的机器学习训练

Robi Rahman, Sabiha Tajdari

专题命中安全评测：检测隐藏ML训练，用于AI治理安全

AI总结本文评估了仅使用零开销、隐私保护的NVML遥测（内容无关信号）对GPU工作负载分类的对抗鲁棒性，开发了一个分类器，在识别训练工作负载时达到98.2%的二元准确率，并对最具挑战性的意外工作负载达到43-87%的准确率。

Comments Technical AI Governance Research workshop at ICML 2026

URL PDF HTML

2606.19242 2026-06-18 cs.SE 新提交专题 80

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中安全评测：运行时监控确保GDPR合规

AI总结提出C-Trace框架，通过运行时监控和形式化策略谓词，确保AI代理在工具调用和对话中遵守GDPR规则，将攻击成功率降至12%以下。

URL PDF HTML

2606.18767 2026-06-18 cs.CL 新提交专题 80

Output Vector Editing for Memorization Mitigation in Large Language Models

输出向量编辑：缓解大型语言模型中的记忆化问题

Ahmad Dawar Hakimi, Kaiwei Lei, Isabelle Augenstein, Hinrich Schütze

专题命中安全评测：缓解LLM记忆化，输出向量编辑方法。

AI总结提出输出向量编辑方法，通过约束优化修改MLP神经元输出向量引入干扰项，在不改变激活值的情况下抑制记忆化序列，在OLMo-7B上实现87.9%抑制率，并揭示MLP编辑的机制边界。

URL PDF HTML

2606.18532 2026-06-18 cs.CR cs.AI cs.RO cs.SE 新提交专题 80

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

AI沙箱：威胁模型、分类法与测量框架

Inderjeet Singh, Haitham Mahmoud, Andrés Murillo

专题命中安全评测：AI沙箱威胁模型与测量框架

AI总结提出AI沙箱的威胁模型、分类法和测量框架，形式化沙箱边界与最弱链规则，定义网络物理威胁模型，并通过三个案例验证。

Comments 50 pages, 8 figures, 10 tables

URL PDF HTML

2507.04219 2026-06-18 cs.LG cs.AI 版本更新专题 80

Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs

模型崩溃不是错误，而是大语言模型机器遗忘中的一种特性

Yan Scholten, Sophie Xhonneux, Leo Schwinn, Stephan Günnemann

专题命中安全评测：机器遗忘方法，移除私有信息，涉及安全

AI总结提出部分模型崩溃（PMC）方法，通过故意触发模型在目标数据上的分布崩溃实现遗忘，无需在遗忘目标上优化，有效移除私有信息并保持模型效用。

Comments Accepted at ICLR 2026

URL PDF HTML

2606.18322 2026-06-18 cs.LG cs.AI 新提交专题 75

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

SAE干预不可靠：干预后抑制行为的恢复

Mingyue Cui, Linghui Shen, Xingyi Yang

专题命中安全评测：揭示SAE特征干预不可靠，存在可恢复失败模式。

AI总结研究发现稀疏自编码器（SAE）特征干预虽能抑制行为，但存在可恢复的失败模式，通过优化残差扰动可恢复原始行为，揭示特征级控制与行为完整性之间的差距。

Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/

URL PDF HTML

2504.14798 2026-06-18 cs.LG cs.CV 版本更新专题 75

RUB: Evaluating Residual Knowledge in Unlearned Models

RUB: 评估未学习模型中的残留知识

Hao Xuan, Xingyu Li

专题命中安全评测：评估未学习模型残留知识，对抗攻击

AI总结提出鲁棒未学习原则及统一基准RUB，通过未学习映射攻击（UMA）检测残留信息，揭示现有方法在对抗评估下的脆弱性。

Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2026, pages 8550-8559

URL PDF HTML

2606.18946 2026-06-18 cs.CL 新提交专题 70

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

SenFlow: 面向混合文档中AI生成文本检测的句间流建模

Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

专题命中安全评测：AI文本检测属于安全评测范畴

AI总结针对人机混合文档的句子级AI文本检测，提出SenFlow模型，通过图传播和CRF解码建模句间依赖，在MOSAIC基准上跨域F1提升4.15个百分点。

Comments 16 pages, 4 figures, 9 tables

URL PDF HTML

2606.18924 2026-06-18 cs.SD 新提交专题 70

Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs

谁赢得冲突？音频大模型中文本偏差的机制可解释性

Hyebin Cho, Suho Yoo, Jaehyuk Jang, Changick Kim, Joon Son Chung

专题命中安全评测：研究文本主导偏差，缓解幻觉

AI总结本文通过机制分析揭示音频大模型中的文本主导偏差，发现文本路径主动抑制完整音频表征，并提出无训练干预方法back-patching以增强音频表征，缓解文本主导。

Comments Preprint

URL PDF HTML

2606.18632 2026-06-18 cs.RO 新提交专题 70

ROBOSHACKLES: A Safety Dataset for Human-Injury Prevention in Embodied Foundation Models

ROBOSHACKLES: 面向具身基础模型中人体伤害预防的安全数据集

Zhuowen Yin, Chongyang Liu, Wenzhang Yang, Renjue Li, Yinxing Xue

专题命中安全评测：评估模型在安全关键场景下的不安全动作

AI总结为解决机器人伤害人类数据难以安全收集的问题，提出基于真实观测的安全数据构建流水线，生成包含1万条视频的ROBOSHACKLES数据集，涵盖直接和间接伤害类别，评估发现现有模型在安全关键场景下100%产生不安全动作。

URL PDF HTML

2606.18310 2026-06-18 cs.CR cs.AI 新提交专题 70

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

冲突感知检索器编辑：针对基于LLM的RAG系统的知识注入攻击

Xinru Liu, Xianglong Zhang, Di Cai, Zhumin Chen, Pengfei Hu, Xin Xin

专题命中安全评测：针对RAG系统的知识注入攻击。

AI总结提出冲突感知检索器编辑框架CAREATTACK，通过模型中心攻击将恶意知识注入RAG系统，利用图检测和参数编辑投影解决冲突，并轻量校准保持攻击效果。

URL PDF HTML

2606.18289 2026-06-18 cs.HC cs.CY 新提交专题 70

Beyond the Algorithm: Professional Experiences and Perceptions of AI Bias

超越算法：人工智能偏见的专业经验与认知

Micarah Malone-Gawu

专题命中安全评测：研究AI偏见感知与缓解，涉及算法公平与安全。

AI总结通过质性多案例研究，探讨AI从业者如何感知和缓解算法偏见，发现偏见源于历史不公、排他性设计及组织压力，强调公平需要结构性问责、多元参与和认知意识。

Comments PhD thesis

URL PDF HTML

2606.18285 2026-06-18 cs.SI cs.CY 新提交专题 70

RELIANCE: Curating and Evaluating Reproductive Health Information on Social Media

RELIANCE: 策展与评估社交媒体上的生殖健康信息

Vaibhav Balloli, Laura Peyton Ellis, Vishala Mishra, Alice Chi, Alex Peahl, Elizabeth Bondi-Kelly

专题命中安全评测：评估LLM在生殖健康信息事实核查中的能力与安全。

AI总结针对TikTok上孕期和产后健康信息，构建专家标注数据集RELIANCE，评估LLM事实核查能力，发现近60%信息准确，但整体与具体声明评估存在15%差距。

Comments Accepted at Datasets and Benchmarks Track, ACM Knowledge Discovery and Data Mining (KDD) 2026. Project page: https://realize-lab.github.io/RELIANCE/

URL PDF HTML

2606.18261 2026-06-18 cs.HC cs.CY 新提交专题 70

"Are you an AI?" Analyzing Client Suspicion of AI Use in Crisis Counseling

“你是AI吗？”分析危机咨询中客户对AI使用的怀疑

Shreya Shah, Akshay Swaminathan, Meghana Simhadri, Ivan Lopez, Sharang Phadke, Divyanjali Verma, Abhay John, Luke Zhao, Fiona Cai, Sharon Zhang, Gloria Ye, Ivy Pham, William Wang, Sebastian Garcia, Sarah Wornow, Angelina Wang, Nigam H. Shah

专题命中安全评测：分析危机咨询中客户对AI使用的怀疑，涉及信任与安全。

AI总结通过分析75,777次危机咨询对话，发现客户怀疑AI使用的比例从0.8%升至2.6%，多数怀疑出现在对话前半段，且当咨询师保证非AI时仍有17.6%客户继续追问或结束对话。

URL PDF HTML

2606.18142 2026-06-18 cs.AI cs.CL cs.CY 新提交专题 70

Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models

你的AI旅行代理会为你预订斗牛：前沿AI模型中隐含动物福利的代理基准

Jasmine Brazilek, Joel Christoph, Miles Tidmarsh, Carol Kline, Oliver Tullio, Arturs Kanepajs

专题命中安全评测：测试模型避免动物剥削的行为

AI总结提出首个代理基准TAC，测试AI代理在为用户执行旅行预订等操作时是否避免涉及动物剥削的选项。评估七个前沿模型，所有模型得分低于随机水平64%，最佳模型仅53%。

URL PDF HTML