arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 50 信号源:cs.CL, cs.AI, cs.CY, cs.LG

1. 安全评测 18 篇

2507.04219 2026-06-18 cs.LG cs.AI 版本更新 专题 80

Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs

模型崩溃不是错误,而是大语言模型机器遗忘中的一种特性

Yan Scholten, Sophie Xhonneux, Leo Schwinn, Stephan Günnemann

专题命中 安全评测 :机器遗忘方法,移除私有信息,涉及安全

AI总结 提出部分模型崩溃(PMC)方法,通过故意触发模型在目标数据上的分布崩溃实现遗忘,无需在遗忘目标上优化,有效移除私有信息并保持模型效用。

Comments Accepted at ICLR 2026

2606.18322 2026-06-18 cs.LG cs.AI 新提交 专题 75

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

SAE干预不可靠:干预后抑制行为的恢复

Mingyue Cui, Linghui Shen, Xingyi Yang

专题命中 安全评测 :揭示SAE特征干预不可靠,存在可恢复失败模式。

AI总结 研究发现稀疏自编码器(SAE)特征干预虽能抑制行为,但存在可恢复的失败模式,通过优化残差扰动可恢复原始行为,揭示特征级控制与行为完整性之间的差距。

Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/

2504.14798 2026-06-18 cs.LG cs.CV 版本更新 专题 75

RUB: Evaluating Residual Knowledge in Unlearned Models

RUB: 评估未学习模型中的残留知识

Hao Xuan, Xingyu Li

专题命中 安全评测 :评估未学习模型残留知识,对抗攻击

AI总结 提出鲁棒未学习原则及统一基准RUB,通过未学习映射攻击(UMA)检测残留信息,揭示现有方法在对抗评估下的脆弱性。

Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2026, pages 8550-8559

2606.18946 2026-06-18 cs.CL 新提交 专题 70

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

SenFlow: 面向混合文档中AI生成文本检测的句间流建模

Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

专题命中 安全评测 :AI文本检测属于安全评测范畴

AI总结 针对人机混合文档的句子级AI文本检测,提出SenFlow模型,通过图传播和CRF解码建模句间依赖,在MOSAIC基准上跨域F1提升4.15个百分点。

Comments 16 pages, 4 figures, 9 tables

2606.18924 2026-06-18 cs.SD 新提交 专题 70

Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs

谁赢得冲突?音频大模型中文本偏差的机制可解释性

Hyebin Cho, Suho Yoo, Jaehyuk Jang, Changick Kim, Joon Son Chung

专题命中 安全评测 :研究文本主导偏差,缓解幻觉

AI总结 本文通过机制分析揭示音频大模型中的文本主导偏差,发现文本路径主动抑制完整音频表征,并提出无训练干预方法back-patching以增强音频表征,缓解文本主导。

Comments Preprint

2606.18632 2026-06-18 cs.RO 新提交 专题 70

ROBOSHACKLES: A Safety Dataset for Human-Injury Prevention in Embodied Foundation Models

ROBOSHACKLES: 面向具身基础模型中人体伤害预防的安全数据集

Zhuowen Yin, Chongyang Liu, Wenzhang Yang, Renjue Li, Yinxing Xue

专题命中 安全评测 :评估模型在安全关键场景下的不安全动作

AI总结 为解决机器人伤害人类数据难以安全收集的问题,提出基于真实观测的安全数据构建流水线,生成包含1万条视频的ROBOSHACKLES数据集,涵盖直接和间接伤害类别,评估发现现有模型在安全关键场景下100%产生不安全动作。

2606.18310 2026-06-18 cs.CR cs.AI 新提交 专题 70

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

冲突感知检索器编辑:针对基于LLM的RAG系统的知识注入攻击

Xinru Liu, Xianglong Zhang, Di Cai, Zhumin Chen, Pengfei Hu, Xin Xin

专题命中 安全评测 :针对RAG系统的知识注入攻击。

AI总结 提出冲突感知检索器编辑框架CAREATTACK,通过模型中心攻击将恶意知识注入RAG系统,利用图检测和参数编辑投影解决冲突,并轻量校准保持攻击效果。

2606.18289 2026-06-18 cs.HC cs.CY 新提交 专题 70

Beyond the Algorithm: Professional Experiences and Perceptions of AI Bias

超越算法:人工智能偏见的专业经验与认知

Micarah Malone-Gawu

专题命中 安全评测 :研究AI偏见感知与缓解,涉及算法公平与安全。

AI总结 通过质性多案例研究,探讨AI从业者如何感知和缓解算法偏见,发现偏见源于历史不公、排他性设计及组织压力,强调公平需要结构性问责、多元参与和认知意识。

Comments PhD thesis

2606.18285 2026-06-18 cs.SI cs.CY 新提交 专题 70

RELIANCE: Curating and Evaluating Reproductive Health Information on Social Media

RELIANCE: 策展与评估社交媒体上的生殖健康信息

Vaibhav Balloli, Laura Peyton Ellis, Vishala Mishra, Alice Chi, Alex Peahl, Elizabeth Bondi-Kelly

专题命中 安全评测 :评估LLM在生殖健康信息事实核查中的能力与安全。

AI总结 针对TikTok上孕期和产后健康信息,构建专家标注数据集RELIANCE,评估LLM事实核查能力,发现近60%信息准确,但整体与具体声明评估存在15%差距。

Comments Accepted at Datasets and Benchmarks Track, ACM Knowledge Discovery and Data Mining (KDD) 2026. Project page: https://realize-lab.github.io/RELIANCE/

2606.18261 2026-06-18 cs.HC cs.CY 新提交 专题 70

"Are you an AI?" Analyzing Client Suspicion of AI Use in Crisis Counseling

“你是AI吗?”分析危机咨询中客户对AI使用的怀疑

Shreya Shah, Akshay Swaminathan, Meghana Simhadri, Ivan Lopez, Sharang Phadke, Divyanjali Verma, Abhay John, Luke Zhao, Fiona Cai, Sharon Zhang, Gloria Ye, Ivy Pham, William Wang, Sebastian Garcia, Sarah Wornow, Angelina Wang, Nigam H. Shah

专题命中 安全评测 :分析危机咨询中客户对AI使用的怀疑,涉及信任与安全。

AI总结 通过分析75,777次危机咨询对话,发现客户怀疑AI使用的比例从0.8%升至2.6%,多数怀疑出现在对话前半段,且当咨询师保证非AI时仍有17.6%客户继续追问或结束对话。

2606.18142 2026-06-18 cs.AI cs.CL cs.CY 新提交 专题 70

Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models

你的AI旅行代理会为你预订斗牛:前沿AI模型中隐含动物福利的代理基准

Jasmine Brazilek, Joel Christoph, Miles Tidmarsh, Carol Kline, Oliver Tullio, Arturs Kanepajs

专题命中 安全评测 :测试模型避免动物剥削的行为

AI总结 提出首个代理基准TAC,测试AI代理在为用户执行旅行预订等操作时是否避免涉及动物剥削的选项。评估七个前沿模型,所有模型得分低于随机水平64%,最佳模型仅53%。

2604.13899 2026-06-18 cs.CL cs.AI 版本更新 专题 70

Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection

我们是否仍然需要人在回路中?比较主动学习中用于敌意检测的人类与LLM标注

Ahmad Dawar Hakimi, Lea Hirlimann, Isabelle Augenstein, Hinrich Schütze

专题命中 安全评测 :比较LLM与人类在敌意检测中的标注效果

AI总结 研究比较了LLM与人类在主动学习中的标注效果,发现LLM标注成本更低且性能更优,但主动学习在LLM标注下无优势。

2606.19220 2026-06-18 cs.LG cs.AI 新提交 专题 65

Machine Unlearning for the XGBoost Model with Network Intrusion Datasets

面向网络入侵数据集的XGBoost模型机器遗忘

Diana Magalhães, Eva Maia, João Vitorino, Isabel Praça

专题命中 安全评测 :XGBoost模型遗忘,与安全相关但非LLM

AI总结 针对XGBoost模型提出XGBoost-Forget遗忘方法,在表格型网络入侵数据集上实现高效遗忘,保持模型性能的同时显著提升遗忘速度。

Comments 12 pages, 7 tables, WorldCist'26 Conference

2606.19129 2026-06-18 cs.CR cs.LG 新提交 专题 60

Giskard : Byzantine Robust and Confidential Aggregation for Large-Scale Decentralized Learning

Giskard: 大规模去中心化学习中的拜占庭鲁棒与机密聚合

Ousmane Touat, César Sabater, Mohamed Maouche, Sonia Ben Mokhtar

专题命中 安全评测 :去中心化学习中的拜占庭鲁棒聚合,涉及安全

AI总结 针对去中心化学习中同时保证机密性和抵御拜占庭行为的挑战,提出Giskard协议,通过树状委员会结构和BGW风格MPC实现近似中位数聚合,在百万级参与者下降低通信复杂度并保持模型效用。

Comments 17 pages, with appendix

2606.18922 2026-06-18 cs.CL cs.AI 新提交 专题 60

As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language

像火箭科学一样简单:评估大型语言模型解释比喻语言中否定能力的研究

Jasmine Owers, Edwin Simpson, Martha Lewis

专题命中 安全评测 :理解否定与比喻属于语言能力评测

AI总结 本研究通过开发新的注释数据集,测试多种大型语言模型在比喻语言中理解否定的能力,发现否定与比喻的组合对模型构成挑战,且性能高度依赖提示风格。

Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics

2606.18593 2026-06-18 cs.HC cs.CY 新提交 专题 60

"The New Era of Tech-Enabled Traceability": Tensions between the FDA's Data Governance Vision and the Lived Realities of Food Producers

“技术赋能可追溯性的新时代”:FDA的数据治理愿景与食品生产者的现实困境之间的张力

Soonho Kwon, Catherine Wieczorek, Heidi Biggs, Shellye Suttles, Tammi S. Etheridge, Annabel Rothschild, Shaowen Bardzell

专题命中 安全评测 :分析FDA食品追溯规则数据治理与生产者矛盾

AI总结 研究美国FDA食品追溯规则如何将农业食品利益相关者转化为数据劳工,通过分析1198条公众评论揭示数据收集、基础设施和文化实践中的三大矛盾。

2606.18557 2026-06-18 cs.AI cs.LG cs.LO 新提交 专题 60

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb:基础模型中可废止溯因的可验证基准

Patrick Cooper, Alvaro Velasquez

专题命中 安全评测 :评估模型推理的严谨性

AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。

Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc

2606.19263 2026-06-18 cs.SI cs.CY cs.MA econ.GN q-fin.EC 新提交 专题 55

Digital Speech Acts Retain Control of Copyright with People, Not Platforms

数字言语行为:版权控制权归属于人而非平台

James Golike, Ehud Shapiro

专题命中 安全评测 :数字版权控制,非直接安全但相关

AI总结 本文提出“数字言语行为”概念,即个人用自己的私钥在自有设备上对内容进行加密签名,从而确立归属、责任和作者身份,并论证该行为符合美国版权法保护条件,能确保个人对内容的控制权,为数字主权和民主自治奠定基础。

2. 偏好对齐 2 篇

2606.18327 2026-06-18 cs.LG cs.AI 新提交 专题 70

Self-CTRL: Self-Consistency Training with Reinforcement Learning

Self-CTRL:基于强化学习的自一致性训练

Itamar Pres, Laura Ruis, Melat Ghebreselassie, Belinda Z. Li, Jacob Andreas

专题命中 偏好对齐 :通过强化学习优化语言模型自我解释与行为一致性。

AI总结 提出Self-CTRL方法,通过强化学习优化语言模型自我解释与行为之间的一致性,在概率推理和宪法AI任务上显著提升一致性和安全性。

Comments 34 pages, 12 figures, includes appendices

2606.19162 2026-06-18 cs.LG cs.CV 新提交 专题 60

The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

奖励一直就在你的数据中:用判别器引导的强化学习纠正流匹配

Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal

专题命中 偏好对齐 :使用RL进行偏好对齐,但主要针对图像生成

AI总结 针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷,提出判别器引导的强化学习(DRL),利用预训练空间中判别器的logit作为奖励,显著提升无引导FID和语义FD,并改善偏好对齐。

Comments 84 pages, including appendices