Beyond the Algorithm: Professional Experiences and Perceptions of AI Bias
超越算法:人工智能偏见的专业经验与认知
专题命中 安全评测 :研究AI偏见感知与缓解,涉及算法公平与安全。
AI总结 通过质性多案例研究,探讨AI从业者如何感知和缓解算法偏见,发现偏见源于历史不公、排他性设计及组织压力,强调公平需要结构性问责、多元参与和认知意识。
Comments PhD thesis
AI 大模型
大模型对齐、安全、越狱、红队、提示注入和可信评测。
超越算法:人工智能偏见的专业经验与认知
专题命中 安全评测 :研究AI偏见感知与缓解,涉及算法公平与安全。
AI总结 通过质性多案例研究,探讨AI从业者如何感知和缓解算法偏见,发现偏见源于历史不公、排他性设计及组织压力,强调公平需要结构性问责、多元参与和认知意识。
Comments PhD thesis
RELIANCE: 策展与评估社交媒体上的生殖健康信息
专题命中 安全评测 :评估LLM在生殖健康信息事实核查中的能力与安全。
AI总结 针对TikTok上孕期和产后健康信息,构建专家标注数据集RELIANCE,评估LLM事实核查能力,发现近60%信息准确,但整体与具体声明评估存在15%差距。
Comments Accepted at Datasets and Benchmarks Track, ACM Knowledge Discovery and Data Mining (KDD) 2026. Project page: https://realize-lab.github.io/RELIANCE/
“你是AI吗?”分析危机咨询中客户对AI使用的怀疑
专题命中 安全评测 :分析危机咨询中客户对AI使用的怀疑,涉及信任与安全。
AI总结 通过分析75,777次危机咨询对话,发现客户怀疑AI使用的比例从0.8%升至2.6%,多数怀疑出现在对话前半段,且当咨询师保证非AI时仍有17.6%客户继续追问或结束对话。
你的AI旅行代理会为你预订斗牛:前沿AI模型中隐含动物福利的代理基准
发表机构 * Compassion Aligned Machine Learning(同情对齐机器学习) ; Sentient Futures(感知未来) ; Harvard Kennedy School(哈佛肯尼迪学院) ; Appalachian State University Department of Management(阿巴拉契亚州立大学管理系)
专题命中 安全评测 :测试模型避免动物剥削的行为
AI总结 提出首个代理基准TAC,测试AI代理在为用户执行旅行预订等操作时是否避免涉及动物剥削的选项。评估七个前沿模型,所有模型得分低于随机水平64%,最佳模型仅53%。
面向网络入侵数据集的XGBoost模型机器遗忘
发表机构 * GECAD, ISEP, Polytechnic of Porto(GECAD、ISEP、波尔图理工大学)
专题命中 安全评测 :XGBoost模型遗忘,与安全相关但非LLM
AI总结 针对XGBoost模型提出XGBoost-Forget遗忘方法,在表格型网络入侵数据集上实现高效遗忘,保持模型性能的同时显著提升遗忘速度。
Comments 12 pages, 7 tables, WorldCist'26 Conference
Giskard: 大规模去中心化学习中的拜占庭鲁棒与机密聚合
发表机构 * INSA Lyon, LIRIS, CNRS(里尔斯大学 Lyon,LIRIS,CNRS) ; INRIA, INSA Lyon(法国国家科学研究中心 INRIA,里尔斯大学 Lyon)
专题命中 安全评测 :去中心化学习中的拜占庭鲁棒聚合,涉及安全
AI总结 针对去中心化学习中同时保证机密性和抵御拜占庭行为的挑战,提出Giskard协议,通过树状委员会结构和BGW风格MPC实现近似中位数聚合,在百万级参与者下降低通信复杂度并保持模型效用。
Comments 17 pages, with appendix
像火箭科学一样简单:评估大型语言模型解释比喻语言中否定能力的研究
发表机构 * Intelligent Systems Lab University of Bristol(智能系统实验室 英国布里斯托尔大学) ; ILLC University of Amsterdam(阿姆斯特丹大学语言学研究所)
专题命中 安全评测 :理解否定与比喻属于语言能力评测
AI总结 本研究通过开发新的注释数据集,测试多种大型语言模型在比喻语言中理解否定的能力,发现否定与比喻的组合对模型构成挑战,且性能高度依赖提示风格。
Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics
“技术赋能可追溯性的新时代”:FDA的数据治理愿景与食品生产者的现实困境之间的张力
专题命中 安全评测 :分析FDA食品追溯规则数据治理与生产者矛盾
AI总结 研究美国FDA食品追溯规则如何将农业食品利益相关者转化为数据劳工,通过分析1198条公众评论揭示数据收集、基础设施和文化实践中的三大矛盾。
DeFAb:基础模型中可废止溯因的可验证基准
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
专题命中 安全评测 :评估模型推理的严谨性
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc
数字言语行为:版权控制权归属于人而非平台
专题命中 安全评测 :数字版权控制,非直接安全但相关
AI总结 本文提出“数字言语行为”概念,即个人用自己的私钥在自有设备上对内容进行加密签名,从而确立归属、责任和作者身份,并论证该行为符合美国版权法保护条件,能确保个人对内容的控制权,为数字主权和民主自治奠定基础。
奖励一直就在你的数据中:用判别器引导的强化学习纠正流匹配
发表机构 * FAIR at Meta ; Columbia University ; Mila -- Qu\' e bec AI Institute ; McGill University ; Canada CIFAR AI Chair
专题命中 偏好对齐 :使用RL进行偏好对齐,但主要针对图像生成
AI总结 针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷,提出判别器引导的强化学习(DRL),利用预训练空间中判别器的logit作为奖励,显著提升无引导FID和语义FD,并改善偏好对齐。
Comments 84 pages, including appendices