Interpretable Modeling of Driver Attention Shifts with a Vision-Language Model
基于视觉-语言模型的驾驶员注意力转移可解释建模
发表机构 * Texas Tech University(德克萨斯理工大学) ; Towson University(托森大学)
AI总结 本研究通过少量人工监督微调视觉-语言模型,生成可解释的驾驶员注意力转移描述,以补充传统注视热图,提升人因分析、监控和态势感知支持。
基于视觉-语言模型的驾驶员注意力转移可解释建模
发表机构 * Texas Tech University(德克萨斯理工大学) ; Towson University(托森大学)
AI总结 本研究通过少量人工监督微调视觉-语言模型,生成可解释的驾驶员注意力转移描述,以补充传统注视热图,提升人因分析、监控和态势感知支持。
隐私感知解码:缓解检索增强生成中大语言模型的隐私泄露
发表机构 * Emory University(埃默里大学) ; Illinois Institute of Technology(伊利诺伊理工学院)
AI总结 提出一种轻量级推理时防御方法PAD,通过在解码过程中注入校准高斯噪声,结合置信度筛选、敏感度估计和上下文感知噪声校准,在RAG系统中平衡隐私保护与生成质量,并利用Rényi差分隐私跟踪累积隐私损失。
CoMPAS3D: 一个用于交互动作的数据集和基准
发表机构 * School of Computing Science Simon Fraser University(计算科学学院西蒙弗雷泽大学)
AI总结 提出CoMPAS3D数据集和评估框架,通过动作可读性和熟练度适当性等客观指标,解决交互式动作生成中缺乏社交上下文评估的问题。
Comments https://rosielab.github.io/compas3d
DRAN:一种面向时空预测的分布与关系自适应网络
发表机构 * Key Laboratory of Smart Manufacturing in Energy Chemical Process, Ministry of Education, East China University of Science and Technology, Shanghai(能源化学过程智能制造关键实验室,教育部,东华大学,上海) ; Faculty of Informatics, Università della Svizzera italiana(瑞士意大利大学信息学院) ; Department of Electronics, Information and Bioengineering, Politecnico di Milano(米兰理工学院电子、信息与生物工程系)
AI总结 针对非平稳时空系统的预测挑战,提出分布与关系自适应网络(DRAN),通过空间因子学习器(SFL)和动态-静态融合学习器(DSFL)分别适应分布偏移和关系变化,在天气和交通预测任务上超越现有方法。
Comments 15 pages, 10 figures
对抗环境中无人机冲突消解的课程自适应鲁棒强化学习
发表机构 * Faculty of Engineering and Applied Sciences, Cranfield University(工程与应用科学学院,克兰菲尔德大学)
AI总结 提出一种课程引导的适应框架,通过渐进暴露于梯度对抗观测扰动并对齐时序差分误差分布,提升无人机在GNSS欺骗攻击下的鲁棒性和泛化能力。
微调视频变换器用于词级孟加拉手语:分类任务的比较分析
发表机构 * Systems and Software Lab (SSL), Department of CSE, Islamic University of Technology (IUT)(计算机科学与软件系,伊斯兰科技大学(IUT)系统与软件实验室)
AI总结 本研究通过微调VideoMAE、ViViT和TimeSformer三种视频变换器模型,在BdSLW60和BdSLW401数据集上实现了高精度孟加拉手语识别,其中VideoMAE在帧率校正后的BdSLW60上达到95.5%准确率。
Comments 16 pages, 8 figures, 6 tables
Journal ref PLOS ONE, Vol. 21, No. 5, e0341909, 2026
解释是否会增加决策逻辑泄露的风险?解释引导的图模型窃取
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科学与技术大学(广州)) ; Xiamen University(厦门大学) ; The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 研究解释机制可能泄露图神经网络决策逻辑的风险,提出一种结合解释对齐与数据增强的模型窃取框架,实验证明其优于传统方法。
TIDFormer: 利用时间和交互动态打造卓越的动态图Transformer
发表机构 * Renmin University of China(中国人民大学) ; Huawei Shenzhen, Guangdong China(华为深圳,广东中国)
AI总结 提出TIDFormer,通过高效利用时间和交互动态,并设计可解释的自注意力机制,在多个动态图数据集上超越现有模型。
Comments KDD2025
专家合作:大间隔融合异构信息
发表机构 * Shuo Wang, Shunyang Huang, Jinghui Yuan, Zhixiang Shen, Zhao Kang(未知)
AI总结 提出专家合作框架,通过大间隔机制融合异构信息,在统一异构多路网络中编码多类型数据,实现鲁棒且互补的知识提取。
Comments Accepted at the 42nd International Conference on Machine Learning (ICML 2025)
Journal ref Proceedings of the 42nd International Conference on Machine Learning, PMLR 267:63169-63185, 2025
通过不变性感知模型拼接实现功能相似性评估
发表机构 * Ioannis Athanasiadis ; Anmar Karmush ; Michael Felsberg
AI总结 针对标准模型拼接忽略不变性导致功能相似性误判的问题,提出前向-后向兼容性要求下的不变性感知模型拼接方法,揭示隐藏的功能差异。
GS-ROR$^2$: 双向引导的3DGS和SDF用于反射物体重光照与重建
发表机构 * VCIP, College of Computer Science, Nankai University(VCIP,计算机科学学院,南开大学) ; School of Intelligence Science and Technology, Nanjing University(智能科学与技术学校,南京大学)
AI总结 提出一种双向引导框架,通过SDF辅助的高斯溅射优化重光照模型,并利用GS引导的SDF增强实现高质量几何重建,解决反射物体重光照与重建中的几何约束和细节捕捉问题。
Comments Accepted by ACM TOG
R2DN:收缩和Lipschitz循环深度网络的可扩展参数化
发表机构 * Australian Centre for Robotics(澳大利亚机器人中心) ; School of Aerospace, Mechanical and Mechatronic Engineering(航空航天、机械与机电工程学院) ; The University of Sydney(悉尼大学)
AI总结 本文提出鲁棒循环深度网络(R2DN),通过将线性时不变系统与1-Lipschitz深度前馈网络反馈互联,直接参数化权重以保证模型稳定(收缩)且对小输入扰动鲁棒(Lipschitz),相比循环均衡网络(REN)无需迭代求解均衡层,显著提升GPU上的推理和反向传播速度,并在非线性系统辨识、观测器设计和基于学习的反馈控制中实现相近性能下训练和推理速度提升一个数量级。
立场:针对LLM的对抗性机器学习并未取得任何进展
发表机构 * GitHub ; University of California, Berkeley(加州大学伯克利分校)
AI总结 本文认为,在大语言模型时代,对抗性机器学习研究的问题定义更模糊、更难解决且更难以评估,可能导致未来十年仍无法取得有意义进展。
Comments Accepted at ICML 2026 Position Paper Track
线性差分麦克风阵列的可微优化:联合几何与滤波器设计框架
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校)
AI总结 提出一种可微优化框架,通过联合优化麦克风位置和滤波器权重,实现线性差分麦克风阵列的最优波束模式,在保证无失真约束的同时兼顾指向性、鲁棒性和硬件效率。
Comments 5 pages, 4 figures, 2 tables
Align-KD:为移动视觉语言模型增强提取跨模态对齐知识
发表机构 * State Key Laboratory of General Artificial Intelligence, School of Intelligence Science and Technology, Peking University, China(通用人工智能国家重点实验室,智能科学与技术学院,北京大学,中国) ; Huawei Noah’s Ark Lab, China(华为诺亚方舟实验室,中国)
AI总结 提出Align-KD方法,通过蒸馏教师模型浅层跨模态对齐知识,指导1.7B学生模型学习视觉-文本匹配,在6个基准上平均提升2.0分。
Comments CVPR 2025 Paper
PINNfluence: 通过影响函数解释 PINN
发表机构 * Technical University of Munich(慕尼黑技术大学) ; Max Planck Institute for Intelligent Systems(智能系统马克斯·普朗克研究所) ; University of Tübingen(图宾根大学) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 提出 PINNfluence 框架,基于影响函数对物理信息神经网络进行训练数据归因,实现预测、损失分量和训练数据点之间的细粒度归因,并通过基准实验区分训练好与差的 PINN 的结构特征。
Comments Accepted at ICML 2026
ResCLIP: 用于无训练密集视觉-语言推理的残差注意力
发表机构 * University of Electronic Science and Technology of China(电子科学与技术大学)
AI总结 提出残差交叉相关自注意力模块和语义反馈精炼模块,利用中间层交叉相关注意力重组空间信息,提升CLIP在密集预测任务中的性能。
Journal ref Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 29968-29978
在黑盒优化中建立信任:可解释性的综合框架
发表机构 * University of Illinois Chicago(伊利诺伊大学芝加哥分校)
AI总结 提出一套模型无关的指标IEMSO,通过采样核心、批次属性、优化过程和特征重要性四类指标,增强代理优化方法的透明性和可解释性。
评估模型编辑中的逆转诅咒
发表机构 * National Engineering Research Center of Speech and Language Information Processing(语音与语言信息处理国家级工程研究中心) ; University of Science and Technology of China(中国科学技术大学) ; iFLYTEK Research(iFLYTEK研究院) ; University of California, Los Angeles(美国加州大学洛杉矶分校)
AI总结 本文研究双向语言模型编辑,提出反向泛化指标并构建BAKE基准,发现多数编辑方法在反向评估中存在系统性缺陷,并分析逆转诅咒的成因及缓解策略。
Comments Accepted by TMLR
加权风险不变性:不变特征偏移下的领域泛化
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; University of Maryland, College Park(马里兰大学学院公园分校) ; New York University(纽约大学) ; Center for Data Science(数据科学中心)
AI总结 针对不变协变量偏移下现有不变学习方法性能不佳的问题,提出加权风险不变性(WRI)框架,通过环境间损失的不变性并加权训练样本,在理论上保证学习到不变模型,并在实验中优于先前方法。
Journal ref TMLR 2024
使用知识图谱嵌入近似统计EL中的概率推理
发表机构 * Bosch Center for AI(博世人工智能中心) ; University of Stuttgart(斯图加特大学) ; Cardiff University(卡迪夫大学) ; Stanford University(斯坦福大学) ; University of Oslo(奥斯陆大学) ; University of Southampton(南安普顿大学)
AI总结 本文提出利用知识图谱嵌入高效近似统计EL中的概率推理,并提供了运行时和正确性保证的理论证明及实验评估。
Comments Accepted at UAI 2026
一种改进的扩散模型个性化方法
发表机构 * Graduate School of Information Sciences, Tohoku University(东北大学信息科学研究生院) ; RIKEN Center for AIP(理化学研究所AIP研究中心)
AI总结 提出一种在整合新信息时保留模型原有知识的扩散模型个性化方法,相比Dreambooth和文本反转训练时间更短且效果更优。
Annot-Mix: 通过混合扩展从多个标注者学习带噪声类别标签
发表机构 * University of Kassel(卡塞尔大学) ; European Conference on Artificial Intelligence(欧洲人工智能会议) ; Conference on Prestigious Applications of Intelligent Systems(智能系统 prestigious 应用会议)
AI总结 提出Annot-Mix框架,通过扩展mixup处理多标注者提供的类别标签,在11个数据集上优于11种现有方法。
Comments 9 pages, 8 figures, 4 tables; post-publication arXiv version with minor editorial corrections; methodology, results, and conclusions unchanged
Journal ref ECAI 2024: 27th European Conference on Artifical Intelligence, IOS Press, pp. 2910-2918, 2024
不确定性规划:对称性、策略推理与解压缩
发表机构 * INF/UFRGS(乌尔巴诺-弗兰西斯科·里格尔大学信息学院)
AI总结 本文提出基于显式最佳优先策略空间搜索的FOND规划方法,通过定义策略等价关系、利用群论计算状态对称性、多项式时间策略推断以及整数规划实现部分状态策略压缩,显著提升求解效率。
Typhoon: 面向预训练语言模型的有效任务特定掩码策略
发表机构 * Department of Computer Science, Stanford University(斯坦福大学计算机科学系)
AI总结 本文提出Typhoon,一种基于任务损失梯度的自适应掩码策略,在GLUE任务上对比随机掩码和整词掩码,经严格评估发现无显著优势。
SEAOTTER: 基于传感器嵌入自编码器与一次性转码的高效重建
发表机构 * Department of Electrical and Computer Engineering(电气与计算机工程系) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 提出SEAOTTER框架,结合传感器嵌入自编码器与可学习JPEG转码,在200:1压缩比下实现比AVIF快7倍编码、3.5倍解码,并提升ImageNet top-1准确率8%,同时保持JPEG兼容性。
WavTTS:通过直接原始波形建模实现高质量零样本TTS
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; ByteDance Seed(字节跳动种子)
AI总结 提出WavTTS,首个基于流匹配与扩散Transformer的原始波形生成TTS模型,通过简单分块策略直接建模波形并集成多尺度梅尔频谱监督,在零样本TTS中接近潜在空间生成模型性能。
AnyAudio-Judge:基于动态评分标准的音频指令跟随基准与评估器
发表机构 * Zhejiang University(浙江大学) ; Shanghai Innovation Institute(上海创新研究院) ; Shanghai Jiao Tong University(上海交通大学) ; Tencent Hunyuan(腾讯文脉)
AI总结 针对指令引导音频生成中复杂指令解耦困难、评估缺乏可解释性和细粒度属性匹配的问题,提出基于动态评分标准的评估范式,通过自适应分解音频描述为可验证的二元评分项,并构建包含7920个样本的双语基准和105K训练语料,结合SFT与GRPO训练专用评估器,在零样本对齐检测和下游强化学习指令对齐中取得显著提升。
生成式与判别式语音增强方法的比较:鲁棒性、复杂性与幻觉
发表机构 * Fraunhofer IIS(弗劳恩霍夫研究所) ; Friedrich-Alexander-Universität Erlangen-Nürnberg(埃尔兰根-纽伦堡亚当-弗里德里希-亚历山大大学)
AI总结 本文比较了生成式和判别式深度学习方法在语音增强中的表现,分析了高/低信噪比、匹配/失配训练场景下的鲁棒性、复杂度与幻觉特性。
基于双差分散焦与立体一致性的深度估计
发表机构 * Purdue University(普渡大学) ; Northwestern University(西北大学)
AI总结 提出D^3S Consensus算法,融合散焦深度与立体视觉,在超出景深范围内实现高精度深度估计,通过物理独立线索的一致性选择可靠预测,以更小基线达到可比工作范围。