A Sensitivity Analysis of Multi-Event Audio Grounding in Audio LLMs
音频大语言模型中多事件音频定位的敏感性分析
发表机构 * Sogang University(ソンガン大学)
AI总结 通过大规模评估,发现音频大语言模型在复杂声学场景中事件数量增加会导致真阳性率下降和假阳性率上升,提示词则引入权衡,模型对多事件音频更不确定。
Comments 6 pages, Accepted to Interspeech 2026
音频大语言模型中多事件音频定位的敏感性分析
发表机构 * Sogang University(ソンガン大学)
AI总结 通过大规模评估,发现音频大语言模型在复杂声学场景中事件数量增加会导致真阳性率下降和假阳性率上升,提示词则引入权衡,模型对多事件音频更不确定。
Comments 6 pages, Accepted to Interspeech 2026
LEMON-Mapping: 面向全局一致建图的环路增强大规模多会话点云融合与优化
发表机构 * Institute of CyberSystems and Control, Zhejiang University(浙江大学控制系统研究所) ; The Huzhou Institute, Zhejiang University(浙江大学湖州研究院) ; The State Key Laboratory of Industrial Control Technology, College of Control Science and Engineering, Zhejiang University(浙江大学控制科学与工程学院国家工业控制技术重点实验室) ; The College of Intelligence Science and Technology, National University of Defense Technology(国防科技大学智能科学与技术学院)
AI总结 提出LEMON-Mapping框架,通过鲁棒环路处理、空间光束法平差和基于PGO的优化,解决多机器人建图中重叠区域发散和模糊问题,实现高精度全局一致点云融合。
基于因果POMDP的分布偏移下规划
发表机构 * School of Electrical Engineering and Computer Science (EECS)(电气工程与计算机科学学院)
AI总结 提出因果POMDP框架,通过干预表示环境变化,在部分可观测下维持PWLC性质,实现分布偏移下的规划与更新。
Comments To appear at the 36th International Conference on Automated Planning and Scheduling (ICAPS-26)
全球天气模型的缩放定律
发表机构 * University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 本文分析数据驱动天气模型中模型大小、数据集大小和计算预算与验证损失之间的缩放定律,发现Aurora数据缩放最强,GraphCast参数效率高但硬件利用率低,计算最优分析表明增加训练数据比增大模型更有效,且模型形状上宽度优于深度。
Comments Accepted at ICML 2026. 21 pages, 7 figures
CoVar: 置信度-方差引导的半监督学习伪标签选择
发表机构 * College of Artificial Intelligence, Shenzhen University(深圳大学人工智能学院) ; School of Information and Electrical Engineering, Hunan University of Science and Technology(湖南科技大学信息与电气工程学院) ; Information Hub, Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)信息中心)
AI总结 提出CoVar框架,通过联合建模最大置信度和残差类方差来评估伪标签可靠性,利用SVD谱松弛分离可靠与不可靠预测,无需手动阈值,在分割和分类任务上取得提升。
MobilityBench:用于评估真实世界移动场景中路径规划智能体的基准
发表机构 * Computer Network Information Center, Chinese Academy of Sciences(中国科学院计算机网络信息中心) ; AMAP, Alibaba Group(阿里集团AMAP) ; Alibaba Group(阿里集团)
AI总结 提出MobilityBench基准,通过确定性API重放沙箱和多维评估协议,系统评估基于LLM的路径规划智能体,发现现有模型在偏好约束路径规划上表现不佳。
基于EKF的深度相机与深度学习融合用于搜救任务中无人机-人员距离估计与跟随
发表机构 * University of Rijeka(里雅斯特大学)
AI总结 提出融合深度相机测量和单目相机人体距离估计的EKF方法,利用YOLO-pose实现实时融合,提高无人机跟随中距离估计的精度和鲁棒性,在三个测试场景中平均误差降低15.3%。
Comments This work has been submitted to the IEEE for possible publication
人类引导的智能体AI用于多模态临床预测:来自AgentDS医疗基准的教训
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Washington(华盛顿大学) ; Stanford University(斯坦福大学)
AI总结 通过人类引导智能体AI在多模态临床预测任务中取得领先性能,提炼出领域知识引导特征工程、任务特定多模态融合和临床动机模型集成三大通用经验。
Comments Presented at the Data Challenge track at the 14th IEEE International Conference on Healthcare Informatics (ICHI) 2026 on June 3, 2026
扩散以协调:高效在线多智能体扩散策略
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出首个在线离线策略多智能体强化学习框架OMAD,利用扩散策略和松弛策略目标最大化缩放联合熵,实现高效探索与协调,在MPE和MAMuJoCo上样本效率提升2.5至5倍。
学习注入:通过强化学习实现自动化提示注入
发表机构 * ETH Zürich(苏黎世联邦理工学院)
AI总结 提出AutoInject,一种基于强化学习的黑盒框架,自动学习对抗性后缀进行提示注入,在AgentDojo上优于模板攻击和多种自适应攻击,并突破专门防御模型。
聚焦污染:基于水文信息与噪声感知的地理空间PFAS测绘学习
发表机构 * University of Michigan(密歇根大学) ; Environmental Working Group(环保工作组) ; University of California, Davis(加州大学戴维斯分校)
AI总结 提出FOCUS框架,结合稀疏PFAS观测与水文连通性等环境先验,通过噪声感知损失实现鲁棒训练,在PFAS污染测绘中优于传统方法。
Comments Best Paper Award at ICLR 2026 Machine Learning for Remote Sensing Workshop
分布漂移下伪校准保形预测的覆盖保证
发表机构 * Elmore Family School of Electrical and Computer Engineering, Purdue University(艾洛姆家族电气与计算机工程学院,普渡大学)
AI总结 针对分布漂移下保形预测覆盖失效问题,利用伪校准和领域自适应工具,推导目标覆盖下界,并提出通过松弛参数膨胀保形阈值的方法及源调优伪校准算法,实验证明其能缓解覆盖退化。
Comments Under review. 6 pages, 2 figures, 1 table
从不可约元组合线性层
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 提出用Clifford代数将线性层分解为双向量(几何基元)的组合,仅需O(log^2 d)参数,在LLM注意力投影中匹配强基线性能。
Comments 35 Pages, 11 Tables, 6 Figures, Appearing in NeurIPS 2025
Journal ref Advances in Neural Information Processing Systems 38 (2025)
超越平稳性的动量LMS理论:稳定性、跟踪与遗憾
发表机构 * School of Advanced Interdisciplinary Sciences, University of Chinese Academy of Sciences(中国科学院大学先进交叉学科学院) ; State Key Laboratory of Mathematical Sciences, Academy of Mathematics and Systems Science, Chinese Academy of Sciences(中国科学院数学科学国家重点实验室) ; School of Mathematical Sciences, University of Chinese Academy of Sciences(中国科学院大学数学科学学院)
AI总结 本文研究动量最小均方算法在非平稳时变线性系统中的跟踪性能与遗憾界,通过分析二阶时变随机向量差分方程,证明其快速适应和鲁棒跟踪能力。
Comments 9 pages, 3 figures
SpaTeoGL: 用于颅内脑电图可解释癫痫发作起始区分析的时空图学习
发表机构 * Inria Saclay(Inria萨克莱实验室) ; Palaiseau, France(法国帕莱伊索)
AI总结 提出SpaTeoGL框架,通过联合学习窗口级空间图和时间图,在平滑图信号处理框架下交替求解,实现癫痫发作起始区的可解释定位,在多中心iEEG数据集上优于基线方法。
Comments 5 pages, 4 figures
SoftMatcha 2:一种用于万亿级语料库的快速软模式匹配器
发表机构 * The University of Tokyo(东京大学) ; Kyoto University(京都大学) ; National Institute of Informatics(信息处理研究所) ; The Graduate University for Advanced Studies (SOKENDAI)(先进科学研究生院) ; National Institute for Japanese Language(日本语言学研究所) ; Tohoku University(东北大学)
AI总结 提出SoftMatcha 2,一种基于后缀数组和词向量的超快速软搜索算法,通过动态语料感知剪枝和磁盘感知设计,在万亿级语料上实现0.3秒内支持替换、插入和删除的语义变体搜索,并发现基准污染。
Comments Accepted at ICML2026. Project Page & Web Interface: https://softmatcha.github.io/v2/, Source Code: https://github.com/softmatcha/softmatcha2
Kalman线性注意力:用于高效语言建模和状态跟踪的并行贝叶斯滤波
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出Kalman线性注意力层,将序列混合重写为信息形式的精确贝叶斯滤波,实现时间并行推理,在相同计算成本下比GLA更具表达力,并在状态跟踪任务中超越线性SSM和注意力。
Comments Accepted at ICML 2026. An earlier version of this work was presented at the 1st Workshop on Epistemic Intelligence in Machine Learning (EIML) at EurIPS 2025
张量方法:一种统一且可解释的材料设计方法
发表机构 * University of California, Riverside(加州大学河滨分校) ; Dept. of Computer Science & Engineering(计算机科学与工程系) ; Lawrence Livermore National Laboratory(劳伦斯利弗莫尔国家实验室) ; Materials Engineering Division(材料工程 division) ; Data Science Institute(数据科学研究所)
AI总结 提出使用张量补全方法作为材料设计的统一框架,兼具可解释性和预测性能,在非均匀采样下优于传统机器学习,最高提升5%的R²并减半分布外误差。
Comments Accepted to ACM SIGKDD 2026 AI for Sciences track
关于RL训练的语言模型的最优推理长度
发表机构 * University of Tokyo(东京大学)
AI总结 研究强化学习训练的语言模型中推理长度与准确率的非单调关系,发现存在最优中间长度,并通过模式准确率分析揭示其成因。
Comments 18 pages, 12 figures
自回归直接偏好优化
发表机构 * University of Tokyo(东京大学)
AI总结 提出自回归直接偏好优化(ADPO),在应用Bradley-Terry模型前显式引入自回归假设,通过将DPO目标中的求和操作移至log-sigmoid函数外部,实现更优的偏好对齐,并首次区分token长度μ和反馈长度μ'两种度量。
Comments ICML 2026
从对应到动作:多模态大语言模型中类人多图像空间推理
发表机构 * University of Tokyo(东京大学)
AI总结 提出HATCH框架,通过补丁级空间对齐和动作-答案推理两个目标,提升多模态大模型在多图像空间推理中的性能,在三个基准上超越同规模基线。
Comments ICML 2026
改进分层多标签学习中稀有节点的检测
发表机构 * Faculty of Computer Science(计算机科学学院) ; Dalhousie University(达尔豪斯大学) ; Department of Geography(地理系) ; Memorial University of Newfoundland(纽芬兰纪念大学) ; Department of Oceanography(海洋学系)
AI总结 针对分层多标签分类中稀有节点检测困难的问题,提出结合节点不平衡加权和焦点加权的损失函数,利用集成不确定性量化,在基准数据集上将召回率提升至五倍,并显著提高F1分数。
Comments Accepted for publication in Transactions on Machine Learning Research (TMLR), 2026
面向移动边缘通用智能的资源感知LLM推理
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University, Shenzhen(清华大学深圳国际研究生院,清华大学,深圳) ; College of Computing and Data Science, Nanyang Technological University, Singapore(南洋理工大学 computing 和数据科学学院,新加坡) ; Department of Electronic Engineering, Tsinghua University, Beijing(清华大学电子工程系,北京) ; State Key Laboratory of Space Network and Communications, Tsinghua University, Beijing(空间网络与通信国家重点实验室,清华大学,北京) ; Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing(北京信息科学与技术国家研究中心,清华大学,北京) ; Department of Electrical and Computer Engineering, Auburn University, Auburn, USA(阿伯丁大学电气与计算机工程系,阿伯丁,美国)
AI总结 提出联合优化框架,通过自适应CoT提示和分布式MoE架构协同优化推理深度、专家激活和传输功率,在资源受限的移动边缘环境中实现LLM高效推理,推理质量与资源效率平衡,额外推理时间小于1秒时准确率和延迟满足率均达90%。
对话中的因果情绪识别:上下文饱和与话语标记证据
发表机构 * University of California, Irvine(加州大学尔湾分校)
AI总结 通过系统消融实验发现对话上下文对情绪识别性能起主导作用但快速饱和,并揭示悲伤情绪与左边缘话语标记使用减少及更高上下文依赖性的关联。
基于共识的优化(CBO):迈向机器人学的全局最优性
发表机构 * Munich Center for Machine Learning (MCML), Munich, Germany(慕尼黑机器学习中心(MCML),德国慕尼黑)
AI总结 提出将共识优化(CBO)引入机器人学,在温和假设下保证收敛到全局最优,并在三个挑战性轨迹优化场景中优于现有方法。
全局几何不足以用于视觉表示
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文通过实验发现全局嵌入几何与组合绑定能力几乎无关,而输入-输出雅可比矩阵衡量的功能敏感性可靠地追踪该能力,并分析指出这是由于现有损失函数显式约束嵌入几何但未约束局部输入-输出映射所致。
向量量化潜在概念:聚类式概念发现的可扩展替代方案
发表机构 * Dalhousie University, Canada(加拿大达尔豪斯大学) ; University of Calgary, Canada(加拿大卡尔加里大学)
AI总结 提出VQLC框架,通过向量量化学习离散潜在概念,在保持可解释性的同时,实现与K-Means相当的计算效率,并优于层次聚类在大规模数据上的扩展性。
CountZES: 通过零样本示例选择进行计数
发表机构 * Mohamed Bin Zayed University of Artificial Intelligence(莫莫德·本·扎耶德人工智能大学)
AI总结 针对零样本计数中示例质量差导致计数不准的问题,提出CountZES方法,通过检测锚定、密度引导和特征共识三阶段协同选择多样化示例,提升计数准确性。
MentisOculi: 揭示心智图像推理的局限性
发表机构 * Max Planck Institute for Informatics(马克斯·普朗克信息研究所)
AI总结 提出MentisOculi基准,通过多步推理问题测试前沿模型利用视觉表示辅助推理的能力,发现视觉策略普遍无法提升性能,且统一多模态模型存在生成错误累积和无法利用真实可视化的问题。
Comments 9 pages, 8 figures, Accepted at ICML 2026
AI4SLT: 基于 Lean 4 的形式化统计学习理论实证过程
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文首次在 Lean 4 中完整形式化统计学习理论,基于实证过程理论,通过人机协作工作流构建了可验证的定理证明工具箱,并揭示了教材中的隐含假设。
Comments Accepted by ICML 2026