Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation
捕捉注视转移以引导:跨模态融合增强用于VLM幻觉缓解
发表机构 * AWS AI Labs(AWS人工智能实验室)
AI总结 提出GIFT方法,通过预计算视觉显著性图并跟踪注视转移,在解码时增强对显著视觉信息和用户查询的注意力,以缓解视觉语言模型中的幻觉问题。
Comments ICML 2026
捕捉注视转移以引导:跨模态融合增强用于VLM幻觉缓解
发表机构 * AWS AI Labs(AWS人工智能实验室)
AI总结 提出GIFT方法,通过预计算视觉显著性图并跟踪注视转移,在解码时增强对显著视觉信息和用户查询的注意力,以缓解视觉语言模型中的幻觉问题。
Comments ICML 2026
将LLM后训练为更好的决策智能体:一种遗憾最小化方法
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; University of Maryland, College Park(马里兰大学哥伦比亚学院)
AI总结 提出迭代遗憾最小化微调(Iterative RMFT),通过反复蒸馏低遗憾决策轨迹来后训练LLM,提升其在在线决策任务中的表现,无需依赖已知算法或人工模板。
Comments Camera ready version of ICML 2026
基于扩散模型的多智能体环境协同设计扩展
发表机构 * Department of Computer Science, University of Cambridge, Cambridge, United Kingdom(剑桥大学计算机科学系,剑桥,英国)
AI总结 提出扩散协同设计(DiCoDe)框架,通过投影通用引导(PUG)和评论家蒸馏机制,实现高维环境设计空间下的可扩展、样本高效的智能体-环境协同优化。
UniMedVL: 通过观察-知识-分析统一医学多模态理解与生成
发表机构 * Shanghai Artificial Intelligence Laboratory ; Shanghai Innovation Institute ; Shanghai Jiao Tong University ; Shanghai Institute of Optics ; Fudan University ; University of Cambridge ; Monash University ; DAMO Academy, Alibaba Group ; Imperial College London ; The University of Hong Kong ; The Hong Kong University of Science ; Hupan Lab ; The Chinese University of Hong Kong
AI总结 提出首个统一医学模型UniMedVL,通过渐进式训练流水线融合多模态理解与生成能力,并在8种影像模态的5.6M实例数据集上验证其性能。
Comments This submission has been converted to the ICML template
从统一视角重新思考稀疏混合专家模型
发表机构 * Applied Artificial Intelligence Intiative (A2I2), Deakin University, Victoria, Australia(应用人工智能倡议(A2I2),德金大学,维多利亚,澳大利亚)
AI总结 针对稀疏混合专家模型中固定预算导致无关选择或遗漏关键分配的问题,提出基于线性规划的统一框架USMoE,通过统一机制和评分实现灵活专家选择,提升性能并降低推理成本。
Comments 35 pages
Journal ref ICML 2026
面向具身操作的高效视觉-语言-动作模型:系统综述
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; University of Chinese Academy of Sciences(中国科学院大学) ; AiRiA ; Nanjing University of Information Science and Technology(南京信息科学技术大学)
AI总结 本文系统综述了通过模型架构、感知特征、动作生成和训练/推理策略四个维度降低视觉-语言-动作模型延迟、内存占用及计算成本的方法。
利用Koopman算子展开生成流:轨迹保持的线性化
发表机构 * University of Athens, Greece(雅典大学)
AI总结 提出基于Koopman理论的全局线性化方法,将预训练的条件流匹配模型提升到高维Koopman空间,实现轨迹保持的线性化,从而支持一步并行采样和生成轨迹的谱分析。
无需重新训练的预训练模型弹性ViTs
发表机构 * University of Technology Nuremberg(图恩大学) ; University of Amsterdam(阿姆斯特丹大学) ; NVIDIA(英伟达)
AI总结 提出SnapViT方法,通过结合梯度信息与进化算法近似跨网络结构相关性,实现无需重训练的结构化剪枝,支持连续计算预算下的弹性推理。
Comments Accepted at NeurIPS 2025
基于纳什谈判的稀疏混合专家模型专家合并
发表机构 * Department of Mathematics, National University of Singapore(新加坡国立大学数学系) ; Viettel AI, Viettel Group(越南电信AI部门) ; Faculty of Mathematics and Informatics, Hanoi University of Science and Technology(河内科学技术大学数学与信息学系) ; Bar Ilan University, Israel(以色列巴伊兰大学) ; AI Imaging Team, Data Solution Department, FPT Software Japan(日本FPT软件数据解决方案部门AI成像团队)
AI总结 针对稀疏混合专家模型缺乏原则性加权机制的专家合并问题,提出基于纳什谈判的NAMEx框架,实现专家间更平衡高效的协作,在多项任务中优于现有方法。
Comments 10 pages in the main text. ICLR 2026 Poster
EMCEE:通过提取合成多语言上下文桥接知识与推理以提升大语言模型的多语言能力
发表机构 * Yonsei University(延世大学)
AI总结 提出EMCEE框架,通过从LLM自身提取并融合语言特定知识,结合推理输出,显著提升多语言任务性能,尤其在低资源语言上平均提升31.7%。
Comments ACL 2026 Main
边界引导策略优化:面向扩散大语言模型的内存高效强化学习
发表机构 * Tsinghua University(清华大学)
AI总结 针对扩散大语言模型中似然函数难以处理导致强化学习内存开销大的问题,提出边界引导策略优化(BGPO),通过构造满足线性和等价性的下界实现内存高效训练,在数学求解、代码生成和规划任务中显著优于现有方法。
强化序贯蒙特卡洛用于摊销采样
发表机构 * University of Edinburgh ; Mila -- Qu\'ebec AI Institute ; CIFAR Fellow
AI总结 本文提出一种摊销方法与粒子方法相结合的采样框架,通过最大熵强化学习训练序贯蒙特卡洛采样器,并利用离线策略学习提高目标分布探索效率,在合成多模态目标和丙氨酸二肽构象玻尔兹曼分布上验证了改进的近似精度与训练稳定性。
Comments ICML 2026. Code: https://github.com/hyeok9855/ReinforcedSMC
VAD-GS:动态城市场景中3D高斯泼溅的可见性感知致密化
发表机构 * Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University(同济大学智能自主系统研究所) ; College of Electronic and Information Engineering, Tongji University(同济大学电子与信息工程学院) ; National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Xi’an Jiaotong University(西安交通大学人机混合增强智能国家实验室)
AI总结 提出VAD-GS框架,通过体素可见性推理、多样性感知视图选择和多视图立体重建,在动态城市场景中恢复缺失几何结构,提升3D高斯泼溅的重建质量。
学习具有隐藏动态过程的通用因果结构用于气候分析
发表机构 * Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE(穆罕默德·本·扎耶德人工智能大学) ; Carnegie Mellon University, Pittsburgh, PA, USA(卡内基梅隆大学) ; University of California San Diego, La Jolla, CA, USA(加州大学圣地亚哥分校) ; Johns Hopkins University, Baltimore, MD, USA(约翰·霍普金斯大学)
AI总结 提出统一框架CaDRe,联合发现观测变量间的因果关系和隐藏动态过程,在非参数设置下可识别,并在气候数据上验证了有效性和可解释性。
Comments Accepted by ICML 2026
遥感视觉语言模型的少样本适应基准
发表机构 * UCLouvain(乌尔特-洛文大学) ; UMons(蒙斯大学) ; Fonds de la Recherche Scientifique(科学基金组织)
AI总结 提出首个遥感视觉语言模型少样本适应基准,通过十个数据集和五种策略评估三个模型,发现零样本性能相似的模型在少样本适应下表现差异显著,需开发更鲁棒的方法。
符号中介作为LLM驱动几何推理的语言-数值接口
发表机构 * Idiap Research Institute(Idiap研究 institute) ; École Polytechnique Fédérale de Lausanne(瑞士联邦理工学院) ; Honda Research Institute Europe(本田欧洲研究院) ; Department of Computer Science, University of Manchester(曼彻斯特大学计算机科学系) ; National Biomarker Centre, CRUK-MI, University of Manchester(曼彻斯特大学国家生物标记中心)
AI总结 提出符号中介作为连接物理模拟器数值输出与语言模型推理的接口,通过符号回归将连续数值转化为符号表达式,并在协同优化循环中提升几何推理性能。
Comments 33 pages, 18 figures
基于自适应空间特征融合增强的ResNet-50皮肤病变分类
发表机构 * Polytechnic Institute, Zhejiang University, Hangzhou, China(浙江大学杭州Polytechnic学院) ; Chu Kochen Honors College, Zhejiang University, Hangzhou, China(浙江大学杭州Chu Kochen荣誉学院) ; Alibaba Group, Chaoyang District, Beijing, China(北京朝阳区阿里巴巴集团) ; School of Information Science and Technology, Northeast Normal University, Changchun, China(吉林师范大学信息科学与技术学院) ; School of Mathematical Sciences, Zhejiang University, Hangzhou, China(浙江大学数学科学学院)
AI总结 提出一种结合自适应空间特征融合(ASFF)的改进ResNet-50模型,通过双分支结构融合多尺度语义和细节特征,在ISIC 2020子集上达到93.182%准确率,并有效泛化至ISIC 2019外部验证集。
关于通过鞅驱动的Fisher提示进行顺序测试时间自适应的技术说明
发表机构 * Institute of Business Administration(商业管理学院)
AI总结 提出M-FISHER框架,通过指数鞅检测分布漂移并利用Fisher预条件更新实现稳定自适应,提供时间一致的错误控制保证和最优检测延迟。
测试时的自反生成
发表机构 * Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Nanyang Technological University(南洋理工大学) ; University of Edinburgh(爱丁堡大学) ; City University of Hong Kong(香港城市大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 提出SRGen框架,通过动态熵阈值识别高不确定性token并训练校正向量,在测试时进行自反生成以纠正概率分布,提升大模型推理的可靠性。
ReTabAD: 恢复表格异常检测中语义上下文的基准
发表机构 * LG AI Research, Seoul, South Korea(LG人工智能研究实验室,首尔,韩国) ; Sungkyunkwan University, Suwon, South Korea(成均馆大学,水原,韩国)
AI总结 针对现有表格异常检测基准缺乏语义上下文的问题,提出ReTabAD基准,通过丰富结构化文本元数据并集成零样本LLM框架,验证了语义上下文能提升检测性能和可解释性。
Comments Accepted to ICLR 2026
学习零阶优化器以微调大语言模型
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出一种基于学习的零阶优化器ZO-Finetuner,通过紧凑且内存高效的设计自动学习高效扰动策略,实现大语言模型微调时避免反向传播并降低内存开销,在4个LLM和7个数据集上82.1%的任务-模型组合中优于现有零阶基线方法。
Comments ICML 2026
通过模型拆分和随机客户端参与增强隐私的联邦学习
发表机构 * School of Optoelectronic & Communication Engineering, Xiamen University of Technology(厦门理工学院光电信息与通信工程学院) ; National Key Laboratory of Wireless Communications, University of Electronic Science and Technology of China(电子科技大学信息与通信国家重点实验室) ; Division of Information Science and Engineering, KTH Royal Institute of Technology(皇家理工学院信息科学与工程系) ; School of Cyber Science and Engineering, Huazhong University of Science and Technology(华中科技大学网络安全科学与工程学院) ; School of Engineering, Huaqiao University(华侨大学工程学院)
AI总结 提出MS-PAFL框架,通过将模型拆分为私有和公共子模型并仅向公共子模型注入噪声,结合随机客户端参与和本地数据子采样的隐私放大分析,在强隐私保证下实现更优的隐私-效用权衡。
Comments Accepted for publication in IEEE Transactions on Cognitive Communications and Networking
特征感知的(超)图生成:基于下一尺度预测
发表机构 * GitHub
AI总结 提出FAHNES框架,通过层次化下一尺度预测联合生成图/超图的拓扑和特征,实现大规模带特征图/超图的高效生成。
深度持续学习中的谱坍缩导致塑性丧失
发表机构 * Department of Computer Science, Brown University(布朗大学计算机科学系)
AI总结 研究深度神经网络在持续学习中塑性丧失的原因,发现新任务初始化时的Hessian谱坍缩是主要因素,并提出基于Kronecker分解的两种正则化方法以保持塑性。
HUNT:通过瞬时相对帧在非结构化环境中进行高速无人机导航与跟踪
发表机构 * New York University(纽约大学) ; University of California Berkeley(加州大学伯克利分校)
AI总结 提出HUNT框架,利用瞬时相对帧统一搜索与跟踪,实现高速飞行和鲁棒自主性。
自然阅读中层级结构与统计的相对强度因测量指标而异
发表机构 * Department of Brain and Cognitive Sciences, University of Rochester(罗切斯特大学脑科学与认知科学系) ; Department of Linguistics and Modern Languages, the Chinese University of Hong Kong(香港中文大学语言学与现代语言系) ; Department of Language Science, University of California Irvine(加州大学 Irvine 分校语言科学系)
AI总结 本研究通过同步脑电图和眼动追踪,结合贝叶斯网络建模和回归分析,探究层级句法结构与统计因素在在线理解中的相对强度,发现层级结构在阅读前即可影响理解,但其强度因行为或神经层面而异。
手术器械的无监督缺陷检测
发表机构 * Purdue University School of Electrical
AI总结 针对手术器械缺陷检测中纹理背景导致误检、小缺陷灵敏度低及领域迁移问题,提出结合背景掩蔽、补丁分析和高效域适应的无监督方法。
解码手术场景:手术中场景图的范围综述
发表机构 * School of Computation, Information and Technology, Technical University of Munich(计算信息学院,慕尼黑技术大学) ; Klinik und Poliklinik für Augenheilkunde, TUM University Hospital(眼科诊所,TUM大学医院) ; Computer Aided Medical Procedures, Technical University of Munich(医学辅助程序,慕尼黑技术大学) ; Department of Biomedical Engineering, University of Alberta(生物医学工程系,阿尔伯塔大学)
AI总结 本文通过PRISMA-ScR指导的范围综述,系统梳理了手术中场景图(SG)的研究现状,分析了52项研究,揭示了从图神经网络向基础模型和生成式AI的方法论转变,并提出了“验证三位一体”评估框架以弥合临床转化差距。
Comments Submitted and accepted to Medical Image Analysis (DOI: 10.1016/j.media.2026.104083). An interactive version of the summary tables is available at: osf.io/fruq8
Journal ref Medical Image Analysis (2026)
DeblurSplat:基于事件相机的无SfM三维高斯泼溅鲁棒去模糊方法
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; KU Leuven(卢森堡大学) ; Carleton University(卡尔顿大学)
AI总结 提出首个无需运动恢复结构的去模糊三维高斯泼溅方法,利用密集立体模块和事件流实现高质量新视图合成与高效渲染。
Comments Accepted by TMM 2026
DISCO: 使用条件距离相关性减轻深度学习中的偏差
发表机构 * Technical University of Munich, Germany(慕尼黑技术大学) ; Konrad Zuse School of Excellence in Reliable AI, Germany(Konrad Zuse可靠性人工智能卓越学院) ; Munich Center for Machine Learning (MCML), Germany(慕尼黑机器学习中心(MCML))
AI总结 提出基于反因果模型的条件独立性准则,并设计条件距离相关性的高效估计器DISCO$_m$和sDISCO,通过正则化实现梯度模型中的偏差缓解,在多个数据集上优于或媲美现有方法。
Comments Accepted to ICML 2026 (oral)