Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction
多模态大语言模型中的安全几何坍缩与自适应漂移修正
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Huawei Technologies Co., Ltd(华为技术有限公司)
AI总结 本文研究了多模态大语言模型在跨模态安全转移中的不足,提出安全几何坍缩现象,并通过自适应漂移修正方法提升模型安全性。
多模态大语言模型中的安全几何坍缩与自适应漂移修正
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Huawei Technologies Co., Ltd(华为技术有限公司)
AI总结 本文研究了多模态大语言模型在跨模态安全转移中的不足,提出安全几何坍缩现象,并通过自适应漂移修正方法提升模型安全性。
SENSE: 基于卫星的能源合成以实现可持续环境
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; University of Florida(佛罗里达大学)
AI总结 本文提出SENSE,一种统一的生成性城市建筑能耗框架,通过结合生成扩散模型和大规模视觉模型知识,生成高分辨率的城市卫星图像和对齐的高质量建筑能耗和高度地图,以提高城市可持续发展预测性能。
Comments Accpted by KDD 2026 (Oral)
学习解决组合几何路由问题
发表机构 * National University of Singapore(新加坡国立大学) ; Nanyang Technological University(南洋理工大学) ; Central South University(中南大学)
AI总结 本文研究了组合几何路由问题(CGRP),这是一种涵盖点、线、面及任意混合任务几何的统一超类,为现实中的路由场景提供广泛抽象。为解决非点任务带来的不对称性和复杂性,作者提出DiCon框架,通过对比学习和差异注意力机制提升表示学习和决策能力。
Comments 27 pages, 10 figures
多语言大语言模型的高效路径:通过后训练PARAM$Δ$整合到再利用MoE进行语言扩展
发表机构 * National Key Laboratory for Novel Software Technology, Nanjing University(南京大学新型软件技术国家重点实验室) ; Tongyi Lab, Alibaba Group(阿里集团通义实验室) ; Zhejiang University(浙江大学)
AI总结 本文提出了一种高效的方法,通过将密集模型转换为MoE架构,并将不同语言分配给不同专家,从而在不进行复杂对齐阶段的情况下提升多语言大语言模型的性能,同时保留原始能力。
pyforce-1.0.0: 用于多物理问题数据驱动模型降阶的Python框架
发表机构 * Department of Energy, Nuclear Engineering Division, Politecnico di Milano(能源学院,核工程系,米兰理工学院) ; Department of Mechanical and Nuclear Engineering and Emirates Nuclear Technology Center, Khalifa University(机械与核工程学院和阿联酋核技术中心,卡比大学)
AI总结 本文提出pyforce-1.0.0框架,采用数据驱动降阶建模技术用于多物理问题,主要应用于核工程领域,改进了传感器位置优化和实测数据整合,提升了物理系统认知。
Comments Github Repo: https://github.com/ERMETE-Lab/ROSE-pyforce
低精度softmax变换器的表达能力(摘要)链式思维
发表机构 * Department of Mathematics, University of Tübingen, Germany(图宾根大学数学系)
AI总结 本文研究了低精度softmax变换器在链式思维中的表达能力,通过构造三元激活和分离注意力分数的硬max变换器来模拟图灵机,从而将构造转换为等效的softmax变换器,并分析了最近提出的总结链式思维范式在模拟图灵机时的效率。
Comments Accepted to ICML 2026
通过对手感知盆地入口进行多智能体策略梯度的均衡选择
发表机构 * Bloomsbury Technology(布洛姆斯伯里技术) ; London School of Economics and Political Science(伦敦政治经济学院) ; University of Bristol(布里斯托大学) ; Johannes Kepler University Linz(林茨约翰尼斯·开普勒大学) ; Odesa Polytechnic National University(敖德萨国立技术大学)
AI总结 本文研究了多智能体策略梯度方法在局部收敛到稳定纳什均衡时的均衡选择问题,提出通过对手感知的盆地入口概率机制来提升目标均衡集的进入概率,并通过实验验证了该机制在合作盆地中的有效性。
4DLidarOpen: 一个用于运动感知自动驾驶的开放4D FMCW激光雷达数据集
发表机构 * Tsinghua University(清华大学) ; Hesai Technology Co., Ltd.(海思科技有限公司)
AI总结 本文提出4DLidarOpen数据集,用于自动驾驶,该数据集基于4D频率调制连续波(FMCW)激光雷达传感,包含点径向速度测量、多种激光雷达、环绕摄像头和6自由度车辆姿态数据,通过混合标注策略实现大规模训练和人工精修,用于3D目标检测、鸟瞰图分割和流预测及运动预测基准测试。
Comments 15pages, 9 figures
MusicDET: 零样本AI生成音乐检测
发表机构 * School of Cyber Science and Engineering, Southeast University, Nanjing 210096, China(东南大学计算机科学与工程学院,南京210096,中国) ; School of Computer Science and Engineering, Southeast University, Nanjing 210096, China(东南大学计算机科学与工程学院,南京210096,中国) ; Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications (Southeast University), Ministry of Education, China(新一代人工智能技术及其交叉应用关键实验室(东南大学),教育部,中国) ; Purple Mountain Laboratories, Nanjing 210000, China(紫金山实验室,南京210000,中国) ; Engineering Research Center of Blockchain Application, Supervision And Management (Southeast University), Ministry of Education, China(区块链应用、监督与管理工程研究中心(东南大学),教育部,中国)
AI总结 本文提出MusicDET框架,通过频率引导的归一化流模型在无生成样本情况下实现零样本AI生成音乐检测,有效识别非分布音乐信号。
Comments Accepted by ICML 2026
KVDrive: 一个面向长上下文LLM推理的多层级KV缓存管理系统
发表机构 * Hong Kong University of Science and Technology China(香港科技大学中国) ; Xi’an Jiaotong University China(西安交通大学中国)
AI总结 本文提出KVDrive,一个面向长上下文LLM推理的多层级KV缓存管理系统,通过联合缓存放置、流水线调度和跨层级协调,实现了高吞吐量的推理,在有限的GPU预算下保持高精度。
通过缓解过压缩来改进时空残差误差传播
发表机构 * ETRO Department, Vrije Universiteit Brussel(瓦隆联合大学布鲁塞尔分校ETRO系) ; imec
AI总结 本文提出Teger模块,通过空间曲率感知的图重排机制改进误差相关的自回归预测,提升时空预测的连续排名概率得分。
PPAI: 促进个性化大语言模型代理在协作边缘智能中的互操作性
发表机构 * Hong Kong RGC General Research Fund(香港研究资助局一般研究基金) ; Research Impact Fund(研究影响基金) ; Collaborative Research Fund(协作研究基金) ; NSFC/RGC Collaborative Research Scheme(国家自然科学基金/香港研究资助局协作研究计划) ; Areas of Excellence Scheme(卓越领域计划) ; InnoHK (HKGAI)(创新科技署(HKGAI))
AI总结 本文提出PPAI系统,通过代理专长实现用户间协作,解决动态代理池和负载平衡问题,提升任务准确性并降低延迟。
MixCount数据集:弥合开放词汇物体计数的数据缺口
发表机构 * EPFL(苏黎世联邦理工学院) ; University of Oxford(牛津大学) ; Northwestern University(西北大学)
AI总结 本文提出MixCount数据集,通过自动生成管道解决开放词汇物体计数中混合物体场景下的数据不足问题,展示了在真实世界基准上的显著提升。
Comments Co-first authors. Dataset and project page https://corentindumery.github.io/projects/mixcount.html
嵌入式卷积网络集合:一种轻量级的阿拉伯手写字符识别方法
发表机构 * Systems theory and informatics laboratory(系统理论与信息系统实验室) ; Moulay Ismail University of Meknes(穆拉伊姆·艾斯米尔大学梅克内斯分校) ; Laboratory of Computer Science and Applications(计算机科学与应用实验室) ; Computer Science Dept.(计算机科学系)
AI总结 本文提出了一种轻量级嵌入式卷积网络与集成学习相结合的方法,用于实现阿拉伯手写字符识别,通过实验验证了轻量模型在准确率上的优势以及集成学习对性能的提升。
Comments Accepted in the IEEE 15th Image, Video, and Multidimensional Signal Processing Workshop 2026
Bench2Drive-Robust: 在部署扰动下闭环自动驾驶的基准测试
发表机构 * Institute of Trustworthy Embodied AI (TEAI)(可信具身人工智能研究院) ; Great Wall Motor(长城汽车) ; Sch. of Computer Science & Sch. of Artificial Intelligence, Shanghai Jiao Tong University(上海交通大学计算机学院及人工智能学院) ; School of Computer Science, Wuhan University(武汉大学计算机学院) ; University of Science and Technology of China(中国科学技术大学)
AI总结 本文提出Bench2Drive-Robust,首个针对闭环端到端自动驾驶在现实部署扰动下的设备中心鲁棒性基准测试,评估了三种主要来源的部署相关扰动对自动驾驶系统的影响,揭示了传统图像级腐蚀评估未能完全捕捉的鲁棒性挑战。
阿拉伯手写识别的威胁:调查嵌入式卷积网络模型上的黑盒对抗攻击
发表机构 * Systems theory and informatics laboratory(系统理论与信息学实验室) ; Moulay Ismail University of Meknes(穆莱·艾息姆大学) ; Department of Computer Science(计算机科学系) ; EST of Sidi Bennour(西迪·本努尔工程与技术学院) ; Chouaib Doukkali University(侯赛因·杜克利大学) ; Faculty of Education Sciences(教育科学学院) ; University Mohammed V(穆莱·维大学) ; Laboratory of Computer Science and Applications(计算机科学与应用实验室)
AI总结 本研究探讨了阿拉伯手写识别系统对黑盒对抗攻击的脆弱性,通过实验揭示了高精度模型在面对对抗攻击时的易受攻击性,强调了加强模型安全性和可靠性的必要性。
Comments Accepted in the IEEE 15th Image, Video, and Multidimensional Signal Processing Workshop 2026
FLAG: 通过图结构的潜在扩散对齐实现基础模型表示以空间基因表达预测
发表机构 * Shanghai Academy of Artificial Intelligence for Science, Shanghai, China.(上海人工智能科学研究院) ; School of Biomedical Engineering, Shanghai Jiao Tong University, Shanghai, China.(上海交通大学生物医学工程学院) ; Incubation Institute, Fudan University, Shanghai, China.(复旦大学孵化院)
AI总结 本文提出FLAG框架,通过图结构的潜在扩散对齐方法,解决空间基因表达预测中的基因协调和空间分布关系问题,并引入基因维度诅咒的概念,通过空间图编码器和基因基础模型对齐来提升模型的结构一致性与基因间保真度。
Comments 9 pages for main text, 3 pages for references, 19 pages for appendix. accepted by ICML 2026
保护几乎就是一切:结构保护在全局受限的KV淘汰中占据主导地位
发表机构 * Independent Researcher(独立研究者)
AI总结 本文研究了在共享全局受限解码时间Harness下的KV缓存淘汰问题,发现结构保护在保持质量方面起关键作用,通过保留边界缓存恢复了大部分参考天花板质量,并展示了保护机制在不同模型上的有效性。
Comments 38 pages, 6 figures, 25 tables (includes one longtable). Code and figure regeneration scripts: https://github.com/gpgabriel25/KVCacheBoundaryProtection
高效3D内容重建与生成
发表机构 * TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO(丰田技术研究所芝加哥分校)
AI总结 本文提出了一种高效的3D内容生成和重建方法,通过结合多视图扩散和稀疏视图3D重建,实现了高质量的3D资产生成,并开发了FastMap算法以提高3D重建的速度和精度。
DocOS: 向 GUI 代理中的主动文档引导行动迈进
发表机构 * School of Computer Science and Engineering, Beihang University, Beijing, China(北航计算机科学与工程学院) ; School of Computer Science, Peking University, Beijing, China(北京大学计算机科学学院) ; School of Computer Science and Technology, Beijing Institute of Technology, Beijing(北京理工大学计算机科学与技术学院) ; School of Computer Science and Technology, Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳)计算机科学与技术学院) ; Baidu Inc., Beijing, China(百度公司)
AI总结 本文提出 DocOS 基准,通过引导文档解决长尾任务,解决 GUI 代理在动态开放网络环境中处理长尾任务的能力限制,核心方法是主动文档引导行动,主要贡献是设计了一个评估文档引导问题解决能力的基准。
置信度门控机器人自主性:不确定性何时真的有帮助?
发表机构 * Hertie Institute for Clinical Brain Research & Center for Integrative Neuroscience, University of Tübingen(赫尔特研究所临床脑研究与整合神经科学中心,图宾根大学)
AI总结 本文研究了不确定性在机器人自主性决策中的作用,发现当基础模型具备一定能力时,简单的不确定性代理足以实现选择性门控,但无法用于语义新颖性检测。
Comments ICRA 2026 workshop paper
OmniSelect: 动态模态感知的令牌压缩用于高效多模态大语言模型
发表机构 * Soochow University(苏州大学) ; Peking University(北京大学)
AI总结 本文提出OmniSelect,一种无需训练的模态自适应令牌剪枝框架,通过动态选择压缩策略来提高多模态大语言模型的效率,通过轻量级AudioCLIP模型估计跨模态相关性,并根据相关性得分在不同时间组中进行细粒度令牌剪枝,从而在不增加训练成本的情况下实现高效的多模态令牌压缩。
SGSoft: 通过模板引导的软信号学习融合语义-几何特征以实现3D形状对应
发表机构 * KAIST AI(韩国科学技术院人工智能研究所) ; Anigma Technologies(Anigma科技公司)
AI总结 本文提出SGSoft方法,通过模板引导的软信号学习融合语义-几何特征,实现3D形状对应,解决了结构变化、非等距变形和拓扑不一致的挑战,实现了最先进的跨类别泛化和最佳精度-效率权衡。
基于补丁的鲁棒性鲑鱼重识别方法:使用弱轨迹标签
发表机构 * Department of Computer Science, Norwegian University of Science and Technology(挪威科技大学计算机科学系) ; SINTEF Ocean(SINTEF海洋研究中心) ; Department of Engineering Cybernetics, Norwegian University of Science and Technology(挪威科技大学工程 cybernetics 系)
AI总结 本文提出了一种基于补丁的重识别框架,通过融合补丁级预测来决定鲑鱼身份,利用侧线预测提取纹理锚定的补丁和补丁切片,通过多摄像头实验设置构建跨摄像头测试集,实验证明该方法在同轨迹验证和跨摄像头测试中均优于全图像基线,展示了更好的泛化能力和鲁棒性。
Comments Accepted to the 2026 IEEE International Conference on Image Processing (ICIP)
零阶硬阈值化中方差减少的新见解:缓解梯度误差和扩张性矛盾
发表机构 * IASM, Harbin Institute of Technology(哈尔滨工业大学人工智能研究所,哈尔滨工业大学) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学) ; School of Artificial Intelligence, Jilin University(吉林大学人工智能学院)
AI总结 本文提出了一种通用的方差减少零阶硬阈值化算法,通过考虑方差的作用,缓解零阶梯度与硬阈值操作之间的冲突,从而消除对随机方向数量的限制,提高收敛速度和应用范围。
Comments Published as a conference paper at ICLR 2024. 9 pages main paper, 24 pages appendix, 11 figures, 7 tables. Correspondence to Bin Gu and Huan Xiong
Journal ref International Conference on Learning Representations (ICLR), 2024
PROTEA:多智能体大语言模型工作流的离线评估与迭代优化
发表机构 * Sony Group Corporation(索尼集团公司)
AI总结 本文提出PROTEA,一种用于多智能体大语言模型工作流的离线评估和迭代优化接口,通过配置评分标准和可视化工作流图中的节点状态,帮助开发者定位瓶颈并改进工作流性能。
Comments 9 pages, 3 figures, 1 table. To appear in Proceedings of ACL 2026 System Demonstrations
在开源视觉语言模型中,什么因素影响杂货产品检索
发表机构 * AI Graduate Program, University of the Philippines, Diliman, Quezon City(菲律宾大学达林学院人工智能研究生项目) ; EEEI, University of the Philippines, Diliman, Quezon City(菲律宾大学达林学院电子工程系)
AI总结 本文研究了开源视觉语言模型在杂货产品检索任务中的表现,发现数据质量比规模更重要,高效模型可以胜出,并且存在召回率差距的问题。
Comments Accepted in the 28th International Conference on Pattern Recognition (ICPR 2026)
FedSDR: 带校正的联邦自我蒸馏
发表机构 * Beijing University of Aeronautics(北京航空航天大学) ; Zhejiang University(浙江大学) ; Shandong University(山东大学) ; Stevens Institute of Technology(史蒂文斯理工学院)
AI总结 本文提出FedSDR,一种改进的联邦自我蒸馏方法,通过引入双重流机制来解决联邦学习中数据分布不匹配和幻觉问题,提升模型的准确性和一致性。
Comments Accepted by ICML 2026
在可调节交互强度的环形交叉口中的场景生成
发表机构 * Chair of Mechatronics in Mobile Propulsion(移动 propulsion 机械系统教授团)
AI总结 本文提出了一种具有可调节交互强度的环形交叉口场景生成器,通过解耦几何路线和时间进度轮廓,并利用预训练的自编码器映射到潜在代码,再通过Wasserstein生成对抗网络生成场景,从而提高时间-潜在空间的保真度和交互响应的合理性,增强了安全测试的可控性和可扩展性。
TeleCom-Bench: 大型语言模型在工业电信应用中还有多远?
发表机构 * ZTE Corporation(中兴通讯)
AI总结 本文提出TeleCom-Bench,一个包含12个评估集和22678个精选样本的全面基准,旨在评估大型语言模型在电信领域的综合能力,揭示其在工业流程中的执行能力缺口。
Comments Accepted by KDD 2026