Multimodal LLMs under Pairwise Modalities
基于成对模态的多模态大语言模型
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文提出了一种基于成对模态训练多模态大语言模型的方法,通过理论分析和表示学习框架,实现了跨模态对齐和重构,提升了模型的跨模态性能。
基于成对模态的多模态大语言模型
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文提出了一种基于成对模态训练多模态大语言模型的方法,通过理论分析和表示学习框架,实现了跨模态对齐和重构,提升了模型的跨模态性能。
因果与传统表征学习之间的对话:在统一框架中实现相互受益
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(莫扎伊德·本·扎耶德人工智能大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文探讨了因果表征学习与传统表征学习之间的对话,提出统一框架,通过任务组件和约束组件相互促进发展,实验表明因果约束的有效性依赖于所配的任务。
在医疗领域中老年人对社交机器人作为交流伙伴的感知
发表机构 * Institute for Anthropomatics and Robotics(人机学与机器人研究所) ; Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; Department of Robotics(机器人系) ; Tohoku University(东北大学) ; Institute of Medical Psychology(医学心理学研究所) ; Heidelberg University(海德堡大学) ; Institute of Psychology(心理学研究所)
AI总结 研究探讨了社交机器人在医疗领域中作为交流伙伴的有效性,以及积极提示对交互效果的影响,发现机器人与人类交互时压力水平无显著差异,且机器人能被接受为有效的交流伙伴,有助于减轻护理人员负担。
Comments 31 pages, 10 figures, Under review at International Journal of Social Robotics
LLM-脑对齐的跨语言鲁棒性及其计算根源
发表机构 * Grammar and Cognition Lab, Department of Translation & Language Sciences, Universitat Pompeu Fabra(语言与翻译科学系语法与认知实验室,庞培法华大学) ; Department of Adult Psychiatry and Psychotherapy, University of Zurich(苏黎世大学成人精神病学与心理治疗系) ; Neuroscience Center Zurich, University of Zurich and ETH Zurich(苏黎世大学神经科学中心与苏黎世联邦理工学院) ; Center for Clinical Neuroscience and Cognition and Department of Psychiatry, University of Groningen, University Medical Center Groningen(格罗宁根大学临床神经科学与认知中心及精神病学系,格罗宁根大学医学中心) ; Scalable Scientific Machine Learning Lab, Imperial College London, Department of Earth Science and Engineering(伦敦帝国理工学院可扩展科学机器学习实验室,地球科学与工程系) ; Institut Català de Recerca i Estudis Avançats (ICREA), Barcelona, Spain(加泰罗尼亚高级研究与研究机构(ICREA),巴塞罗那,西班牙)
AI总结 该研究探讨了大型语言模型与大脑对齐的跨语言鲁棒性,通过多语言全脑编码框架分析了中文、英语和法语在自然故事听觉过程中大脑与LLM的对齐情况,发现其在空间上具有跨语言重叠性,但无法通过预测不确定性或表征几何来解释。
动态视频生成:跨时间和空间的视频生成塑造
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; South China University of Technology(华南理工大学) ; Tsinghua University(清华大学)
AI总结 本文提出DVG框架,通过在时间和空间上联合分配计算,自动选择内容感知的加速策略,实现近无损加速,展示了在视频生成中的高效性能。
高效基于Banzhaf值的$k$-最近邻分类数据估值
发表机构 * Shenzhen Technology University(深圳技术大学) ; University of Liverpool(利物浦大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文提出了一种高效计算$k$-最近邻分类器中Banzhaf值的方法,解决了数据估值中的计算复杂性问题,通过动态规划框架实现了显著的计算效率提升。
Comments To appear at VLDB 2026
迈向物理一致的闭环自动驾驶模拟中的4D场景重建
发表机构 * Tsinghua University(清华大学) ; Meituan(美团) ; Central University of Finance and Economics(中央财经大学)
AI总结 本文提出了一种信息几何诊断框架,解决3DGS方法在同时实现空间和时间参数建模时的信用分配难题,通过引入正交投影梯度(OPG)和时间正则化策略,提升了4D场景重建的物理一致性。
Comments 20 pages, 4 figures
从零开始构建人工智能技能和任务的定制分类体系
发表机构 * Technical University of Munich(慕尼黑技术大学) ; Loyola University Chicago(芝加哥洛约拉大学)
AI总结 本文通过分析招聘广告数据,探讨了如何构建更清晰的人工智能技能和任务分类体系,提出TaxonomyBuilder作为系统研究的蓝图,展示了过滤输入数据能提供更具体的领域覆盖。
Comments 14 pages, 2 figures, 8 tables. Accepted to CustomNLP4U 2026
基于组件影响的快速件减少用于机器人拆解意识设计简化
发表机构 * Department of Systems Innovation, Graduate School of Engineering Science, The University of Osaka(大阪大学工学研究科系统创新部门) ; Manufacturing Innovation Division, Panasonic Holdings Corporation(松下电器制造创新部门)
AI总结 本文提出了一种分析框架,通过快速件减少来提高机器人拆解意识设计简化,该框架利用CAD模型和自动生成的接触-连接-约束(CCC)图,将机器人拆解序列规划结果转化为组件影响评分,以指导设计简化。
Comments 7 pages, 8 figures
DAMA:解耦的体锚定高斯用于可控的多层avatar
发表机构 * University of Tübingen(图宾根大学) ; Tübingen AI Center(图宾根人工智能中心) ; Max Planck Institute for Intelligent Systems(马克斯·普朗克智能系统研究所) ; Max Planck Institute for Informatics(马克斯·普朗克信息研究所) ; Zuse School ELIZA(祖斯学校ELIZA)
AI总结 本文提出DAMA方法,通过专门的表示和重建方法,生成具有物理合理性的穿衣avatar,实现了可控的多层结构、清晰的衣物分离和显式的堆叠控制。
单次传递、深度选择性阅读用于多方面情感分析
发表机构 * Universiti Malaya, Malaysia(马来大学,马来西亚) ; Suzhou University of Technology, China(苏州科技学院,中国) ; VinUniversity, Vietnam(文大学,越南)
AI总结 本文提出DABS框架,通过单次编码构建可重用的深度有序基底,使多方面情感分析在保持性能的同时减少60%的端到端计算量。
Comments Accepted at ACL2026 (main). Our solution (DABS) reads the sentence once, then lets each aspect selectively query the right tokens and Transformer depths, cutting redundant computation while preserving ATSA accuracy
基于TanDEM-X和Landsat数据的混合机器学习模型用于森林高度估计
发表机构 * German Aerospace Center (DLR)(德国航空航天中心(DLR)) ; Institute of Environmental Engineering, ETH Zürich(环境工程研究所,苏黎世联邦理工学院)
AI总结 本文提出了一种结合机器学习与物理模型的混合方法,利用TanDEM-X干涉相干测量和Landsat光学数据来提高森林高度估计的精度,通过扩展特征空间减少高度和基线地形坡度的模糊性,实验结果表明RMSE和MAE分别降低了13.5%和16.6%。
超越贝尔曼递归:一种指导性框架用于非指数折扣
发表机构 * Department of Mathematics, Sungkyunkwan University, Suwon, Republic of Korea(韩国首尔大学数学系)
AI总结 本文提出了一种基于庞特里亚金原理的直接策略优化框架(PG-DPO),以解决非指数折扣问题,通过放弃递归方法,结合庞特里亚金最大原理和蒙特卡洛回放,提高动态规划的准确性和稳定性。
面向大语言模型的上下文不变安全对齐
发表机构 * Fudan University, Shanghai, China(复旦大学,上海,中国) ; Shanghai Artificial Intelligence Laboratory, Shanghai, China(上海人工智能实验室,上海,中国)
AI总结 本文提出了一种上下文不变的安全对齐方法,通过引入锚点不变正则化(AIR)来提升模型在不同上下文中的鲁棒性,从而增强安全约束对对抗性框架的抵抗力。
Comments ICML 2026
用潜在高斯过程和最优传输建模时间序列scRNA-seq数据
发表机构 * Department of Computer Science, Aalto University, Espoo, Finland(奥卢大学计算机科学系,埃斯波,芬兰)
AI总结 本文提出了一种生成框架,利用潜在异方差高斯过程建模种群趋势,并通过最优传输对齐生成和观测的种群分布,以捕捉生物异质性,从而在复杂插值和外推基准上实现最先进的性能。
用于材料条件化图网络模拟器的点云序列编码
发表机构 * Autonomous Learning Robots(自主学习机器人) ; Methods for Big Data(大数据方法) ; Institute of Vehicle System Technology(车辆系统技术研究所)
AI总结 本文提出PEACH框架,通过点云序列编码实现对未知物理属性的适应,提高了模拟到现实的零样本转移精度,并在实际部署中更具实用性。
Comments 9 pages + appendix, 7 figures. Submitted to the 40th Conference on Neural Information Processing Systems (NeurIPS 2026)
向地下矿山3D点云中的集成岩支可视化迈进
发表机构 * School of Minerals and Energy Resources Engineering, University of New South Wales(新南威尔士大学矿物与能源资源工程学院) ; School of Surveying and Built Environment, University of Southern Queensland(南方昆士兰大学测绘与环境工程学院)
AI总结 本文提出了一种自动化框架,用于利用地下矿山开掘的3D点云进行集成岩支可视化,通过结构映射、岩钉识别、断层面拟合和岩钉方向估计的统一工作流,实现了对断层面和岩钉向量的集成3D可视化,以评估其空间交集和几何关系,同时通过互补的立体分析评估整体锚固几何有效性。
深度学习模型在虚假图像检测中的比较评估
发表机构 * University of East London(东伦敦大学)
AI总结 本研究通过统一的预处理和训练流程比较了四个预训练的CNN架构在虚假图像检测中的性能,发现VGG16在准确性上表现最佳,但EfficientNetB0在检测虚假图像时的敏感性较高,但对真实图像的可靠性较低,研究指出需要平衡数据集、高级增强和公平性意识训练来开发可靠的虚假图像检测系统。
Comments Accepted at ICCIIoT26 and waiting to be indexed
Journal ref 6th International Conference on Computational Intelligence & Internet of Things (ICCIIoT), 2026
ArPoMeme:一个标注的阿拉伯多模态数据集用于政治意识形态和极化
发表机构 * Northwestern University in Qatar(卡塔尔西北大学) ; Independent Researcher(独立研究员) ; Hamad Bin Khalifa University(哈马德·本·卡伊夫大学) ; University of Tübingen(图宾根大学)
AI总结 本文提出ArPoMeme数据集,用于分析阿拉伯政治漫画的多模态和意识形态维度,通过自定义工具实现大规模标注,揭示意识形态极化特征。
Comments Accepted at LREC 2026 Main Conference
在不遗忘的情况下寻找正确的视觉证据:通过层间视觉注意力差异减轻LVLMs中的幻觉
发表机构 * School of Computer Science and Engineering, Southeast University, Nanjing, China(东南大学计算机科学与工程学院) ; School of Artificial Intelligence, Shenzhen University, Shenzhen, China(深圳大学人工智能学院) ; College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, China(深圳大学计算机科学与软件工程学院) ; Engineering, South China University of Technology, Guangzhou, China(华南理工大学工程学院) ; National Engineering Laboratory for Big Data Systems Computing Technology, Shenzhen University, Shenzhen, China(深圳大学大数据系统计算技术国家工程实验室) ; Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications (Southeast University), Ministry of Education, China(新一代人工智能技术及其交叉应用重点实验室(东南大学),中华人民共和国教育部)
AI总结 本文提出了一种基于层间视觉注意力差异的幻觉缓解方法,通过增强视觉证据的注意力来减少视觉遗忘,从而在不遗忘的情况下找到正确的视觉证据。
Comments Accepted by ICML 2026
面向现实世界的无人机检测:一个新的多光谱数据集UAVNet-MS和一个新方法
发表机构 * College of Electronic Science and Technology, National University of Defense Technology(电子科学与技术学院,国防科技大学) ; Aviation University of Air Force(空军航空大学) ; Sun Yat-sen University(中山大学)
AI总结 本文提出了一种新的多光谱数据集UAVNet-MS和一种新的方法MFDNet,用于细粒度小无人机的检测,解决了传统RGB系统在小尺度下的性能问题。
Comments submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
保留、揭示、扩展:基于区域感知的4D视频编辑
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Li Auto Inc.(利汽车公司)
AI总结 本文提出PREX框架,通过区域感知分解目标时空体积,解决4D视频编辑中区域保持、揭示和扩展的问题,提升了视频编辑的准确性和稳定性。
Comments 23 pages, 13 figures
JobArabi: 一个阿拉伯语语料库及来自社交媒体的招聘公告分析
发表机构 * Northwestern University in Qatar(卡塔尔诺维克大学) ; Carnegie Mellon University in Qatar(卡塔尔卡内基梅隆大学)
AI总结 本文介绍了JobArabi,一个从2024年1月至2025年10月期间收集的阿拉伯语招聘公告语料库,包含20,528条来自X平台的公开帖子,旨在分析阿拉伯语在线社区中的就业相关话语,揭示社交媒体在劳动力市场沟通和语言变化研究中的潜力。
Comments Accepted at LREC 2026 Main Conference
发布侧风险的符合性分诊部署审计
发表机构 * University of Illinois Chicago(伊利诺伊大学芝加哥分校) ; Manteia Technologies Co., Ltd(Manteia技术有限公司) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of California Los Angeles(加州大学洛杉矶分校)
AI总结 本文提出了一种泄漏感知的发布侧符合性分诊审计方法,用于评估在患病率变化下,是否真正经历目标事件的患者被释放而无需审查,通过将目标主体分为三个非重叠角色来评估发布直接安全性。
Comments 18 pages, 4 figures, 5 tables
DrawMotion: 通过自由手绘生成3D人体动作
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学) ; University of Science and Technology of China(中国科学技术大学) ; NLP Lab, School of Computer Science and Engineering, Northeastern University(东北大学计算机科学与工程学院自然语言处理实验室) ; National University of Singapore(新加坡国立大学) ; Tsinghua University(清华大学) ; The Institute of AI (TeleAI), China Telecom(中国电信人工智能研究院) ; Northwestern Polytechnical University(西北工业大学)
AI总结 本研究提出DrawMotion,一种基于扩散模型的框架,通过自由手绘和文本条件生成3D人体动作,减少用户输入时间,提升生成精度。
Memory Grafting: 通过离线条件记忆实现语言模型预训练的扩展
发表机构 * Tsinghua University(清华大学)
AI总结 本文提出Memory Grafting方法,通过利用冻结的隐藏状态作为条件n-gram记忆,实现语言模型预训练的扩展,通过离线处理和高效检索机制提升模型容量,实验表明其在不同规模下均优于MoE和Vanilla Engram基线。
Comments 25 pages, 12 figures, 5 tables
思考-言语:一种受控交错推理方法用于实时语音生成
发表机构 * Huawei Technologies(华为技术)
AI总结 本文提出了一种受控交错推理方法InterRS,用于实时语音生成,通过在自然语音生成过程中插入推理步骤,提高了语音流畅性和推理深度,实验表明其在数学和逻辑基准测试中表现更优,并生成更自然流畅的答案。
连接结构与语言:基于图的视觉推理用于自动驾驶道路理解
发表机构 * KTH Royal Institute of Technology(皇家理工学院) ; TRATON ; Stanford University(斯坦福大学) ; NVIDIA(英伟达)
AI总结 本文提出结合道路子基质(CRS)框架,通过图结构和开放词汇语义的联合执行,解决自动驾驶中道路结构理解的精度与语义灵活性之间的平衡问题。
PaintCopilot: 将绘画建模为自主的艺术延续
发表机构 * MIT Media Lab(MIT媒体实验室) ; New York University(纽约大学)
AI总结 本文提出了一种基于神经网络的绘画助手PaintCopilot,通过建模绘画作为开放性自回归艺术行为,基于不断演变的画布状态和先前笔触历史,无需目标图像即可预测未来笔触,与现有神经绘画方法不同,后者将绘画建模为向预定参考图像的像素重建。
3D重建与知识蒸馏以改进多视角图像模型以探索小麦籽粒体积估计
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Swiss Data Science Center(瑞士数据科学中心)
AI总结 本文提出了一种混合2D-3D方法,通过训练过程中知识蒸馏,使模型能够高效地进行图像-only推理。该方法结合了基于距离直方图特征的刚性不变点云网络和提出的多视角图像基于调节Transformer(RT)的集成架构,最终通过特征或标签蒸馏将知识转移到纯图像模型中,从而提高了籽粒体积估计的精度和效率。
Comments 8 pages, 6 figures (Appendix: 4 pages, 5 figures)