多模态信息融合

2603.00654 2026-06-19 cs.CV 版本更新专题 95

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

RC-GeoCP：雷达-相机协同感知的几何一致性

Xiaokai Bai, Lianqing Zheng, Runwei Guan, Siyuan Cao, Songkai Wang, Huiliang Shen

专题命中多传感器融合：提出4D雷达与相机协同感知框架，融合多传感器信息。

AI总结提出首个4D雷达与相机协同感知框架RC-GeoCP，通过雷达锚定几何一致性解决深度模糊和空间分散导致的错位，实现高效通信与全局一致表示。

Comments 11 pages, 6 figures, 9 tables

URL PDF HTML

2604.13240 2026-06-19 cs.CV cs.LG 版本更新专题 85

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

基于概念的可解释AI的高分辨率景观数据集及其在物种分布模型中的应用

Augustin de la Brosse, Damien Garreau, Thomas Houet, Thomas Corpetti

专题命中多传感器融合：融合多光谱和LiDAR无人机影像，属于多传感器融合

AI总结提出首个基于概念的可解释AI方法用于物种分布模型，利用高分辨率多光谱和LiDAR无人机影像构建景观概念数据集，通过Robust TCAV量化景观概念对模型预测的影响，案例研究验证了方法的有效性。

URL PDF HTML

2605.09383 2026-06-19 cs.RO 版本更新专题 80

Safety-Critical LiDAR-Inertial Odometry with On-Manifold Deterministic Protection Level

安全关键的激光雷达-惯性里程计与在线流形确定性保护级别

Yueqi Zhu, Yan Pan, Chufan Rui, Jiasheng Luo, Shihua Li, Bo Zhou

专题命中多传感器融合：融合LiDAR与惯性测量，实现安全关键里程计

AI总结本文提出一种安全关键的激光雷达-惯性里程计，通过在线流形确定性状态估计提供确定性保护级别，以提升移动机器人在安全关键场景中的导航安全性。

URL PDF HTML

2602.15707 2026-06-19 cs.MM cs.CL cs.LG 版本更新专题 80

Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU

基于音频和IMU的主动式程序性任务对话助手

Rehana Mahfuz, Yinyi Guo, Erik Visser, Phanidhar Chinchili

专题命中多传感器融合：融合音频和IMU多模态输入实现对话助手。

AI总结提出首个仅使用音频和IMU模态的实时对话助手，通过微调语言模型减少不必要对话并提升问答准确性，在边缘设备上实现无云依赖。

Comments 5 figures. 5 more in appendix

URL PDF HTML

2507.21460 2026-06-19 cs.CV 版本更新专题 75

An Angular-Temporal Interaction Network for Light Field Object Tracking in Low-Light Scenes

用于低光场景光场目标跟踪的角-时交互网络

Mianzhao Wang, Fan Shi, Xu Cheng, Feifei Zhang, Shengyong Chen

专题命中多传感器融合：光场与时间交互，属于多传感器融合

AI总结提出一种光场极线平面结构图像表示和角-时交互网络，通过显式建模几何结构和自监督优化，在低光场景下实现高效目标跟踪，性能达到最优。

URL PDF HTML

2509.13972 2026-06-19 cs.RO 版本更新专题 70

BIM Informed Visual SLAM for Construction Environments

BIM 引导的视觉 SLAM 在建筑环境中的应用

Asier Bikandi-Noya, Miguel Fernandez-Cortizas, Muhammad Shaheer, Ali Tourani, Holger Voos, Jose Luis Sanchez-Lopez

专题命中多传感器融合：融合BIM与RGB-D数据，属于多传感器融合

AI总结针对建筑环境中视觉SLAM轨迹漂移问题，提出利用建筑信息模型（BIM）的结构先验增强RGB-D SLAM系统，通过墙面对应与几何约束优化减少漂移，提升全局一致性，实验显示轨迹误差降低25.23%，地图精度提升7.14%。

Comments 9 pages, 7 tables, 4 figures

URL PDF HTML

2603.10791 2026-06-19 eess.IV 版本更新专题 90

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

面向同步视听重建的语义卫星通信

Fangyu Liu, Peiwen Jiang, Wenjin Wang, Xiao Li, Shi Jin

专题命中音视频/视觉语言融合：提出视听语义传输系统，实现跨模态生成与同步重建

AI总结提出自适应多模态语义传输系统，通过双流生成架构和动态关键帧更新机制，在带宽受限的卫星场景下实现高质量同步视听重建，显著降低带宽消耗并提升鲁棒性。

URL PDF HTML

2508.15228 2026-06-19 cs.CV 版本更新专题 85

Collaborative Multi-Modal Coding for High-Quality 3D Generation

协作多模态编码用于高质量3D生成

Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

专题命中音视频/视觉语言融合：协作多模态编码融合RGB、RGBD和点云特征。

AI总结提出TriMM，首个前馈式3D原生生成模型，通过协作多模态编码融合RGB、RGBD和点云特征，结合辅助2D/3D监督和三平面潜在扩散模型，实现高质量3D资产生成。

URL PDF HTML

2508.04424 2026-06-19 cs.CV 版本更新专题 85

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

组合对象检索：通过组合表达式进行对象级检索

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

专题命中音视频/视觉语言融合：组合对象检索结合视觉与文本，属于视觉语言融合

AI总结提出组合对象检索（COR）任务，通过组合参考对象、掩码和检索文本进行对象级检索，并构建COR125K基准和CORE模型，显著优于现有方法。

URL PDF HTML

2509.10416 2026-06-19 cs.RO 版本更新专题 75

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC：面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中音视频/视觉语言融合：利用视觉语言模型推断意图，属于视觉语言融合

AI总结提出TASC框架，通过视觉构建开放词汇交互图推断任务级用户意图，并基于空间约束提供共享控制辅助，提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 70

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中音视频/视觉语言融合：从视频学习3D几何表示，增强多模态大语言模型空间智能

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML

2504.11171 2026-06-19 cs.CV cs.AI 版本更新专题 90

TerraMind: Large-Scale Generative Multimodality for Earth Observation

TerraMind：面向地球观测的大规模生成式多模态模型

Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Longépé

专题命中融合架构与评测：多模态地球观测基础模型，属于融合架构

AI总结提出首个任意到任意生成式多模态基础模型TerraMind，通过双尺度表示（token级和像素级）预训练，实现零样本/少样本应用，并引入“模态思考”能力，在PANGAEA等基准上达到领先性能。

Comments Accepted at ICCV'25

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 85

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中融合架构与评测：统一图像理解与生成，属于融合架构

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2601.03112 2026-06-19 eess.IV cs.CV 版本更新专题 70

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

DiT-JSCC：基于扩散变换器与语义表示的深度JSCC再思考

Kailin Tan, Jincheng Dai, Sixian Wang, Guo Lu, Shuo Shao, Kai Niu, Wenjun Zhang, Ping Zhang

专题命中融合架构与评测：联合学习语义编码与扩散解码的融合框架。

AI总结提出DiT-JSCC框架，联合学习语义优先表示编码器和扩散变换器生成解码器，通过粗细粒度条件解码和基于Kolmogorov复杂度的自适应带宽分配，在极端信道条件下提升语义一致性与传输效率。

Comments 14pages, 14figures, 2tables

URL PDF HTML

2508.01819 2026-06-19 eess.IV 版本更新专题 80

Decoding the Alzheimer's Continuum: Interpretable Multi-Gate Routing for Diagnosis and Transition Prediction

解码阿尔茨海默病连续谱：可解释的多门路由用于诊断与转换预测

Yufeng Jiang, Hexiao Ding, Hongzhao Chen, Jing Lan, Xinzhi Teng, Gerald W. Y. Cheng, Yunlin Mao, Zongxi Li, Haoran Xie, Jung Sun Yoo, Jing Cai

专题命中医学影像融合：多门专家混合架构融合临床先验与MRI

AI总结提出M$^3$AD统一框架，利用可解释多门专家混合架构，基于T1加权sMRI同时实现三分类诊断和阶段转换预测，准确率达95.13%。

Comments Accepted by MICCAI2026

URL PDF HTML

2503.23179 2026-06-19 eess.IV cs.CV 版本更新专题 80

OncoReg: Medical Image Registration for Oncological Challenges

OncoReg：面向肿瘤学挑战的医学图像配准

Wiebke Heyer, Yannic Elser, Lennart Berkel, Xinrui Song, Xuanang Xu, Pingkun Yan, Xi Jia, Jinming Duan, Zi Li, Tony C. W. Mok, BoWen LI, Tim Hable, Christian Staackmann, Christoph Großbröhmer, Lasse Hansen, Alessa Hering, Malte M. Sieren, Mattias P. Heinrich

专题命中医学影像融合：CBCT与FBCT配准，属于医学影像融合

AI总结提出OncoReg挑战，通过两阶段框架在保护患者隐私的同时开发可泛化的图像配准方法，用于放射治疗中锥束CT与扇束CT的配准，发现特征提取是关键，深度学习和经典方法结合最有效。

Comments 21 pages, 13 figures

URL PDF HTML

1. 多传感器融合 6 篇

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

Safety-Critical LiDAR-Inertial Odometry with On-Manifold Deterministic Protection Level

Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU

An Angular-Temporal Interaction Network for Light Field Object Tracking in Low-Light Scenes

BIM Informed Visual SLAM for Construction Environments

2. 音视频/视觉语言融合 5 篇

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

Collaborative Multi-Modal Coding for High-Quality 3D Generation

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

TASC: Task-Aware Shared Control for Relational Telemanipulation

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

3. 融合架构与评测 3 篇

TerraMind: Large-Scale Generative Multimodality for Earth Observation

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

4. 医学影像融合 2 篇

Decoding the Alzheimer's Continuum: Interpretable Multi-Gate Routing for Diagnosis and Transition Prediction

OncoReg: Medical Image Registration for Oncological Challenges