多模态信息融合 - arXivDaily 专题

2606.20103 2026-06-19 cs.CV 新提交专题 95

Geometry-Preserving in 3D Gaussian Splatting for LiDAR-Camera Extrinsic Calibration

3D高斯溅射中保持几何结构的LiDAR-相机外参标定

Kyoleen Kwak, Daeho Kim, Jeong Woon Lee, Hyoseok Hwang

专题命中多传感器融合：LiDAR-相机外参标定，典型多传感器融合

AI总结针对LiDAR-相机标定中跨模态特征稀缺问题，提出通过多视图LiDAR深度监督和阻止光度梯度更新高斯空间参数来保持3DGS代理的度量几何，提升标定精度。

Comments Accepted to ECCV 2026. 15 pages (excluding references), 5 figures

URL PDF HTML

2603.00654 2026-06-19 cs.CV 版本更新专题 95

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

RC-GeoCP：雷达-相机协同感知的几何一致性

Xiaokai Bai, Lianqing Zheng, Runwei Guan, Siyuan Cao, Songkai Wang, Huiliang Shen

专题命中多传感器融合：提出4D雷达与相机协同感知框架，融合多传感器信息。

AI总结提出首个4D雷达与相机协同感知框架RC-GeoCP，通过雷达锚定几何一致性解决深度模糊和空间分散导致的错位，实现高效通信与全局一致表示。

Comments 11 pages, 6 figures, 9 tables

URL PDF HTML

2606.20189 2026-06-19 cs.CV cs.AI cs.RO 新提交专题 90

HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin

HilDA：利用扩散的分层蒸馏推进自监督LiDAR预训练

Maciej Wozniak, Jesper Ericsson, Hariprasath Govindarajan, Truls Nyberg, Thomas Gustafsson, Patric Jensfelt, Olov Andersson

专题命中多传感器融合：相机到LiDAR知识蒸馏，融合视觉与激光雷达

AI总结提出HilDA框架，通过分层蒸馏（多层蒸馏和全局上下文蒸馏）结合时间占用扩散目标，自监督预训练LiDAR骨干网络，在3D检测、场景流和语义占用预测任务上达到最先进水平。

Comments Accepted to ECCV 2026. Maciej and Jesper contributed equally

URL PDF HTML

2606.20300 2026-06-19 cs.CV 新提交专题 85

CMDS-AD: Cross-Modal Dual-Stream Decoupling for Few-Shot Anomaly Detection

CMDS-AD: 跨模态双流解耦用于少样本异常检测

Junhao Cai, Deyu Zeng, Junhao Pang, Junyu Chen, Qiwei Liang, Xiaopin Zhong, Zongze Wu

专题命中多传感器融合：融合RGB和3D几何信息进行少样本异常检测

AI总结提出跨模态双流异常检测框架CMDS-AD，通过扩散模型生成多样本并利用低频正常估计辅助解耦高频缺陷，在1-shot设置下MVTec 3D-AD上I-AUROC提升5.7%。

Comments Accepted to ECCV 2026!

URL PDF HTML

2606.20044 2026-06-19 cs.CV 新提交专题 85

FUSE: Frequency-domain Unification and Spectral Energy Alignment for Multi-modal Object Re-Identification

FUSE：面向多模态目标重识别的频域统一与频谱能量对齐

Xuanhao Qi, Tom H. Luan, Yukang Zhang, Jinkai Zheng, Zhou Su, Shuwei Li, Lei Tan

专题命中多传感器融合：提出频域框架FUSE，对齐多模态特征，提升重识别性能。

AI总结提出频域框架FUSE，通过频谱解耦和能量对齐两阶段处理，解决多模态重识别中低频偏置问题，在三个数据集上mAP提升9.1%。

Comments Accepted in ICML 2026

URL PDF HTML

2604.13240 2026-06-19 cs.CV cs.LG 版本更新专题 85

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

基于概念的可解释AI的高分辨率景观数据集及其在物种分布模型中的应用

Augustin de la Brosse, Damien Garreau, Thomas Houet, Thomas Corpetti

专题命中多传感器融合：融合多光谱和LiDAR无人机影像，属于多传感器融合

AI总结提出首个基于概念的可解释AI方法用于物种分布模型，利用高分辨率多光谱和LiDAR无人机影像构建景观概念数据集，通过Robust TCAV量化景观概念对模型预测的影响，案例研究验证了方法的有效性。

URL PDF HTML

2606.19929 2026-06-19 cs.RO 新提交专题 80

Motor Angular Speed Preintegration for Multirotor UAV State Estimation

多旋翼无人机状态估计中的电机角速度预积分

Matěj Petrlík, Filip Novák, Robert Pěnička, Martin Saska

专题命中多传感器融合：融合电机转速与LiDAR，提升无人机状态估计。

AI总结针对无人机振动导致IMU精度下降的问题，提出基于电机转速加速度预积分的方法，替代IMU进行状态传播，并构建因子用于图优化，结合LiDAR形成MAS-LO算法，相比LIO-SAM位置精度提升28%，速度精度提升65%。

URL PDF HTML

2606.19874 2026-06-19 cs.RO cs.CV 新提交专题 80

MMD-SLAM: Structure-Enhanced Multi-Meta Gaussian Distribution-Guided Visual SLAM

MMD-SLAM：结构增强的多元高斯分布引导视觉SLAM

Fan Zhu, Ziyu Chen, Peichen Liu, Yifan Zhao, Zhisong Xu, Hui Zhu, Hongxing Zhou, Sixun Liu, Chunmao Jiang

专题命中多传感器融合：视觉SLAM融合点线特征，多传感器融合

AI总结提出MMD-SLAM，利用亚特兰大世界假设引导多元高斯表示，通过点线融合、主导方向编码和高斯进化策略，提升视觉SLAM的跟踪精度与建图质量。

Comments ICRA 2026

URL PDF HTML

2605.09383 2026-06-19 cs.RO 版本更新专题 80

Safety-Critical LiDAR-Inertial Odometry with On-Manifold Deterministic Protection Level

安全关键的激光雷达-惯性里程计与在线流形确定性保护级别

Yueqi Zhu, Yan Pan, Chufan Rui, Jiasheng Luo, Shihua Li, Bo Zhou

专题命中多传感器融合：融合LiDAR与惯性测量，实现安全关键里程计

AI总结本文提出一种安全关键的激光雷达-惯性里程计，通过在线流形确定性状态估计提供确定性保护级别，以提升移动机器人在安全关键场景中的导航安全性。

URL PDF HTML

2603.27361 2026-06-19 cs.RO 专题 80

Online Inertia Tensor Identification for Non-Cooperative Spacecraft via Augmented UKF

非合作航天器在线惯性张量识别：基于增强型UKF

Batu Candan, Simone Servadio

专题命中多传感器融合：融合视觉CNN和LiDAR深度数据估计航天器姿态

AI总结本文提出一种增强型UKF框架，用于同时估计非合作目标航天器的六自由度姿态和完整惯性张量，结合视觉和LiDAR数据，实现实时惯性参数估计，提升深空环境下的导航与引导精度。

Journal ref AIAA 2026 Region V Student Conference, AIAA 2026-108993

URL PDF HTML

2602.15707 2026-06-19 cs.MM cs.CL cs.LG 版本更新专题 80

Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU

基于音频和IMU的主动式程序性任务对话助手

Rehana Mahfuz, Yinyi Guo, Erik Visser, Phanidhar Chinchili

专题命中多传感器融合：融合音频和IMU多模态输入实现对话助手。

AI总结提出首个仅使用音频和IMU模态的实时对话助手，通过微调语言模型减少不必要对话并提升问答准确性，在边缘设备上实现无云依赖。

Comments 5 figures. 5 more in appendix

URL PDF HTML

2606.19961 2026-06-19 cs.CV 新提交专题 75

Addressing Detail Bottlenecks in Latent Diffusion for RGB-to-SWIR Image Translation

解决潜在扩散模型中RGB到SWIR图像翻译的细节瓶颈

Kaili Wang, Martin Dimitrievski, Jose Maria Salvador, Ben Stoffelen, David Van Hamme, Lore Goetschalckx

专题命中多传感器融合：RGB到SWIR翻译，融合多模态传感器数据。

AI总结针对潜在扩散模型在RGB到SWIR图像翻译中丢失空间细节的问题，提出源条件自编码器和可学习引导编码器两种轻量级改进，在驾驶场景下将检测mAP提升至2倍，小目标提升3.4倍，并达到最优FID。

URL PDF HTML

2507.21460 2026-06-19 cs.CV 版本更新专题 75

An Angular-Temporal Interaction Network for Light Field Object Tracking in Low-Light Scenes

用于低光场景光场目标跟踪的角-时交互网络

Mianzhao Wang, Fan Shi, Xu Cheng, Feifei Zhang, Shengyong Chen

专题命中多传感器融合：光场与时间交互，属于多传感器融合

AI总结提出一种光场极线平面结构图像表示和角-时交互网络，通过显式建模几何结构和自监督优化，在低光场景下实现高效目标跟踪，性能达到最优。

URL PDF HTML

2509.13972 2026-06-19 cs.RO 版本更新专题 70

BIM Informed Visual SLAM for Construction Environments

BIM 引导的视觉 SLAM 在建筑环境中的应用

Asier Bikandi-Noya, Miguel Fernandez-Cortizas, Muhammad Shaheer, Ali Tourani, Holger Voos, Jose Luis Sanchez-Lopez

专题命中多传感器融合：融合BIM与RGB-D数据，属于多传感器融合

AI总结针对建筑环境中视觉SLAM轨迹漂移问题，提出利用建筑信息模型（BIM）的结构先验增强RGB-D SLAM系统，通过墙面对应与几何约束优化减少漂移，提升全局一致性，实验显示轨迹误差降低25.23%，地图精度提升7.14%。

Comments 9 pages, 7 tables, 4 figures

URL PDF HTML