arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

多模态信息融合

面向图像、视频、多传感器和跨模态感知的信息融合,包括 Image Fusion、红外可见光、遥感、医学影像、LiDAR/雷达/相机和音视频融合。

今日/当前日期收录 14 信号源:cs.CV, eess.IV, eess.SP, cs.RO, cs.MM
2606.20103 2026-06-19 cs.CV 新提交 专题 95

Geometry-Preserving in 3D Gaussian Splatting for LiDAR-Camera Extrinsic Calibration

3D高斯溅射中保持几何结构的LiDAR-相机外参标定

Kyoleen Kwak, Daeho Kim, Jeong Woon Lee, Hyoseok Hwang

专题命中 多传感器融合 :LiDAR-相机外参标定,典型多传感器融合

AI总结 针对LiDAR-相机标定中跨模态特征稀缺问题,提出通过多视图LiDAR深度监督和阻止光度梯度更新高斯空间参数来保持3DGS代理的度量几何,提升标定精度。

Comments Accepted to ECCV 2026. 15 pages (excluding references), 5 figures

2603.00654 2026-06-19 cs.CV 版本更新 专题 95

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

RC-GeoCP:雷达-相机协同感知的几何一致性

Xiaokai Bai, Lianqing Zheng, Runwei Guan, Siyuan Cao, Songkai Wang, Huiliang Shen

专题命中 多传感器融合 :提出4D雷达与相机协同感知框架,融合多传感器信息。

AI总结 提出首个4D雷达与相机协同感知框架RC-GeoCP,通过雷达锚定几何一致性解决深度模糊和空间分散导致的错位,实现高效通信与全局一致表示。

Comments 11 pages, 6 figures, 9 tables

2606.20189 2026-06-19 cs.CV cs.AI cs.RO 新提交 专题 90

HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin

HilDA:利用扩散的分层蒸馏推进自监督LiDAR预训练

Maciej Wozniak, Jesper Ericsson, Hariprasath Govindarajan, Truls Nyberg, Thomas Gustafsson, Patric Jensfelt, Olov Andersson

专题命中 多传感器融合 :相机到LiDAR知识蒸馏,融合视觉与激光雷达

AI总结 提出HilDA框架,通过分层蒸馏(多层蒸馏和全局上下文蒸馏)结合时间占用扩散目标,自监督预训练LiDAR骨干网络,在3D检测、场景流和语义占用预测任务上达到最先进水平。

Comments Accepted to ECCV 2026. Maciej and Jesper contributed equally

2606.20300 2026-06-19 cs.CV 新提交 专题 85

CMDS-AD: Cross-Modal Dual-Stream Decoupling for Few-Shot Anomaly Detection

CMDS-AD: 跨模态双流解耦用于少样本异常检测

Junhao Cai, Deyu Zeng, Junhao Pang, Junyu Chen, Qiwei Liang, Xiaopin Zhong, Zongze Wu

专题命中 多传感器融合 :融合RGB和3D几何信息进行少样本异常检测

AI总结 提出跨模态双流异常检测框架CMDS-AD,通过扩散模型生成多样本并利用低频正常估计辅助解耦高频缺陷,在1-shot设置下MVTec 3D-AD上I-AUROC提升5.7%。

Comments Accepted to ECCV 2026!

2606.20044 2026-06-19 cs.CV 新提交 专题 85

FUSE: Frequency-domain Unification and Spectral Energy Alignment for Multi-modal Object Re-Identification

FUSE:面向多模态目标重识别的频域统一与频谱能量对齐

Xuanhao Qi, Tom H. Luan, Yukang Zhang, Jinkai Zheng, Zhou Su, Shuwei Li, Lei Tan

专题命中 多传感器融合 :提出频域框架FUSE,对齐多模态特征,提升重识别性能。

AI总结 提出频域框架FUSE,通过频谱解耦和能量对齐两阶段处理,解决多模态重识别中低频偏置问题,在三个数据集上mAP提升9.1%。

Comments Accepted in ICML 2026

2604.13240 2026-06-19 cs.CV cs.LG 版本更新 专题 85

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

基于概念的可解释AI的高分辨率景观数据集及其在物种分布模型中的应用

Augustin de la Brosse, Damien Garreau, Thomas Houet, Thomas Corpetti

专题命中 多传感器融合 :融合多光谱和LiDAR无人机影像,属于多传感器融合

AI总结 提出首个基于概念的可解释AI方法用于物种分布模型,利用高分辨率多光谱和LiDAR无人机影像构建景观概念数据集,通过Robust TCAV量化景观概念对模型预测的影响,案例研究验证了方法的有效性。

2606.19929 2026-06-19 cs.RO 新提交 专题 80

Motor Angular Speed Preintegration for Multirotor UAV State Estimation

多旋翼无人机状态估计中的电机角速度预积分

Matěj Petrlík, Filip Novák, Robert Pěnička, Martin Saska

专题命中 多传感器融合 :融合电机转速与LiDAR,提升无人机状态估计。

AI总结 针对无人机振动导致IMU精度下降的问题,提出基于电机转速加速度预积分的方法,替代IMU进行状态传播,并构建因子用于图优化,结合LiDAR形成MAS-LO算法,相比LIO-SAM位置精度提升28%,速度精度提升65%。

2606.19874 2026-06-19 cs.RO cs.CV 新提交 专题 80

MMD-SLAM: Structure-Enhanced Multi-Meta Gaussian Distribution-Guided Visual SLAM

MMD-SLAM:结构增强的多元高斯分布引导视觉SLAM

Fan Zhu, Ziyu Chen, Peichen Liu, Yifan Zhao, Zhisong Xu, Hui Zhu, Hongxing Zhou, Sixun Liu, Chunmao Jiang

专题命中 多传感器融合 :视觉SLAM融合点线特征,多传感器融合

AI总结 提出MMD-SLAM,利用亚特兰大世界假设引导多元高斯表示,通过点线融合、主导方向编码和高斯进化策略,提升视觉SLAM的跟踪精度与建图质量。

Comments ICRA 2026

2605.09383 2026-06-19 cs.RO 版本更新 专题 80

Safety-Critical LiDAR-Inertial Odometry with On-Manifold Deterministic Protection Level

安全关键的激光雷达-惯性里程计与在线流形确定性保护级别

Yueqi Zhu, Yan Pan, Chufan Rui, Jiasheng Luo, Shihua Li, Bo Zhou

专题命中 多传感器融合 :融合LiDAR与惯性测量,实现安全关键里程计

AI总结 本文提出一种安全关键的激光雷达-惯性里程计,通过在线流形确定性状态估计提供确定性保护级别,以提升移动机器人在安全关键场景中的导航安全性。

2603.27361 2026-06-19 cs.RO 专题 80

Online Inertia Tensor Identification for Non-Cooperative Spacecraft via Augmented UKF

非合作航天器在线惯性张量识别:基于增强型UKF

Batu Candan, Simone Servadio

专题命中 多传感器融合 :融合视觉CNN和LiDAR深度数据估计航天器姿态

AI总结 本文提出一种增强型UKF框架,用于同时估计非合作目标航天器的六自由度姿态和完整惯性张量,结合视觉和LiDAR数据,实现实时惯性参数估计,提升深空环境下的导航与引导精度。

Journal ref AIAA 2026 Region V Student Conference, AIAA 2026-108993

2602.15707 2026-06-19 cs.MM cs.CL cs.LG 版本更新 专题 80

Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU

基于音频和IMU的主动式程序性任务对话助手

Rehana Mahfuz, Yinyi Guo, Erik Visser, Phanidhar Chinchili

专题命中 多传感器融合 :融合音频和IMU多模态输入实现对话助手。

AI总结 提出首个仅使用音频和IMU模态的实时对话助手,通过微调语言模型减少不必要对话并提升问答准确性,在边缘设备上实现无云依赖。

Comments 5 figures. 5 more in appendix

2606.19961 2026-06-19 cs.CV 新提交 专题 75

Addressing Detail Bottlenecks in Latent Diffusion for RGB-to-SWIR Image Translation

解决潜在扩散模型中RGB到SWIR图像翻译的细节瓶颈

Kaili Wang, Martin Dimitrievski, Jose Maria Salvador, Ben Stoffelen, David Van Hamme, Lore Goetschalckx

专题命中 多传感器融合 :RGB到SWIR翻译,融合多模态传感器数据。

AI总结 针对潜在扩散模型在RGB到SWIR图像翻译中丢失空间细节的问题,提出源条件自编码器和可学习引导编码器两种轻量级改进,在驾驶场景下将检测mAP提升至2倍,小目标提升3.4倍,并达到最优FID。

2507.21460 2026-06-19 cs.CV 版本更新 专题 75

An Angular-Temporal Interaction Network for Light Field Object Tracking in Low-Light Scenes

用于低光场景光场目标跟踪的角-时交互网络

Mianzhao Wang, Fan Shi, Xu Cheng, Feifei Zhang, Shengyong Chen

专题命中 多传感器融合 :光场与时间交互,属于多传感器融合

AI总结 提出一种光场极线平面结构图像表示和角-时交互网络,通过显式建模几何结构和自监督优化,在低光场景下实现高效目标跟踪,性能达到最优。

2509.13972 2026-06-19 cs.RO 版本更新 专题 70

BIM Informed Visual SLAM for Construction Environments

BIM 引导的视觉 SLAM 在建筑环境中的应用

Asier Bikandi-Noya, Miguel Fernandez-Cortizas, Muhammad Shaheer, Ali Tourani, Holger Voos, Jose Luis Sanchez-Lopez

专题命中 多传感器融合 :融合BIM与RGB-D数据,属于多传感器融合

AI总结 针对建筑环境中视觉SLAM轨迹漂移问题,提出利用建筑信息模型(BIM)的结构先验增强RGB-D SLAM系统,通过墙面对应与几何约束优化减少漂移,提升全局一致性,实验显示轨迹误差降低25.23%,地图精度提升7.14%。

Comments 9 pages, 7 tables, 4 figures