多模态信息融合

2606.02800 2026-06-18 cs.CV cs.AI cs.LG cs.MM cs.RO 版本更新专题 95

Cosmos 3: Omnimodal World Models for Physical AI

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA, :, Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Andy Ju, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, Shubham Pachori, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, Rohit Watve, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, Artur Zolkowski

专题命中音视频/视觉语言融合：全模态世界模型联合处理语言、图像、视频、音频和动作

AI总结提出基于统一混合Transformer架构的全模态世界模型Cosmos 3，联合处理语言、图像、视频、音频和动作序列，在理解和生成任务上达到新最优，为具身智能体提供可扩展的通用骨干。

URL PDF HTML

2606.19325 2026-06-18 cs.SD cs.AI cs.CV 新提交专题 90

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

参考驱动的野外先验多说话人音频场景生成

Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen

专题命中音视频/视觉语言融合：多参考声音和文本提示生成多说话人音频场景

AI总结提出ScenA方法，利用预训练的文本到音频流匹配基础模型，通过多参考声音和自然语言提示生成多说话人音频场景，并采用高噪声偏置时间步分布解决参考捷径问题，在CoVoMix2-Dialogue基准上优于现有系统。

Comments Project page at https://finmickey.github.io/scena/

URL PDF HTML

2606.19062 2026-06-18 cs.CV 新提交专题 90

DREAM: Extending Vision-Language Models with Dual-Objective Encoding for Cross-Modal Retrieval

DREAM: 通过双目标编码扩展视觉-语言模型用于跨模态检索

Kaleem Ullah, Altaf Hussain, Muhammad Munsif, Sung Wook Baik

专题命中音视频/视觉语言融合：提出双路径视觉语言模型用于跨模态视频检索。

AI总结提出DREAM模型，通过双路径表示增强与对齐，结合层级视觉编码器和混合语言建模，在视频检索任务中实现新SOTA。

URL PDF HTML

2606.14702 2026-06-18 cs.CV 新提交专题 90

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

OmniVideo-100K：通过结构化脚本和证据链进行音视频推理的数据集

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

专题命中音视频/视觉语言融合：音视频问答数据集，涉及音频与视觉模态融合推理

AI总结提出OmniVideo-100K数据集，通过实体锚定视频脚本和线索引导的QA生成机制，解决音视频问答中跨段实体不一致和长时推理不足的问题，微调模型在多个基准上取得显著提升。

Comments Project page: https://github.com/MiG-NJU/OmniVideo-100K

URL PDF HTML

2606.19341 2026-06-18 cs.CV cs.CL cs.SD 新提交专题 85

Native Active Perception as Reasoning for Omni-Modal Understanding

原生主动感知作为全模态理解的推理

Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

专题命中音视频/视觉语言融合：全模态智能体融合音视频线索进行视频理解

AI总结提出OmniAgent，一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体，通过主动感知将推理复杂度与视频时长解耦，在多个基准上达到开源模型最优性能。

Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent

URL PDF HTML

2606.18974 2026-06-18 cs.CV 新提交专题 85

Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning

Visual-OPSD：用于高效统一多模态推理的跨模态在策略自蒸馏

Pengyu Li, Zhitao Gao, Lingling Zhang, Muye Huang, Yuanming Li, Fangzhi Xu, Jun Liu

专题命中音视频/视觉语言融合：跨模态自蒸馏将视觉推理转移到文本模型。

AI总结提出Visual-OPSD方法，通过跨模态在策略自蒸馏，将多步扩散生成的可视化思维推理能力转移到纯文本学生模型，实现14.3倍加速且性能提升3.40个百分点。

URL PDF HTML

2606.18780 2026-06-18 cs.CV cs.CL cs.MM 新提交专题 85

SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction

SAMA：面向统一低资源多模态信息抽取的语义锚定对齐增强

Quanjiang Guo, Chong Mu, Jiazhou Pan, Ming Jia, Ling Tian, Hui Gao, Zhao Kang

专题命中音视频/视觉语言融合：多模态信息抽取增强，融合视觉与语言模态。

AI总结提出语义锚定对齐增强框架SAMA，通过构建结构化语义锚引导多专家多模态大模型生成高保真文本，并利用锚保留扩散机制合成图像，结合双约束过滤模块，在低资源多模态信息抽取任务中显著提升性能。

Comments Accepted by IEEE Transactions on Multimedia

URL PDF HTML

2606.18586 2026-06-18 cs.CV cs.AI 新提交专题 85

APT: Atomic Physical Transitions for Causal Video-Language Understanding

APT: 用于因果视频语言理解的原子物理转变

Shang Wu, Haoran Lu, Songling Liu, Chenwei Xu, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Zhaoran Wang, Han Liu

专题命中音视频/视觉语言融合：提出APT表示视频因果状态变化，用于视频语言理解，属于视觉语言融合。

AI总结提出原子物理转变（APT）作为视频中因果状态变化的显式表示，并构建混合来源数据集，通过APT-Tune微调方法使VLM学习物理转变而不遗忘事件级知识。

URL PDF HTML

2606.18553 2026-06-18 cs.CV 新提交专题 85

Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

基于知识的分层多模态检索用于新闻图像描述生成

Minh-Loi Nguyen, Xuan-Vu Le, Long-Bao Nguyen, Hoang-Bach Ngo, Trung-Nghia Le

专题命中音视频/视觉语言融合：分层多模态检索增强新闻图像描述，融合视觉与文本。

AI总结提出分层多模态文章检索增强的图像描述框架，通过结构感知检索和上下文精炼，结合VLM和LLM生成富含上下文细节的描述，在EVENTA 2025挑战赛中获得第5名。

Comments SOICT 2025

URL PDF HTML

2606.18472 2026-06-18 cs.CV 新提交专题 85

Domain Generalizable Adaptation of 3D Vision-Language Models via Regularized Fine-Tuning

通过正则化微调实现可域泛化的3D视觉-语言模型适应

Sneha Paul, Zachary Patterson, Nizar Bouguila

专题命中音视频/视觉语言融合：3D视觉语言模型域泛化，融合点云、视觉和文本模态。

AI总结提出ReFine3D框架，通过选择性层调优、多视图一致性、同义词提示及点渲染视觉监督等正则化策略，提升3D大语言模型在域泛化中的性能。

Comments Accepted at Transactions on Machine Learning Research (TMLR)

URL PDF HTML

2605.26672 2026-06-18 cs.MM cs.SD 版本更新专题 85

Can We Hear from Events? Generating Speech from Event Camera

我们能从事件中听到声音吗？从事件相机生成语音

Jingping Fang, Lin Chen, Chenyang Xu, Tong Zhao, Weidong Cai, Xiaoming Chen

专题命中音视频/视觉语言融合：从事件相机生成语音，跨视觉与听觉模态

AI总结提出EventSpeech框架，利用神经形态事件相机的高时间精度解决传统RGB语音生成中的时间粒度不匹配问题，实现情感丰富且抗运动模糊的语音生成。

URL PDF HTML

2601.13836 2026-06-18 cs.CL cs.CV cs.MM 版本更新专题 85

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

FutureOmni：从全模态上下文中评估多模态大语言模型的未来预测能力

Qian Chen, Jinlan Fu, Changsong Li, Min Zhang, See-Kiong Ng, Xipeng Qiu

专题命中音视频/视觉语言融合：评估多模态大模型从音视频线索预测未来

AI总结提出FutureOmni基准，评估多模态大模型从音视频线索预测未来的能力，发现现有模型在语音密集场景下表现差，并设计OFF训练策略提升性能。

Comments Accepted by ICML 2026

URL PDF HTML

2606.18354 2026-06-18 eess.IV cs.LG 新提交专题 90

Structural MRI Synthesis for Alzheimer's Disease via Conditional Diffusion on Anatomical Masks

基于解剖掩膜条件扩散的阿尔茨海默病结构MRI合成

Muge Zhang, Muhammad Ali Khaliq, Jamal Alsakran, Byeong Kil Lee, Jeeho Ryoo

专题命中医学影像融合：条件扩散模型生成3D结构MRI，融合解剖掩膜

AI总结针对阿尔茨海默病结构MRI合成中细微解剖变化难以捕捉的问题，本文扩展Med-DDPM条件扩散模型，以解剖分割掩膜为条件生成3D结构MRI，实验表明合成数据训练的模型Dice分数与真实数据相当，混合数据训练则显著提升性能。

Journal ref 2025 IEEE 8th International Conference on Multimedia Information Processing and Retrieval (MIPR)

URL PDF HTML

2606.18825 2026-06-18 cs.CV 新提交专题 90

DreamReg: Belief-Driven World Model for 2D-3D Ultrasound Registration

DreamReg：基于信念驱动的世界模型用于2D-3D超声配准

Luoyao Kang, Yuelin Zhang, Jiwei Shan, Haifan Gong, Qingpeng Ding, Shing Shin Cheng

专题命中医学影像融合：2D-3D超声配准，融合术中2D切片与术前3D体积。

AI总结提出DreamReg框架，将2D-3D超声配准建模为信念更新，通过世界模型模拟探头运动并整合想象结果，在CAMUS和u-RegPro数据集上实现鲁棒且准确的实时配准。

URL PDF HTML

2606.18723 2026-06-18 cs.CV cs.LG 新提交专题 90

Clinically Aligned Geometry Constraints for Robust IVUS Vessel Boundary Segmentation

临床对齐的几何约束用于鲁棒的IVUS血管边界分割

Yunshu Chen, Litao Yang, Giuseppe Di Giovanni, Jordan Tan, Deval Mehta, Andrew Lin, Derek Chew, Masasi Fujino, Julie Butters, Stephen Nicholls, Zongyuan Ge, Kyung Hoon Cho

专题命中医学影像融合：IVUS血管边界分割，融合双编码器与几何约束。

AI总结提出GeoCat网络，通过双编码器与可微几何一致性损失，在IVUS分割中降低边界漂移和拓扑错误，提升临床几何测量精度。

Comments MICCAI2026 Accepted

URL PDF HTML

2606.18523 2026-06-18 q-bio.QM cs.CV 新提交专题 85

DART: A design-aware microfluidic chip paradigm for real-time live-cell image analysis

DART: 一种设计感知的微流控芯片范式用于实时活细胞图像分析

Johannes Seiffarth, Matthias Pesch, Lukas Scholtes, Dietrich Kohlheyer, Hanno Scharr, Katharina Nöh

专题命中医学影像融合：融合CAD蓝图与物理芯片，实现实时活细胞图像分析

AI总结提出DART范式，通过嵌入式标记和深度学习检测对齐CAD蓝图与物理芯片，实现高通量微流控芯片中所有感兴趣区域的快速定位和全自动图像处理，支持实时分析。

URL PDF HTML

2606.18886 2026-06-18 cs.CV 新提交专题 85

DINO-Med3D: Bridging Dimension and Domain Gaps in Volumetric Segmentation via Progressive Adaptation

DINO-Med3D：通过渐进式适应弥合体分割中的维度与领域差距

Haoyu Hu, Xiyao Ma, Shiqi Liu, Linsen Zhang, Xiaoliang Xie, Xiaohu Zhou, Zeng-Guang Hou

专题命中医学影像融合：DINOv3适配3D医学分割，属于医学影像融合。

AI总结提出两阶段渐进框架DINO-Med3D，通过多切片嵌入模块、3D适配器和并行细节恢复流，将DINOv3适配到3D医学分割，在五个数据集上超越现有方法。

Comments Accepted at MICCAI 2026. The camera-ready version and link will be made publicly available upon publication

URL PDF HTML

2606.18860 2026-06-18 cs.CV cs.LG 新提交专题 85

Quantification of Uncertainty with Adversarial Models in Medical Image Segmentation

医学图像分割中对抗模型的不确定性量化

Hana Jebril, Thomas Pinetz, Günter Klambauer, Hrvoje Bogunović

专题命中医学影像融合：提出QUAM-SM框架，针对医学图像分割不确定性量化，属于医学影像融合范畴。

AI总结提出QUAM-SM后处理框架，通过针对性对抗搜索识别脆弱像素，量化不确定性并分离认知与偶然不确定性，在公开数据集上优于现有方法。

Comments Accepted at MICCAI 2026

URL PDF HTML

2606.18749 2026-06-18 cs.CV 新提交专题 85

Toward Training-Free Zero-Shot Anomaly Detection in 3D Medical Images: A Batch-Based Approach Using 2D Foundation Models

迈向3D医学图像的无训练零样本异常检测：基于批次的方法使用2D基础模型

Tai Le-Gia

专题命中医学影像融合：3D医学图像零样本异常检测，融合多轴切片信息。

AI总结提出CS3F框架，利用2D基础模型对3D医学图像进行零样本异常检测，通过沿多轴分解、切片编码和跨主体相似性计算异常分数，并引入粗到细的分词策略减少信号衰减。

URL PDF HTML

2606.18707 2026-06-18 cs.CV 新提交专题 85

PEFT-MedSAM: Efficient Fine-Tuning of Medical Foundation Models for Explainable Skin Lesion Segmentation

PEFT-MedSAM：面向可解释皮肤病变分割的医学基础模型高效微调

Asad Channa, Abdullah Khan, Asghar Ali Chandio, Aamir Akbar, Shahzad Memon, Aqib Hussain, Ameer Hamza

专题命中医学影像融合：皮肤病变分割，微调医学基础模型，属于医学影像融合。

AI总结提出参数高效微调方法PEFT-MedSAM，冻结预训练编码器仅训练轻量解码器，在ISIC 2018上达到0.9411 Dice系数，并通过Grad-CAM可解释性增强临床可信度。

URL PDF HTML

2606.15554 2026-06-18 cs.CV 新提交专题 85

RaLMPH: Reliability-aware Learning for Multi-Pathologist Harmonization in Whole-Slide Image Classification

RaLMPH：全切片图像分类中面向多病理学家协调的可靠性感知学习

Sungrae Hong, Jiwon Jeong, Soeun Cheon, Donghee Han, Sol Lee, Jisu Shin, Kyungeun Kim, Mun Yong Yi

专题命中医学影像融合：多病理学家标注的全切片图像标签协调，属于医学影像融合

AI总结提出RaLMPH框架，通过可靠性场建模局部邻域结构和专家不确定性，实现多病理学家标注的全切片图像标签协调，提升多实例学习性能。

Comments Accepted by MICCAI 2026

URL PDF HTML

2606.19190 2026-06-18 cs.RO 新提交专题 90

FAST-LIVGO: A Degeneracy-Robust LiDAR-Inertial-Visual-GNSS Fusion Odometry

FAST-LIVGO：一种退化鲁棒的LiDAR-惯性-视觉-GNSS融合里程计

Zhiyu Chen, Chunran Zheng, Jiayu Wen, XiaoLei Zhang, Jiaming Xu, Feng Pan, Yukang Cui

专题命中多传感器融合：紧耦合LiDAR-惯性-视觉-GNSS融合里程计

AI总结提出一种基于误差状态迭代卡尔曼滤波的紧耦合LiDAR-惯性-视觉-GNSS融合框架，通过动态时间规整的时空对齐模块、多普勒和时差载波相位观测模型以及退化感知的双模式异常值拒绝策略，在长期大尺度动态环境中实现高精度鲁棒的状态估计。

Comments Accepted for presentation at the 2026 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2026)

URL PDF HTML

2606.19154 2026-06-18 cs.RO 新提交专题 90

Viking Hill Dataset: A Lidar-Radar-Camera Dataset for Detection and Segmentation in Forest Scenes

Viking Hill数据集：用于森林场景检测与分割的激光雷达-雷达-相机数据集

Vladimír Kubelka, Oleksandr Kotlyar, Unal Artan, Martin Magnusson

专题命中多传感器融合：提供LiDAR-雷达-相机多传感器森林数据集

AI总结提出首个包含4D成像雷达的森林多传感器数据集，通过MinkowskiUNet实现雷达与激光雷达点云的语义分割，并评估树干分割质量与树木尺寸的关系。

Comments 33 pages, 11 figures

URL PDF HTML

2606.18583 2026-06-18 cs.CV cs.RO 新提交专题 90

Aerial-ground LiDAR place recognition with patch-level self-supervised learning and expanded reciprocal re-ranking

空地激光雷达地点识别：基于块级自监督学习和扩展互逆重排序

Yandi Yang, Xianghong Zou, Jianping Li, Haofeng Xie, Saurav Uprety, Hongzhou Yang, Naser El-Sheimy

专题命中多传感器融合：融合航空与地面LiDAR点云进行地点识别，属于多传感器融合。

AI总结提出一种空地激光雷达地点识别框架，通过多尺度块级自监督学习缩小域差距，并利用扩展互逆重排序算法减少误检，在多个数据集上显著提升检索精度。

URL PDF HTML

2606.19307 2026-06-18 cs.RO 新提交专题 85

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

基于锚定特征参数化的视觉惯性导航的可观性与一致性分析

Mitchell Cohen, Vassili Korotkine, James Richard Forbes

专题命中多传感器融合：视觉惯性导航系统融合视觉与惯性测量

AI总结分析基于滤波的视觉惯性导航系统（VINS）使用锚定特征表示时的可观性与一致性，证明其不可观子空间独立于估计的地标状态，从而改善一致性，但仍依赖导航状态，需额外一致性增强技术。

Comments Accepted to IEEE/RSJ IROS. 8 pages, 3 figures, 4 tables

URL PDF HTML

2606.19067 2026-06-18 cs.RO cs.CV 新提交专题 85

Sensor Configuration Matters: A Systematic Evaluation of Multimodal SLAM on Quadruped Robots

传感器配置至关重要：四足机器人多模态SLAM的系统评估

Roberto Corlito, Fabian Schmidt, Nils Seibert, Markus Enzweiler, Abhinav Valada, Arne Roennau

专题命中多传感器融合：评估视觉、惯性、LiDAR多模态SLAM，涉及多传感器融合。

AI总结针对四足机器人运动中的传感器配置问题，系统评估了视觉、视觉-惯性和LiDAR-视觉-惯性SLAM方法，发现立体相机、全局快门和适当惯性集成能显著提升定位鲁棒性。

URL PDF HTML

2606.18952 2026-06-18 cs.CV 新提交专题 85

SP-TransientBench: A Real-Captured Single Photon Perception Benchmark

SP-TransientBench: 一个真实捕获的单光子感知基准

Hongzhou Dong, Zili Zhang, Ziting Wen, Yiheng Qiang, Runrong Deng, Wenle Dong, Ziwen Jiang, Xinyang Li, Rui Lu, Shuoyao Sun, Wenyu Wang, Ziyi Xia, Haitao Zheng, Guodong Shi, Xiaoqiang Ren

专题命中多传感器融合：单光子LiDAR多任务基准，涉及多模态感知。

AI总结针对单光子LiDAR在真实场景中因噪声和多回波瞬态现象导致的感知挑战，提出包含10个场景、10297个视角的真实捕获多任务基准STB，支持深度估计、多视图重建和3D语义理解评估。

URL PDF HTML

2606.18566 2026-06-18 cs.CV cs.AI cs.GR 新提交专题 85

Multi-Modal Hyper-Graph Fusion for Low-Light Crowd Counting

多模态超图融合用于低光照人群计数

Hao-Yuan Ma, Li Zhang, Yushi Qiu, Jie Gao, Yan Zhang, Bangjun Wang

专题命中多传感器融合：融合RGB、深度和边缘多模态信息进行低光照人群计数。

AI总结针对低光照环境下人群计数难题，构建三个新基准数据集，提出多模态超图融合模块和可变形矩形稀疏注意力模块，形成低光照计数网络LCNet，在三个基准上取得最优性能。

URL PDF HTML

2606.19277 2026-06-18 cs.CV 新提交专题 85

A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures

高效遥感视觉问答的统一框架：适配双编码器、混合架构和编码器-解码器架构

Timothy Agboada, Shikha Chandel, Yadav Raj Ghimire, Leila Hashemi-Beni

专题命中遥感融合与全色锐化：遥感视觉问答中多模态融合的适配策略

AI总结提出RS Adapter参数高效微调策略，在三种视觉语言模型架构上注入轻量瓶颈适配器，仅用不到5%可训练参数实现遥感VQA，混合架构FLAVA在多模态推理与检索间取得最佳平衡。

Comments 4 pages, 2 figures, accepted and to be presented at 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2026), scheduled for 9 to 14 August 2026 in Washington D.C

URL PDF HTML

2606.19204 2026-06-18 cs.CV 新提交专题 85

ROSA-TFormer: A Radar-Optical Sensor-Aware Temporal Transformer for Pinus sylvestris Plantation Classification in Northern Shaanxi Using GEE-Derived Sentinel-1/2 Time Series

ROSA-TFormer: 一种雷达-光学传感器感知的时间Transformer用于基于GEE导出的Sentinel-1/2时间序列的陕北樟子松人工林分类

Nengbo Zhang, Chang sheng

专题命中遥感融合与全色锐化：融合雷达与光学时间序列数据用于森林分类

AI总结提出ROSA-TFormer模型，集成SAR和光学嵌入分支、传感器感知门和时间注意力池化，利用Sentinel-1/2时间序列数据实现高精度樟子松人工林分类，总体精度达99.67%。

Comments journal in tree classification

URL PDF HTML

1. 音视频/视觉语言融合 12 篇

Cosmos 3: Omnimodal World Models for Physical AI

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

DREAM: Extending Vision-Language Models with Dual-Objective Encoding for Cross-Modal Retrieval

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Native Active Perception as Reasoning for Omni-Modal Understanding

Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning

SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction

APT: Atomic Physical Transitions for Causal Video-Language Understanding

Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

Domain Generalizable Adaptation of 3D Vision-Language Models via Regularized Fine-Tuning

Can We Hear from Events? Generating Speech from Event Camera

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

2. 医学影像融合 9 篇

Structural MRI Synthesis for Alzheimer's Disease via Conditional Diffusion on Anatomical Masks

DreamReg: Belief-Driven World Model for 2D-3D Ultrasound Registration

Clinically Aligned Geometry Constraints for Robust IVUS Vessel Boundary Segmentation

DART: A design-aware microfluidic chip paradigm for real-time live-cell image analysis

DINO-Med3D: Bridging Dimension and Domain Gaps in Volumetric Segmentation via Progressive Adaptation

Quantification of Uncertainty with Adversarial Models in Medical Image Segmentation

Toward Training-Free Zero-Shot Anomaly Detection in 3D Medical Images: A Batch-Based Approach Using 2D Foundation Models

PEFT-MedSAM: Efficient Fine-Tuning of Medical Foundation Models for Explainable Skin Lesion Segmentation

RaLMPH: Reliability-aware Learning for Multi-Pathologist Harmonization in Whole-Slide Image Classification

3. 多传感器融合 7 篇

FAST-LIVGO: A Degeneracy-Robust LiDAR-Inertial-Visual-GNSS Fusion Odometry

Viking Hill Dataset: A Lidar-Radar-Camera Dataset for Detection and Segmentation in Forest Scenes

Aerial-ground LiDAR place recognition with patch-level self-supervised learning and expanded reciprocal re-ranking

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Sensor Configuration Matters: A Systematic Evaluation of Multimodal SLAM on Quadruped Robots

SP-TransientBench: A Real-Captured Single Photon Perception Benchmark

Multi-Modal Hyper-Graph Fusion for Low-Light Crowd Counting

4. 遥感融合与全色锐化 2 篇

A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures

ROSA-TFormer: A Radar-Optical Sensor-Aware Temporal Transformer for Pinus sylvestris Plantation Classification in Northern Shaanxi Using GEE-Derived Sentinel-1/2 Time Series