多模态信息融合

2606.20103 2026-06-19 cs.CV 新提交专题 95

Geometry-Preserving in 3D Gaussian Splatting for LiDAR-Camera Extrinsic Calibration

3D高斯溅射中保持几何结构的LiDAR-相机外参标定

Kyoleen Kwak, Daeho Kim, Jeong Woon Lee, Hyoseok Hwang

专题命中多传感器融合：LiDAR-相机外参标定，典型多传感器融合

AI总结针对LiDAR-相机标定中跨模态特征稀缺问题，提出通过多视图LiDAR深度监督和阻止光度梯度更新高斯空间参数来保持3DGS代理的度量几何，提升标定精度。

Comments Accepted to ECCV 2026. 15 pages (excluding references), 5 figures

URL PDF HTML

2603.00654 2026-06-19 cs.CV 版本更新专题 95

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

RC-GeoCP：雷达-相机协同感知的几何一致性

Xiaokai Bai, Lianqing Zheng, Runwei Guan, Siyuan Cao, Songkai Wang, Huiliang Shen

专题命中多传感器融合：提出4D雷达与相机协同感知框架，融合多传感器信息。

AI总结提出首个4D雷达与相机协同感知框架RC-GeoCP，通过雷达锚定几何一致性解决深度模糊和空间分散导致的错位，实现高效通信与全局一致表示。

Comments 11 pages, 6 figures, 9 tables

URL PDF HTML

2606.20189 2026-06-19 cs.CV cs.AI cs.RO 新提交专题 90

HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin

HilDA：利用扩散的分层蒸馏推进自监督LiDAR预训练

Maciej Wozniak, Jesper Ericsson, Hariprasath Govindarajan, Truls Nyberg, Thomas Gustafsson, Patric Jensfelt, Olov Andersson

专题命中多传感器融合：相机到LiDAR知识蒸馏，融合视觉与激光雷达

AI总结提出HilDA框架，通过分层蒸馏（多层蒸馏和全局上下文蒸馏）结合时间占用扩散目标，自监督预训练LiDAR骨干网络，在3D检测、场景流和语义占用预测任务上达到最先进水平。

Comments Accepted to ECCV 2026. Maciej and Jesper contributed equally

URL PDF HTML

2606.20300 2026-06-19 cs.CV 新提交专题 85

CMDS-AD: Cross-Modal Dual-Stream Decoupling for Few-Shot Anomaly Detection

CMDS-AD: 跨模态双流解耦用于少样本异常检测

Junhao Cai, Deyu Zeng, Junhao Pang, Junyu Chen, Qiwei Liang, Xiaopin Zhong, Zongze Wu

专题命中多传感器融合：融合RGB和3D几何信息进行少样本异常检测

AI总结提出跨模态双流异常检测框架CMDS-AD，通过扩散模型生成多样本并利用低频正常估计辅助解耦高频缺陷，在1-shot设置下MVTec 3D-AD上I-AUROC提升5.7%。

Comments Accepted to ECCV 2026!

URL PDF HTML

2606.20044 2026-06-19 cs.CV 新提交专题 85

FUSE: Frequency-domain Unification and Spectral Energy Alignment for Multi-modal Object Re-Identification

FUSE：面向多模态目标重识别的频域统一与频谱能量对齐

Xuanhao Qi, Tom H. Luan, Yukang Zhang, Jinkai Zheng, Zhou Su, Shuwei Li, Lei Tan

专题命中多传感器融合：提出频域框架FUSE，对齐多模态特征，提升重识别性能。

AI总结提出频域框架FUSE，通过频谱解耦和能量对齐两阶段处理，解决多模态重识别中低频偏置问题，在三个数据集上mAP提升9.1%。

Comments Accepted in ICML 2026

URL PDF HTML

2604.13240 2026-06-19 cs.CV cs.LG 版本更新专题 85

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

基于概念的可解释AI的高分辨率景观数据集及其在物种分布模型中的应用

Augustin de la Brosse, Damien Garreau, Thomas Houet, Thomas Corpetti

专题命中多传感器融合：融合多光谱和LiDAR无人机影像，属于多传感器融合

AI总结提出首个基于概念的可解释AI方法用于物种分布模型，利用高分辨率多光谱和LiDAR无人机影像构建景观概念数据集，通过Robust TCAV量化景观概念对模型预测的影响，案例研究验证了方法的有效性。

URL PDF HTML

2606.19929 2026-06-19 cs.RO 新提交专题 80

Motor Angular Speed Preintegration for Multirotor UAV State Estimation

多旋翼无人机状态估计中的电机角速度预积分

Matěj Petrlík, Filip Novák, Robert Pěnička, Martin Saska

专题命中多传感器融合：融合电机转速与LiDAR，提升无人机状态估计。

AI总结针对无人机振动导致IMU精度下降的问题，提出基于电机转速加速度预积分的方法，替代IMU进行状态传播，并构建因子用于图优化，结合LiDAR形成MAS-LO算法，相比LIO-SAM位置精度提升28%，速度精度提升65%。

URL PDF HTML

2606.19874 2026-06-19 cs.RO cs.CV 新提交专题 80

MMD-SLAM: Structure-Enhanced Multi-Meta Gaussian Distribution-Guided Visual SLAM

MMD-SLAM：结构增强的多元高斯分布引导视觉SLAM

Fan Zhu, Ziyu Chen, Peichen Liu, Yifan Zhao, Zhisong Xu, Hui Zhu, Hongxing Zhou, Sixun Liu, Chunmao Jiang

专题命中多传感器融合：视觉SLAM融合点线特征，多传感器融合

AI总结提出MMD-SLAM，利用亚特兰大世界假设引导多元高斯表示，通过点线融合、主导方向编码和高斯进化策略，提升视觉SLAM的跟踪精度与建图质量。

Comments ICRA 2026

URL PDF HTML

2606.20291 2026-06-19 cs.LG cs.CV 新提交专题 90

Integrating national forest inventory, airborne lidar, and satellite imagery for wall-to-wall mapping of forest structure with computer vision

整合国家森林清查、机载激光雷达和卫星影像，利用计算机视觉实现森林结构的全覆盖制图

Luke J. Zachmann, David D. Diaz, Vincent A. Landau, Chelsey Walden-Schreiner, Tony Chang, Nathan E. Rutenbeck, Katharyn A. Duffy, Kiarie Ndegwa, Andreas Gros, Scott Conway, Guy Bayes

专题命中遥感融合与全色锐化：融合卫星影像、激光雷达和森林清查数据制图

AI总结提出VibrantForests框架，结合卫星影像、激光雷达样本和计算机视觉，以10米分辨率生成美国本土的冠层覆盖、高度、生物量等森林属性图，减少饱和与回归均值问题。

URL PDF HTML

2606.20032 2026-06-19 cs.CV 新提交专题 90

ReA-OVCD: Reliability-Aware Open-Vocabulary Change Detection via Semantic and Spatial Refinement

ReA-OVCD：通过语义和空间精炼的可靠性感知开放词汇变化检测

Hongming Zhu, Huaji Chen, Bowen Du, Sicong Liu, Qin Liu

专题命中遥感融合与全色锐化：开放词汇变化检测，融合语义与空间信息，用于遥感。

AI总结提出一种无需训练的可靠性感知开放词汇变化检测框架，通过语义变化推理和边界感知精炼策略，解决实例级比较忽略细粒度变化和像素级比较不可靠的问题，在多个数据集上F1提升2.13%-9.75%。

URL PDF HTML

2606.20143 2026-06-19 cs.CV 新提交专题 90

HEad and neCK TumOR (HECKTOR) 2025: Benchmark of Segmentation, Diagnosis, and Prognosis in Multimodal PET/CT

头颈肿瘤 (HECKTOR) 2025 挑战赛：多模态 PET/CT 中的分割、诊断与预后基准

Numan Saeed, Salma Hassan, Shahad Hardan, Lishan Cai, Xinglong Liang, Moona Mazher, Abdul Qayyum, Yansong Bu, Mengye Lyu, Yue Lin, Mingyuan Meng, Chuanyi Huang, Lisheng Wang, Dalal Chamseddine, Shamimeh Ahrari, Beining Wu, Yifei Chen, Fuyou Mao, Hao Zhang, Baixiang Zhao, Surajit Ray, Muzi Guo, Lei Xiang, Jakob Dexl, Michael Ingrisch, Adrien Depeursinge, Arman Rahmim, Mathieu Hatt, Vincent Andrearczyk, Mohammad Yaqub

专题命中医学影像融合：多模态PET/CT影像用于头颈癌分割、诊断与预后

AI总结 HECKTOR 2025 挑战赛利用多模态 PET/CT 和电子健康记录，建立了头颈癌自动分析的基准，涵盖肿瘤分割、复发预测和 HPV 分类三个任务，最佳算法分别达到 Dice 0.75、C-index 0.66 和平衡准确率 0.56。

Comments 17 pages, 4 figures, 4 tables. Overview paper for the HECKTOR 2025 challenge, held as a satellite event at MICCAI 2025. Challenge website: https://hecktor.grand-challenge.org/

URL PDF HTML

2606.20112 2026-06-19 cs.CV eess.IV 新提交专题 85

Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation

像素级残差扩散Transformer：可扩展的3D CT体生成

Zhenkai Zhang, Markus Hiller, Krista A. Ehinger, Tom Drummond

专题命中医学影像融合：生成3D CT体数据，涉及医学影像生成

AI总结提出像素级残差扩散Transformer（PRDiT），通过两阶段训练（局部MLP盲估计器分离低频结构+全局残差扩散Transformer建模高频残差）实现高保真3D CT体生成，在LIDC-IDRI和RAD-ChestCT数据集上优于现有方法。

Comments Accepted at ICLR 2026. Code available at https://github.com/Fredy-Zhang/PRDiT

URL PDF HTML

2606.19966 2026-06-19 cs.CV cs.LG 新提交专题 85

Semantic-Anchored Evidential Fusion for Domain-Robust Whole-Slide Survival Analysis

语义锚定证据融合用于域鲁棒的全切片生存分析

Yucheng Xing, Ling Huang, Pei Liu, Jingying Ma, Jiaqing Xu, Kai He, Mengling Feng

专题命中医学影像融合：语义锚定证据融合，用于全切片生存分析。

AI总结提出SAEFS框架，通过视觉问答提取语义锚点，结合双流证据提取和狄利克雷主观逻辑建模不确定性，实现跨域零样本生存分析，平均C-index提升10.2%。

URL PDF HTML

2606.19838 2026-06-19 cs.CV 新提交专题 85

OTCHA: Optimal Transport-driven Confidence-aware Latent Hub Alignment for Multi-View Medical Image Classification

OTCHA: 基于最优传输的置信度感知潜在中心对齐用于多视图医学图像分类

Jiwoong Yang, Haejun Chung, Ikbeom Jang

专题命中医学影像融合：多视图医学图像分类，融合补丁令牌

AI总结提出OTCHA模块，通过最优传输对齐多视图补丁令牌与共享潜在中心令牌，结合置信度门控和部分匹配，消除无关特征，提升多视图医学图像分类鲁棒性。

Comments Accepted at MICCAI 2026

URL PDF HTML

2606.19371 2026-06-19 cs.LG cs.AI cs.CV 新提交专题 85

ProMUSE: Progressive Multi-modal Uncertainty-guided Staged Evidential Alzheimer Disease Classification

ProMUSE: 渐进式多模态不确定性引导的分阶段证据阿尔茨海默病分类

Long Doan, Branden Chen, Ethan Litton, Huan Huang, Jiajing Huang, Yixin Xie, Weihua Zhou, Nandakumar Narayanan, Chen Zhao

专题命中医学影像融合：利用多模态数据（临床、MRI、PET）进行AD分类，核心是多模态融合。

AI总结提出ProMUSE，一种渐进式多模态不确定性引导的分阶段证据网络，通过自适应决定何时需要额外模态，在保持准确性的同时降低数据采集成本。

URL PDF HTML

2606.14957 2026-06-19 cs.CV 新提交专题 85

Learning Sparse Latent Predictive Foundation Model for Multimodal Neuroimaging

学习用于多模态神经影像的稀疏潜在预测基础模型

Haoxu Huang, Long Chen, Jingyun Chen, Jinu Hyun, James Ryan Loftus, Kara Melmed, Daniel Orringer, Jennifer Frontera, Seena Dehkharghani, Arjun Masurkar, Narges Razavian

专题命中医学影像融合：融合T1w、T2w和FLAIR三种MRI序列，学习统一表示

AI总结提出Neuro-JEPA模型，结合潜在预测目标和专家混合架构，学习T1w、T2w和FLAIR三种MRI序列的统一表示，在25项临床任务和22项公开数据集任务上优于现有基础模型和CNN基线。

Comments Under Review Preprint

URL PDF HTML

2606.19927 2026-06-19 cs.CV 新提交专题 90

CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs

CARE: 面向视频多模态大语言模型的自适应推理长度的能力感知奖励塑形

Chengwen Liu, Hao Peng, Jisheng Dang, Hong Peng, Bin Hu, Tat-Seng Chua

专题命中音视频/视觉语言融合：视频多模态推理，涉及视觉与语言融合

AI总结提出CARE框架，通过能力感知奖励塑形自适应优化推理长度，利用指数移动平均估计能力并分阶段调整奖励偏好，结合批次归一化和后验放大器提升效率与准确性。

URL PDF HTML

2606.19882 2026-06-19 cs.CV cs.LG 新提交专题 90

Multimodal Concept Bottleneck Models

多模态概念瓶颈模型

Tongqing Shi, Ge Yan, Tuomas Oikarinen, Tsui-Wei Weng

专题命中音视频/视觉语言融合：多模态概念瓶颈模型，对齐图像和文本嵌入

AI总结提出多模态概念瓶颈模型（MM-CBM），利用双概念瓶颈层对齐图像和文本嵌入，实现可解释的零样本分类和图像检索，在四个基准上平均准确率提升高达51.26%。

Comments Present at NeurIPS 2025 Mechanistic Interpretability Workshop

URL PDF HTML

2603.10791 2026-06-19 eess.IV 版本更新专题 90

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

面向同步视听重建的语义卫星通信

Fangyu Liu, Peiwen Jiang, Wenjin Wang, Xiao Li, Shi Jin

专题命中音视频/视觉语言融合：提出视听语义传输系统，实现跨模态生成与同步重建

AI总结提出自适应多模态语义传输系统，通过双流生成架构和动态关键帧更新机制，在带宽受限的卫星场景下实现高质量同步视听重建，显著降低带宽消耗并提升鲁棒性。

URL PDF HTML

2606.20077 2026-06-19 cs.CV cs.AI 新提交专题 85

The Hidden Evolution of Disguised Visual Context inside the VLM

VLM内部伪装视觉上下文的隐藏演化

Wish Suharitdamrong, Tony Alex, Muhammad Awais, Sara Atito

专题命中音视频/视觉语言融合：视觉语言模型中视觉令牌与语言空间的融合

AI总结研究视觉语言模型中视觉令牌如何通过不同集成架构（上下文注入与逐层注入）转化为有意义表示，揭示其内部演化过程及对性能的影响。

URL PDF HTML

2606.19944 2026-06-19 cs.CV 新提交专题 85

Timage: A Generative Text-in-Image Paradigm for Fine-Tuning Vision-Language Models

Timage: 一种用于微调视觉语言模型的文本嵌入图像生成范式

Yifeng Wu, Huimin Huang, Ruiluo Wu, Chunyi Lin, Guanhua Chen, Xian Wu, Wang Song, Ruize Han

专题命中音视频/视觉语言融合：文本嵌入图像，增强视觉语言模型空间推理。

AI总结提出Timage范式，通过约束薛定谔桥将查询文本作为排版覆盖层嵌入图像，以显式空间锚点引导模型关注，在不侵蚀骨干能力前提下提升细粒度空间推理性能。

Comments ECCV

URL PDF HTML

2606.19915 2026-06-19 cs.CV 新提交专题 85

SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision

SpatialSV: 通过任务导向的视觉监督在多模态大语言模型中内化可解释的3D空间感知

Jiayu Tang, Yuchen Zhou, Chao Gou

专题命中音视频/视觉语言融合：将2D视觉特征提升为3D表示，多模态融合

AI总结提出SpatialSV框架，通过任务导向的视觉监督将MLLM的2D特征提升为显式3D表示（深度图、相机姿态、点云），实现可解释的3D空间感知内化，无需外部工具，并在半监督设置中展现强泛化能力。

Comments Accepted by IJCAI 2026

URL PDF HTML

2606.19776 2026-06-19 cs.CV 新提交专题 85

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Occ-VLM: 面向室内场景理解的占用接地视觉语言模型

Jianing Li, Zhou Fang, Yijiang Liu, Li Du

专题命中音视频/视觉语言融合：占用接地视觉语言模型，融合3D与2D语义

AI总结提出Occ-VLM，仅用姿态RGB图像和单一2D视觉编码器，通过重建3D占用作为几何先验，实现统一的3D场景理解，在占用预测、3D VQA和密集描述任务上达到领先水平。

URL PDF HTML

2508.15228 2026-06-19 cs.CV 版本更新专题 85

Collaborative Multi-Modal Coding for High-Quality 3D Generation

协作多模态编码用于高质量3D生成

Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

专题命中音视频/视觉语言融合：协作多模态编码融合RGB、RGBD和点云特征。

AI总结提出TriMM，首个前馈式3D原生生成模型，通过协作多模态编码融合RGB、RGBD和点云特征，结合辅助2D/3D监督和三平面潜在扩散模型，实现高质量3D资产生成。

URL PDF HTML

2508.04424 2026-06-19 cs.CV 版本更新专题 85

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

组合对象检索：通过组合表达式进行对象级检索

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

专题命中音视频/视觉语言融合：组合对象检索结合视觉与文本，属于视觉语言融合

AI总结提出组合对象检索（COR）任务，通过组合参考对象、掩码和检索文本进行对象级检索，并构建COR125K基准和CORE模型，显著优于现有方法。

URL PDF HTML

2606.20101 2026-06-19 cs.SD cs.AI cs.MM 新提交专题 80

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

基于整流流的混合扩散变压器用于指令引导音频编辑

Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang

专题命中音视频/视觉语言融合：指令引导音频编辑，涉及文本与音频融合

AI总结提出混合两阶段扩散变压器架构，通过粗到细策略平衡全局语义对齐与局部细节编辑，在重叠音频事件和复杂指令任务上提升性能与效率。

URL PDF HTML

2606.19985 2026-06-19 cs.CV 新提交专题 80

Vision-Reasoning-Guided Occlusion Removal from Light Fields

视觉推理引导的光场遮挡去除

Mohamed Youssef, Oliver Bimber

专题命中音视频/视觉语言融合：融合光场与视觉语言模型，去除遮挡恢复场景。

AI总结提出结合光场积分与视觉语言模型的框架，通过多视图融合和语义先验恢复被遮挡场景，在合成和真实数据上取得最优性能。

URL PDF HTML

2606.19950 2026-06-19 cs.CV cs.AI 新提交专题 80

Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA

多模态大语言模型的置信度校准：基于医学视觉问答的实证研究

Yuetian Du, Yucheng Wang, Ming Kong, Tian Liang, Qiang Long, Bingdi Chen, Qiang Zhu

专题命中音视频/视觉语言融合：多模态LLM置信度校准，用于医学视觉问答。

AI总结针对多模态大语言模型在医学任务中置信度与准确性不匹配的问题，提出结合多策略融合询问与专家大语言模型评估的方法，在三个医学VQA数据集上将期望校准误差平均降低40%，提升了模型可靠性。

Comments Accepted by MICCAI 2025

URL PDF HTML

2504.11171 2026-06-19 cs.CV cs.AI 版本更新专题 90

TerraMind: Large-Scale Generative Multimodality for Earth Observation

TerraMind：面向地球观测的大规模生成式多模态模型

Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Longépé

专题命中融合架构与评测：多模态地球观测基础模型，属于融合架构

AI总结提出首个任意到任意生成式多模态基础模型TerraMind，通过双尺度表示（token级和像素级）预训练，实现零样本/少样本应用，并引入“模态思考”能力，在PANGAEA等基准上达到领先性能。

Comments Accepted at ICCV'25

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 85

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中融合架构与评测：统一图像理解与生成，属于融合架构

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

1. 多传感器融合 8 篇

Geometry-Preserving in 3D Gaussian Splatting for LiDAR-Camera Extrinsic Calibration

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin

CMDS-AD: Cross-Modal Dual-Stream Decoupling for Few-Shot Anomaly Detection

FUSE: Frequency-domain Unification and Spectral Energy Alignment for Multi-modal Object Re-Identification

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

Motor Angular Speed Preintegration for Multirotor UAV State Estimation

MMD-SLAM: Structure-Enhanced Multi-Meta Gaussian Distribution-Guided Visual SLAM

2. 遥感融合与全色锐化 2 篇

Integrating national forest inventory, airborne lidar, and satellite imagery for wall-to-wall mapping of forest structure with computer vision

ReA-OVCD: Reliability-Aware Open-Vocabulary Change Detection via Semantic and Spatial Refinement

3. 医学影像融合 6 篇

HEad and neCK TumOR (HECKTOR) 2025: Benchmark of Segmentation, Diagnosis, and Prognosis in Multimodal PET/CT

Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation

Semantic-Anchored Evidential Fusion for Domain-Robust Whole-Slide Survival Analysis

OTCHA: Optimal Transport-driven Confidence-aware Latent Hub Alignment for Multi-View Medical Image Classification

ProMUSE: Progressive Multi-modal Uncertainty-guided Staged Evidential Alzheimer Disease Classification

Learning Sparse Latent Predictive Foundation Model for Multimodal Neuroimaging

4. 音视频/视觉语言融合 12 篇

CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs

Multimodal Concept Bottleneck Models

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

The Hidden Evolution of Disguised Visual Context inside the VLM

Timage: A Generative Text-in-Image Paradigm for Fine-Tuning Vision-Language Models

SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Collaborative Multi-Modal Coding for High-Quality 3D Generation

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

Vision-Reasoning-Guided Occlusion Removal from Light Fields

Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA

5. 融合架构与评测 2 篇

TerraMind: Large-Scale Generative Multimodality for Earth Observation

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer