多模态信息融合 - arXivDaily 专题

2606.19927 2026-06-19 cs.CV 新提交专题 90

CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs

CARE: 面向视频多模态大语言模型的自适应推理长度的能力感知奖励塑形

Chengwen Liu, Hao Peng, Jisheng Dang, Hong Peng, Bin Hu, Tat-Seng Chua

专题命中音视频/视觉语言融合：视频多模态推理，涉及视觉与语言融合

AI总结提出CARE框架，通过能力感知奖励塑形自适应优化推理长度，利用指数移动平均估计能力并分阶段调整奖励偏好，结合批次归一化和后验放大器提升效率与准确性。

URL PDF HTML

2606.19882 2026-06-19 cs.CV cs.LG 新提交专题 90

Multimodal Concept Bottleneck Models

多模态概念瓶颈模型

Tongqing Shi, Ge Yan, Tuomas Oikarinen, Tsui-Wei Weng

专题命中音视频/视觉语言融合：多模态概念瓶颈模型，对齐图像和文本嵌入

AI总结提出多模态概念瓶颈模型（MM-CBM），利用双概念瓶颈层对齐图像和文本嵌入，实现可解释的零样本分类和图像检索，在四个基准上平均准确率提升高达51.26%。

Comments Present at NeurIPS 2025 Mechanistic Interpretability Workshop

URL PDF HTML

2603.10791 2026-06-19 eess.IV 版本更新专题 90

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

面向同步视听重建的语义卫星通信

Fangyu Liu, Peiwen Jiang, Wenjin Wang, Xiao Li, Shi Jin

专题命中音视频/视觉语言融合：提出视听语义传输系统，实现跨模态生成与同步重建

AI总结提出自适应多模态语义传输系统，通过双流生成架构和动态关键帧更新机制，在带宽受限的卫星场景下实现高质量同步视听重建，显著降低带宽消耗并提升鲁棒性。

URL PDF HTML

2606.20077 2026-06-19 cs.CV cs.AI 新提交专题 85

The Hidden Evolution of Disguised Visual Context inside the VLM

VLM内部伪装视觉上下文的隐藏演化

Wish Suharitdamrong, Tony Alex, Muhammad Awais, Sara Atito

专题命中音视频/视觉语言融合：视觉语言模型中视觉令牌与语言空间的融合

AI总结研究视觉语言模型中视觉令牌如何通过不同集成架构（上下文注入与逐层注入）转化为有意义表示，揭示其内部演化过程及对性能的影响。

URL PDF HTML

2606.19944 2026-06-19 cs.CV 新提交专题 85

Timage: A Generative Text-in-Image Paradigm for Fine-Tuning Vision-Language Models

Timage: 一种用于微调视觉语言模型的文本嵌入图像生成范式

Yifeng Wu, Huimin Huang, Ruiluo Wu, Chunyi Lin, Guanhua Chen, Xian Wu, Wang Song, Ruize Han

专题命中音视频/视觉语言融合：文本嵌入图像，增强视觉语言模型空间推理。

AI总结提出Timage范式，通过约束薛定谔桥将查询文本作为排版覆盖层嵌入图像，以显式空间锚点引导模型关注，在不侵蚀骨干能力前提下提升细粒度空间推理性能。

Comments ECCV

URL PDF HTML

2606.19915 2026-06-19 cs.CV 新提交专题 85

SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision

SpatialSV: 通过任务导向的视觉监督在多模态大语言模型中内化可解释的3D空间感知

Jiayu Tang, Yuchen Zhou, Chao Gou

专题命中音视频/视觉语言融合：将2D视觉特征提升为3D表示，多模态融合

AI总结提出SpatialSV框架，通过任务导向的视觉监督将MLLM的2D特征提升为显式3D表示（深度图、相机姿态、点云），实现可解释的3D空间感知内化，无需外部工具，并在半监督设置中展现强泛化能力。

Comments Accepted by IJCAI 2026

URL PDF HTML

2606.19776 2026-06-19 cs.CV 新提交专题 85

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Occ-VLM: 面向室内场景理解的占用接地视觉语言模型

Jianing Li, Zhou Fang, Yijiang Liu, Li Du

专题命中音视频/视觉语言融合：占用接地视觉语言模型，融合3D与2D语义

AI总结提出Occ-VLM，仅用姿态RGB图像和单一2D视觉编码器，通过重建3D占用作为几何先验，实现统一的3D场景理解，在占用预测、3D VQA和密集描述任务上达到领先水平。

URL PDF HTML

2508.15228 2026-06-19 cs.CV 版本更新专题 85

Collaborative Multi-Modal Coding for High-Quality 3D Generation

协作多模态编码用于高质量3D生成

Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

专题命中音视频/视觉语言融合：协作多模态编码融合RGB、RGBD和点云特征。

AI总结提出TriMM，首个前馈式3D原生生成模型，通过协作多模态编码融合RGB、RGBD和点云特征，结合辅助2D/3D监督和三平面潜在扩散模型，实现高质量3D资产生成。

URL PDF HTML

2508.04424 2026-06-19 cs.CV 版本更新专题 85

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

组合对象检索：通过组合表达式进行对象级检索

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

专题命中音视频/视觉语言融合：组合对象检索结合视觉与文本，属于视觉语言融合

AI总结提出组合对象检索（COR）任务，通过组合参考对象、掩码和检索文本进行对象级检索，并构建COR125K基准和CORE模型，显著优于现有方法。

URL PDF HTML

2606.20101 2026-06-19 cs.SD cs.AI cs.MM 新提交专题 80

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

基于整流流的混合扩散变压器用于指令引导音频编辑

Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang

专题命中音视频/视觉语言融合：指令引导音频编辑，涉及文本与音频融合

AI总结提出混合两阶段扩散变压器架构，通过粗到细策略平衡全局语义对齐与局部细节编辑，在重叠音频事件和复杂指令任务上提升性能与效率。

URL PDF HTML

2606.19985 2026-06-19 cs.CV 新提交专题 80

Vision-Reasoning-Guided Occlusion Removal from Light Fields

视觉推理引导的光场遮挡去除

Mohamed Youssef, Oliver Bimber

专题命中音视频/视觉语言融合：融合光场与视觉语言模型，去除遮挡恢复场景。

AI总结提出结合光场积分与视觉语言模型的框架，通过多视图融合和语义先验恢复被遮挡场景，在合成和真实数据上取得最优性能。

URL PDF HTML

2606.19950 2026-06-19 cs.CV cs.AI 新提交专题 80

Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA

多模态大语言模型的置信度校准：基于医学视觉问答的实证研究

Yuetian Du, Yucheng Wang, Ming Kong, Tian Liang, Qiang Long, Bingdi Chen, Qiang Zhu

专题命中音视频/视觉语言融合：多模态LLM置信度校准，用于医学视觉问答。

AI总结针对多模态大语言模型在医学任务中置信度与准确性不匹配的问题，提出结合多策略融合询问与专家大语言模型评估的方法，在三个医学VQA数据集上将期望校准误差平均降低40%，提升了模型可靠性。

Comments Accepted by MICCAI 2025

URL PDF HTML

2606.16615 2026-06-19 cs.CV 新提交专题 80

SUP-MCRL: Subject-aware Unified Pseudo-feature Coded Multimodal Contrastive Representation Learning for EEG Visual Decoding

SUP-MCRL：面向EEG视觉解码的感知主体统一伪特征编码多模态对比表示学习

Shengyu Gong, Weiming Zeng, Yueyang Li, Zijian Kang, Hongjie Yan, Wai Ting Siok, Nizhuan Wang

专题命中音视频/视觉语言融合：多模态对比学习融合EEG和视觉特征，用于视觉解码。

AI总结提出SUP-MCRL框架，通过语义感知视觉编码器、统一EEG增强器和原型渐进增强器，解决多模态对比学习中语义一致性和主体选择性问题，在THINGS-EEG零样本任务上达到66.0%/91.9%的Top-1/Top-5准确率。

URL PDF HTML

2606.20083 2026-06-19 cs.CV 新提交专题 75

Holo-World: Unified Camera, Object and Weather Control for Video World Model

Holo-World: 视频世界模型的统一相机、物体和天气控制

Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

专题命中音视频/视觉语言融合：视频世界模型，联合控制相机、物体和天气

AI总结提出Holo-World，一种从单张图像联合控制相机、物体运动和天气的统一视频世界模型，通过场景适配器和解耦CFG实现世界保持与天气迁移。

Comments Project Page: \url{https://xiangchenyin.github.io/Holo-World} Code: \url{https://github.com/XiangchenYin/Holo-World}

URL PDF HTML

2509.10416 2026-06-19 cs.RO 版本更新专题 75

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC：面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中音视频/视觉语言融合：利用视觉语言模型推断意图，属于视觉语言融合

AI总结提出TASC框架，通过视觉构建开放词汇交互图推断任务级用户意图，并基于空间约束提供共享控制辅助，提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

URL PDF HTML

2606.20094 2026-06-19 cs.CV cs.AI cs.GR cs.LG cs.MM 新提交专题 70

MakeupMirror: Improving Facial Attribute Preservation in Diffusion Models for Makeup Transfer

MakeupMirror：在用于化妆迁移的扩散模型中改进面部属性保持

Nefeli Andreou, Angel Martínez-González, Sabine Sternig, Matthieu Guillaumin, Epameinondas Antonakos, Michael Opitz

专题命中音视频/视觉语言融合：化妆迁移，涉及图像与文本条件融合

AI总结提出MakeupMirror扩散模型，通过ControlNet几何条件、区域特定迁移控制、肤色调制和Langevin采样器，在保持面部特征和肤色的同时实现高质量化妆迁移，相比Stable-Makeup提升面部识别相似度60%、降低肤色差异50%。

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 70

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中音视频/视觉语言融合：从视频学习3D几何表示，增强多模态大语言模型空间智能

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML