arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

多模态大模型

跨文本、图像、视频、音频等模态的大模型与学习方法。

今日/当前日期收录 14 信号源:cs.CV, cs.CL, cs.AI, cs.MM, eess.AS
2606.01711 2026-06-18 cs.CV 版本更新 专题 90

Improving Visual Token Reduction via Rectifying Distortions for Efficient Multimodal LLM Inference

通过纠正失真改进视觉令牌减少以实现高效多模态大语言模型推理

Hyeonwoo Cho, Donghyeon Baek, Yewon Kim, Bumsub Ham

专题命中 图文多模态 :多模态大模型视觉令牌减少,提升推理效率

AI总结 提出RESTORE框架,通过校准位置和注意力失真来改进视觉令牌减少,在保持效率的同时提升多模态大语言模型性能。

Comments Accepted to ICML 2026

2606.19120 2026-06-18 cs.LG cs.CV 新提交 专题 85

Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

先看后思:解耦感知与推理以实现抗捷径的多模态在策略自蒸馏

Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

专题命中 图文多模态 :MLLM后训练框架,解耦感知与推理

AI总结 提出ViGOS框架,通过解耦感知和推理,在MLLM后训练中避免文本捷径,提升图像依赖行为。

Comments 29 pages, 5 figures, 8 tables

2606.18988 2026-06-18 cs.AI 新提交 专题 85

ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

ThinkDeception: 一种用于可解释多模态欺骗检测的渐进式强化学习框架

Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

专题命中 图文多模态 :引入多模态大模型进行可解释欺骗检测,结合视觉和音频。

AI总结 提出ThinkDeception框架,将多模态大语言模型引入欺骗检测,通过逐步推理和视觉-音频一致性组相对策略优化(VAC-GRPO)实现可解释的认知推理,在主流基准上达到新SOTA。

Comments 10pages,4figures

2606.18780 2026-06-18 cs.CV cs.CL cs.MM 新提交 专题 85

SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction

SAMA:面向统一低资源多模态信息抽取的语义锚定对齐增强

Quanjiang Guo, Chong Mu, Jiazhou Pan, Ming Jia, Ling Tian, Hui Gao, Zhao Kang

专题命中 图文多模态 :多模态信息抽取,利用多专家MLLM增强数据。

AI总结 提出语义锚定对齐增强框架SAMA,通过构建结构化语义锚引导多专家多模态大模型生成高保真文本,并利用锚保留扩散机制合成图像,结合双约束过滤模块,在低资源多模态信息抽取任务中显著提升性能。

Comments Accepted by IEEE Transactions on Multimedia

2606.17030 2026-06-18 cs.CV 新提交 专题 85

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界模型

Jie Zhang, Xiaoyue Chen, Anzhe Chen, Dayiheng Liu, Deqing Li, Gengze Zhou, Hale Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Chenxu Lv, Xiong-Hui Chen, Chenfei Wu

专题命中 图文多模态 :融合视觉与语言的多模态世界模型

AI总结 提出Qwen-RobotWorld,一种以自然语言为统一动作接口的语言条件视频世界模型,通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练,在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测,在多个基准上取得最优结果。

2606.15088 2026-06-18 cs.SD cs.CL eess.AS 新提交 专题 85

When the Same Musical Knowledge Forgets Differently: A Clean Probe of Pathway-Dependent Forgetting

当相同的音乐知识以不同方式遗忘:路径依赖遗忘的干净探测

Yu Liu, Zhiwei Yang, Wenxiao Zhang, Cong Cao, Fangfang Yuan, Kun Peng, Haimei Qin, Lei Jiang, Jin B. Hong, Hao Peng, Yanbing Liu

专题命中 图文多模态 :研究多模态模型中知识遗忘路径依赖

AI总结 提出配对路径控制协议(PPCP),发现多模态模型中通过文本路径获取的知识比音频路径更易遗忘,且该效应不受架构深度影响,主要源于输入表示差异。

2606.18974 2026-06-18 cs.CV 新提交 专题 80

Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning

Visual-OPSD:用于高效统一多模态推理的跨模态在策略自蒸馏

Pengyu Li, Zhitao Gao, Lingling Zhang, Muye Huang, Yuanming Li, Fangzhi Xu, Jun Liu

专题命中 图文多模态 :跨模态自蒸馏将视觉推理能力转移到纯文本模型。

AI总结 提出Visual-OPSD方法,通过跨模态在策略自蒸馏,将多步扩散生成的可视化思维推理能力转移到纯文本学生模型,实现14.3倍加速且性能提升3.40个百分点。

2606.18893 2026-06-18 cs.CL 新提交 专题 80

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

学习鲁棒的成对置信度用于多模态情感-原因对提取

Zhuangzhuang Pan, Ning Dong, Yingna Su, Yan Xia

专题命中 图文多模态 :多模态情感-原因对提取,学习鲁棒置信度

AI总结 提出RPCL框架,通过置信度差异边界约束和对抗性扰动,增强多模态情感-原因对提取中成对置信度的判别性和稳定性,在三个数据集上提升Pair F1约2.6-2.8个百分点。

Comments 11 pages, 3 figures, 5 tables

2606.18710 2026-06-18 cs.CR 新提交 专题 80

Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks

分布式多模态大模型推理框架上的图像提示重建攻击

Xinjian Luo, Hongyan Chang, Jianxin Wei, Yuncheng Wu, Xiaofeng Gao, Meikang Qiu, Ting Yu, Xue Liu

专题命中 图文多模态 :分布式MLLM图像提示重建攻击。

AI总结 研究分布式MLLM推理中中间嵌入泄露图像提示的风险,提出两种被动黑盒攻击方法MPAA和IEDA,实现像素级和语义级图像重建。

2606.18262 2026-06-18 cs.HC 新提交 专题 75

When Prompts Mislead: Textual Dominance and Diagnostic Bias in MLLMs

当提示误导:多模态大语言模型中的文本主导与诊断偏差

Inhyuk Park, Doohyun Park

专题命中 图文多模态 :研究多模态LLM在医学诊断中的文本主导偏差。

AI总结 研究揭示在医学多模态大语言模型中,文本提示会主导视觉线索,导致诊断偏差,即使模型具备空间定位能力,提示策略仍可能不安全。

Comments Accepted to the CVPR 2026 MMFM-BIOMED Workshop

2606.18661 2026-06-18 cs.CV cs.AI 新提交 专题 70

LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis

LandslideAgent与多模态LandslideBench:一种面向自主滑坡识别与分析的领域规则增强型智能体

Chengfu Liu, Dongyang Hou, Junwu Xiang, Cheng Yang, Xuezhi Cui, Zeyuan Wang, Liangtian Liu, Zelang Miao

专题命中 图文多模态 :多模态数据集包含图像、掩码和文本描述

AI总结 提出指令驱动智能体框架,包含多模态数据集LandslideBench、滑坡专用视觉语言模型LandslideVLM及领域规则增强智能体LandslideAgent,实现自主滑坡识别与分析。

2606.18441 2026-06-18 cs.CV 新提交 专题 70

Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs

推理即交集:视频多模态大语言模型中视觉焦点的一致性帧对齐

Chengwen Liu, Zhe Huang, Jisheng Dang, Hong Peng, Qi Tian, Tat-Seng Chua

专题命中 图文多模态 :涉及视频多模态大语言模型推理优化

AI总结 提出无时间标注的过程级奖励框架CF-GRPO,通过视频内在线索构建一致性帧先验,并利用一致性帧奖励优化模型帧使用与先验的对齐,提升视频推理性能。

2604.18109 2026-06-18 cs.CL cs.SD 版本更新 专题 70

FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

FLiP:理解和解释多模态多语句子嵌入

Santosh Kesiraju, Bolaji Yusuf, Šimon Sedláček, Oldřich Plchot, Petr Schwarz

专题命中 图文多模态 :多模态多语句子嵌入的理解与解释

AI总结 提出因子化线性投影(FLiP)模型,从多语言、多模态句子嵌入中恢复词汇内容,揭示编码器的模态和语言偏差。

Comments Accepted to Interspeech 2026

2601.14968 2026-06-18 cs.LG cs.AI 版本更新 专题 70

InstructTime++: Time Series Classification with Multimodal Language Modeling via Implicit Feature Enhancement

InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类

Mingyue Cheng, Xiaoyu Tao, Huajian Zhang, Qi Liu, Zhiding Liu, Yucong Luo, Yiheng Chen, Enhong Chen

专题命中 图文多模态 :融合数值序列、文本特征和指令的多模态输入

AI总结 提出将时间序列分类转化为多模态生成任务,通过离散化模块和对齐投影层弥合模态差距,并利用隐式特征建模提升语言模型性能。