视觉大模型 / VLM

2606.19277 2026-06-18 cs.CV 新提交专题 90

A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures

高效遥感视觉问答的统一框架：适配双编码器、混合架构和编码器-解码器架构

Timothy Agboada, Shikha Chandel, Yadav Raj Ghimire, Leila Hashemi-Beni

专题命中视觉问答：遥感VQA参数高效微调，适配多种VLM架构

AI总结提出RS Adapter参数高效微调策略，在三种视觉语言模型架构上注入轻量瓶颈适配器，仅用不到5%可训练参数实现遥感VQA，混合架构FLAVA在多模态推理与检索间取得最佳平衡。

Comments 4 pages, 2 figures, accepted and to be presented at 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2026), scheduled for 9 to 14 August 2026 in Washington D.C

URL PDF HTML

2606.18609 2026-06-18 cs.CV 新提交专题 85

Hallucination Detection and Correction in Medical VLMs via Counter-Evidence Verification

基于反事实证据验证的医学视觉语言模型幻觉检测与纠正

Nan Zhou, Ke Zou, Meng Liu, Linchao He, Jiaqi Zhu, Yi Zhang, Hu Chen, Huazhu Fu

专题命中视觉问答：针对医学视觉语言模型幻觉检测与纠正

AI总结提出CoEV框架，通过文本与视觉证据的双向验证检测并纠正医学VLM幻觉，无需重新训练，在四个数据集上显著提升检测和纠正性能。

Comments MICCAI 2026 Accept. Submission Version

URL PDF HTML

2606.19100 2026-06-18 cs.CV 新提交专题 80

AMALIA-VL: A Native European Portuguese Open-Source Vision and Language Model

AMALIA-VL: 一个原生欧洲葡萄牙语开源视觉与语言模型

Diogo Glória-Silva, João Cardeira, Manuel Letras da Luz, Afonso Simplício, Gonçalo Vinagre, Diogo Tavares, Rafael Ferreira, Inês Calvo, Inês Vieira, David Semedo, João Magalhães

专题命中视觉问答：开源视觉语言模型，面向欧洲葡萄牙语。

AI总结针对欧洲葡萄牙语缺乏开源多模态模型的问题，提出AMALIA-VL，通过三阶段训练和葡萄牙语中心数据混合，建立强基线并开源所有资源。

URL PDF HTML

2606.18271 2026-06-18 cs.AI cs.LG 新提交专题 80

NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

NAVI-Orbital：用于自主地球观测的零样本视觉语言模型的首次在轨演示

Juan Manuel Delfa Victoria, Taran Cyriac John, Andrew W. Herson

专题命中视觉问答：在轨部署VLM进行自主地球观测与多模态推理。

AI总结本文介绍NAVI-Orbital系统，在低地球轨道卫星上首次实现视觉语言模型的自主多模态推理，通过语义压缩解决数据下传瓶颈。

Comments 17 pages, 47 figures

URL PDF HTML

2606.17188 2026-06-18 cs.CV cs.CL 新提交专题 80

Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation

并非真正的多语言：脚本一致性作为VLM评估中缺失的维度

Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

专题命中视觉问答：评估VLM在多文字脚本下的视觉推理

AI总结提出PuMVR基准，评估10个VLM在旁遮普语三种文字上的表现，发现显著的脚本差距，并提出脚本一致性率（SCR）作为必要评估指标。

URL PDF HTML

2606.18553 2026-06-18 cs.CV 新提交专题 70

Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

基于知识的分层多模态检索用于新闻图像描述生成

Minh-Loi Nguyen, Xuan-Vu Le, Long-Bao Nguyen, Hoang-Bach Ngo, Trung-Nghia Le

专题命中视觉问答：结合VLM和LLM生成图像描述

AI总结提出分层多模态文章检索增强的图像描述框架，通过结构感知检索和上下文精炼，结合VLM和LLM生成富含上下文细节的描述，在EVENTA 2025挑战赛中获得第5名。

Comments SOICT 2025

URL PDF HTML

2606.19053 2026-06-18 cs.CV 新提交专题 90

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: From Evaluation to Diagnosis

大规模视觉-语言模型在细粒度图像任务上的基准测试：从评估到诊断

Hong-Tao Yu, Chen-Wei Xie, Yuxin Peng, Serge Belongie, Xiu-Shen Wei

专题命中：细粒度图像任务基准，诊断LVLM。

AI总结提出FG-BMK基准，含101万问题和28万图像，通过人机双范式评估LVLM的细粒度语义识别与视觉判别能力，诊断失败原因，发现视觉表示、语义对齐等瓶颈。

URL PDF HTML

2606.18101 2026-06-18 cs.AI 新提交专题 90

Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

信任正确的教师：面向GUI定位的质量感知自蒸馏

Jingyuan Huang, Zuming Huang, Yucheng Shi, Tianze Yang, Xiaoming Zhai, Wei Chu, Ninghao Liu

专题命中视觉定位：自蒸馏提升VLM的GUI定位能力

AI总结提出质量感知自蒸馏方法，通过软正确性感知门控和教师概率缩放改善坐标令牌教师信号质量，提升VLM在GUI定位任务中的性能。

Comments corrected some claims

URL PDF HTML

2606.17030 2026-06-18 cs.CV 新提交专题 90

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界模型

Jie Zhang, Xiaoyue Chen, Anzhe Chen, Dayiheng Liu, Deqing Li, Gengze Zhou, Hale Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Chenxu Lv, Xiong-Hui Chen, Chenfei Wu

专题命中视觉推理：语言条件视频世界模型，视觉推理与生成

AI总结提出Qwen-RobotWorld，一种以自然语言为统一动作接口的语言条件视频世界模型，通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练，在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测，在多个基准上取得最优结果。

URL PDF HTML

2606.18846 2026-06-18 cs.CV 新提交专题 85

From Bounding Boxes to Visual Reasoning: An On-Policy Data Annotation Tool for Vision-Language Models

从边界框到视觉推理：一种用于视觉语言模型的在线策略数据标注工具

Like Zhang, Runliang Niu, Shiqi Wang, Xiyu Hu, Qianli Xing, Pan Wang, Qingzu He, Qi Wang

专题命中视觉推理：VLM数据标注工具，支持视觉推理。

AI总结提出ScreenAnnotator，通过统一标注原子模式、在线策略循环与贝叶斯验证器，解决现有工具表达力不足、标注-训练脱节和数据复用性差的问题，实现高效多任务数据生成。

Comments 14 pages, 7 figures

URL PDF HTML

2606.18839 2026-06-18 cs.LG cs.CV 新提交专题 85

Semantic Robustness Certification for Vision-Language Models

视觉语言模型的语义鲁棒性认证

Peiyu Yang, Paul Montague, Feng Liu, Andrew C. Cullen, Amardeep Kaur, Christopher Leckie, Sarah M. Erfani

专题命中视觉推理：VLM语义鲁棒性认证，文本提示代理。

AI总结提出首个无需额外数据即可认证视觉语言模型在语义层面（如形状、大小、风格）鲁棒性的框架，通过文本提示作为语义代理并量化决策边界，确保预测类别在语义变换下不变。

Comments Accepted to ICML

URL PDF HTML

2606.18681 2026-06-18 cs.CV 新提交专题 85

Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

超越多样性：将视觉令牌剪枝视为子空间重建以实现高效视觉语言模型

Jaeyeon Lee, Shunjie Wen, Dong-Wan Choi

专题命中视觉推理：VLM视觉令牌剪枝，提升效率

AI总结提出SPARE方法，将令牌剪枝重构为子空间重建问题，通过迭代选择投影残差大的令牌进行剪枝，并引入反相关性机制保留上下文信息，在LLaVA上剪枝94%令牌仍保持95%性能。

Comments ECCV 2026 Under Review

URL PDF HTML

2606.18385 2026-06-18 cs.AI 新提交专题 85

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT：一种可解释的视觉-语言模型框架

Sneha Rao, Shaina Raza, Dhanesh Ramachandram

专题命中视觉推理：提出可解释VLM框架，结合CoT和RAG

AI总结提出CaVe-VLM-CoT框架，通过五阶段闭环流水线（提取器、检索器、求解器、引用注入器、验证器）实现证据推理，并引入CaVeScore复合指标评估检索质量、引用忠实度和跨模态基础，在ScienceQA和MMMU上取得性能提升。

URL PDF HTML

2606.19253 2026-06-18 cs.CV cs.AI cs.LG cs.RO 新提交专题 80

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

OneCanvas: 通过全景重投影实现3D场景理解

Bartłomiej Baranowski, Dave Zhenyu Chen, Matthias Nießner

专题命中视觉推理：VLM中3D场景理解方法

AI总结提出OneCanvas方法，将多视图补丁特征聚合到全景画布上，利用深度和相机位姿进行重投影，无需复杂几何编码器或大量训练，在SQA3D等基准上达到最先进精度。

Comments Project page: https://baranowskibrt.github.io/onecanvas/

URL PDF HTML

2606.17412 2026-06-18 cs.CV cs.AI 新提交专题 80

Enhancing Pathological VLMs with Cross-scale Reasoning

增强病理视觉语言模型的跨尺度推理能力

Chi Phan, Tianyi Zhang, Qiaochu Xue, Yufeng Wu, Dan Hu, Zeyu Liu, Sudong Wang, Yueming Jin

专题命中视觉推理：增强病理VLM的跨尺度视觉推理

AI总结提出首个跨尺度训练与评估范式，通过多倍率视觉问答任务增强病理视觉语言模型的跨尺度推理能力，并构建高质量基准数据集Scale-VQA及模型ScaleReasoner-R1，实现最优性能。

URL PDF HTML

2606.18738 2026-06-18 cs.SD 新提交专题 75

GRIDEX: Grid-Grounded Forensic Explanations for Deepfake Spectrogram Analysis

GRIDEX：基于网格的深度伪造频谱图取证解释

Thi Ngan Ha Do, Tingmin Wu, Alsharif Abuadbba, Kristen Moore

专题命中视觉推理：深度伪造频谱图分析，生成取证解释。

AI总结提出GRIDEX框架，通过两阶段学习（SFT+GRPO）定位频谱图异常区域并生成结构化取证解释，提升伪造检测的可解释性。

URL PDF HTML

2606.18661 2026-06-18 cs.CV cs.AI 新提交专题 75

LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis

LandslideAgent与多模态LandslideBench：一种面向自主滑坡识别与分析的领域规则增强型智能体

Chengfu Liu, Dongyang Hou, Junwu Xiang, Cheng Yang, Xuezhi Cui, Zeyuan Wang, Liangtian Liu, Zelang Miao

专题命中视觉推理：滑坡专用视觉语言模型增强地质语义理解

AI总结提出指令驱动智能体框架，包含多模态数据集LandslideBench、滑坡专用视觉语言模型LandslideVLM及领域规则增强智能体LandslideAgent，实现自主滑坡识别与分析。

URL PDF HTML

2606.18558 2026-06-18 cs.CV 新提交专题 75

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

MolmoMotion: 基于语言指令的3D点轨迹预测

Jianing Zhang, Chenhao Zheng, Yajun Yang, Max Argus, Rustin Soraki, Winson Han, Taira Anderson, Chun-Liang Li, Shuo Liu, Jiafei Duan, Zhongzheng Ren, Jieyu Zhang, Ranjay Krishna

专题命中视觉推理：语言指令引导3D点轨迹预测

AI总结提出一种基于语言指令的3D点运动预测方法，通过构建大规模数据集和基准，实现类无关、视角稳定的运动轨迹预测，并在机器人操作和视频生成中验证其有效性。

URL PDF HTML

2606.19258 2026-06-18 cs.CV cs.RO 新提交专题 70

CABLE: Cloud-Assisted Bandwidth-efficient LMM-based Encoding for V2X Systems

CABLE: 面向V2X系统的云辅助带宽高效LMM编码框架

Haohua Que, Zhipeng Bao, Qianyi Wu, Handong Yao

专题命中视觉推理：利用LMM进行边缘-云感知编码

AI总结提出CABLE框架，通过边缘端利用自我运动补偿和残差运动线索传播云分割掩码，生成感兴趣区域（ROI）并仅上传ROI掩码图像，形成掩码-ROI-LMM反馈循环，在五个数据集上实现73-87%的ROI像素覆盖减少和5-8倍LMM预填充加速。

URL PDF HTML

2606.19120 2026-06-18 cs.LG cs.CV 新提交专题 70

Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

先看后思：解耦感知与推理以实现抗捷径的多模态在策略自蒸馏

Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

专题命中视觉推理：视觉描述辅助推理，属于VLM范畴

AI总结提出ViGOS框架，通过解耦感知和推理，在MLLM后训练中避免文本捷径，提升图像依赖行为。

Comments 29 pages, 5 figures, 8 tables

URL PDF HTML

2606.17372 2026-06-18 cs.CL cs.AI 新提交专题 70

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

LVLMs在指称通信中的隐式与显式提示策略

Peter Zeng, Amie J. Paige, Weiling Li, Susan E. Brennan, Owen Rambow, Cameron R. Jones

专题命中视觉推理：研究LVLM指称通信中的提示策略

AI总结本研究通过控制任务差异，比较显式与隐式提示对LVLM生成高效指称表达的影响，发现显式提示下模型能协调高效表达，而隐式提示则失败，揭示了人机通信的关键差异。

URL PDF HTML

2606.18634 2026-06-18 cs.RO cs.AI 新提交专题 60

EffiNav: Fusing Depth and Vision-Language for Efficient Object Goal Navigation

EffiNav: 融合深度与视觉语言实现高效物体目标导航

Zecheng Yin, Benedict Jun Ma

专题命中视觉推理：利用视觉语言模型预测探索边界

AI总结提出EffiNav框架，融合深度信息与视觉语言模型，通过预测探索边界和语义先验指导导航，在HM3D和OVON数据集上匹配或超越基线，提升路径效率与泛化性。

URL PDF HTML

1. 视觉问答 6 篇

A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures

Hallucination Detection and Correction in Medical VLMs via Counter-Evidence Verification

AMALIA-VL: A Native European Portuguese Open-Source Vision and Language Model

NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation

Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

2. 其他 1 篇

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: From Evaluation to Diagnosis

3. 视觉定位 1 篇

Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

4. 视觉推理 14 篇

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

From Bounding Boxes to Visual Reasoning: An On-Policy Data Annotation Tool for Vision-Language Models

Semantic Robustness Certification for Vision-Language Models

Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

Enhancing Pathological VLMs with Cross-scale Reasoning

GRIDEX: Grid-Grounded Forensic Explanations for Deepfake Spectrogram Analysis

LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

CABLE: Cloud-Assisted Bandwidth-efficient LMM-based Encoding for V2X Systems

Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

EffiNav: Fusing Depth and Vision-Language for Efficient Object Goal Navigation