视觉大模型 / VLM - arXivDaily 专题

2606.19277 2026-06-18 cs.CV 新提交专题 90

A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures

高效遥感视觉问答的统一框架：适配双编码器、混合架构和编码器-解码器架构

Timothy Agboada, Shikha Chandel, Yadav Raj Ghimire, Leila Hashemi-Beni

专题命中视觉问答：遥感VQA参数高效微调，适配多种VLM架构

AI总结提出RS Adapter参数高效微调策略，在三种视觉语言模型架构上注入轻量瓶颈适配器，仅用不到5%可训练参数实现遥感VQA，混合架构FLAVA在多模态推理与检索间取得最佳平衡。

Comments 4 pages, 2 figures, accepted and to be presented at 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2026), scheduled for 9 to 14 August 2026 in Washington D.C

URL PDF HTML

2606.18609 2026-06-18 cs.CV 新提交专题 85

Hallucination Detection and Correction in Medical VLMs via Counter-Evidence Verification

基于反事实证据验证的医学视觉语言模型幻觉检测与纠正

Nan Zhou, Ke Zou, Meng Liu, Linchao He, Jiaqi Zhu, Yi Zhang, Hu Chen, Huazhu Fu

专题命中视觉问答：针对医学视觉语言模型幻觉检测与纠正

AI总结提出CoEV框架，通过文本与视觉证据的双向验证检测并纠正医学VLM幻觉，无需重新训练，在四个数据集上显著提升检测和纠正性能。

Comments MICCAI 2026 Accept. Submission Version

URL PDF HTML

2606.19100 2026-06-18 cs.CV 新提交专题 80

AMALIA-VL: A Native European Portuguese Open-Source Vision and Language Model

AMALIA-VL: 一个原生欧洲葡萄牙语开源视觉与语言模型

Diogo Glória-Silva, João Cardeira, Manuel Letras da Luz, Afonso Simplício, Gonçalo Vinagre, Diogo Tavares, Rafael Ferreira, Inês Calvo, Inês Vieira, David Semedo, João Magalhães

专题命中视觉问答：开源视觉语言模型，面向欧洲葡萄牙语。

AI总结针对欧洲葡萄牙语缺乏开源多模态模型的问题，提出AMALIA-VL，通过三阶段训练和葡萄牙语中心数据混合，建立强基线并开源所有资源。

URL PDF HTML

2606.18271 2026-06-18 cs.AI cs.LG 新提交专题 80

NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

NAVI-Orbital：用于自主地球观测的零样本视觉语言模型的首次在轨演示

Juan Manuel Delfa Victoria, Taran Cyriac John, Andrew W. Herson

专题命中视觉问答：在轨部署VLM进行自主地球观测与多模态推理。

AI总结本文介绍NAVI-Orbital系统，在低地球轨道卫星上首次实现视觉语言模型的自主多模态推理，通过语义压缩解决数据下传瓶颈。

Comments 17 pages, 47 figures

URL PDF HTML

2606.17188 2026-06-18 cs.CV cs.CL 新提交专题 80

Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation

并非真正的多语言：脚本一致性作为VLM评估中缺失的维度

Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

专题命中视觉问答：评估VLM在多文字脚本下的视觉推理

AI总结提出PuMVR基准，评估10个VLM在旁遮普语三种文字上的表现，发现显著的脚本差距，并提出脚本一致性率（SCR）作为必要评估指标。

URL PDF HTML

2606.18553 2026-06-18 cs.CV 新提交专题 70

Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

基于知识的分层多模态检索用于新闻图像描述生成

Minh-Loi Nguyen, Xuan-Vu Le, Long-Bao Nguyen, Hoang-Bach Ngo, Trung-Nghia Le

专题命中视觉问答：结合VLM和LLM生成图像描述

AI总结提出分层多模态文章检索增强的图像描述框架，通过结构感知检索和上下文精炼，结合VLM和LLM生成富含上下文细节的描述，在EVENTA 2025挑战赛中获得第5名。

Comments SOICT 2025

URL PDF HTML