arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

视觉大模型 / VLM

视觉语言模型、视觉推理、视觉问答、图文理解和视觉 grounding。

今日/当前日期收录 6 信号源:cs.CV, cs.AI, cs.LG
2606.19277 2026-06-18 cs.CV 新提交 专题 90

A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures

高效遥感视觉问答的统一框架:适配双编码器、混合架构和编码器-解码器架构

Timothy Agboada, Shikha Chandel, Yadav Raj Ghimire, Leila Hashemi-Beni

专题命中 视觉问答 :遥感VQA参数高效微调,适配多种VLM架构

AI总结 提出RS Adapter参数高效微调策略,在三种视觉语言模型架构上注入轻量瓶颈适配器,仅用不到5%可训练参数实现遥感VQA,混合架构FLAVA在多模态推理与检索间取得最佳平衡。

Comments 4 pages, 2 figures, accepted and to be presented at 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2026), scheduled for 9 to 14 August 2026 in Washington D.C

2606.18609 2026-06-18 cs.CV 新提交 专题 85

Hallucination Detection and Correction in Medical VLMs via Counter-Evidence Verification

基于反事实证据验证的医学视觉语言模型幻觉检测与纠正

Nan Zhou, Ke Zou, Meng Liu, Linchao He, Jiaqi Zhu, Yi Zhang, Hu Chen, Huazhu Fu

专题命中 视觉问答 :针对医学视觉语言模型幻觉检测与纠正

AI总结 提出CoEV框架,通过文本与视觉证据的双向验证检测并纠正医学VLM幻觉,无需重新训练,在四个数据集上显著提升检测和纠正性能。

Comments MICCAI 2026 Accept. Submission Version

2606.19100 2026-06-18 cs.CV 新提交 专题 80

AMALIA-VL: A Native European Portuguese Open-Source Vision and Language Model

AMALIA-VL: 一个原生欧洲葡萄牙语开源视觉与语言模型

Diogo Glória-Silva, João Cardeira, Manuel Letras da Luz, Afonso Simplício, Gonçalo Vinagre, Diogo Tavares, Rafael Ferreira, Inês Calvo, Inês Vieira, David Semedo, João Magalhães

专题命中 视觉问答 :开源视觉语言模型,面向欧洲葡萄牙语。

AI总结 针对欧洲葡萄牙语缺乏开源多模态模型的问题,提出AMALIA-VL,通过三阶段训练和葡萄牙语中心数据混合,建立强基线并开源所有资源。

2606.18271 2026-06-18 cs.AI cs.LG 新提交 专题 80

NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

NAVI-Orbital:用于自主地球观测的零样本视觉语言模型的首次在轨演示

Juan Manuel Delfa Victoria, Taran Cyriac John, Andrew W. Herson

专题命中 视觉问答 :在轨部署VLM进行自主地球观测与多模态推理。

AI总结 本文介绍NAVI-Orbital系统,在低地球轨道卫星上首次实现视觉语言模型的自主多模态推理,通过语义压缩解决数据下传瓶颈。

Comments 17 pages, 47 figures

2606.17188 2026-06-18 cs.CV cs.CL 新提交 专题 80

Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation

并非真正的多语言:脚本一致性作为VLM评估中缺失的维度

Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth

专题命中 视觉问答 :评估VLM在多文字脚本下的视觉推理

AI总结 提出PuMVR基准,评估10个VLM在旁遮普语三种文字上的表现,发现显著的脚本差距,并提出脚本一致性率(SCR)作为必要评估指标。

2606.18553 2026-06-18 cs.CV 新提交 专题 70

Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

基于知识的分层多模态检索用于新闻图像描述生成

Minh-Loi Nguyen, Xuan-Vu Le, Long-Bao Nguyen, Hoang-Bach Ngo, Trung-Nghia Le

专题命中 视觉问答 :结合VLM和LLM生成图像描述

AI总结 提出分层多模态文章检索增强的图像描述框架,通过结构感知检索和上下文精炼,结合VLM和LLM生成富含上下文细节的描述,在EVENTA 2025挑战赛中获得第5名。

Comments SOICT 2025