视觉大模型 / VLM

2604.04917 2026-06-19 cs.CV cs.AI cs.CL 版本更新专题 95

Vero: An Open RL Recipe for General Visual Reasoning

Vero: 通用视觉推理的开放RL配方

Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu

专题命中视觉推理：提出Vero系列VLM，在视觉推理基准上显著提升

AI总结提出Vero系列开放视觉语言模型，通过构建600K样本数据集Vero-600K和任务路由奖励，在30个基准测试中平均提升2.9-5.4点，Vero-Qwen3I-8B超越Qwen3-VL-8B-Thinking 3.8点。

Comments Project page: https://vero-reasoning.github.io/

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 90

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中视觉推理：从视频学习几何表示提升MLLM空间智能。

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML

2605.20448 2026-06-19 cs.CV cs.LG 版本更新专题 85

Do Vision-Language Models Understand 3D Scenes or Just Catalogue Objects?

视觉-语言模型是理解3D场景还是仅仅 catalogue 物体？

Animesh Maheshwari, Divyansh Sahu, Nishit Verma

专题命中视觉推理：VLM 3D场景理解能力评估

AI总结本文通过一个包含3034个样本的人工整理基准，探讨了视觉-语言模型对空间理解的深度有序遮挡、光学几何推断和体积重新安排规划能力，发现模型在重新安排可见布局时表现优异，但在遮挡和反射推断上表现较差。

URL PDF HTML

2603.12252 2026-06-19 cs.CV cs.CL 版本更新专题 85

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

EndoCoT：扩散模型中的内生思维链推理扩展

Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang

专题命中视觉推理：扩散模型中内生思维链，提升视觉推理

AI总结提出EndoCoT框架，通过迭代思维引导模块激活MLLM的推理潜力，并利用终端思维接地模块确保推理轨迹与文本监督对齐，使DiT逐步执行复杂任务，在多个基准上平均准确率达92.1%。

Comments 23 pages, 18 figures, The code and dataset are publicly available at https://internlm.github.io/EndoCoT/

URL PDF HTML

2605.10873 2026-06-19 cs.CV cs.AI 版本更新专题 80

CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation

CADBench：一个用于AI辅助CAD程序生成的多模态基准

Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

专题命中视觉推理：评估视觉语言模型在CAD程序生成中的表现

AI总结本文提出CADBench，一个统一的多模态CAD程序生成基准，包含18000个样本和六类基准，评估11种视觉语言模型，揭示了CAD程序生成中的三种常见失败模式。

URL PDF HTML

2508.04424 2026-06-19 cs.CV 版本更新专题 80

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

组合对象检索：通过组合表达式进行对象级检索

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

专题命中视觉推理：提出组合对象检索任务，需视觉-语言推理。

AI总结提出组合对象检索（COR）任务，通过组合参考对象、掩码和检索文本进行对象级检索，并构建COR125K基准和CORE模型，显著优于现有方法。

URL PDF HTML

2509.10416 2026-06-19 cs.RO 版本更新专题 70

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC：面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中视觉推理：利用视觉语言模型预测空间约束，辅助共享控制。

AI总结提出TASC框架，通过视觉构建开放词汇交互图推断任务级用户意图，并基于空间约束提供共享控制辅助，提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

URL PDF HTML

2305.14985 2026-06-19 cs.CV cs.CL 版本更新专题 70

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中视觉推理：利用LLM迭代分解视觉语言推理任务。

AI总结提出IdealGPT框架，利用大型语言模型迭代分解视觉语言推理任务，通过子问题生成、子答案获取和最终答案推理的循环过程，在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

URL PDF HTML

2603.28387 2026-06-19 cs.AI cs.LG 版本更新专题 85

The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

脚手架效应：提示框架如何驱动临床VLM评估中的表面多模态增益

Doan Nam Long Vu, Simone Balloccu

专题命中视觉问答：揭示临床VLM评估中提示框架的脚手架效应

AI总结研究发现，在临床VLM评估中，提示中提及MRI可用性即可解释70-80%的性能提升，与图像数据是否存在无关，这种“脚手架效应”揭示了表面评估无法反映真实多模态推理能力。

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中视觉问答：统一图像理解与生成，基于预训练VLM。

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2504.02885 2026-06-19 cs.CL 版本更新专题 70

Med-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation

Med-R2：面向医学报告生成的感知与反思驱动复杂推理

Hao Wang, Shuchang Ye, Jinghao Lin, Usman Naseem, Jinman Kim

专题命中视觉问答：使用视觉语言模型进行医学报告生成

AI总结提出Med-R2微调策略，通过引入感知驱动的长推理过程和放射学知识指导，并加入反思机制修正感知错误，提升LVLMs在医学报告生成中的病理特征感知和诊断准确性。

Comments 28 pages, 3 figures, 1 table

URL PDF HTML

1. 视觉推理 8 篇

Vero: An Open RL Recipe for General Visual Reasoning

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

Do Vision-Language Models Understand 3D Scenes or Just Catalogue Objects?

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation

Composed Object Retrieval: Object-level Retrieval via Composed Expressions

TASC: Task-Aware Shared Control for Relational Telemanipulation

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

2. 视觉问答 3 篇

The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

Med-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation