iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型中
发表机构 * Visual AI Lab, The University of Hong Kong(香港大学视觉人工智能实验室) ; Independent Researcher(独立研究者) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出iVGR框架,利用强化学习和双流训练策略将视觉定位能力内化到文本推理中,避免显式视觉基础在推理时的干扰,提升细粒度感知性能。
Comments Accepted by ICML 2026