2605.27960
2026-05-28
cs.CV
Mags-RL: Wearing Multimodal LLMs a Magnifying Glass via Agentic Reinforcement Learning For Complex Scene Reasoning
Mags-RL: 通过智能体强化学习为多模态大语言模型戴上放大镜以进行复杂场景推理
Xuanzhao Dong, Wenhui Zhu, Peijie Qiu, Xiwen Chen, Xiaobing Yu, Xin Li, Zhipeng Wang, Shao Tang, Gen Li, Yujian Xiong, Hao Wang, Yanxi Chen, Prayag Tiwari, Yalin Wang
发表机构
*
Arizona State University(亚利桑那州立大学)
;
Clemson University(克莱姆森大学)
;
Washington University in St. Louis(圣路易斯华盛顿大学)
;
Halmstad University(哈姆斯塔德大学)
;
Florida State University(佛罗里达州立大学)
;
Rice University(里士满大学)
AI总结
提出Mags-RL框架,通过智能体强化学习让多模态大语言模型调用超分辨率代理进行高分辨率细粒度检查,实现两轮推理以提升复杂场景下的视觉推理能力。