CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs
CARE: 面向视频多模态大语言模型的自适应推理长度的能力感知奖励塑形
发表机构 * School of Information Science and Engineering, Lanzhou University(兰州大学信息科学与工程学院) ; School of Medical Technology, Beijing Institute of Technology(北京理工大学医学技术学院) ; School of Computing, National University of Singapore(新加坡国立大学计算机学院)
专题命中 音视频/视觉语言融合 :视频多模态推理,涉及视觉与语言融合
AI总结 提出CARE框架,通过能力感知奖励塑形自适应优化推理长度,利用指数移动平均估计能力并分阶段调整奖励偏好,结合批次归一化和后验放大器提升效率与准确性。