StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling
StarOR: 协同树搜索与测试时强化学习用于优化建模
发表机构 * School of Computer Science and Engineering, Southeast University(东南大学计算机科学与工程学院) ; Northwest A&F University(西北农林科技大学)
专题命中 规划推理 :结合MCTS与GRPO进行推理优化
AI总结 提出StarOR框架,结合蒙特卡洛树搜索与测试时强化学习,通过四阶段分解和GRPO更新LoRA适配器,实现无监督细粒度奖励的中间决策优化,在5个基准上以4B模型达到最优性能。
Comments 41pages, V1, preprint