Reformulate LLM Reinforcement Learning for Efficient Training under Black-box Discrepancy
重新制定LLM强化学习以在黑箱差异下高效训练
发表机构 * Hong Kong University of Science and Technology(香港科技大学) ; Zhejiang University(浙江大学) ; Tianjin University(天津大学)
AI总结 针对强化学习中的训练-推理差异问题,提出差异约束马尔可夫决策过程(DCMDP),通过拉格朗日松弛自适应平衡性能提升与差异控制,实现稳定高效训练。