Latent Reward Steering: An Adaptive Inference-Time Framework that Implicitly Promotes Cognitive Behaviors in Reasoning LLMs
潜在奖励引导:一种自适应推理时框架,隐式促进推理大语言模型中的认知行为
发表机构 * Rutgers University(罗格斯大学) ; South China Agricultural University(华南农业大学) ; Columbia University(哥伦比亚大学) ; Fenz.AI ; QuantaAlpha ; Adobe ; Santa Clara University(圣克拉拉大学) ; City University of Hong Kong(香港城市大学)
AI总结 提出潜在奖励引导(LRS)框架,通过优化稀疏自编码器潜在状态隐式促进认知行为,利用最终答案正确性训练潜在奖励模型估计中间状态质量,并在推理时提供状态特定的修正方向,实验表明该方法能提升推理性能并修复原始推理错误。