2606.18910
2026-06-18
cs.LG
cs.CL
新提交
专题 90
REVES: REvision and VErification--Augmented Training for Test-Time Scaling
REVES:通过修订与验证增强的测试时扩展训练
Yuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong
专题命中
测试时计算
:通过修订与验证增强测试时扩展推理
AI总结
提出REVES框架,通过将中间步骤的“接近正确”答案转化为解耦的修订和验证提示,实现高效的离策略数据生成,提升大语言模型的多步推理能力,在LiveCodeBench上比强化学习基线高6.5分。