Composing Policy Gradients and Prompt Optimization for Language Model Programs
发表机构 * University of Notre Dame(诺特大学) ; Stanford University(斯坦福大学) ; UC Berkeley(伯克利大学) ; Anyscale ; CMU(卡内基梅隆大学) ; Zoom, Inc.(Zoom公司) ; Contextual AI ; MIT(麻省理工学院)
AI总结 本文研究了如何将组相对策略优化(GRPO)应用于由多个语言模型调用组成的模块化程序系统,以提升其性能。作者提出了一种多模块GRPO方法,通过模块级或轨迹级分组实现策略梯度优化,并发现其能有效与自动提示优化结合,显著提升模型在分类、多跳搜索和隐私保护任务中的表现。实验表明,该方法在多种任务上平均提升了11%的准确率,优于单独使用提示优化。
Comments ACM CAIS 2026. Lakshya*, Dilara*, and Noah* contributed equally to this work