Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow
AI总结 本文提出了一种基于漂移模型范式的非微分方程(non-ODE)单步生成策略——Drifting Field Policy(DFP)。该方法将策略更新建模为向软目标策略的反向KL散度Wasserstein-2梯度流,使得每次更新对应概率空间中的梯度步。通过该方法,策略更新被分解为向高动作价值区域的上升以及与锚定策略的评分匹配,从而保证了策略更新的稳定性与有效性。实验表明,DFP在多个操作任务中表现出色,优于基于微分方程的策略方法。