The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
奖励一直就在你的数据中:用判别器引导的强化学习纠正流匹配
专题命中 扩散模型 :用RL纠正流匹配模型视觉缺陷,提升生成质量
AI总结 针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷,提出判别器引导的强化学习(DRL),利用预训练空间中判别器的logit作为奖励,显著提升无引导FID和语义FD,并改善偏好对齐。
Comments 84 pages, including appendices