视觉与机器人
图像生成
图像生成、文生图、图像编辑、扩散模型和可控生成。
1. 图像修复 1 篇
2. 图像编辑 3 篇
ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RL
ProductConsistency:通过SFT和RL改进基于指令的图像编辑中的产品身份保持
专题命中 图像编辑 :基于指令的图像编辑,保持产品身份。
AI总结 针对基于指令的图像编辑中产品特征保持不足的问题,提出ProductConsistency数据集和循环一致性奖励,结合监督微调与强化学习,显著提升产品一致性、文本渲染和视觉质量。
Comments CVPR HiGen 2026
3. 扩散模型 4 篇
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
奖励一直就在你的数据中:用判别器引导的强化学习纠正流匹配
专题命中 扩散模型 :用RL纠正流匹配模型视觉缺陷,提升生成质量
AI总结 针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷,提出判别器引导的强化学习(DRL),利用预训练空间中判别器的logit作为奖励,显著提升无引导FID和语义FD,并改善偏好对齐。
Comments 84 pages, including appendices
Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism
Pulse: 面向大规模扩散模型的自动流水线并行训练加速
专题命中 扩散模型 :针对扩散模型训练加速,优化UNet流水线并行
AI总结 提出PULSE自动流水线并行策略,通过将跳跃连接层同设备放置、局部缓存激活值,消除跨流水线通信,结合动态规划分区器、ILP调度合成器和混合并行调优器,在通信受限硬件上实现最高2.3倍吞吐提升。
Comments Accepted by International Conference on Distributed Computing Systems(ICDCS'26)
4. 文生图 3 篇
5. 可控生成 3 篇
CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation
CineOrchestra:面向电影视频生成的统一实体中心条件控制
专题命中 可控生成 :扩散模型实现细粒度条件控制
AI总结 提出CineOrchestra,一种统一控制主体、事件、相机和镜头切换的视频扩散模型,通过实体中心条件原语和参数无关的旋转位置编码实现多轴联合控制,在密集描述跟随和镜头切换时序上超越六种专用方法。
Comments Project page: https://snap-research.github.io/CineOrchestra