视觉与机器人
图像生成
图像生成、文生图、图像编辑、扩散模型和可控生成。
1. 图像修复 4 篇
How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices
生成式图像恢复进展:能力、局限性与评估实践研究
专题命中 图像修复 :研究生成式图像恢复,包括扩散和GAN模型
AI总结 通过多维度评估管道系统比较扩散、GAN等生成式模型与PSNR导向模型,揭示从细节不足到细节质量与语义控制的范式转变,并训练了更符合人类感知的IQA模型。
Comments Accepted by CVPR 2026 Findings
Investigation of Neural Network Methods for Reconstruction and Classification of Texture Images Under Conditions of Incomplete Information
不完全信息条件下纹理图像重建与分类的神经网络方法研究
专题命中 图像修复 :使用GAN进行图像修复,重建缺失细节。
AI总结 提出结合目标检测、GAN(CRA)修复和Transformer/CNN分类的端到端框架,发现重建质量高(PSNR 28.7dB)但分类准确率仅53%,通过置信度混合集成将MCA从48%提升至58%,揭示生成模型产生语义模糊特征的问题。
Comments IEEE ACCESS
2. 图像编辑 5 篇
ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RL
ProductConsistency:通过SFT和RL改进基于指令的图像编辑中的产品身份保持
专题命中 图像编辑 :基于指令的图像编辑,保持产品身份。
AI总结 针对基于指令的图像编辑中产品特征保持不足的问题,提出ProductConsistency数据集和循环一致性奖励,结合监督微调与强化学习,显著提升产品一致性、文本渲染和视觉质量。
Comments CVPR HiGen 2026
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance
iTryOn: 通过空间-语义引导掌握交互式视频虚拟试穿
专题命中 图像编辑 :交互式视频虚拟试穿,属于图像生成与编辑。
AI总结 本文提出iTryOn框架,通过空间-语义引导解决交互式视频虚拟试穿中的语义模糊和复杂服装变形问题,实现了更动态可控的虚拟试穿体验。
Comments Project Page: https://zhengjun-ai.github.io/itryon-page. Accepted by ICML 2026
3. 文生图 5 篇
HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling
HeatKV:针对视觉自回归建模的头部调制KV缓存压缩
专题命中 文生图 :提出HeatKV压缩方法用于视觉自回归图像生成。
AI总结 本文提出HeatKV方法,通过根据每个头部对先前生成尺度的注意力进行调整,实现更高效的KV缓存压缩,提升内存利用率并保持图像生成质量。
Comments 18 pages total including appendix; 6 main-paper figures, 2 appendix figures; 4 tables
4. 扩散模型 5 篇
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
奖励一直就在你的数据中:用判别器引导的强化学习纠正流匹配
专题命中 扩散模型 :用RL纠正流匹配模型视觉缺陷,提升生成质量
AI总结 针对流匹配模型因损失函数与样本质量不匹配导致的视觉缺陷,提出判别器引导的强化学习(DRL),利用预训练空间中判别器的logit作为奖励,显著提升无引导FID和语义FD,并改善偏好对齐。
Comments 84 pages, including appendices
Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism
Pulse: 面向大规模扩散模型的自动流水线并行训练加速
专题命中 扩散模型 :针对扩散模型训练加速,优化UNet流水线并行
AI总结 提出PULSE自动流水线并行策略,通过将跳跃连接层同设备放置、局部缓存激活值,消除跨流水线通信,结合动态规划分区器、ILP调度合成器和混合并行调优器,在通信受限硬件上实现最高2.3倍吞吐提升。
Comments Accepted by International Conference on Distributed Computing Systems(ICDCS'26)
5. 可控生成 3 篇
CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation
CineOrchestra:面向电影视频生成的统一实体中心条件控制
专题命中 可控生成 :扩散模型实现细粒度条件控制
AI总结 提出CineOrchestra,一种统一控制主体、事件、相机和镜头切换的视频扩散模型,通过实体中心条件原语和参数无关的旋转位置编码实现多轴联合控制,在密集描述跟随和镜头切换时序上超越六种专用方法。
Comments Project page: https://snap-research.github.io/CineOrchestra