图像生成

2603.05010 2026-06-18 cs.CV 版本更新专题 90

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

生成式图像恢复进展：能力、局限性与评估实践研究

Xiang Yin, Jinfan Hu, Zhiyuan You, Kainan Yan, Yu Tang, Chao Dong, Jinjin Gu

专题命中图像修复：研究生成式图像恢复，包括扩散和GAN模型

AI总结通过多维度评估管道系统比较扩散、GAN等生成式模型与PSNR导向模型，揭示从细节不足到细节质量与语义控制的范式转变，并训练了更符合人类感知的IQA模型。

Comments Accepted by CVPR 2026 Findings

URL PDF HTML

2602.00176 2026-06-18 cs.CV cs.AI 版本更新专题 70

Posterior Continuation with Noise-Conditioned Frequency Exposure for Diffusion Inverse Problems

基于噪声条件频率暴露的扩散逆问题后验延续

Feng Tian, Yixuan Li, Weili Zeng, Weitian Zhang, Yichao Yan, Xiaokang Yang

专题命中图像修复：提出后验延续框架用于扩散逆问题，包括图像修复。

AI总结提出后验延续框架，根据扩散噪声水平逐步暴露测量频率，结合稳定采样器实现超分辨率、修复和去模糊的先进性能。

URL PDF HTML

2204.14224 2026-06-18 cs.CV cs.LG eess.IV 版本更新专题 65

Investigation of Neural Network Methods for Reconstruction and Classification of Texture Images Under Conditions of Incomplete Information

不完全信息条件下纹理图像重建与分类的神经网络方法研究

Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Darkhan Kurmangaliyev, Daniyar Nurseitov, Tatyana Dedova, Larissa Balakay, Serik Nurakynov

专题命中图像修复：使用GAN进行图像修复，重建缺失细节。

AI总结提出结合目标检测、GAN（CRA）修复和Transformer/CNN分类的端到端框架，发现重建质量高（PSNR 28.7dB）但分类准确率仅53%，通过置信度混合集成将MCA从48%提升至58%，揭示生成模型产生语义模糊特征的问题。

Comments IEEE ACCESS

URL PDF HTML

2508.03483 2026-06-18 cs.CV cs.AI 版本更新专题 90

When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

当汽车有刻板印象：审计文本到图像模型中对象的群体偏见

Dasol Choi, Jihwan Lee, Minjae Lee, Minsuk Kahng

专题命中文生图：审计文本到图像模型中的群体偏见，涉及图像生成。

AI总结提出SODA框架，通过三个指标系统测量文本到图像模型在生成对象中的群体偏见，发现中性提示隐含偏向中年和白人，且人口统计线索导致高度偏斜的刻板输出。

URL PDF HTML

2605.14877 2026-06-18 cs.CV 版本更新专题 85

HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling

HeatKV：针对视觉自回归建模的头部调制KV缓存压缩

Jonathan Cederlund, Axel Berg, William Isaksson, Durmus Alp Emre Acar, Chuteng Zhou, Pontus Giselsson

专题命中文生图：提出HeatKV压缩方法用于视觉自回归图像生成。

AI总结本文提出HeatKV方法，通过根据每个头部对先前生成尺度的注意力进行调整，实现更高效的KV缓存压缩，提升内存利用率并保持图像生成质量。

Comments 18 pages total including appendix; 6 main-paper figures, 2 appendix figures; 4 tables

URL PDF HTML

2606.05883 2026-06-18 cs.CV 版本更新专题 85

Geometry-Aware Dataset Condensation for Diffusion Model Training

面向扩散模型训练的几何感知数据集压缩

Xiao Cui, Yulei Qin, Mo Zhu, Wengang Zhou, Hongsheng Li, Houqiang Li

专题命中扩散模型：面向扩散模型训练的几何感知数据集压缩

AI总结针对扩散模型训练，提出基于几何感知分布对齐的真实子集选择方法，利用单侧部分最优传输保持几何结构，并辅以轻量级特征统计与语义一致性正则化，通过两阶段离散优化实现高效压缩。

Comments ICML 2026

URL PDF HTML

2605.21431 2026-06-18 cs.CV 版本更新专题 85

iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

iTryOn: 通过空间-语义引导掌握交互式视频虚拟试穿

Jun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang

专题命中图像编辑：交互式视频虚拟试穿，属于图像生成与编辑。

AI总结本文提出iTryOn框架，通过空间-语义引导解决交互式视频虚拟试穿中的语义模糊和复杂服装变形问题，实现了更动态可控的虚拟试穿体验。

Comments Project Page: https://zhengjun-ai.github.io/itryon-page. Accepted by ICML 2026

URL PDF HTML

2604.03156 2026-06-18 cs.CV 版本更新专题 85

CAMEO: A Conditional and Quality-Aware Multi-Agent Image Editing Orchestrator

CAMEO: 一种条件感知与质量驱动的多智能体图像编辑编排器

Yuhan Pu, Hao Zheng, Ziqian Mo, Zirui Pang, Hill Zhang, Tianyi Fan, Shuhong Wu, Jiaheng Wei

专题命中图像编辑：多智能体框架进行条件图像编辑，含质量评估

AI总结提出CAMEO多智能体框架，将条件图像编辑重构为质量感知的反馈驱动过程，通过分解编辑阶段、嵌入评估循环，在异常插入和人体姿态切换任务中平均胜率提升20%。

URL PDF HTML

2605.08189 2026-06-18 eess.AS 版本更新专题 55

DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

DiffVQE：声学回声和噪声下的混合扩散语音质量增强

Haljan Lugo, Ernst Seidel, Pejman Mowlaee, Ziyue Zhao, Tim Fingscheidt

专题命中其他图像生成：提出扩散模型用于语音质量增强，非图像生成。

AI总结提出首个基于扩散的声学回声控制模型DiffVQE，在回声和噪声控制性能、计算复杂度和模型大小上均优于判别式DeepVQE模型。

Comments 6 pages, 4 figures, accepted at Interspeech 2026

URL PDF HTML

1. 图像修复 3 篇

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Posterior Continuation with Noise-Conditioned Frequency Exposure for Diffusion Inverse Problems

Investigation of Neural Network Methods for Reconstruction and Classification of Texture Images Under Conditions of Incomplete Information

2. 文生图 2 篇

When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling

3. 扩散模型 1 篇

Geometry-Aware Dataset Condensation for Diffusion Model Training

4. 图像编辑 2 篇

iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

CAMEO: A Conditional and Quality-Aware Multi-Agent Image Editing Orchestrator

5. 其他图像生成 1 篇

DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise