图像生成 - arXivDaily 专题

2606.20416 2026-06-19 cs.LG cs.CV 新提交专题 90

On the Redundancy of Timestep Embeddings in Diffusion Models

扩散模型中时间步嵌入的冗余性研究

José A. Chávez

专题命中扩散模型：研究扩散模型中时间步嵌入的冗余性，影响图像生成

AI总结本文通过理论和实验证明，在U-Net和Diffusion Transformer架构中，扩散模型无需显式时间步嵌入也能达到全局最优，甚至在某些指标上超越有条件模型。

Comments 17 pages

URL PDF HTML

2606.19970 2026-06-19 cs.CV 新提交专题 90

CrossFlow: One-Step Generation Across Latent and Pixel Spaces

CrossFlow: 跨潜在空间与像素空间的单步生成

Xiyuan Wang, Xiao Zhang, Yang Li, Ruoxi Jiang, Zhao Zhong, Liefeng Bo, Muhan Zhang

专题命中扩散模型：提出跨空间流模型实现单步生成

AI总结提出CrossFlow，一种跨空间流模型，将噪声潜在输入直接映射到像素图像，通过无速度单步目标实现潜在到像素的生成，并替代潜在扩散中的解码器，在ImageNet-1k上达到1.62 FID。

Comments Preprint, Under Review

URL PDF HTML

2606.19662 2026-06-19 cs.CV 新提交专题 90

Learning When to Denoise: Optimizing Asynchronous Schedules for Latent Diffusion

学习何时去噪：优化潜在扩散的异步调度

Bingshuo Qian, Xiang Cheng

专题命中扩散模型：学习异步调度优化多表示扩散模型的去噪顺序

AI总结提出学习异步调度策略，通过调度校正目标优化多表示扩散模型的去噪顺序，在ImageNet 256x256上以不到1%额外训练计算实现4倍加速，FID达1.02。

Comments 25 pages, 9 figures, 4 tables

URL PDF HTML

2606.20112 2026-06-19 cs.CV eess.IV 新提交专题 85

Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation

像素级残差扩散Transformer：可扩展的3D CT体生成

Zhenkai Zhang, Markus Hiller, Krista A. Ehinger, Tom Drummond

专题命中扩散模型：基于扩散Transformer的3D图像生成

AI总结提出像素级残差扩散Transformer（PRDiT），通过两阶段训练（局部MLP盲估计器分离低频结构+全局残差扩散Transformer建模高频残差）实现高保真3D CT体生成，在LIDC-IDRI和RAD-ChestCT数据集上优于现有方法。

Comments Accepted at ICLR 2026. Code available at https://github.com/Fredy-Zhang/PRDiT

URL PDF HTML

2606.20076 2026-06-19 cs.CV cs.AI 新提交专题 85

Variable-Length Tokenization via Learnable Global Merging for Diffusion Transformers

基于可学习全局合并的可变长度分词用于扩散变换器

Dong Hoon Lee, Seunghoon Hong

专题命中扩散模型：扩散Transformer可变长度分词

AI总结针对固定压缩比限制扩散模型质量-计算权衡的问题，提出基于可学习全局合并的可变长度分词器，通过合并令牌实现跨长度表示对齐，在ImageNet 256×256生成中实现更优的gFID-计算权衡。

URL PDF HTML

2601.21542 2026-06-19 cs.CV cs.AI 版本更新专题 85

Bi-Anchor Interpolation Solver for Accelerating Generative Modeling

双锚点插值求解器加速生成建模

Hongxu Chen, Hongxiang Li, Zhen Wang, Long Chen

专题命中扩散模型：加速生成建模，双锚点插值求解器

AI总结提出BA-solver，通过轻量SideNet（1-2%主干大小）学习双向时间感知和双锚点速度积分，在不重新训练主干的情况下，以极低训练成本实现10步内达到100+步Euler求解器质量，支持即插即用。

URL PDF HTML

2606.19894 2026-06-19 cs.LG 新提交专题 80

Score Approximation for Diffusion Models on Arbitrary Low-Dimensional Structures

任意低维结构上扩散模型的分数近似

Xinhe Mu, Zaijiu Shang, Zhaoqi Zhou, Chuan Zhou, Qi Meng, Guiying Yan, Zhiming Ma

专题命中扩散模型：扩散模型分数近似理论，支持非光滑数据。

AI总结针对任意紧支撑分布，提出一种基于离散混合的分数近似方法，证明ReLU网络复杂度仅随上Minkowski维数d指数增长，打破环境维数诅咒，解释扩散模型在非光滑数据上的有效性。

URL PDF HTML

2606.19397 2026-06-19 cs.RO 新提交专题 80

DiffusionVS: A Generative Framework for Robust Visual Servoing Based on Diffusion Policy

DiffusionVS：基于扩散策略的鲁棒视觉伺服生成框架

Hongkang Cui, Rui He, Haoyao Chen

专题命中扩散模型：基于扩散策略生成相机速度，利用条件去噪。

AI总结提出基于扩散策略的视觉伺服方法，通过条件去噪生成相机速度，并采用在线训练增强泛化能力，仿真成功率近100%，物理实验93%。

Comments 8 pages, 4 figures, 7 tables

URL PDF HTML

2603.20455 2026-06-19 math.OC 版本更新专题 80

Time-Reversed BSDEs for Accurate Gradient Estimation in Diffusion Models

时间反向BSDE用于扩散模型中的精确梯度估计

Yuhang Mei, Amirhossein Taghvaei

专题命中扩散模型：扩散模型梯度估计的BSDE方法

AI总结针对扩散模型微调中梯度估计不稳定问题，提出基于时间反向BSDE的自适应伴随过程，降低方差并提高稳定性。

Comments 10 pages, 3 figures

URL PDF HTML

2601.03112 2026-06-19 eess.IV cs.CV 版本更新专题 80

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

DiT-JSCC：基于扩散变换器与语义表示的深度JSCC再思考

Kailin Tan, Jincheng Dai, Sixian Wang, Guo Lu, Shuo Shao, Kai Niu, Wenjun Zhang, Ping Zhang

专题命中扩散模型：利用扩散变换器作为生成解码器

AI总结提出DiT-JSCC框架，联合学习语义优先表示编码器和扩散变换器生成解码器，通过粗细粒度条件解码和基于Kolmogorov复杂度的自适应带宽分配，在极端信道条件下提升语义一致性与传输效率。

Comments 14pages, 14figures, 2tables

URL PDF HTML