arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

图像生成

图像生成、文生图、图像编辑、扩散模型和可控生成。

今日/当前日期收录 10 信号源:cs.CV, cs.GR, cs.MM
2606.20416 2026-06-19 cs.LG cs.CV 新提交 专题 90

On the Redundancy of Timestep Embeddings in Diffusion Models

扩散模型中时间步嵌入的冗余性研究

José A. Chávez

专题命中 扩散模型 :研究扩散模型中时间步嵌入的冗余性,影响图像生成

AI总结 本文通过理论和实验证明,在U-Net和Diffusion Transformer架构中,扩散模型无需显式时间步嵌入也能达到全局最优,甚至在某些指标上超越有条件模型。

Comments 17 pages

2606.19970 2026-06-19 cs.CV 新提交 专题 90

CrossFlow: One-Step Generation Across Latent and Pixel Spaces

CrossFlow: 跨潜在空间与像素空间的单步生成

Xiyuan Wang, Xiao Zhang, Yang Li, Ruoxi Jiang, Zhao Zhong, Liefeng Bo, Muhan Zhang

专题命中 扩散模型 :提出跨空间流模型实现单步生成

AI总结 提出CrossFlow,一种跨空间流模型,将噪声潜在输入直接映射到像素图像,通过无速度单步目标实现潜在到像素的生成,并替代潜在扩散中的解码器,在ImageNet-1k上达到1.62 FID。

Comments Preprint, Under Review

2606.19662 2026-06-19 cs.CV 新提交 专题 90

Learning When to Denoise: Optimizing Asynchronous Schedules for Latent Diffusion

学习何时去噪:优化潜在扩散的异步调度

Bingshuo Qian, Xiang Cheng

专题命中 扩散模型 :学习异步调度优化多表示扩散模型的去噪顺序

AI总结 提出学习异步调度策略,通过调度校正目标优化多表示扩散模型的去噪顺序,在ImageNet 256x256上以不到1%额外训练计算实现4倍加速,FID达1.02。

Comments 25 pages, 9 figures, 4 tables

2606.20112 2026-06-19 cs.CV eess.IV 新提交 专题 85

Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation

像素级残差扩散Transformer:可扩展的3D CT体生成

Zhenkai Zhang, Markus Hiller, Krista A. Ehinger, Tom Drummond

专题命中 扩散模型 :基于扩散Transformer的3D图像生成

AI总结 提出像素级残差扩散Transformer(PRDiT),通过两阶段训练(局部MLP盲估计器分离低频结构+全局残差扩散Transformer建模高频残差)实现高保真3D CT体生成,在LIDC-IDRI和RAD-ChestCT数据集上优于现有方法。

Comments Accepted at ICLR 2026. Code available at https://github.com/Fredy-Zhang/PRDiT

2606.20076 2026-06-19 cs.CV cs.AI 新提交 专题 85

Variable-Length Tokenization via Learnable Global Merging for Diffusion Transformers

基于可学习全局合并的可变长度分词用于扩散变换器

Dong Hoon Lee, Seunghoon Hong

专题命中 扩散模型 :扩散Transformer可变长度分词

AI总结 针对固定压缩比限制扩散模型质量-计算权衡的问题,提出基于可学习全局合并的可变长度分词器,通过合并令牌实现跨长度表示对齐,在ImageNet 256×256生成中实现更优的gFID-计算权衡。

2601.21542 2026-06-19 cs.CV cs.AI 版本更新 专题 85

Bi-Anchor Interpolation Solver for Accelerating Generative Modeling

双锚点插值求解器加速生成建模

Hongxu Chen, Hongxiang Li, Zhen Wang, Long Chen

专题命中 扩散模型 :加速生成建模,双锚点插值求解器

AI总结 提出BA-solver,通过轻量SideNet(1-2%主干大小)学习双向时间感知和双锚点速度积分,在不重新训练主干的情况下,以极低训练成本实现10步内达到100+步Euler求解器质量,支持即插即用。

2606.19894 2026-06-19 cs.LG 新提交 专题 80

Score Approximation for Diffusion Models on Arbitrary Low-Dimensional Structures

任意低维结构上扩散模型的分数近似

Xinhe Mu, Zaijiu Shang, Zhaoqi Zhou, Chuan Zhou, Qi Meng, Guiying Yan, Zhiming Ma

专题命中 扩散模型 :扩散模型分数近似理论,支持非光滑数据。

AI总结 针对任意紧支撑分布,提出一种基于离散混合的分数近似方法,证明ReLU网络复杂度仅随上Minkowski维数d指数增长,打破环境维数诅咒,解释扩散模型在非光滑数据上的有效性。

2606.19397 2026-06-19 cs.RO 新提交 专题 80

DiffusionVS: A Generative Framework for Robust Visual Servoing Based on Diffusion Policy

DiffusionVS:基于扩散策略的鲁棒视觉伺服生成框架

Hongkang Cui, Rui He, Haoyao Chen

专题命中 扩散模型 :基于扩散策略生成相机速度,利用条件去噪。

AI总结 提出基于扩散策略的视觉伺服方法,通过条件去噪生成相机速度,并采用在线训练增强泛化能力,仿真成功率近100%,物理实验93%。

Comments 8 pages, 4 figures, 7 tables

2603.20455 2026-06-19 math.OC 版本更新 专题 80

Time-Reversed BSDEs for Accurate Gradient Estimation in Diffusion Models

时间反向BSDE用于扩散模型中的精确梯度估计

Yuhang Mei, Amirhossein Taghvaei

专题命中 扩散模型 :扩散模型梯度估计的BSDE方法

AI总结 针对扩散模型微调中梯度估计不稳定问题,提出基于时间反向BSDE的自适应伴随过程,降低方差并提高稳定性。

Comments 10 pages, 3 figures

2601.03112 2026-06-19 eess.IV cs.CV 版本更新 专题 80

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

DiT-JSCC:基于扩散变换器与语义表示的深度JSCC再思考

Kailin Tan, Jincheng Dai, Sixian Wang, Guo Lu, Shuo Shao, Kai Niu, Wenjun Zhang, Ping Zhang

专题命中 扩散模型 :利用扩散变换器作为生成解码器

AI总结 提出DiT-JSCC框架,联合学习语义优先表示编码器和扩散变换器生成解码器,通过粗细粒度条件解码和基于Kolmogorov复杂度的自适应带宽分配,在极端信道条件下提升语义一致性与传输效率。

Comments 14pages, 14figures, 2tables