HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion
HyperDiT: 用于高保真像素空间扩散的超连接Transformer
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对像素空间扩散模型中全局语义与细粒度细节难以兼顾的粒度困境,提出HyperDiT框架,通过超连接跨尺度交互和尺度感知旋转位置编码,结合预训练视觉基础模型的密集语义,在像素空间实现高保真生成,在ImageNet 256×256上取得1.56的SoTA FID。