UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Kling Team, Kuaishou Technology(快手技术团队)
AI总结 本文研究了多参考图像生成问题,即在文本指令引导下生成图像并忠实保留多个参考图像中的主体身份和外观细节。现有方法通常将语义和外观特征分离处理,导致模型难以正确关联主体与对应参考图像的细节,从而引发属性泄露和跨参考混淆。为此,作者提出UniCustom框架,在视觉语言模型编码前融合ViT和VAE特征,使模型能够同时学习主体语义和外观信息,并通过两阶段训练策略和槽位绑定正则化进一步提升生成质量。实验表明,UniCustom在多个基准上显著优于现有方法。