视觉与机器人

图像生成

图像生成、文生图、图像编辑、扩散模型和可控生成。

今日/当前日期收录 2 篇信号源：cs.CV, cs.GR, cs.MM

2606.19259 2026-06-18 cs.CV cs.AI 新提交专题 70

A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2

一个用于检测 GPT-Image-2 生成的含丰富文本图像的多领域基准

Yijin Wang, Shuyi Wang, Wenhan Zhang, Yuqi Ouyang

专题命中其他图像生成：检测GPT-Image-2生成的图像

AI总结针对现有基准缺乏文本丰富图像检测的问题，构建了包含8602张图像、覆盖6个类别的多领域基准，评估5种检测器，发现性能高度依赖领域且易受JPEG压缩影响。

URL PDF HTML

2605.08189 2026-06-18 eess.AS 版本更新专题 55

DiffVQE：声学回声和噪声下的混合扩散语音质量增强

Haljan Lugo, Ernst Seidel, Pejman Mowlaee, Ziyue Zhao, Tim Fingscheidt

专题命中其他图像生成：提出扩散模型用于语音质量增强，非图像生成。

AI总结提出首个基于扩散的声学回声控制模型DiffVQE，在回声和噪声控制性能、计算复杂度和模型大小上均优于判别式DeepVQE模型。

Comments 6 pages, 4 figures, accepted at Interspeech 2026

URL PDF HTML