arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

图像生成

图像生成、文生图、图像编辑、扩散模型和可控生成。

今日/当前日期收录 2 信号源:cs.CV, cs.GR, cs.MM
2606.19259 2026-06-18 cs.CV cs.AI 新提交 专题 70

A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2

一个用于检测 GPT-Image-2 生成的含丰富文本图像的多领域基准

Yijin Wang, Shuyi Wang, Wenhan Zhang, Yuqi Ouyang

专题命中 其他图像生成 :检测GPT-Image-2生成的图像

AI总结 针对现有基准缺乏文本丰富图像检测的问题,构建了包含8602张图像、覆盖6个类别的多领域基准,评估5种检测器,发现性能高度依赖领域且易受JPEG压缩影响。

2605.08189 2026-06-18 eess.AS 版本更新 专题 55

DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

DiffVQE:声学回声和噪声下的混合扩散语音质量增强

Haljan Lugo, Ernst Seidel, Pejman Mowlaee, Ziyue Zhao, Tim Fingscheidt

专题命中 其他图像生成 :提出扩散模型用于语音质量增强,非图像生成。

AI总结 提出首个基于扩散的声学回声控制模型DiffVQE,在回声和噪声控制性能、计算复杂度和模型大小上均优于判别式DeepVQE模型。

Comments 6 pages, 4 figures, accepted at Interspeech 2026