2605.28035
2026-05-28
cs.AI
cs.MM
cs.SD
MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation
MTAVG-Bench 2.0:诊断多说话人音视频生成中电影表现力的失败模式
Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng
发表机构
*
Shanghai University(上海大学)
;
Beijing Institute of Technology(北京理工大学)
;
Shanghai Film Academy(上海电影学院)
;
Tsinghua University(清华大学)
;
Hefei University of Technology(合肥工业大学)
;
Inkeverse Group Limited(Inkeverse集团有限公司)
;
The University of Adelaide(阿德莱德大学)
;
Beijing University of Technology(北京工业大学)
;
Beijing Academy of Artificial Intelligence(北京人工智能研究院)
;
OpenNLP Lab(OpenNLP实验室)
AI总结
针对多说话人音视频生成中电影表现力评估不足的问题,提出MTAVG-Bench 2.0基准,通过构建涵盖表演、叙事、氛围和视听语言的高层次失败分类体系及超过1万个问答实例,系统评估全模态大语言模型诊断复杂视听失败的能力。