OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
OmniVideo-100K:通过结构化脚本和证据链进行音视频推理的数据集
发表机构 * Nanjing University(南京大学) ; CASIA(中国科学院自动化研究所)
专题命中 音视频多模态 :音视频推理数据集与问答
AI总结 提出OmniVideo-100K数据集,通过实体锚定视频脚本和线索引导的QA生成机制,解决音视频问答中跨段实体不一致和长时推理不足的问题,微调模型在多个基准上取得显著提升。
Comments Project page: https://github.com/MiG-NJU/OmniVideo-100K