ProcObject-10K: Benchmarking Object-Centric Procedural Understanding in Instructional Videos
AI总结 该研究提出了 ProcObject-10K,首个用于评估指令视频中物体中心过程理解的基准,旨在解决现有基准过于关注动作而忽视物体状态演变的问题。该基准包含10,522个开放问答对,涵盖9个领域、137项任务,评估模型在预条件、状态演化、反事实推理等方面的能力。实验表明,现有主流模型在生成合理答案的同时,难以准确定位支持证据,暴露其依赖语言先验而非细粒度物体动态的缺陷。研究还提供了基于物体中心的监督微调方法,有效提升了模型在本任务及其他相关任务上的表现。