VISTA: Video Interaction Spatio-Temporal Analysis Benchmark
VISTA:视频交互时空分析基准
发表机构 * University of Central Florida(中央佛罗里达大学) ; BITS Pilani(比特斯理工学院) ; Ho Chi Minh City University of Science(胡志明市科学大学) ; Amazon GenAI Project(亚马逊生成人工智能项目)
AI总结 提出VISTA基准,通过分解视频为实体、动作和关系,实现开放集多实体多动作的时空理解评估,揭示传统指标掩盖的偏差。
Comments Accepted to CVPR 2026 Workshop on Pixel-level Video Understanding in the Wild (PVUW)