视频大模型

2606.20083 2026-06-19 cs.CV 新提交专题 90

Holo-World: Unified Camera, Object and Weather Control for Video World Model

Holo-World: 视频世界模型的统一相机、物体和天气控制

Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

专题命中视频生成：可控视频世界模型生成

AI总结提出Holo-World，一种从单张图像联合控制相机、物体运动和天气的统一视频世界模型，通过场景适配器和解耦CFG实现世界保持与天气迁移。

Comments Project Page: \url{https://xiangchenyin.github.io/Holo-World} Code: \url{https://github.com/XiangchenYin/Holo-World}

URL PDF HTML

2606.20310 2026-06-19 cs.CV 新提交专题 85

Through the PRISM: Preference Representation in Intermediate States of Video Diffusion Models

通过PRISM：视频扩散模型中间状态中的偏好表示

Haoxuan Wu, Lai Man Po, Mengyang Liu, Kun Li, Hongzheng Yang, Wei Liu

专题命中视频生成：从视频扩散模型中间状态解码偏好

AI总结提出PRISM方法，利用冻结的视频扩散骨干网络和轻量级查询聚合头从噪声潜变量中解码偏好信号，实现高精度偏好预测和噪声鲁棒性，支持早期最佳采样以降低计算成本并提升视频质量。

URL PDF HTML

2606.20233 2026-06-19 cs.CV 新提交专题 85

Cinematic Compositing Using Character-Environment-Harmonized Video Generation Models

使用角色-环境协调视频生成模型的电影级合成

Tianyi Xiang, Mingming He, Li Ma, Jing Liao

专题命中视频生成：端到端视频扩散框架用于合成

AI总结提出端到端视频扩散框架，通过三掩码引导和RGB-D联合去噪建模角色与环境的双向物理与光照交互，实现高质量动态视频合成。

URL PDF HTML

2606.19958 2026-06-19 cs.CV 新提交专题 85

SketchKeyAnime: Reference-anchored Sparse Key-Sketch Animation Synthesis

SketchKeyAnime：基于参考锚点的稀疏关键草图动画合成

Meixi Li, Xianlin Zhang, Yue Zhang, Xueming Li

专题命中视频生成：提出SketchKeyAnime框架生成可控动画

AI总结提出SketchKeyAnime视频扩散框架，通过双分支条件机制和可学习门控的草图交叉注意力，从单张参考RGB图像和稀疏关键草图生成结构可控、外观一致且时间连贯的动画，在Sakuga-42M数据集上显著优于基线方法。

URL PDF HTML

2606.19676 2026-06-19 cs.CV cs.AI 新提交专题 85

TeleMorpher: Toward Robust Simultaneous Motion-Location Editing

TeleMorpher: 迈向鲁棒的同步运动-位置编辑

Haengbok Chung

专题命中视频生成：基于扩散模型的视频运动与位置同步编辑

AI总结提出TeleMorpher，一种基于扩散模型的一步式框架，通过运动先验、姿态扭曲和基线运动编辑器注入，实现视频中主角运动与位置的同步编辑，在定量和定性评估中表现优异。

URL PDF HTML

2606.19495 2026-06-19 cs.CV 新提交专题 85

LooseControlVideo: Directorial Video Control using Spatial Blocking

LooseControlVideo: 使用空间分块进行导演式视频控制

Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

专题命中视频生成：文本到视频生成中3D框控制多对象场景

AI总结提出LooseControlVideo框架，通过稀疏定向3D框作为“分块”代理，实现文本到视频生成中多对象场景的直观布局与轨迹控制，显著优于现有2D框和流方法。

Comments Project page at https://shariqfarooq123.github.io/LooseControlVideo/

URL PDF HTML

2606.20101 2026-06-19 cs.SD cs.AI cs.MM 新提交专题 80

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

基于整流流的混合扩散变压器用于指令引导音频编辑

Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang

专题命中视频生成：音频编辑，非视频，但涉及扩散模型

AI总结提出混合两阶段扩散变压器架构，通过粗到细策略平衡全局语义对齐与局部细节编辑，在重叠音频事件和复杂指令任务上提升性能与效率。

URL PDF HTML

2606.19849 2026-06-19 cs.CV 新提交专题 90

ViCoStream: Streaming VideoLLMs Can Run Beyond 100 FPS with Stage-Wise Coordinated Inference

ViCoStream: 流式视频大模型通过阶段协调推理可运行超过100 FPS

Yang Tan, Junlong Tong, Linan Yue, Hao Wu, Pengfei Fang, Xiaoyu Shen

专题命中视频理解：提出流式视频大模型推理框架，提升视频吞吐和延迟。

AI总结提出ViCoStream框架，通过阶段协调的流水线（分块执行、CUDA流重叠、视觉令牌控制、有界视觉注意力、查询端检索）实现流式视频大模型的高吞吐低延迟推理，在单A100上达到134 FPS视频吞吐和<50 ms首令牌延迟，精度接近全历史基线。

Comments 19 pages, 7 figures, 13 tables

URL PDF HTML

2606.19706 2026-06-19 cs.CV cs.CL 新提交专题 90

NEST: Narrative Event Structures in Time for Long Video Understanding

NEST：面向长视频理解的时间叙事事件结构

Ali Asgarov, Kaushik Narasimhan, Najibul Haque Sarker, Hani Alomari, Chia-Wei Tang, Anushka Sivakumar, Zaber Ibn Abdul Hakim, Shaurya Mallampati, Chris Thomas

专题命中视频理解：提出长视频叙事事件结构数据集，评估视频理解。

AI总结提出NEST数据集（1005部全长电影），通过多模态叙事事件标注和关系链接，评估模型在长视频中理解事件结构、时间顺序和长程依赖的能力，实验表明事件检测等任务极具挑战性。

URL PDF HTML

2606.09547 2026-06-19 cs.CV cs.LG 新提交专题 90

Streaming Interventions: Can Video Large Language Models Correct Mistakes as They Occur?

流式干预：视频大语言模型能否在错误发生时即时纠正？

Apratim Bhattacharyya, Shweta Mahajan, Sanjay Haresh, Rajeev Yasarla, Reza Pourreza, Litian Liu, Risheek Garrepalli, Roland Memisevic

专题命中视频理解：评估视频LLM在烹饪场景中的实时干预能力

AI总结提出Ego-MC-Bench基准评估视频LLM在烹饪场景中的实时干预能力，并构建Ego-CoMist反事实合成数据集提升小模型性能。

Comments The project page is available at https://apratimbh.github.io/livecookv2/

URL PDF HTML

2606.20561 2026-06-19 cs.CV 新提交专题 85

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

TimeProVe: 先提出后验证，实现日常活动中的高效长视频时间推理

Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das

专题命中视频理解：长视频时间推理与问答，结合VLM

AI总结提出TimeProVe框架，先通过轻量模块生成基于动作的候选假设，再调用昂贵VLM验证，在长视频问答中降低75%VLM调用和93%推理成本，性能提升7.3%。

URL PDF HTML

2606.19682 2026-06-19 cs.CV 新提交专题 85

Vortex: Multi-Modal Fusion System for Intelligent Video Retrieval

Vortex: 面向智能视频检索的多模态融合系统

Duc-Tho Nguyen, Hieu-Hoc Tran-Minh, Khanh-Hoa Lam, Hoang-Nhut Ly, Huu-Phuc Huynh, Thanh-Tien Tran, Trung-Nghia Le

专题命中视频理解：多模态视频检索系统，融合CLIP和SigLIP2

AI总结提出Vortex系统，融合自适应关键帧提取、多模态元数据生成及混合检索策略（CLIP与SigLIP2的倒数秩融合），结合Rocchio反馈和多阶段时序搜索，在比赛中取得优异成绩。

Comments SOICT 2025

URL PDF HTML

2606.20559 2026-06-19 cs.CV cs.LG 新提交专题 70

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

UNIEGO：代理作为中介的统一自我中心视频表示学习

Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

专题命中视频理解：聚焦自我中心视频表示学习，提升视频理解。

AI总结提出分层多教师蒸馏框架UNIEGO，通过代理模型将异构教师知识转化为同质自我中心空间，并采用选择性代理蒸馏自适应筛选可靠监督，在三个自我中心视频理解任务上达到最优。

URL PDF HTML

2606.20545 2026-06-19 cs.CV 新提交专题 65

Current World Models Lack a Persistent State Core

当前世界模型缺乏持久状态核心

Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

专题命中视频理解：评估世界模型在观测中断时的状态演化。

AI总结提出WRBench基准测试，发现现有世界模型在观测中断时无法维持世界状态演化，强调物理状态核稳定性应成为世界模型设计首要目标。

Comments 39 pages, 16 figures

URL PDF HTML

1. 视频生成 7 篇

Holo-World: Unified Camera, Object and Weather Control for Video World Model

Through the PRISM: Preference Representation in Intermediate States of Video Diffusion Models

Cinematic Compositing Using Character-Environment-Harmonized Video Generation Models

SketchKeyAnime: Reference-anchored Sparse Key-Sketch Animation Synthesis

TeleMorpher: Toward Robust Simultaneous Motion-Location Editing

LooseControlVideo: Directorial Video Control using Spatial Blocking

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

2. 视频理解 7 篇

ViCoStream: Streaming VideoLLMs Can Run Beyond 100 FPS with Stage-Wise Coordinated Inference

NEST: Narrative Event Structures in Time for Long Video Understanding

Streaming Interventions: Can Video Large Language Models Correct Mistakes as They Occur?

TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living

Vortex: Multi-Modal Fusion System for Intelligent Video Retrieval

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

Current World Models Lack a Persistent State Core