视频大模型

2606.18702 2026-06-18 cs.CV 新提交专题 95

UniTemp: Unlocking Video Generation in Any Temporal Order via Bidirectional Distillation

UniTemp: 通过双向蒸馏实现任意时间顺序的视频生成

Lin Zhang, Sicheng Mo, Zefan Cai, Jinhong Lin, Zihao Lin, Jiuxiang Gu, Krishna Kumar Singh, Yuheng Li, Yin Li

专题命中视频生成：任意时间顺序的视频生成方法

AI总结提出UniTemp框架，通过双向蒸馏训练单个自回归模型，支持任意时间方向（前向、后向、中间插值）的视频生成，解决因果3D VAE在后向生成中的不连续性，提升可控性。

URL PDF HTML

2606.18478 2026-06-18 cs.CV 新提交专题 95

Data-Forcing Distillation: Restoring Diversity and Fidelity in Few-Step Video Generation

数据强制蒸馏：恢复少步视频生成中的多样性和保真度

Siyi Chen, Shaowei Liu, Yixuan Jia, Zian Wang, Huan Ling, Qing Qu, Jun Gao

专题命中视频生成：少步视频生成中的蒸馏方法

AI总结针对分布匹配蒸馏（DMD）在少步视频生成中出现的模式坍塌和过饱和问题，提出数据强制蒸馏（DFD）框架，通过教师评分差异引导学生接近真实数据分布，仅需一行代码修改即可恢复多样性和保真度。

URL PDF HTML

2606.18591 2026-06-18 cs.CV 新提交专题 90

Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops

桥接创意意图与视觉质量：基于创作者驱动的循环视频生成与代理反馈循环

Denis Savytski, Aiden Lei, Heding Liu, Warren Yang, Sihan Liang, Alexander Liu, Zhe Zhao

专题命中视频生成：CHIEF框架实现创作者驱动循环视频生成

AI总结提出CHIEF框架，通过人类-AI协作的迭代视频精炼，结合创作者驱动和代理主观反馈，提升长视频的叙事连贯性与创意方向。

Comments Accepted to the Workshop on Human-AI Co-Creativity at ICML 2026

URL PDF HTML

2606.13768 2026-06-18 cs.CV cs.AI 新提交专题 90

CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation

CineOrchestra：面向电影视频生成的统一实体中心条件控制

Sharath Girish, Tsai-Shien Chen, Zhikang Dong, Mukesh Singhal, Hao Chen, Sergey Tulyakov, Aliaksandr Siarohin

专题命中视频生成：统一控制主体、事件、相机和镜头切换的视频生成

AI总结提出CineOrchestra，一种统一控制主体、事件、相机和镜头切换的视频扩散模型，通过实体中心条件原语和参数无关的旋转位置编码实现多轴联合控制，在密集描述跟随和镜头切换时序上超越六种专用方法。

Comments Project page: https://snap-research.github.io/CineOrchestra

URL PDF HTML

2606.19271 2026-06-18 cs.DC 新提交专题 85

TurboServe: Serving Streaming Video Generation Efficiently and Economically

TurboServe: 高效经济地服务流式视频生成

Youhe Jiang, Haoxu Wang, Haotong Bao, Kai Jiang, Jianfei Chen, Jun Zhu, Fangcheng Fu, Jintao Zhang

专题命中视频生成：流式视频生成服务系统TurboServe

AI总结针对流式视频生成的会话时长和用户需求异构性，提出TurboServe系统，通过在线调度联合优化会话放置与GPU配置，采用迁移感知放置和负载驱动自动缩放，降低延迟和成本。

URL PDF HTML

2606.17030 2026-06-18 cs.CV 新提交专题 80

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界模型

Jie Zhang, Xiaoyue Chen, Anzhe Chen, Dayiheng Liu, Deqing Li, Gengze Zhou, Hale Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Chenxu Lv, Xiong-Hui Chen, Chenfei Wu

专题命中视频生成：视频世界模型，生成未来视觉轨迹

AI总结提出Qwen-RobotWorld，一种以自然语言为统一动作接口的语言条件视频世界模型，通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练，在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测，在多个基准上取得最优结果。

URL PDF HTML

2606.13376 2026-06-18 cs.CV 新提交专题 80

MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

MoVerse: 基于全景高斯支架的实时视频世界建模

Yang Zhou, Ziheng Wang, Yuqin Lu, Haofeng Liu, Jun Liang, Shengfeng He, Jing Li

专题命中视频生成：实时视频世界建模与渲染

AI总结提出MoVerse，从单张窄视场图像实时构建可交互漫游的360度全景世界，通过拓扑感知扩散补全视场、全景几何残差预测生成3D高斯支架，并结合双向扩散教师蒸馏为因果自回归学生实现低延迟视频渲染。

Comments Project Page: https://orange-3dv-team.github.io/MoVerse/

URL PDF HTML

2606.19163 2026-06-18 cs.DC 新提交专题 60

Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism

Pulse: 面向大规模扩散模型的自动流水线并行训练加速

Boran Sun, Guoyong Jiang, Lin Zhang, Chen Chen, Yuechen Tao, Zhishu Che, Jieling Yu, Shan Chang, Huaxi Gu, Fangming Liu, Bo Li

专题命中视频生成：方法适用于视频生成模型训练加速

AI总结提出PULSE自动流水线并行策略，通过将跳跃连接层同设备放置、局部缓存激活值，消除跨流水线通信，结合动态规划分区器、ILP调度合成器和混合并行调优器，在通信受限硬件上实现最高2.3倍吞吐提升。

Comments Accepted by International Conference on Distributed Computing Systems(ICDCS'26)

URL PDF HTML

2606.19341 2026-06-18 cs.CV cs.CL cs.SD 新提交专题 90

Native Active Perception as Reasoning for Omni-Modal Understanding

原生主动感知作为全模态理解的推理

Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

专题命中视频理解：长视频理解，POMDP主动感知框架

AI总结提出OmniAgent，一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体，通过主动感知将推理复杂度与视频时长解耦，在多个基准上达到开源模型最优性能。

Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent

URL PDF HTML

2606.18943 2026-06-18 cs.CV 新提交专题 85

Physics-IQ Verified

物理智力验证

Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

专题命中视频理解：评估视频生成模型对物理现实的理解

AI总结本文提出Physics-IQ Verified基准，通过改进提示和地面真实质量及引入样本级评分系统，提升视频生成模型对物理现实的理解评估，验证结果表明基准提升了57.6%的样本和34.8%的提示。

URL PDF HTML

2606.18586 2026-06-18 cs.CV cs.AI 新提交专题 85

APT: Atomic Physical Transitions for Causal Video-Language Understanding

APT: 用于因果视频语言理解的原子物理转变

Shang Wu, Haoran Lu, Songling Liu, Chenwei Xu, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Zhaoran Wang, Han Liu

专题命中视频理解：APT表示视频因果状态变化提升VLM理解

AI总结提出原子物理转变（APT）作为视频中因果状态变化的显式表示，并构建混合来源数据集，通过APT-Tune微调方法使VLM学习物理转变而不遗忘事件级知识。

URL PDF HTML

2606.18441 2026-06-18 cs.CV 新提交专题 85

Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs

推理即交集：视频多模态大语言模型中视觉焦点的一致性帧对齐

Chengwen Liu, Zhe Huang, Jisheng Dang, Hong Peng, Qi Tian, Tat-Seng Chua

专题命中视频理解：提出视频推理奖励框架，提升视频MLLM推理能力

AI总结提出无时间标注的过程级奖励框架CF-GRPO，通过视频内在线索构建一致性帧先验，并利用一致性帧奖励优化模型帧使用与先验的对齐，提升视频推理性能。

URL PDF HTML

2606.14702 2026-06-18 cs.CV 新提交专题 85

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

OmniVideo-100K：通过结构化脚本和证据链进行音视频推理的数据集

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

专题命中视频理解：视频问答与长时推理

AI总结提出OmniVideo-100K数据集，通过实体锚定视频脚本和线索引导的QA生成机制，解决音视频问答中跨段实体不一致和长时推理不足的问题，微调模型在多个基准上取得显著提升。

Comments Project page: https://github.com/MiG-NJU/OmniVideo-100K

URL PDF HTML

2606.15632 2026-06-18 cs.CV 新提交专题 80

Open-World Video Segmentation

开放世界视频分割

Qing Su, Kaiyang Li, Yuan Zhuang, Fei Miao, Shihao Ji

专题命中视频理解：长时视频分割与对象发现，视频理解

AI总结提出Savvy系统，结合分层掩码发现、延迟接纳和轨迹整合，实现零样本开放世界长时视频分割；并设计粒度感知评估套件OGA，采用n:1匹配协议，解决传统1:1匹配对开放世界方法的不公平惩罚问题。

URL PDF HTML

2606.18610 2026-06-18 cs.RO cs.CV 新提交专题 60

SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation

SC3-Eval: 通过自洽视频生成评估机器人基础模型

Wei-Cheng Tseng, Gashon Hussein, Yuzhu Dong, Allen Z. Ren, Lucy X. Shi, XuDong Wang, Sergey Levine, Zhaoshuo Li, Jinwei Gu, Florian Shkurti, Ming-Yu Liu, Quan Vuong

专题命中视频理解：利用视频基础模型模拟策略展开

AI总结提出SC3-Eval方法，利用前向-反向动力学一致性、跨视角一致性和测试时一致性，将预训练视频基础模型转化为准确的策略评估器，在7个真实世界策略上达到0.929的皮尔逊相关系数。

URL PDF HTML

1. 视频生成 8 篇

UniTemp: Unlocking Video Generation in Any Temporal Order via Bidirectional Distillation

Data-Forcing Distillation: Restoring Diversity and Fidelity in Few-Step Video Generation

Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops

CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation

TurboServe: Serving Streaming Video Generation Efficiently and Economically

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

Pulse: Training Acceleration for Large Diffusion Models with Automatic Pipeline Parallelism

2. 视频理解 7 篇

Native Active Perception as Reasoning for Omni-Modal Understanding

Physics-IQ Verified

APT: Atomic Physical Transitions for Causal Video-Language Understanding

Reasoning as Intersection: Consensus-Frame Alignment for Visual Focus in Video-MLLMs

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Open-World Video Segmentation

SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation