Native Active Perception as Reasoning for Omni-Modal Understanding
原生主动感知作为全模态理解的推理
专题命中 视频理解 :长视频理解,POMDP主动感知框架
AI总结 提出OmniAgent,一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体,通过主动感知将推理复杂度与视频时长解耦,在多个基准上达到开源模型最优性能。
Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent