2605.14525
2026-05-15
cs.CV
From Sparse to Dense: Spatio-Temporal Fusion for Multi-View 3D Human Pose Estimation with DenseWarper
Ling Li, Changjie Chen, Yuyan Wang, Jiaqing Lyu, Kenglun Chang, Yiyun Chen, Zhidong Deng
发表机构
*
Department of Computer Science, THUAI, BNRist, Tsinghua University, Beijing, China(清华大学北京研究院,清华大学计算机科学系,北京,中国)
;
Dalian University of Technology, Dalian, China(大连理工大学,大连,中国)
;
Apple, Beijing, China(苹果公司,北京,中国)
;
Hong Kong University of Science and Technology (Guang Zhou), Guang Zhou, China(香港科技大学(广州),广州,中国)
;
University of Manchester, Manchester, UK(曼彻斯特大学,曼彻斯特,英国)
AI总结
在多视角三维人体姿态估计中,传统方法通常依赖于同一时刻不同视角的图像来预测某一时刻的姿态,忽略了相邻帧之间的丰富时序依赖关系。本文提出了一种新的输入方式——稀疏交错输入,通过在不同时间点采集不同视角的图像,使模型能够捕捉丰富的时空信息,从而提升性能。该方法不仅能够通过多相机提高输出姿态的帧率,突破单视角帧率限制,还能减少数据冗余。研究引入了DenseWarper模型,利用极线几何实现高效的时空热图交换,并在多个数据集上取得了优于传统密集输入方法的先进性能。