SToRe3D: Sparse Token Relevance in ViTs for Efficient Multi-View 3D Object Detection
发表机构 * University of Toronto(多伦多大学) ; Zoox Inc(Zoox公司)
AI总结 本文提出SToRe3D,一种用于高效多视角3D目标检测的稀疏性框架,旨在解决视觉Transformer(ViT)在处理多视角和大范围3D区域时计算量大、推理延迟高的问题。该方法通过联合选择2D图像token和3D目标查询,并结合特征存储与重新激活机制,实现对关键信息的计算分配。实验表明,SToRe3D在保持检测精度的同时,显著提升了推理速度,为实时大规模3D检测提供了可行方案。
Comments Accepted to CVPR 2026