2604.28122
2026-05-01
cs.CV
cs.LG
Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
超越高斯瓶颈:基于拓扑对齐的视觉Transformer特征空间编码
Andrew Bond, Ilkin Umut Melanlioglu, Erkut Erdem, Aykut Erdem
发表机构
*
Department of Computer Engineering, Koç University, Istanbul, Turkey(科克大学计算机工程系,伊斯坦布尔,土耳其)
;
Department of Computer Engineering, Hacettepe University, Ankara, Turkey(哈恰塔佩大学计算机工程系,安卡拉,土耳其)
;
KUIS AI Research Center, Istanbul, Turkey(KUIS人工智能研究中心,伊斯坦布尔,土耳其)
;
Department of Electrical and Electronics Engineering, Koç University, Istanbul, Turkey(科克大学电气与电子工程系,伊斯坦布尔,土耳其)
AI总结
本文提出S²VAE框架,通过压缩和表示场景的3D状态,包括相机运动、深度和点结构,以提升视觉模型的几何一致性。实验显示,几何对齐的超球面隐空间在高压缩条件下优于传统高斯瓶颈。