3D 视觉

2606.20455 2026-06-19 cs.CV 新提交专题 95

PCFootprint: A Large-Scale Dataset and Benchmark for Vectorized Building Footprint Extraction from Aerial LiDAR Point Clouds

PCFootprint：用于从航空LiDAR点云中提取矢量化建筑足迹的大规模数据集与基准

Haoyuan Shen, Kuihao Wang, Ruisheng Wang, Yujun Liu

专题命中点云：从航空LiDAR点云提取建筑足迹，核心是点云处理

AI总结提出首个大规模航空激光扫描点云建筑足迹提取数据集PCFootprint，含33000个瓦片及跨域测试集，通过评估主流方法揭示复杂地理环境下的挑战。

Comments 14 pages, 9 figures

URL PDF HTML

2606.19383 2026-06-19 cs.RO cs.CV 新提交专题 95

3D Scene Graphs: Open Challenges and Future Directions

3D场景图：开放挑战与未来方向

Dennis Rotondi, Francesco Argenziano, Sebastian Koch, Nathan Hughes, Martin Buechner, Johanna Wald, Lukas Rosenberger Schmid, Daniele Nardi, Abhinav Valada, Liam Paull, Federico Tombari, Luca Carlone, Kai O. Arras

专题命中空间理解：综述3D场景图，结合几何与语义。

AI总结本文统一综述3D场景图（3DSG）的构建、应用与评估，分析现有建模选择与开放挑战，旨在推动鲁棒部署。

Comments Invited article for the Annual Review of Control, Robotics, and Autonomous Systems Volume 10

URL PDF HTML

2606.19915 2026-06-19 cs.CV 新提交专题 85

SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision

SpatialSV: 通过任务导向的视觉监督在多模态大语言模型中内化可解释的3D空间感知

Jiayu Tang, Yuchen Zhou, Chao Gou

专题命中空间理解：提出内化3D空间感知的MLLM框架SpatialSV

AI总结提出SpatialSV框架，通过任务导向的视觉监督将MLLM的2D特征提升为显式3D表示（深度图、相机姿态、点云），实现可解释的3D空间感知内化，无需外部工具，并在半监督设置中展现强泛化能力。

Comments Accepted by IJCAI 2026

URL PDF HTML

2606.20515 2026-06-19 cs.CV 新提交专题 80

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

S-Agent：空间工具使用激发空间智能推理

Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

专题命中空间理解：聚焦连续3D世界的空间智能推理

AI总结提出S-Agent空间工具使用智能体范式，通过时空证据积累和层次化工具集，将VLM作为语义规划器，实现连续多视图图像和视频的空间推理，在无训练下提升开源和闭源VLM性能，并基于S-300K轨迹微调得到紧凑空间智能体S-Agent-8B。

Comments Project Page : https://Ropedia.github.io/S-Agent

URL PDF HTML

2605.00569 2026-06-19 cs.CV cs.GR 专题 95

2D-SuGaR: Surface-Aware Gaussian Splatting for Geometrically Accurate Mesh Reconstruction

2D-SuGaR：面向表面的高斯点散布用于几何准确的网格重建

Prajwal Gupta C. R., Divyam Sheth, Jinjoo Ha, Mirela Ostrek, Justus Thies

专题命中三维重建：提出2D-SuGaR方法提升网格重建几何精度

AI总结本文提出2D-SuGaR方法，通过结合单目深度和法线先验，提升多视图图像中网格重建的几何精度和鲁棒性，实现在DTU数据集上达到最先进的重建效果。

Journal ref Eurographics 2026 Short Papers, The Eurographics Association, 2026

URL PDF HTML

2606.20424 2026-06-19 cs.RO 新提交专题 90

LIT-GS: LiDAR-Inertial-Thermal Gaussian Splatting for Illumination-Robust Mapping

LIT-GS: 面向光照鲁棒建图的激光雷达-惯性-热高斯泼溅

Shikuan Shi, Chunran Zheng, Jiaming Xu, Tianyong Ye, Tao Yu, Yukang Cui

专题命中三维重建：激光雷达-惯性-热高斯泼溅用于光照鲁棒建图

AI总结提出LIT-GS框架，利用激光雷达平面几何约束联合优化位姿与高斯，解决光照变化和纹理缺失场景下RGB依赖的脆弱性问题，提升几何精度与渲染质量。

Comments Accepted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2026)

URL PDF HTML

2606.20322 2026-06-19 cs.RO 新提交专题 90

Towards 3D karst underwater scene reconstruction from rotating sonar data

基于旋转声纳数据的3D喀斯特水下场景重建

Georgios Evangelos Margaritis, Lionel Lapierre, Simon Rohou, Zhi Yan, Andreas Nüchter, François Goulette

专题命中三维重建：水下喀斯特场景3D重建

AI总结针对声纳数据稀疏噪声大、导航漂移导致3D重建困难的问题，提出结合连续时间SLAM校正轨迹与两阶段深度学习表面重建的流水线，生成可沉浸导航的3D网格。

Comments 1st Workshop on Long-term Deployments in the Wild (LoWi)

URL PDF HTML

2606.20131 2026-06-19 cs.CV cs.GR 新提交专题 90

TriFlow: Generating Artist-Like 3D Mesh Topology via Nearest-Vertex Vector Fields

TriFlow: 通过最近顶点向量场生成类艺术家3D网格拓扑

Haoxuan Li, Ziya Erkoç, Daniele Sirigatti, Vladislav Rosov, Lei Li, Angela Dai, Matthias Nießner

专题命中三维重建：生成类艺术家3D网格拓扑。

AI总结提出TriFlow，一种基于最近顶点向量场（NVF）的生成方法，通过流匹配模型合成NVF并引导拓扑感知的网格简化，直接从输入几何条件生成紧凑且具有类艺术家拓扑的3D网格。

URL PDF HTML

2606.15966 2026-06-19 cs.CV cs.GR 新提交专题 90

VEPHand: View-Efficient Photometric Hand Performance Capture at Scale

VEPHand: 大规模视图高效光度手部性能捕捉

Zhengyang Shen, Kai-Hung Chang, Erroll Wood, Deying Kong, Bo Peng, Timo Bolkart, Jinlong Yang, Bowen Zhao, Danhang Tang, Sasa Petrovic, Emre Aksan, Jérémy Riviere, Vassilis Choutas, Delio Vicini, Jay Busch, Shichen Liu, Zhe Cao, Hugh Liu, JingJing Shen, Jonathan Taylor, Mingsong Dou

专题命中三维重建：提出端到端手部动态捕捉与配准管线

AI总结提出面向有限视角（约20个）的端到端手部动态捕捉与配准管线，通过无掩膜神经方法和物理启发框架解决几何歧义与自接触变形难题，在12000+序列上验证了高保真重建与配准。

URL PDF HTML

2606.15908 2026-06-19 cs.CV 新提交专题 90

High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians

高保真4D手-物体捕捉：基于多视角时空追踪和物理感知高斯模型

Bo Peng, Xu Chen, Yi Gu, Hidenobu Matsuki, Mingsong Dou, Jingjing Shen, Deying Kong, Juyong Zhang, Zhengyang Shen

专题命中三维重建：高保真4D手-物体交互重建

AI总结提出无需模板和标记的多视角系统，通过跨视角几何与时间线索的Transformer初始化，结合物理感知高斯优化，实现鲁棒且无伪影的4D手-物体交互重建。

Comments Project page: https://hostpg.github.io/

URL PDF HTML

2606.20563 2026-06-19 cs.CV 新提交专题 85

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

JanusMesh: 通过跨空间去噪实现快速零样本3D视觉错觉生成

Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang, Yu-Lun Liu

专题命中三维重建：生成3D视觉错觉，涉及3D网格和纹理合成

AI总结提出一种无需训练的快速框架，通过跨空间双分支去噪和视图条件纹理合成，在3-5分钟内生成高真实感双语义3D视觉错觉，优于现有方法。

Comments ECCV 2026. Project page: https://siang1105.github.io/JanusMesh.github.io/

URL PDF HTML

2606.19874 2026-06-19 cs.RO cs.CV 新提交专题 85

MMD-SLAM: Structure-Enhanced Multi-Meta Gaussian Distribution-Guided Visual SLAM

MMD-SLAM：结构增强的多元高斯分布引导视觉SLAM

Fan Zhu, Ziyu Chen, Peichen Liu, Yifan Zhao, Zhisong Xu, Hui Zhu, Hongxing Zhou, Sixun Liu, Chunmao Jiang

专题命中三维重建：3DGS视觉SLAM，结构增强建图。

AI总结提出MMD-SLAM，利用亚特兰大世界假设引导多元高斯表示，通过点线融合、主导方向编码和高斯进化策略，提升视觉SLAM的跟踪精度与建图质量。

Comments ICRA 2026

URL PDF HTML

2606.19733 2026-06-19 cs.CV cs.AI 新提交专题 85

QueryGaussian: Scalable and Training-Free Open-Vocabulary 3D Instance Retrieval

QueryGaussian: 可扩展且无需训练的开词汇3D实例检索

Xiuyuan Zhu, Ke Lu, Zijie Yang, Chao Yue, Jian Xue, Dongming Zhang

专题命中三维重建：提出无需训练的3D实例检索框架，结合2D视觉模型。

AI总结提出QueryGaussian，一种无需训练的开词汇3D实例检索框架，通过实例级查询机制解耦语义与几何，结合2D视觉模型和时序融合模块，在保持精度的同时降低70%以上GPU内存并加速180倍，支持城市级场景。

Comments 8 pages, 4 figures, 6 tables. Accepted to the 2026 IEEE International Conference on Systems, Man, and Cybernetics (SMC 2026)

URL PDF HTML

2606.19451 2026-06-19 cs.LG cs.CV cs.RO 新提交专题 85

3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning

3D-DLP：自监督3D物体中心场景表示学习

Ellina Zhang, Madhaven Iyengar, Amir Zadeh, Chuan Li, Deepak Pathak, David Held, Tal Daniel

专题命中三维重建：自监督3D物体中心场景表示学习，分解为3D粒子。

AI总结提出3D-DLP模型，通过自监督学习将场景级RGB-D或体素观测分解为3D潜在粒子，每个粒子编码解耦属性，实现可解释的逐粒子分割图，并支持场景操控和下游机器人操作。

Comments ICML 2026. Project webpage: https://eubooks3003.github.io/3d-dlp

URL PDF HTML

2606.20556 2026-06-19 cs.CV 新提交专题 80

Thinking in Boxes: 3D Editing in Real Images Made Easy

Thinking in Boxes: 真实图像中的3D编辑变得简单

Pradhaan S Bhat, Naveen Chandra R, Rishubh Parihar, Vaibhav Vavilala, R. Venkatesh Babu, D. A. Forsyth, Anand Bhattad

专题命中三维重建：使用3D盒子进行真实图像中的3D编辑。

AI总结提出使用3D盒子作为结构化规范，通过用户提供输入和输出盒子来精确控制真实图像中的平移、旋转、缩放和视角变化，同时保持场景和物体身份，恢复未见的物体区域。

Comments Project Page: https://thinking-in-boxes.github.io/

URL PDF HTML

2606.19718 2026-06-19 cs.CV 新提交专题 80

One-Shot Novel View and Pose Human Image Synthesis via 3D Prior Guided Diffusion Model

基于3D先验引导扩散模型的单样本新视角与姿态人体图像合成

Shenjian Gong, Kangkan Wang, Shanshan Zhang, Jian Yang

专题命中三维重建：利用3D人体先验引导图像生成。

AI总结提出一种基于条件去噪扩散模型的方法，利用3D人体先验（法线图和颜色提示）作为几何和颜色条件，从单张参考图像合成任意姿态和视角的高质量人体图像，包括被遮挡部分。

Comments 30 pages, 10 figures

URL PDF HTML

2606.18951 2026-06-19 cs.RO 新提交专题 80

A High-accuracy Event-based Underwater SLAM System

高精度事件相机水下SLAM系统

Yifan Peng, Qihang Liu, Haoying Li, Yuzhe Li, Junfeng Wu, Ziyang Hong

专题命中三维重建：事件相机水下SLAM，属于三维重建

AI总结针对事件相机水下SLAM中时间曲面成像质量差和匹配失败问题，提出基于结构感知度量和贝叶斯优化的高精度立体SLAM系统，并贡献首个高质量水下事件数据集UWE。

URL PDF HTML

2606.20404 2026-06-19 cs.CV 新提交专题 70

FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

FlowBender: 面向自校正条件流的反馈感知训练

Daniel Gilo, Sven Elflein, Ido Sobol, Or Litany

专题命中三维重建：方法应用于3D纹理贴图，涉及三维重建

AI总结针对条件扩散/流模型常违反任务约束的问题，提出FlowBender闭环框架，将对齐误差作为输入训练网络学习校正策略，在图像翻译、复原和3D纹理贴图中同时提升保真度与合理性。

Comments Project page: https://flow-bender.github.io/

URL PDF HTML

2606.19828 2026-06-19 cs.CV 新提交专题 70

3D-PLOT-LLM: Part-Level Object Tokens for 3D Large Language Models

3D-PLOT-LLM: 用于三维大语言模型的部件级对象标记

Jintang Xue, Xinyu Wang, Yixing Wu, Jingwen Chen, C. -C. Jay Kuo

专题命中三维重建：处理3D点云并实现部件级理解。

AI总结提出3D-PLOT-LLM，通过重组输入标记流使部件可直接通过LLM词汇寻址，无需分割解码器或边界框，在部件级基准上超越现有方法。

URL PDF HTML

2606.19609 2026-06-19 cs.HC cs.GR 新提交专题 65

Building Drift: Documenting On-Site Construction Adaptations Across Material Lifecycles

建筑漂移：记录跨材料生命周期的现场施工适应

Ritik Batra, Martin Tamke, Tom Svilans, Jan Hüls, Amritansh Kwatra, Steven J. Jackson, Thijs Roumen, Mette Ramsgaard Thomsen

专题命中三维重建：利用视频和3D高斯泼溅记录建筑现场适应。

AI总结提出“建筑漂移”概念，通过案例研究建立分类法，并开发Pentimento工具，利用视频和3D高斯泼溅记录现场适应，促进再生材料循环利用。

Comments In submission

URL PDF HTML

2606.20531 2026-06-19 cs.CV 新提交专题 85

VisDom: Sparse Novel View Synthesis with Visible Domain Constraint

VisDom: 具有可见域约束的稀疏新视角合成

Mariia Gladkova*, Tarun Yenamandra*, Edmond Boyer, Robert Maier, Tony Tung, Daniel Cremers

专题命中 NeRF ：提出可见域约束增强NeRF和GS的稀疏视图合成

AI总结提出VisDom，一种无学习的几何约束，通过最小多视角可见性要求增强视觉外壳重建，作为稀疏新视角合成中的空间先验，集成到NeRF和GS管线中，从四张输入图像实现高质量重建。

URL PDF HTML

2606.20103 2026-06-19 cs.CV 新提交专题 80

Geometry-Preserving in 3D Gaussian Splatting for LiDAR-Camera Extrinsic Calibration

3D高斯溅射中保持几何结构的LiDAR-相机外参标定

Kyoleen Kwak, Daeho Kim, Jeong Woon Lee, Hyoseok Hwang

专题命中：使用3DGS进行几何标定

AI总结针对LiDAR-相机标定中跨模态特征稀缺问题，提出通过多视图LiDAR深度监督和阻止光度梯度更新高斯空间参数来保持3DGS代理的度量几何，提升标定精度。

Comments Accepted to ECCV 2026. 15 pages (excluding references), 5 figures

URL PDF HTML

2606.19586 2026-06-19 cs.RO 新提交专题 80

One Demo is Worth a Thousand Trajectories: Action-View Augmentation for Visuomotor Policies

一个演示胜过千条轨迹：用于视觉运动策略的动作-视角增强

Chuer Pan, Litian Liang, Dominik Bauer, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Shuran Song

专题命中 Gaussian Splatting ：使用高斯泼溅重建3D场景进行数据增强

AI总结提出一种数据增强框架，通过高斯泼溅和轨迹优化生成逼真的鱼眼图像序列和物理可行的动作轨迹，提升操作策略在场景变化和障碍物下的成功率。

Comments Project website: https://chuerpan.com/1001-demos.github.io/. Published at CoRL 2025

Journal ref Proceedings of The 9th Conference on Robot Learning, PMLR 305:3902-3914, 2025

URL PDF HTML

2606.20547 2026-06-19 cs.LG cs.CV cs.GR cs.RO math.DG 新提交专题 70

The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups

Token 是群元素：关于矩阵李群上的李代数注意力

Przemyslaw Musialski

专题命中其他3D视觉：李群上注意力机制，可应用于3D变换

AI总结提出李代数注意力机制，将token定义为矩阵李群元素，利用相对位姿的李代数范数作为注意力分数，无需学习核函数或表示论工具，适用于仿射全帧群等非紧致非阿贝尔群。

Comments preprint, 19 pages, 3 figures

URL PDF HTML

2606.20549 2026-06-19 cs.RO 新提交专题 60

Generating Robot Hands from Human Demonstrations

从人类演示生成机器人手

Sha Yi, Nicklas Hansen, Xueqian Bai, Carmelo Sferrazza, Michael T. Tolley, Xiaolong Wang

专题命中其他3D视觉：涉及指尖运动数据和逆运动学匹配。

AI总结提出数据驱动框架，利用人类日常操作中超过400万帧指尖运动数据，通过逆运动学匹配指尖位置，优化树状结构机器人手的设计，生成通用6自由度手和低自由度任务专用手，并训练强化学习智能体加速设计搜索。

URL PDF HTML

1. 点云 1 篇

PCFootprint: A Large-Scale Dataset and Benchmark for Vectorized Building Footprint Extraction from Aerial LiDAR Point Clouds

2. 空间理解 3 篇

3D Scene Graphs: Open Challenges and Future Directions

SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

3. 三维重建 16 篇

2D-SuGaR: Surface-Aware Gaussian Splatting for Geometrically Accurate Mesh Reconstruction

LIT-GS: LiDAR-Inertial-Thermal Gaussian Splatting for Illumination-Robust Mapping

Towards 3D karst underwater scene reconstruction from rotating sonar data

TriFlow: Generating Artist-Like 3D Mesh Topology via Nearest-Vertex Vector Fields

VEPHand: View-Efficient Photometric Hand Performance Capture at Scale

High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

MMD-SLAM: Structure-Enhanced Multi-Meta Gaussian Distribution-Guided Visual SLAM

QueryGaussian: Scalable and Training-Free Open-Vocabulary 3D Instance Retrieval

3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning

Thinking in Boxes: 3D Editing in Real Images Made Easy

One-Shot Novel View and Pose Human Image Synthesis via 3D Prior Guided Diffusion Model

A High-accuracy Event-based Underwater SLAM System

FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

3D-PLOT-LLM: Part-Level Object Tokens for 3D Large Language Models

Building Drift: Documenting On-Site Construction Adaptations Across Material Lifecycles

4. NeRF 1 篇

VisDom: Sparse Novel View Synthesis with Visible Domain Constraint

5. 其他 1 篇

Geometry-Preserving in 3D Gaussian Splatting for LiDAR-Camera Extrinsic Calibration

6. Gaussian Splatting 1 篇

One Demo is Worth a Thousand Trajectories: Action-View Augmentation for Visuomotor Policies

7. 其他3D视觉 2 篇

The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups

Generating Robot Hands from Human Demonstrations