PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction
PointACT: 多尺度点-动作交互的视觉-语言-动作模型
发表机构 * Inria(法国国家信息与自动化研究所) ; École normale supérieure(法国高等科学研究院) ; CNRS(法国国家科学研究中心) ; PSL Research University(巴黎综合理工研究院)
AI总结 本文提出PointACT,一种集成层次化3D点云表示的3D感知视觉-语言-动作政策,通过多尺度点-动作交互机制提升机器人在3D环境中的精细几何推理和空间定位能力。
Comments Accepted to RSS 2026; project webpage: https://cshizhe.github.io/projects/pointact.html