arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

机器人 / 具身智能

机器人、具身智能、机器人学习、操作、导航和具身世界模型。

今日/当前日期收录 68 信号源:cs.RO, cs.AI, cs.CV, cs.LG

1. 机器人学习 18 篇

2606.18697 2026-06-18 cs.LG cs.CR cs.RO 新提交 专题 85

Stealthy World Model Manipulation via Data Poisoning

通过数据投毒进行隐蔽的世界模型操纵

Yibin Hu, Xiaolin Sun, Zizhan Zheng

专题命中 机器人学习 :世界模型数据投毒攻击,影响规划

AI总结 提出SWAAP框架,通过两阶段数据投毒(双层级优化寻找有害目标模型+梯度匹配隐蔽实现)操纵学习到的世界模型,导致规划性能显著下降,且能规避多种防御检测。

Comments 41 pages, 8 figures, 11 tables. Submitted to NeurIPS 2026

2606.18680 2026-06-18 cs.RO 新提交 专题 85

High-Degree-of-Freedom Lightweight Bioinspired Leg for Enhanced Mobility in Small Robots

高自由度轻量化仿生腿:提升小型机器人机动性

Haoqi Han, Yifei Yu, Jiaming Zhang, Xinru Cui, Linxi Feng, Hesheng Wang

专题命中 机器人学习 :微型机器人高自由度仿生腿设计

AI总结 针对微型机器人腿部自由度受限问题,提出一种四自由度并联腿机构,通过同心设计简化运动学,实现轻量化(18.9g)和大工作空间(>22255 mm³),显著提升运动灵活性。

Journal ref 2026 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2026)

2606.18646 2026-06-18 cs.RO 新提交 专题 85

A Scalable Embodied Intelligence Platform for Seamless Real-to-Sim-to-Real Transfer of Household Mobile Manipulation Tasks

一种可扩展的具身智能平台,用于家庭移动操作任务的无缝真实-仿真-真实迁移

Kui Yang, Xianlei Long, Haoxuan Li, Yan Ding, Chao Chen

专题命中 机器人学习 :家庭移动操作任务的真实-仿真-真实迁移平台

AI总结 提出BestMan平台,通过自动化场景生成、仿真引导任务形式化和硬件无关中间件,解决真实-仿真-真实迁移中的场景重建、策略评估和部署兼容性挑战,实现家庭移动操作的无缝迁移。

Comments CCF Transactions on Pervasive Computing and Interaction

2606.18625 2026-06-18 cs.RO 新提交 专题 85

SRL: Combining SLIP Model and Reinforcement Learning for Agile Robotic Jumping

SRL:结合SLIP模型与强化学习实现敏捷机器人跳跃

Xiaowen Hu, Linqi Ye, Yudi Zhu, Chenyue Shao, Rankun Li, Qingdu Li, Yan Peng

专题命中 机器人学习 :结合SLIP模型与强化学习实现敏捷跳跃

AI总结 提出SRL框架,融合SLIP模型的物理基线与强化学习的自适应能力,通过前馈控制信号与实时反馈优化机器人跳跃,显著减少训练时间并保持高精度跟踪。

Comments 17 pages, 12 figures

2606.18589 2026-06-18 cs.RO 新提交 专题 85

DREAM-Chunk: Reactive Action Chunking with Latent World Model

DREAM-Chunk:基于潜在世界模型的反应式动作分块

Wenxi Chen, Kaidi Zhang, Chi Lin, Zhiyuan Zhang, Yu She, Yuejiang Liu, Raymond A. Yeh, Shaoshuai Mou, Yan Gu

专题命中 机器人学习 :DREAM-Chunk增强动作分块策略鲁棒性

AI总结 提出DREAM-Chunk方法,通过轻量级潜在世界模型在测试时采样多个候选动作分块并选择最优执行,提升动作分块策略在随机动态下的鲁棒性。

2512.11736 2026-06-18 cs.RO 版本更新 专题 85

Bench-Push: Benchmarking Pushing-based Navigation and Manipulation Tasks for Mobile Robots

Bench-Push:基于推动的移动机器人导航与操作任务基准测试

Ninghan Zhong, Steven Caro, Megnath Ramesh, Rishi Bhatnagar, Avraiem Iskandar, Stephen L. Smith

专题命中 机器人学习 :提出推动式移动机器人导航与操作基准

AI总结 提出首个统一的推动式移动机器人导航与操作基准Bench-Push,包含多种模拟环境、新评估指标和基线实现,用于解决可移动障碍物环境中的机器人推动任务评估问题。

Comments Published in CRV 2026

2606.19161 2026-06-18 cs.RO 新提交 专题 80

HT-Bench: Benchmarking and Learning Dexterous Full-Hand Tactile Representations with Egocentric Vision

HT-Bench:基于自我中心视觉的灵巧全手触觉表示基准与学习

Yuzhe Huang, Jiaping Wu, Jiaming Jiang, Hezhe Lin, Aikebaier Aierken, Yunlong Wang, Kun Cheng, Ziyuan Jiao, Yuanxin Zhong

专题命中 机器人学习 :触觉表示基准用于机器人灵巧操作学习

AI总结 提出HT-Bench多任务基准和HandTouch编码器,通过大规模自我中心视觉与全手触觉数据,在触觉相似性检索、掩码修复、视觉到触觉合成等任务上验证了触觉表示的有效性。

Comments 9pages, 4figures

2606.19088 2026-06-18 cs.RO 新提交 专题 80

ReSiReg: Towards Spatially Consistent Semantics in Language-Conditioned Robotic Tasks

ReSiReg:面向语言条件机器人任务的空间一致语义

Simon Schwaiger, David Seyser, Alessandro Scherl, Wilfried Wöber, Gerald Steinbauer-Wagner

专题命中 机器人学习 :语言条件机器人任务,空间一致语义。

AI总结 提出ReSiReg方法,通过重构空间一致的VLM中间特征,改善密集语言接地检索,在OVSS和3D映射中提升空间一致性,并发布紧凑的25M参数VLM模型。

2606.19067 2026-06-18 cs.RO cs.CV 新提交 专题 80

Sensor Configuration Matters: A Systematic Evaluation of Multimodal SLAM on Quadruped Robots

传感器配置至关重要:四足机器人多模态SLAM的系统评估

Roberto Corlito, Fabian Schmidt, Nils Seibert, Markus Enzweiler, Abhinav Valada, Arne Roennau

专题命中 机器人学习 :四足机器人多模态SLAM评估。

AI总结 针对四足机器人运动中的传感器配置问题,系统评估了视觉、视觉-惯性和LiDAR-视觉-惯性SLAM方法,发现立体相机、全局快门和适当惯性集成能显著提升定位鲁棒性。

2606.18836 2026-06-18 cs.HC cs.AI 新提交 专题 80

Improving Human-Robot Teamwork in Urban Search and Rescue Through Episodic Memory of Prior Collaboration

通过先前协作的片段记忆改善城市搜索与救援中的人机团队合作

Taewoon Kim, Emma van Zoelen, Mark Neerincx

专题命中 机器人学习 :人机团队协作,片段记忆提升救援。

AI总结 提出利用知识图谱片段记忆存储历史协作模式,通过图表示学习选择代表性记忆初始化机器人,在MATRX USAR环境中将救援成功率从25.7%提升至41.3%,任务时间减少283秒。

2606.18786 2026-06-18 cs.AI 新提交 专题 80

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

R2D-RL:用于多智能体强化学习的RoboCup 2D足球环境

Haobin Qin, Baofeng Zhang, Hidehisa Akiyama, Keisuke Fujii

专题命中 机器人学习 :多智能体强化学习环境,机器人足球

AI总结 提出R2D-RL环境,通过共享内存通信和周期级同步连接RCSS2D与Python MARL接口,支持全场和场景训练,提供可配置对手、离散/混合动作空间、EPV奖励塑造及并行执行。

Comments Code is available at: https://github.com/open-starlab/R2DRL

2606.18516 2026-06-18 cs.RO 新提交 专题 80

Task Allocation and Motion Planning in Dynamic, Cluttered Environments via CBBA and Graphs of Convex Sets

动态杂乱环境下的任务分配与运动规划:基于CBBA与凸集图

Matthew D. Osburn, Cameron K. Peterson, John L. Salmon

专题命中 机器人学习 :多智能体任务分配与运动规划

AI总结 针对动态杂乱环境中的多智能体任务规划,提出结合凸集图(GCS)进行轨迹优化与共识捆绑算法(CBBA)进行分布式任务分配的方法,实现安全高效的轨迹规划和任务协调。

Comments 15 pages single column, 10 figures, AIAA-Scitech 2027 Submission

2602.01700 2026-06-18 cs.RO 版本更新 专题 80

Tilt-Ropter: A Fully Actuated Hybrid Aerial-Terrestrial Vehicle with Tilt Rotors and Passive Wheels

Tilt-Ropter: 一种带有倾转旋翼和被动轮的全驱动混合空中-地面车辆

Ruoyu Wang, Xuchen Liu, Zongzhou Wu, Zixuan Guo, Wendi Ding, Ben M. Chen

专题命中 机器人学习 :提出混合空中-地面车辆Tilt-Ropter,属于机器人。

AI总结 提出全驱动混合空中-地面车辆Tilt-Ropter,通过倾转旋翼和被动轮实现高效多模态运动,并设计统一非线性模型预测控制器实现低跟踪误差和地面运动功耗降低92.8%。

Comments 8 pages, 10 figures. Accepted by the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2026)

2503.08895 2026-06-18 cs.RO 版本更新 专题 80

Mutual Adaptation in Human-Robot Co-Transportation with Human Preference Uncertainty

人机协同运输中考虑人类偏好不确定性的相互适应

Al Jaber Mahmud, Weizi Li, Xuan Wang

专题命中 机器人学习 :人机协同运输中的相互适应

AI总结 针对人机协同运输中人类偏好参数不确定及适应策略平衡问题,提出统一框架,通过建模偏好概率分布、时变固执度及协调规划模型,结合位姿优化策略,实现相互适应以提升任务性能。

Comments 9 pages, 6 figures

2606.18861 2026-06-18 cs.CV cs.AI 新提交 专题 75

URDF Synthesis from RGB-D Sequences via Differentiable Joint Inference and Energy-Consistent Verification

基于可微联合推理与能量一致性验证的RGB-D序列URDF合成

Xinze Zhang

专题命中 机器人学习 :重建可仿真数字孪生,用于机器人。

AI总结 提出KinemaForge管道,通过可微关节推理和能量一致性验证,从RGB-D序列联合估计部件形状、关节拓扑和参数,显著降低关节轴误差和仿真漂移。

2606.18537 2026-06-18 cs.LG 新提交 专题 75

Do as the Romans Do: Learning Universal Behaviors from Heterogeneous Agents

入乡随俗:从异构智能体学习通用行为

Caleb Chang, Davin Win Kyi, Natasha Jaques, Karen Leung

专题命中 机器人学习 :从异构智能体学习通用行为

AI总结 提出GRID方法,从追求不同目标的异构示范者中提取通用奖励,训练通用智能体以学习环境通用能力,避免模式平均偏差,提升下游任务微调效率。

2606.18519 2026-06-18 cs.RO cs.AI 新提交 专题 75

As You Wish: Mission Planning with Formal Verification using LLMs in Precision Agriculture

如您所愿:利用LLM在精准农业中进行形式化验证的任务规划

Marcos Abel Zuzuárregui, Stefano Carpin

专题命中 机器人学习 :LLM任务规划用于精准农业机器人

AI总结 针对自然语言歧义性,提出基于线性时序逻辑(LTL)反馈循环的LLM任务规划系统,通过双LLM分工实现规范生成与验证,提升精准农业任务规划的可靠性。

Journal ref Published in Proceedings of 2026 International Conference on Robotics and Automation (ICRA)

2606.19297 2026-06-18 cs.LG cs.RO 新提交 专题 70

Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

VLA 甚至知道基础知识吗?衡量视觉-语言-动作模型中的常识和世界知识保留

Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

专题命中 机器人学习 :VLA模型在机器人任务中评估常识知识

AI总结 提出 Act2Answer 协议,通过动作回答评估 VLA 模型的知识保留,发现模型在简单概念上表现良好,但在丰富语义类别上存在差距,且 VQA 联合训练有助于知识保留。

Comments Project page: https://tttonyalpha.github.io/act2answer/

2. 具身导航 3 篇

2606.18634 2026-06-18 cs.RO cs.AI 新提交 专题 85

EffiNav: Fusing Depth and Vision-Language for Efficient Object Goal Navigation

EffiNav: 融合深度与视觉语言实现高效物体目标导航

Zecheng Yin, Benedict Jun Ma

专题命中 具身导航 :融合深度与视觉语言实现物体目标导航

AI总结 提出EffiNav框架,融合深度信息与视觉语言模型,通过预测探索边界和语义先验指导导航,在HM3D和OVON数据集上匹配或超越基线,提升路径效率与泛化性。

2606.01605 2026-06-18 cs.RO 版本更新 专题 85

Embedding Semantic Risk into Distance Fields and CBFs for Online Monocular Safe Control

将语义风险嵌入距离场和CBF用于在线单目安全控制

Dawei Zhang, Nuo Chen, Shuo Liu, Roberto Tron, Zhiwen Fan

专题命中 具身导航 :单目安全控制,语义风险嵌入距离场用于导航

AI总结 提出一种在线单目感知到控制框架,通过将语义风险直接嵌入欧几里得符号距离场(ESDF),在控制优化前编码风险,实现基于控制障碍函数(CBF)的语义感知安全导航与遥操作。

2606.19122 2026-06-18 cs.RO 新提交 专题 70

Monocular 3D Occupancy Perception for Robots on Sidewalks via Hybrid 2D-3D Learning

基于混合2D-3D学习的人行道机器人单目3D占用感知

Yukai Ma, Joe Lin, Liu Liu, Honglin He, Lulu Ricketts, Brad Squicciarini, Yong Liu, Bolei Zhou

专题命中 具身导航 :人行道机器人导航,属于具身导航

AI总结 提出WalkOCC框架,通过混合射线行进单目3D占用感知,结合LiDAR-RGB配对数据与大规模无配对单目图像学习,提升人行道机器人导航的预测精度和泛化能力。

3. 机器人基础模型 3 篇

2606.18632 2026-06-18 cs.RO 新提交 专题 85

ROBOSHACKLES: A Safety Dataset for Human-Injury Prevention in Embodied Foundation Models

ROBOSHACKLES: 面向具身基础模型中人体伤害预防的安全数据集

Zhuowen Yin, Chongyang Liu, Wenzhang Yang, Renjue Li, Yinxing Xue

专题命中 机器人基础模型 :具身基础模型安全数据集,预防人体伤害

AI总结 为解决机器人伤害人类数据难以安全收集的问题,提出基于真实观测的安全数据构建流水线,生成包含1万条视频的ROBOSHACKLES数据集,涵盖直接和间接伤害类别,评估发现现有模型在安全关键场景下100%产生不安全动作。

2606.18610 2026-06-18 cs.RO cs.CV 新提交 专题 85

SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation

SC3-Eval: 通过自洽视频生成评估机器人基础模型

Wei-Cheng Tseng, Gashon Hussein, Yuzhu Dong, Allen Z. Ren, Lucy X. Shi, XuDong Wang, Sergey Levine, Zhaoshuo Li, Jinwei Gu, Florian Shkurti, Ming-Yu Liu, Quan Vuong

专题命中 机器人基础模型 :通过自洽视频生成评估机器人基础模型

AI总结 提出SC3-Eval方法,利用前向-反向动力学一致性、跨视角一致性和测试时一致性,将预训练视频基础模型转化为准确的策略评估器,在7个真实世界策略上达到0.929的皮尔逊相关系数。

2606.17030 2026-06-18 cs.CV 新提交 专题 75

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界模型

Jie Zhang, Xiaoyue Chen, Anzhe Chen, Dayiheng Liu, Deqing Li, Gengze Zhou, Hale Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Chenxu Lv, Xiong-Hui Chen, Chenfei Wu

专题命中 机器人基础模型 :具身世界模型,用于机器人操作等任务

AI总结 提出Qwen-RobotWorld,一种以自然语言为统一动作接口的语言条件视频世界模型,通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练,在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测,在多个基准上取得最优结果。

4. 具身推理 1 篇

2606.17639 2026-06-18 cs.RO cs.CV 新提交 专题 85

ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI

ERQA-Plus:具身AI推理的诊断基准

Hong Yang, Basura Fernando

专题命中 具身推理 :具身AI推理诊断基准

AI总结 提出ERQA-Plus基准,包含1766个基于机器人中心图像的问答实例,覆盖感知、动作、社交、导航和常识推理,用于诊断具身AI的推理能力。

5. 机器人操作 2 篇

2601.20381 2026-06-18 cs.RO 版本更新 专题 85

STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation

STORM:基于槽的任务感知面向对象的机器人操作表示

Alexandre Chapin, Emmanuel Dellandréa, Liming Chen

专题命中 机器人操作 :提出STORM模块用于机器人操作表示学习。

AI总结 提出STORM模块,通过多阶段训练策略将冻结的视觉基础模型与语义感知槽结合,生成面向对象的任务感知表示,提升机器人操作在视觉干扰下的泛化性和控制性能。

2606.18628 2026-06-18 cs.RO 新提交 专题 80

Self-Supervised Mask-Aware Transformers for Fault-Tolerant FBG Force Sensing in Minimally Invasive Surgical Robotics

自监督掩码感知Transformer用于微创手术机器人中容错FBG力传感

Peibo Sun, Shiyuan Dong, Shucheng Ye, Jianrong Cai, Yushan Liu, Hongen Liao, Tianqi Huang, Fang Chen

专题命中 机器人操作 :微创手术机器人中FBG力传感的容错方法

AI总结 针对微创手术机器人中FBG传感器因通道耦合和断裂导致的力估计退化问题,提出统一的自监督掩码感知Transformer,通过掩码通道重建预训练和动态损坏课程微调,实现多通道故障下的优雅降级,在8通道数据集上达到0.0066 N均方根误差。

6. 其他机器人 3 篇

2606.18664 2026-06-18 cs.SD cs.AI 新提交 专题 80

NeuralMUSIC: A Hybrid Neural-Subspace Framework for Robot Sound Source Localization

NeuralMUSIC: 一种用于机器人声源定位的混合神经-子空间框架

Yizhuo Yang, Junqiao Fan, Shenghai Yuan, Lihua Xie

专题命中 其他机器人 :机器人声源定位混合框架

AI总结 提出NeuralMUSIC混合框架,结合神经网络估计空间协方差矩阵与经典MUSIC子空间方法,通过频率注意力融合和自监督学习提升机器人声源定位的鲁棒性和跨域泛化能力。

2601.07052 2026-06-18 cs.RO 版本更新 专题 80

RSLCPP -- Deterministic Simulations Using ROS 2

RSLCPP——使用ROS 2进行确定性仿真

Simon Sagmeister, Marcel Weinmann, Phillip Pitschi, Markus Lienkamp

专题命中 其他机器人 :使用ROS 2实现确定性仿真,用于机器人开发

AI总结 针对ROS异步多进程设计导致仿真结果不可复现的问题,提出RSLCPP库,通过确定性回调执行实现跨平台可复现仿真,无需修改现有节点代码。

Comments Accepted for publication at the 'IEEE Robotics and Automation Practice'

2606.18688 2026-06-18 cs.LG cs.AI 新提交 专题 70

Dual-Channel Grounded World Modeling (DCGWM): Structural Prevention of Objective Interference Collapse via Heterogeneous External Grounding with Inward-Only Gradient Flow

双通道接地世界建模 (DCGWM):通过异构外部接地与内向梯度流结构性防止目标干扰崩溃

Akshay Hazare

专题命中 其他机器人 :世界模型表示学习,双通道接地

AI总结 提出双通道接地世界建模(DCGWM),通过分区潜空间和内向梯度流,结构性防止联合嵌入预测架构中多目标接地导致的目标干扰崩溃。

Comments Position paper. Experimental validation in progress