arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

VLA / 视觉-语言-动作模型

视觉-语言-动作模型、机器人基础模型和语言条件机器人控制。

今日/当前日期收录 1 信号源:cs.RO, cs.CV, cs.AI, cs.LG
2606.19358 2026-06-19 cs.RO 新提交 70%

WorkBenchMark: A LEGO-Based Assembly Benchmark with an Assembly-by-Disassembly Baseline for the Smart Manufacturing League

WorkBenchMark:面向智能制造联盟的基于乐高积木的装配基准与通过拆卸进行装配的基线方法

Wenbo Ma, Daniel Swoboda, Matteo Tschesche, Till Hofmann

发表机构 * Chair of Machine Learning and Reasoning (i6), RWTH Aachen University(亚琛工业大学机器学习与推理教席(i6)) MASCOR Institute, FH Aachen University of Applied Science(亚琛应用技术大学MASCOR研究所)

专题命中 数据集与评测 :提供基线,比较VLA方法。

AI总结 提出一个基于乐高Duplo的机器人装配基准,包含400个任务和四个复杂度层级,并提供一个基于规划的基线方法,在所有层级上优于现代视觉-语言-动作方法。

Comments RoboCup Symposium 2026 accepted paper

详情
AI中文摘要

我们介绍了WorkBenchMark,一个受RoboCup智能制造联盟启发的基于乐高Duplo的机器人装配基准。机器人装配将低层操作与物理约束下的任务级符号推理相结合,当前端到端学习方法尚未可靠解决这一组合。该基准提供跨四个复杂度层级的400个任务。我们提供了一个开放词汇的感知、通过拆卸进行装配的基线解决方案。我们的基于规划的流水线在所有层级上优于现代视觉-语言-动作方法。该基准、仿真环境和基线实现将公开发布,以支持更广泛的机器人装配社区。

英文摘要

We introduceWorkBenchMark, a LEGO Duplo-based robotic assembly benchmark motivated by the RoboCup Smart Manufacturing League. Robotic assembly couples low-level manipulation with task-level symbolic reasoning under physical constraints, a combination that current end-to-end learning methods do not yet solve reliably. The benchmark provides 400 tasks across four complexity tiers. We provide an open-vocabulary perception, Assembly-by-Disassembly baseline solution. Our planning-based pipeline outperforms a modern vision-language-action approach across all tiers. The benchmark, simulation environment, and baseline implementation will be released openly to support the broader robotic assembly community.