From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation
AI总结 该论文研究了如何将视频生成模型预测的未来场景有效转化为机器人可执行的动作,解决了现有方法在视觉真实感与控制相关性之间不匹配的问题。为此,作者提出了MoLA(Mixture of Latent Actions)方法,通过预训练的逆动力学模型从生成的视频中推断出潜在动作的混合表示,从而实现更稳定和可控的策略执行。实验表明,该方法在多个仿真和真实机器人任务中提升了任务成功率与泛化能力。
Comments ICML 2026