Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates
AI总结 本文提出了一种名为 Trust Region Inverse Reinforcement Learning(TRIRL)的逆强化学习方法,旨在在无需每次迭代都完整求解强化学习问题的前提下,实现奖励函数和策略的单调改进。其核心思想是通过信任区域优化策略,在当前策略附近进行局部搜索,从而显式优化对偶目标。该方法在保持对偶改进单调性的同时,避免了对抗方法的训练不稳定性,并在多个复杂任务中表现出色,奖励函数也具有对系统动态变化的鲁棒性。
Comments Accepted as a conference paper at the International Conference on Machine Learning (ICML) 2026