Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning
结构条件化的演员-评论家分支用于质量-多样性强化学习
发表机构 * School of Artificial Intelligence, Nanjing University of Information Science and Technology(南京信息工程大学人工智能学院) ; Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies, Institute of Cyberspace Security, School of Computer Science and Technology, Harbin Institute of Technology(哈尔滨工业大学计算机科学与技术学院网络空间安全研究院广东省新型安全智能技术重点实验室)
AI总结 提出SV-QD-RL框架,通过结构条件化的演员-评论家分支和分支感知的QD档案,在MuJoCo任务中构建高质量且行为多样化的策略库。