批处理分层强化学习算法

作者: Tiancheng Zhao, Mohammad Gowayyed 2016-03-26 0

层次强化学习(HRL)利用时间抽象来解决大型马尔科夫决策过程(MDP)问题,并提供可转移的子任务策略。本文介绍了一种非策略HRL算法:层次q值迭代(HQI)。我们证明了它是有可能有效地学习递归最优策略的任何有效的层次分解的原始MDP,给定一个固定的数据集收集从一个平坦的随机行为策略。我们首先正式证明了该算法的收敛性。我们在Taxi域上的实验表明,HQI比平坦的q值迭代收敛更快,且易于状态抽象。此外,我们还证明了我们的算法能够从相同的固定数据集中学习不同层次结构的最优策略,从而能够在不重新收集数据的情况下进行模型比较。