离线强化学习——从一批数据中学习一个策略——对于一般的 MDP 来说是很困难的。在这项工作中,我们探索了一类受限的 MDP,以获得离线强化学习的保证。我们称之为动作影响规则(AIR)的关键属性是动作主要影响状态的一部分(内生组件),而对状态的其余部分(外生组件)的影响有限。我们提出了一种利用 AIR 属性的算法,并为输出策略提供理论保证。最后,我们证明了我们的算法在具有规律性的模拟和现实世界环境中的不同数据收集策略中优于现有的离线强化学习算法。
论文作者:Vincent Liu, James Wright, Martha White
论文地址:
https://arxiv.org/abs/2111.08066v2