利用动作影响规律和外生状态变量进行离线强化学习

  离线强化学习——从一批数据中学习一个策略——对于一般的 MDP 来说是很困难的。在这项工作中,我们探索了一类受限的 MDP,以获得离线强化学习的保证。我们称之为动作影响规则(AIR)的关键属性是动作主要影响状态的一部分(内生组件),而对状态的其余部分(外生组件)的影响有限。我们提出了一种利用 AIR 属性的算法,并为输出策略提供理论保证。最后,我们证明了我们的算法在具有规律性的模拟和现实世界环境中的不同数据收集策略中优于现有的离线强化学习算法。

论文作者:Vincent Liu, James Wright, Martha White

论文地址:

https://arxiv.org/abs/2111.08066v2

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余

给TA买糖
共{{data.count}}人
人已赞赏
论文推荐

FigARO:通过精细的艺术控制生成符号音乐

2022-2-9 14:39:23

新闻动态

Tips Bet on Sporting events For starters

2022-9-10 18:36:04

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
搜索