-
利用动作影响规律和外生状态变量进行离线强化学习
离线强化学习——从一批数据中学习一个策略——对于一般的 MDP 来说是很困难的。在这项工作中,我们探索了一类受限的 MDP,以获得离线强化学习的保证。我们称之为动作影响规则(AIR)的关键属性是动作主要影响状态的一部分(内生组件),而对状态的其余部分(外生组件)的影响有限。我们提出了一种利用 AIR 属性的算法,并为输出策略提供理论保证。最后,我们证明了我们的算法在具有规律性的模拟和现实世界环… -
FigARO:通过精细的艺术控制生成符号音乐
近年来,使用深度神经网络生成音乐一直是一个活跃的研究领域。虽然生成样本的质量一直在稳步提高,但大多数方法只能对生成的序列施加最小的控制(如果有的话)。我们提出了自监督\emph{description-to-sequence}任务,该任务通过提取有关目标序列的高级特征并在给定相应高级描述的情况下学习序列的条件分布,从而允许在全局级别上进行细粒度可控生成在序列到序列建模设置中。我们通过将 \em… -
StyleGAN-XL:将 StyleGAN 扩展到大型多样化数据集
最近,计算机图形学经历了以数据为中心的方法的激增,用于照片级逼真和可控的内容创建。StyleGAN 尤其为关于图像质量和可控性的生成建模设定了新标准。然而,StyleGAN 的性能在 ImageNet 等大型非结构化数据集上严重下降。StyleGAN 是为可控性而设计的;因此,先前的工作怀疑其限制性设计不适合不同的数据集。相比之下,我们发现主要的限制因素是当前的训练策略。遵循最近引入的投影 G… -
排名信息噪声对比估计:通过排名正面促进对比学习
本文介绍了排名信息噪声对比估计 (RINCE),它是 InfoNCE 损失家族中的一个新成员,它保留了正样本的排名顺序。与标准的 InfoNCE 损失相比,标准的 InfoNCE 损失需要将训练对严格地二进制分离为相似和不相似的样本,而 RINCE 可以利用关于相似度排名的信息来学习相应的嵌入空间。我们表明,与标准 InfoNCE 相比,只要至少可以获得嘈杂的排名信息或当正面和负面的定义模糊时…
❯
个人中心
搜索
扫码打开当前页
关注公众号号
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!