近年来,使用深度神经网络生成音乐一直是一个活跃的研究领域。虽然生成样本的质量一直在稳步提高,但大多数方法只能对生成的序列施加最小的控制(如果有的话)。我们提出了自监督\emph{description-to-sequence}任务,该任务通过提取有关目标序列的高级特征并在给定相应高级描述的情况下学习序列的条件分布,从而允许在全局级别上进行细粒度可控生成在序列到序列建模设置中。我们通过将 \emph{description-to-sequence} 建模应用于符号音乐来训练 FIGARO(通过基于注意力的 RObustcontrol 生成细粒度音乐)。通过将学习到的高级特征与领域知识相结合,作为一种强烈的归纳偏差,
论文作者:Dimitri von Rütte, Luca Biggio, Yannic Kilcher, Thomas Hoffman
论文地址:https://arxiv.org/abs/2201.10936v1