清华大学交叉信息研究院

两位被科研“耽误”的音乐制作人，荣获清华大学“挑战杯”一等奖

浏览量：2831

2022年06月09日

交叉信息院智班本科生景彦森（智90）、陈醉（智90）同学共同合作的项目Sound2Synth：自动预测合成器参数的多模态模型荣获清华大学第四十届“挑战杯”信息技术赛道一等奖。

当音乐遇上AI

音乐是时间的艺术，在音色、音调和节奏的交叉律动下，直指人们的心灵。穿越春秋冬夏，来到元宇宙时代，当音乐遇上人工智能又会擦出什么样的火花？

想要将鸟叫声做成一首音乐？想要为一部科幻电影配乐？想要定制一把异域风情的吉他？你需要一个合成器。合成器是一种通过算法生成音频波形的电子乐器：每次传入一组不同的参数，就会得到一个不同的乐器。然而，究竟哪几组参数对应鸟叫声、科幻音效、吉他呢？为合成器找到合适的参数是一个复杂的课题——电子音色设计，而这往往需要音乐工作者经过数年学习积累、熟练使用合成器。Sound2Synth旨在使用神经网络将一段音频自动转化为合成器参数，进而得到比原音频更加灵活可调节的乐器，可以显著简化音乐工作者的工作流程。除此之外，合成器参数估计问题在现代音乐工业中也有其他十分重要的应用，例如音频压缩、合成器评估等。

流程方面，景彦森和陈醉同学使用监督学习方法，将合成器参数估计问题转化为多标签分类问题进行训练。合成器参数十分庞大复杂 (例如Dexed合成器有155个参数，包括连续和离散参数)，他们提出了参数离散化、参数平滑、梯度启发权重等技巧改进了训练过程。

模型方面，两位同学使用了多模态模型，用不同的网络结构处理不同模态的音频信息，并针对CQT频谱图提出了原创模型结构质数膨胀卷积网络 (PDCNN, Prime-Dilated CNN)。

实现方面，他们自己搭建了一套远程数据集预处理、训练、测试、音频渲染、插件运行框架，兼顾真实音乐工业使用场景和个人用户使用场景。

他们的初心

景彦森：“在交叉信息院本科生这个身份之外，我同时还是一名业余电子音乐制作人。音乐的本质是声波函数的变换与叠加。从傅里叶分解的角度来看，每一首音乐作品本质上是都是若干正弦函数运算的结果。在合成器等电子音乐设备出现之前，人们获得和处理声波函数的工具十分有限。电子音乐设备的出现，极大的扩展了我们可以利用的波函数的范围。合成器的内部原理涉及到非常复杂的信号处理的算法。作为一名音乐制作人，几乎不可能完全了解市面上主流的商业合成器背后的原理，这使得利用合成器进行音色设计十分困难，几乎变成了一个在盲目尝试中碰运气的过程。然而，合成器的数学抽象则十分简单：合成器本质上是一个映射，这个映射的输入是一组参数，输出是一段音色的音频。作为智班的一名学生，我和陈醉同学很自然地想到：我们能否用深度神经网络来学习这个映射？这就是我们这个项目最初的动机。”

陈醉：“我在音乐制作过程中接触到合成器，发现自己做合成器调参工作比较困难，而参数预置则有很多，也有市场。我个人比较喜欢史诗音乐，在合成器这方面我不如做电子音乐的景彦森同学了解的多，于是就找他说了这个想法。当时他也觉得很有意思，我们就趁着暑期一起研究了这个想法，并且联系了一些学长、老师，最终合作将这件事逐步完成。因为都是智班的同学，也都是音乐爱好者，当初做项目最开始就是想到可以把专业与爱好，AI与音乐相结合。接下来我们希望继续在这个方向上做改进，完善目前的研究结果，目标是最后能落地推广成为一个让很多音乐人可以使用、喜欢使用的软件。”

景彦森、陈醉同学的兴趣缘起于人工智能交叉项目。人工智能交叉项目课程是交叉信息研究院人工智能实验班（智班）的核心课程，旨在引导同学们使用人工智能技术解决交叉领域的实际问题。本课程提供了丰富的项目主题以满足学生们多样的需求。在本年度课程中，项目主题涵盖医疗、法律、建筑、金融、音乐、经济等多个领域。景彦森、陈醉同学在交叉信息院助理教授赵行的指导下，以共同第一作者将研究成果发表在AI领域顶级会议IJCAI2022上（International Joint Conferences on Artificial Intelligence）。

论文链接：

https://arxiv.org/abs/2205.03043