近日,交叉信息研究院2018级在读硕士生刘俊林、陈奕熹和交叉信息研究院助理教授吴文斐等作者合作完成的论文《ATP:面向多租户的深度学习训练聚合传输协议》(ATP: Innetwork Aggregation for Multitenant Learning)获得第18届USENIX网络系统设计与实现年会(Symposium on Network System Design and Implementation)最佳论文奖。这是清华大学首次以第一作者单位获得该会议的最佳论文奖,亦是中国高校(含港澳台地区)首次在该会议取得最佳论文奖。
图1 吴文斐研究组
随着机器学习数据量和模型规模的扩大以及其应用场景的扩展(例如联邦学习),机器学习系统逐步以分布式的方式来部署和实现,尤其是在数据中心或多租户多训练工作同步进行的私有集群场景。在最近的一些工作指出,部分训练工作的网络传输时长占着训练时间愈来愈高的比例,甚至已经成为瓶颈,制约着分布式学习系统的整体效率。与此同时,通过对分布式学习训练的研究,文章作者注意到分布式训练的网络传输部分有着可以优化的流量模式,再利用与可编程网络的共同设计,提出了ATP系统。
图2 ATP 聚合过程图示
ATP是一套面向于多租户多机架场景的机器学习训练加速协议,利用可编程交换机技术对分布式训练的网络传输部分进行聚合优化,建立了一套由终端主机网络协议栈和可编程交换机共同交互组成的高速分布式训练协议,在网络中提供尽力服务(best-effort)及资源动态分配(dynamic)的聚合语义,并考虑了多租户场景下的竞争策略,重新设计了丢包恢复和拥塞控制算法。实验表明ATP协议在各个不同的模型中效能超越了现时主流通用的分布式框架,并在竞争严重的多租户场景下维持了十分良好的效能。
图3 ATP 与不同体系结构的训练效果的对比
此项工作由吴文斐助理教授研究组与威斯康星大学麦迪逊分校Aditya Akella教授研究组合作完成。刘俊林同学为论文第一作者,吴文斐助理教授为通讯作者。
NSDI是USENIX旗下的旗舰会议之一,也是计算机网络系统领域的顶级会议。NSDI侧重于网络系统的设计与实现,享负盛名的大数据系统Spark就发表在2012年的NSDI大会上,并取得当年的最佳论文奖。本届NSDI大会共收到369篇投稿论文,并最终接收59篇,接收率为16%,每届NSDI大会都会评选出1篇最佳论文。