2017可靠系统和网络国际会议(DSN 2017)6月26至29日在美国丹佛市召开。交叉信息院徐葳助理教授研究组的研究论文《分析四年的数据中心硬件故障日志,我们学到了什么?》(What Can We Learn from Four Years of Data Center Hardware Failures?)获得最佳论文奖,是国内单位历史上首次获得此项奖励。论文第一作者、交叉信息院2014级博士研究生王国赛在大会全体会议上做了口头报告。
DSN'17指导委员会主席Felicita Di Giandomenico教授为王国赛颁发证书
论文定量分析了百度数据中心四年以来的服务器故障报告。服务器硬件故障是大规模数据中心的可靠性的重要影响因素。此前针对故障模式的研究主要集中在高性能计算集群或者单一硬件设备上。然而,数据中心普遍采用商品化的、相对不可靠硬件,同时运行高度异构的硬件和软件,这使其故障模型也相对复杂。王国赛同学全面系统地分析了过去四年百度数据中心中对上十万台服务器监控采集得到的29万条硬件故障操作单,并从时间、空间、硬件设备、产品线、运维人员的响应等多个维度分析硬件故障的规律和模式。论文不仅验证或拓展了此前相关研究提出的结论,而且从许多方面揭示了全新的故障规律和模式,核心发现包括:数据中心中硬件故障在时间上分布极不均衡,在空间上分布有时不均衡;数据中心中关联故障尤其是批次故障非常普遍;在硬件可靠性影响着软件容错设计的同时,软件的冗余也在影响着运维人员对于硬件故障的处理策略等等。这一研究对于深入理解数据中心的故障模式,以及下一代数据中心的容错的软、硬件和运维设计,都有重要的启示作用。
此项工作由徐葳研究组和和百度公司智能数据中心团队(Data Center Intelligence/Interconnection)合作完成,论文第一作者是王国赛,通讯作者是徐葳助理教授。研究工作得到国家自然科学基金、清华大学自主科研项目、教育部在线教育研究中心(全通项目)等项目经费支持。DSN是系统与网络可靠性领域的顶级会议,已经连续举办47届。本年度DSN从220篇投稿中录用了49篇论文,录用率为22.3%,其中来自国内单位的论文仅4篇。会议最佳论文奖历经程序委员会推荐、指导委员会提名的严格评选流程,最终由全体参会者在3篇提名论文中投票选出。