演讲人:
孙桢波 清华大学计算机系
时间: 2025-01-15 14:00-2025-01-15 15:00
地点:钉钉会议:https://meeting.dingtalk.com/j/pcNLfAKZzFC (https://meeting.dingtalk.com/j/pcNLfAKZzFC)
内容:
随着模型规模和数据集的增长,大模型预训练需要消耗更大的存储资源和计算资源。目前被广泛使用的流水线并行化引入了严重且不平衡的存储消耗。重计算能够缓解存储的开销,但会带来额外的计算开销。我们设计的AdaPipe旨在找到优化的重计算和流水线阶段分区策略。AdaPipe采用自适应重计算来最大化显存利用率并减少每个流水阶段的计算成本。同时采用了灵活的阶段分区算法来平衡不同流水阶段的计算负载。AdaPipe在64卡的NVIDIA GPU集群和千卡昇腾NPU的集群上分别实现了高达1.32倍和1.22倍的速度提升。
个人简介:
孙桢波,清华大学计算机系博士生,导师为陈文光教授,主要研究方法为大模型预训练系统优化。