第2章 分布式系统:AI大模型的诞生之所

本章将探索深度学习与分布式系统的关系,介绍从分布式计算发展到分布式AI系统,深入讨论大规模分布式训练平台的关键技术以及Colossal-AI应用实践。接着,将介绍大模型训练方法,包括梯度累积和梯度剪裁、大批量优化器LARS/LAMB,以及模型精度与混合精度训练。之后,还将探讨异构训练的基本原理和实现策略。最后提供实战分布式训练的指南,包括Colossal-AI环境搭建和使用Colossal-AI训练第一个模型,以及针对AI大模型的异构训练策略。通过本章的学习,读者将深入了解分布式系统在大模型训练中的关键技术和实践经验,为构建高效的分布式AI系统提供有力支持。