跨多个节点运行训练作业的规模非常好。一个常见的假设是,规模不可避免地意味着减速:更多的 GPU 意味着更多的同步开销,尤其是在多个节点通过网络进行通信的情况下。但是我们观察到性能损失并不像您想象的那么严重。相反,我们发现了接近线性的强缩放:固定全局批量大小并在更多 GPU 上进行训练导致训练吞吐量成比例增加。在 1.3B 参数模型上,4 个节点意味着 3.9 倍于一个节点的增益。在 16 个节点上,它是 14.4 倍。这在很大程度上要归功于主要云提供商内置的超快速互连:@awscloud EC2 P4d 实例提供 400 Gbps 网络带宽,@Azure 提供 1600 Gbps,@OraclePaaS 提供 800 Gbps。
—林登李
原文: http://simonwillison.net/2022/Sep/24/linden-li/#atom-everything