定义
NCCL 负责多 GPU、多节点之间的高效通信,是大模型训练性能的重要组成部分。网络拓扑、GPU 互联、驱动版本和调度策略都会影响 NCCL 性能。
算力调度平台如果具备拓扑感知能力,可以减少不合理资源分配对训练性能的影响。
应用场景
- 多机多卡训练
- 大模型分布式训练
- 训练性能调优
NCCL 负责多 GPU、多节点之间的高效通信,是大模型训练性能的重要组成部分。网络拓扑、GPU 互联、驱动版本和调度策略都会影响 NCCL 性能。
算力调度平台如果具备拓扑感知能力,可以减少不合理资源分配对训练性能的影响。