NCCL

硬件NVIDIA Collective Communications Library

定义

NCCL 负责多 GPU、多节点之间的高效通信,是大模型训练性能的重要组成部分。网络拓扑、GPU 互联、驱动版本和调度策略都会影响 NCCL 性能。

算力调度平台如果具备拓扑感知能力,可以减少不合理资源分配对训练性能的影响。

应用场景

  • 多机多卡训练
  • 大模型分布式训练
  • 训练性能调优

关联资源