RDMA

硬件Remote Direct Memory Access

定义

RDMA 允许服务器之间绕过传统内核网络栈直接访问内存,从而降低延迟和 CPU 开销。大模型训练、多机多卡通信和高性能存储场景经常依赖 RDMA 网络。

智算平台需要把网络能力纳入资源视图和任务调度考虑。

应用场景

  • 大模型多机训练
  • 高性能存储访问
  • GPU 集群高速互联

关联资源