定义
GPU Pooling。传统上 GPU 是绑定到单台服务器的本地资源,利用率往往不到 30%。GPU 池化通过软件层(如 NVIDIA MIG、HAMi、第三方算力虚拟化方案)把物理卡切成更细粒度的"算力单元",多个 AI 任务共享同一张卡;反向也能把多张卡聚合成一个逻辑 GPU 给大模型训练使用。
池化是智算中心提升算力利用率的关键技术,配合算力调度可以让综合利用率提升至 70%–80%。
应用场景
- 推理服务:多模型共享 GPU,按显存切分
- 开发测试环境:把高端卡切给多个工程师轻量使用
- 训练加速:多机多卡聚合,跨节点 NCCL 通信优化
