GPU 池化 是什么？

定义

GPU Pooling。传统上 GPU 是绑定到单台服务器的本地资源，利用率往往不到 30%。GPU 池化通过软件层（如 NVIDIA MIG、HAMi、第三方算力虚拟化方案）把物理卡切成更细粒度的"算力单元"，多个 AI 任务共享同一张卡；反向也能把多张卡聚合成一个逻辑 GPU 给大模型训练使用。

池化是智算中心提升算力利用率的关键技术，配合算力调度可以让综合利用率提升至 70%–80%。

应用场景

推理服务：多模型共享 GPU，按显存切分
开发测试环境：把高端卡切给多个工程师轻量使用
训练加速：多机多卡聚合，跨节点 NCCL 通信优化

GPU 池化

定义

应用场景

关联资源