定义
Kubernetes 原生支持扩展资源,但复杂 GPU 场景通常还需要设备插件、队列调度、拓扑感知、共享 GPU、抢占和多租户策略。
企业级算力调度平台通常会在 Kubernetes 之上扩展更完整的运营和调度能力。
应用场景
- 容器化训练任务
- 推理服务弹性部署
- GPU 资源共享与隔离
Kubernetes 原生支持扩展资源,但复杂 GPU 场景通常还需要设备插件、队列调度、拓扑感知、共享 GPU、抢占和多租户策略。
企业级算力调度平台通常会在 Kubernetes 之上扩展更完整的运营和调度能力。