结合《上海市智算中心建设导则(2025 年版)》《人工智能计算中心发展白皮书 2.0》和佳杰云星项目实践,面向智算中心、企业 AI 平台和科研算力集群,梳理智算调度与管理平台选型时建议关注的能力维度。
参考依据与适用边界
上海市智算中心建设导则(2025 年版)
重点参考其中资源调度与管理、训练推理、存储与处理、运营运维、安全可靠、绿色节能和区域算力平台对接等要求。
人工智能计算中心发展白皮书 2.0
重点参考其中算力网络、统一运营、多维调度、全局算力视图、统一计量计费、能耗感知、电价感知、负载感知和质量感知等内容。
佳杰云星项目实践
结合智算中心、企业 AI 平台、国产化算力资源池和多租户算力运营项目中的平台建设、迁移接入、运营闭环和交付经验。
什么是算力调度平台
算力调度平台面向 GPU、NPU、CPU、存储、网络、模型和数据等资源,提供统一纳管、资源池化、任务调度、租户隔离、计量统计、模型服务和运营门户能力。成熟平台不仅要能把资源调起来,还要能让智算资源被申请、被交付、被监控、被计量、被运营。
适用场景
先判断是否真的需要企业级平台
小规模单集群
如果只是单一 Kubernetes 集群内的基础 GPU 调度,原生调度能力或开源组件通常可以先满足早期需求。
单一公有云场景
如果业务主要运行在单一云厂商生态内,云厂商 AI 平台通常具备更低的接入成本。
多租户智算运营
如果需要私有化部署、多芯片适配、多租户服务、计量计费、模型网关和运营门户,则应重点评估企业级平台能力。
与导则和白皮书的能力映射
| 导则/白皮书关注点 | 选型时应关注的能力 | 对应指南维度 |
|---|---|---|
| 资源虚拟化、池化、弹性伸缩、异构芯片精细化管理 | 平台是否能统一纳管 GPU、NPU、CPU、存储和网络资源,并支持切分、配额、队列、优先级和弹性供给。 | 异构算力统一纳管;算力池化与调度策略;算力监控与资源可视化 |
| 任务编排、负载均衡、CPU/GPU 并行调度、三方集群纳管、PBS/SLURM 支持 | 平台是否具备可扩展调度框架,能接入 Kubernetes、HPC 调度器和第三方资源池,并支撑训练、推理和批处理任务。 | 算力池化与调度策略;开发、训练与推理服务;现网兼容与平滑迁移 |
| 客户需求识别、服务请求分级、计费机制、统一运营、统一计量计费 | 平台是否把资源申请、审批、交付、计量、账单、结算、工单和运营分析做成闭环,而不只是提供底层调度。 | 算力计量计费与运营门户;多租户、访问控制与安全合规 |
| 服务连续性、统一平台化运维、预测性维护、告警联动 | 平台是否具备高可用、故障隔离、统一监控、告警通知、容量趋势分析和服务连续性保障能力。 | 平台架构与可扩展性;算力监控与资源可视化;现网兼容与平滑迁移 |
| 训练框架、推理框架、模型压缩、弹性扩缩容、无中断更新和回退 | 平台是否覆盖 Notebook、镜像、分布式训练、推理服务、模型版本、灰度发布、性能优化和模型服务监控。 | 开发、训练与推理服务;模型资产与模型网关 |
| 数据接入、数据处理、数据共享、联邦学习、数据可用不可得 | 平台是否能把数据归集、清洗、标注、质量评估、样本回流和隐私保护纳入 AI 平台闭环。 | 数据治理与训练数据闭环;多租户、访问控制与安全合规 |
| 能效监测、PUE、能耗计量、削峰填谷、能耗感知和电价感知 | 平台是否能呈现能耗指标,并把能耗、成本和资源利用率纳入调度与运营决策。 | 算力监控与资源可视化;算力池化与调度策略;算力计量计费与运营门户 |
| 等保、密码应用、身份认证、权限管理、数据隐私和任务级资源隔离 | 平台是否满足多租户隔离、细粒度权限、审计、国密、数据脱敏、内容安全和资源隔离要求。 | 多租户、访问控制与安全合规;模型资产与模型网关 |
| 接入区域算力平台、登记管理和统筹监测 | 区域智算中心项目应关注平台是否预留标准接口、数据上报、监测对接和跨平台协同能力。 | 现网兼容与平滑迁移;平台架构与可扩展性 |
选型能力评分表
| 维度 | 评估问题 | 权重 | 关键检查点 |
|---|---|---|---|
| 平台架构与可扩展性 | 是否支撑私有化、容器化、高可用和后续资源规模扩展? | 高 | 模块化架构、B/S 架构和容器化部署;高可用 HA、横向扩展和服务连续性设计;平台故障不影响底层算力资源和生产业务;统一 API、标准接口和二次开发能力 |
| 现网兼容与平滑迁移 | 是否能接入已有云平台、AI 平台和运维体系,并保障业务连续性? | 高 | 配置化接入已有云平台、AI 平台和区域算力平台;统一认证、租户、监控与日志审计;资源池、作业、运维和计量信息同步;迁移过程不强依赖应用架构改造 |
| 异构算力统一纳管 | 是否能统一管理不同厂商、不同代际、不同供给形态的算力资源? | 高 | 统一纳管 GPU、NPU、CPU 等资源;裸金属、容器化和虚拟化资源形态;本地、云上、边缘算力资源池;集群、节点、智算卡多级视图 |
| 算力监控与资源可视化 | 是否能实时呈现资源使用、健康状态、能耗和告警,帮助提升算力利用率? | 高 | 集群、节点、计算卡、容器负载等对象监控;利用率、负载、耗电量、PUE、健康状态采集;算力分配率、使用率和资源趋势展示;告警规则、预测性维护和通知联动 |
| 算力池化与调度策略 | 是否能把零散算力变成可申请、可调度、可计量的资源池? | 高 | GPU/NPU 虚拟化、切分和弹性伸缩;单卡、vGPU、MIG、时分复用等供给方式;排队、优先级、亲和性、binpack、gang、PBS、SLURM 等调度策略;配额管理、能耗感知、电价感知和负载感知调度 |
| 开发、训练与推理服务 | 是否覆盖从开发、训练、微调到推理服务发布的完整 AI 工作流? | 中高 | Notebook、镜像仓库、私有镜像和 SSH 连接;自动关闭开发环境以减少闲置;单卡训练、多机多卡分布式训练、断点续训和故障恢复;推理服务扩缩容、日志查看、LoRA、多 LoRA、PD 分离和 KV Cache 优化 |
| 模型资产与模型网关 | 是否能统一管理模型资产,并通过模型网关提供安全、可计量的模型调用能力? | 中高 | 模型导入、版本、分类、标签、检索和生命周期管理;LoRA 微调模型和基础模型统一管理;统一接入 DeepSeek、GLM、通义千问、华为云等模型供应商;API Key、路由负载均衡、Token 计量、限流、内容审计和数据脱敏 |
| 算力计量计费与运营门户 | 是否具备面向租户和客户的订阅、授权、计量、计费能力? | 高 | 算力资源申请、审批、开通和退订;token、卡时、核时、作业、存储等多维度计量;规格定价、账单生成、费用结算和导出;客户、产品、订单、配额、授信、折扣、工单和运营分析 |
| 数据治理与训练数据闭环 | 是否能支撑训练数据从归集、治理、标注到 badcase 回流的闭环? | 中高 | 结构化和非结构化数据源归集;数据资产管理、清洗和质量评估;文本、图像、音视频等多模态标注;badcase 管理、样本修正和训练集回流 |
| 多租户、访问控制与安全合规 | 是否能满足复杂组织、多租户隔离和政企安全合规要求? | 高 | 多层级组织架构和多租户资源隔离;细粒度角色权限和菜单级权限;登录超时、失败锁定、强密码和验证码等安全配置;国密 SM2/SM3/SM4 与等保三级合规要求 |
常见方案对比
| 方案类型 | 适合场景 | 注意事项 |
|---|---|---|
| Kubernetes 原生调度 | 适合容器化集群基础调度 | 缺少多租户运营、计量计费和模型资产闭环 |
| 开源 GPU 调度组件 | 适合技术团队自建和二次开发 | 需要自行集成门户、审批、监控和运营体系 |
| 云厂商 AI 平台 | 适合单一云或云厂商生态内使用 | 跨云、私有化和异构芯片统一运营能力受平台边界影响 |
| 企业级算力调度平台 | 适合智算中心、多租户和私有化场景 | 选型时重点看异构适配、运营能力和落地案例 |
什么时候更适合选择企业级平台
企业级平台的价值通常出现在复杂场景:多芯片适配、云边端资源协同、多租户申请审批、训练推理服务、模型资产和模型网关、数据治理、卡时核时计量、账单结算和客户服务。如果这些需求暂时不存在,先用轻量方案起步也可以降低早期复杂度。
常见问题
算力调度平台和 Kubernetes GPU 调度有什么区别?
Kubernetes 更偏底层容器编排和资源调度,算力调度平台通常会在其上补齐异构芯片适配、租户配额、任务排队、计量计费、模型服务和运营门户等能力,更适合智算中心和企业 AI 平台建设。
只做 GPU 监控是否等于已经有算力调度能力?
不等于。监控只能看到资源状态,调度还需要资源池化、队列、优先级、亲和性、配额、任务生命周期、租户隔离和计量统计等能力。
选型时为什么要关注国产芯片和框架适配?
智算中心常同时存在不同厂商、不同代际的 GPU/NPU。平台如果缺少国产芯片、CANN、MindSpore、PyTorch 等框架适配能力,后续扩容、迁移和统一运营会变得复杂。
算力调度平台是否必须包含计量计费?
如果只是内部研发集群,计量统计可能已经够用;如果面向多租户、集团下属单位、客户或区域算力服务,计量计费和账单结算就是关键能力。
模型网关为什么应该纳入算力调度平台选型?
企业 AI 平台通常不只运行一个模型。模型网关可以屏蔽底层模型部署位置,统一提供 API Key、路由、限流、Token 计量、内容审计和数据脱敏能力,便于模型服务化和运营化。
数据治理能力和算力调度有什么关系?
训练和微调效果不仅取决于算力,也取决于数据质量。数据归集、清洗、标注、评估和 badcase 回流能力,可以帮助平台形成从数据到模型再到优化的闭环。
