图片 1.png    
AI智算纳管系统架构
纳管架构.png        

智算纳管

实现对各厂商算力设备与GPU的统一接入与池化管理            

AI算力调度

基于智能调度策略把训推作业调度到适合的GPU池上            

算力服务化

实现算力资源的分级分权的服务化和多租户管理            

运营分析

实现算力资源分析、优化分析,运营月报        

算力观测

实现算力资源的各维度监控与可视化展示        
AI智算管理系统的功能实现
智算纳管.png                

智算纳管

智能算力感知、算力共享与隔离管理、QoS管理、算力作业编排。                
GPU池化管理.png                

GPU池化管理

实现将裸金属设备纳管并池化至容器集群,通过使用调度优化等技术,成功实现了对各种主流架构的GPU、NPU等算力资源池化和管理。                
算力调度.png                

算力调度

调度策略,包括:完全就绪策略、防碎片策略、SLA策略等,智能适配,协同计算。                
算力服务化管理.png                

算力服务化管理

告警事件通过包括短信,邮件,微信,声光提示等在内的各种方式及时通知相关人员。                
算力运营分析.png                

算力运营分析

算力资源分析、资源优化、资源总览。                
算力观测.png                

算力观测

从算力设备到训推作业的角色化,指标化监控,包括:GPU卡分配率,使用率,训练作业GPU使用率等。                
算力资源总览
提供实时性能展示,AI资源总计总卡时,AI算力占用率。部门资源排名情况,实时资源占用排行,月度作业提交排行,企业月度资源使用排行。为运营决策提供数据支持。
图片 3.png    
算力资源可视化分析和展示
提供基于客户维度的资源费用统计、实时资源占用率、累计出账费用占比、有效算力趋势、资源占用趋势和累计出账费用趋势的展示。
可视化分析和展示.png

算力资源池化管理

将裸金属设备纳管并池化至容器集群,通过使用调度优化等技术,成功实现了对各种主流架构的GPU、NPU等算力资源池化和管理    
某典型AI智算中心案例
某典型AI智算中心案例.png    
下载信息