定义AI 训练任务往往持续时间长、资源占用大,还可能需要多机多卡和高速互联。训练任务调度需要考虑队列、优先级、抢占、断点续训、拓扑感知和资源碎片整理。它是算力调度平台区别于普通资源管理平台的重要能力。应用场景多用户训练任务排队高优先级任务抢占资源多机多卡训练资源编排关联资源算力调度与管理平台