首页/术语表/训练任务调度

训练任务调度

算力Training Job Scheduling

定义

AI 训练任务往往持续时间长、资源占用大,还可能需要多机多卡和高速互联。训练任务调度需要考虑队列、优先级、抢占、断点续训、拓扑感知和资源碎片整理。

它是算力调度平台区别于普通资源管理平台的重要能力。

应用场景

  • 多用户训练任务排队
  • 高优先级任务抢占资源
  • 多机多卡训练资源编排

关联资源