定义推理服务关注模型上线后的性能、稳定性、弹性伸缩和成本。与训练任务不同,推理通常要求低延迟、高并发和持续可用。平台需要支持模型发布、版本管理、灰度、监控、扩缩容和调用统计。应用场景智能客服模型在线服务企业知识问答模型服务工业视觉模型推理关联资源智能体开发平台