KubeDL基于 Kubernetes 的 AI 工作负载管理框架

联合创作 · 2023-09-27 11:45

KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写;旨在使深度学习工作负载能够更轻松、更高效地在 Kubernetes 上运行。KubeDL 是一个 CNCF Sandbox 项目。

其核心功能包括:

  • 在将 ML 模型部署为推理服务之前自动调整最佳容器级配置。- Morphling Github
  • 用于在 CRD 中本地跟踪模型历史的模型沿袭和版本控制:何时使用哪些数据和哪些图像训练模型、模型的每个版本、正在运行的版本等。
  • 启用利用容器映像存储和版本控制模型。每个模型版本都存储为自己的图像,以后可以使用 Serving 框架提供服务。
  • 在单个统一控制器中支持推理框架和训练工作负载(Tensorflow、Pytorch、Mars等)。

 

浏览 2
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报