KubeDL基于 Kubernetes 的 AI 工作负载管理框架
KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写;旨在使深度学习工作负载能够更轻松、更高效地在 Kubernetes 上运行。KubeDL 是一个 CNCF Sandbox 项目。
其核心功能包括:
- 在将 ML 模型部署为推理服务之前自动调整最佳容器级配置。- Morphling Github
- 用于在 CRD 中本地跟踪模型历史的模型沿袭和版本控制:何时使用哪些数据和哪些图像训练模型、模型的每个版本、正在运行的版本等。
- 启用利用容器映像存储和版本控制模型。每个模型版本都存储为自己的图像,以后可以使用 Serving 框架提供服务。
- 在单个统一控制器中支持推理框架和训练工作负载(Tensorflow、Pytorch、Mars等)。
评论
Omnia管理 HPC 和 AI 工作负载的工具
Omnia由戴尔HPC、英特尔和亚利桑那州立大学联合开发,能够让客户更容易管理高性能计算、人工智能和数据分析工作负载。Omnia可以自动下载和安装开源软件,如集群管理、应用程序执行、加速器驱动程序、框
Omnia管理 HPC 和 AI 工作负载的工具
0
Otomi基于 Kubernetes 的管理平台
Otomi是一个基于Kubernetes的开源平台,它提供了类似于Linux桌面环境的用户界面,使用者可以像部署Linux中的软件包一样部署Kubernetes中的应用,默认已经集成了Istio、Kn
Otomi基于 Kubernetes 的管理平台
0