Omnia管理 HPC 和 AI 工作负载的工具
Omnia 由戴尔 HPC、英特尔和亚利桑那州立大学联合开发,能够让客户更容易管理高性能计算、人工智能和数据分析工作负载。
Omnia 可以自动下载和安装开源软件,如集群管理、应用程序执行、加速器驱动程序、框架、应用程序和平台,在运行基于 RPM 的 Linux 操作系统的服务器上基于 Ansible playbook 部署 Slurm 和 Kubernetes。
Omnia 将从以下来源安装软件,其中包括:
- 标准 CentOS 和 ELRepo 存储库;
- Helm 存储库;
- 源码编译;
- OpenHPC 存储库;
- OperatorHub;
软件与硬件要求:
- 管理节点上安装的操作系统:CentOS 7.9 2009;
- Omnia 在裸机服务器上部署的操作系统:CentOS 7.9 2009 Minimal Edition;
- Cobbler:2.8.5;
- Ansible AWX:15.0.0;
- Slurm 工作负载管理器:20.11.2;
- Kubernetes 控制器:1.16.7;
- Kubeflow:1;
- Prometheus:2.23.0;
- 支持的 PowerEdge servers:R640, R740, R7525, C4140, DSS8440, and C6420;
评论