OpenI-Octopus集群管理工具和资源调度平台

联合创作 · 2023-09-27 02:35

OpenI-Octopus是一个集群管理工具和资源调度平台,它结合了一些在大规模生产环境中表现良好的成熟设计,主要为提升学术研究效率,复现学术研究成果而量身打造。

特点

  • 基于Kubernetes开发资源调度平台,以镜像方式管理任务运行环境,一次配置随处可用;
  • 针对AI场景设计,AI场景的任务调度和任务启动有一定特殊性,如PS-Worker架构的分布式任务,需要至少满足两个角色的资源请求才能启动任务,否则即使启动任务也会造成资源浪费,而OpenI-Octopus针对类似场景做了很多设计和优化;
  • 插件式设计理念,以核心的业务流为基础,通过插件化的方式提供扩展性,不限制插件开发语言;
  • 易于部署,OpenI-Octopus支持helm方式的快速部署,同时支持服务的自定义部署;
  • 支持异构硬件,如GPU、NPU、FPGA等,由于采用OpenI-Octopus基于Kubernetes开发,可自定义不同异构硬件插件;
  • 支持多种深度学习框架,如 tensorflow、pytorch、paddlepaddle等,并通过镜像方式可方便的支持新增框架。

适用场景

  • 构建大规模AI计算平台;
  • 希望共享计算资源;
  • 希望在统一的环境下完成模型训练;
  • 希望使用集成的插件辅助模型训练,提升效率。

系统结构

浏览 15
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报