ElasticDLKubernetes 原生深度学习框架

联合创作 · 2023-09-26 05:16

ElasticDL 是一个基于 TensorFlow 2.0 构建的 Kubernetes 原生深度学习框架，支持容错和弹性调度。

TensorFlow 具有故障可恢复的原生分布式计算功能，在某些进程挂掉的情况下，分布式计算作业将停止，但是可以重新启动作业并从最新的检查点文件中恢复其原有状态。

ElasticDL 在此基础上支持容错。ElasticDL 不需要检查点也不需要从检查点恢复，在某些进程挂掉的情况下，该作业将继续运行。

容错的特性使得 ElasticDL 与基于优先级的 Kubernetes 抢占一起实现了弹性调度能力。当 Kubernetes 杀死某个作业的某些进程以为具有更高优先级的新作业释放资源时，当前作业不会停止，而是使用更少的资源继续运作。弹性调度可以显着提高集群的整体利用率。

ElasticDL 弹性调度的特点来自其 Kubernetes 原生设计，它不依赖于像 Kubeflow 这样的 Kubernetes 扩展来运行 TensorFlow 程序。ElasticDL 作业的主进程直接调用 Kubernetes API 来启动工作程序和参数服务器，它还会监视诸如 process/pod killing 之类的事件，并对此类事件做出反应以实现容错。

此外，ElasticDL 还可以与 SQLFlow 配合，更加易于使用。

浏览 23

点赞

收藏

分享

举报

评论

图片

表情

Mrdflow深度学习框架

MrdFlow 的定位是基于 NumPy 的深度学习框架，采用自动微分作为求导算法，支持多种运算求导

Caffe深度学习框架

Caffe 是一个深度学习框架，由表达式，速度和模块化组成。Caffe 是 Berkeley Vis

Caffe深度学习框架

Caffe是一个深度学习框架，由表达式，速度和模块化组成。Caffe是BerkeleyVisionandLearningCenter(BVLC)社区贡献者开发的。在线演示：http://demo.ca

聊聊深度学习框架

Mrdflow深度学习框架

MrdFlow的定位是基于NumPy的深度学习框架，采用自动微分作为求导算法，支持多种运算求导。MrdFlow内置神经网络模块，可以使用MrdFlow提供的Api，编写神经网络，并进行训练。软件地址：

Jina-AI基于深度学习的云原生搜索框架

Jina让你在几分钟内即可构建基于深度学习的搜索即服务。它具有以下特性：支持所有数据类型：大规模的索引数据及查询诸如视频、图像、源代码等非结构化数据云原生：一开始就采用分布式架构，支持容器化、分布式、

MegEngine（天元）深度学习框架

MegEngine（天元）是一个快速，可扩展，易于使用且支持自动求导的深度学习框架，中文名为“天元”，是旷视AI战略的重要组成部分，负责AI三要素（算法，算力，数据）中的“算法”。特点：一是“训练推理

OneFlow通用深度学习框架

OneFlow 是一个采用全新架构设计的工业级通用深度学习框架。OneFlow 率先提出了静态调度和

HorovodTensorFlow 分布式深度学习框架

Horovod是Uber开源的针对 TensorFlow 的分布式深度学习框架，旨在使分布式深度学习更快速，更易于使用。Horovod吸取了Facebook的 TrainingImageNetin1H

深度学习框架这几年

机器学习实验室

点赞

收藏

分享

举报