ElasticDLKubernetes 原生深度学习框架
ElasticDL 是一个基于 TensorFlow 2.0 构建的 Kubernetes 原生深度学习框架,支持容错和弹性调度。
TensorFlow 具有故障可恢复的原生分布式计算功能,在某些进程挂掉的情况下,分布式计算作业将停止,但是可以重新启动作业并从最新的检查点文件中恢复其原有状态。
ElasticDL 在此基础上支持容错。ElasticDL 不需要检查点也不需要从检查点恢复,在某些进程挂掉的情况下,该作业将继续运行。
容错的特性使得 ElasticDL 与基于优先级的 Kubernetes 抢占一起实现了弹性调度能力。当 Kubernetes 杀死某个作业的某些进程以为具有更高优先级的新作业释放资源时,当前作业不会停止,而是使用更少的资源继续运作。弹性调度可以显着提高集群的整体利用率。
ElasticDL 弹性调度的特点来自其 Kubernetes 原生设计,它不依赖于像 Kubeflow 这样的 Kubernetes 扩展来运行 TensorFlow 程序。ElasticDL 作业的主进程直接调用 Kubernetes API 来启动工作程序和参数服务器,它还会监视诸如 process/pod killing 之类的事件,并对此类事件做出反应以实现容错。
此外,ElasticDL 还可以与 SQLFlow 配合,更加易于使用。
评论
Caffe深度学习框架
Caffe是一个深度学习框架,由表达式,速度和模块化组成。Caffe是BerkeleyVisionandLearningCenter(BVLC)社区贡献者开发的。在线演示:http://demo.ca
Caffe深度学习框架
0
Mrdflow深度学习框架
MrdFlow的定位是基于NumPy的深度学习框架,采用自动微分作为求导算法,支持多种运算求导。MrdFlow内置神经网络模块,可以使用MrdFlow提供的Api,编写神经网络,并进行训练。软件地址:
Mrdflow深度学习框架
0
Jina-AI基于深度学习的云原生搜索框架
Jina让你在几分钟内即可构建基于深度学习的搜索即服务。它具有以下特性:支持所有数据类型:大规模的索引数据及查询诸如视频、图像、源代码等非结构化数据云原生:一开始就采用分布式架构,支持容器化、分布式、
Jina-AI基于深度学习的云原生搜索框架
0
MegEngine(天元)深度学习框架
MegEngine(天元)是一个快速,可扩展,易于使用且支持自动求导的深度学习框架,中文名为“天元”,是旷视AI战略的重要组成部分,负责AI三要素(算法,算力,数据)中的“算法”。特点:一是“训练推理
MegEngine(天元)深度学习框架
0