HorovodTensorFlow 分布式深度学习框架

联合创作 · 2023-09-26 04:19

Horovod 是 Uber 开源的针对 TensorFlow 的分布式深度学习框架，旨在使分布式深度学习更快速，更易于使用。

Horovod 吸取了 Facebook 的 Training ImageNet in 1 Hour（一小时训练 ImageNet）论文与百度 Ring Allreduce 的优点，为用户实现分布式训练提供帮助。该项目主要是想能够轻松采用单个 GPU TensorFlow 程序，同时也能更快地在多个 GPU 上成功地对其进行训练。使用 Horovod 我们可以不需要再去担心或学习很多东西，如 tf.Server（）、tf.ClusterSpec（）、tf.train.SyncReplicasOptimizer（）、tf.train.replicas_device_setter（）等等。

除了易于使用，Horovod 的速度也很快。下图为 Inception V3 和 ResNet-101 TensorFlow 模型在 25GbE TCP 上使用不同数量的 NVIDIA Pascal GPU 时，使用标准分布式 TensorFlow 和 Horovod 运行分布式训练工作每秒处理的图像数量对比。

浏览 21

点赞

收藏

分享

举报

评论

图片

表情

BytePS高性能分布式深度学习训练框架

BytePS 是字节跳动开源的高性能分布式深度学习训练框架，官方宣称 BytePS 在性能上颠覆了过

BytePS高性能分布式深度学习训练框架

BytePS是字节跳动开源的高性能分布式深度学习训练框架，官方宣称BytePS在性能上颠覆了过去几年allreduce流派一直占据上风的局面，超出目前其他所有分布式训练框架一倍以上的性能，且同时能够支

CaffeOnSpark分布式深度学习

该项目已归档许多现有的DL框架需要一个分离的集群进行深度学习，而一个典型的机器学习管道需要创建一个复杂的程序（如图1）。分离的集群需要大型的数据集在它们之间进行传输，从而系统的复杂性和端到端学习的延迟

CaffeOnSpark分布式深度学习

该项目已归档许多现有的DL框架需要一个分离的集群进行深度学习，而一个典型的机器学习管道需要创建一个复

Caffe深度学习框架

Caffe 是一个深度学习框架，由表达式，速度和模块化组成。Caffe 是 Berkeley Vis

Mrdflow深度学习框架

MrdFlow 的定位是基于 NumPy 的深度学习框架，采用自动微分作为求导算法，支持多种运算求导

Caffe深度学习框架

Caffe是一个深度学习框架，由表达式，速度和模块化组成。Caffe是BerkeleyVisionandLearningCenter(BVLC)社区贡献者开发的。在线演示：http://demo.ca

聊聊深度学习框架

Mrdflow深度学习框架

MrdFlow的定位是基于NumPy的深度学习框架，采用自动微分作为求导算法，支持多种运算求导。MrdFlow内置神经网络模块，可以使用MrdFlow提供的Api，编写神经网络，并进行训练。软件地址：

Deeplearning4j分布式深度学习库

Deeplearning4j（简称DL4J）是为Java和Scala编写的首个商业级开源分布式深度学习库。DL4J与Hadoop和Spark集成，为商业环境（而非研究工具目的）所设计。Skymind是

点赞

收藏

分享

举报