DMTK微软分布式机器学习工具包

联合创作 · 2023-09-26 03:49

DMTK 是微软分布式机器学习工具包。

DMTK 包括以下几个项目：

DMTK framework(Multiverso): 参数服务器架构的机器学习

LightLDA: 用于大规模主题模型的可扩展、快速、轻量级系统.

Distributed word embedding:文字嵌入分布式算法.

Distributed skipgram mixture: 多义文字嵌入分布式算法

DMTK (Dstributed Machine Learning Toolkit) 当前包括以下组件：

DMTK分布式机器学习框架：它由参数服务器和客户端软件开发包(SDK)两部分构成。参数服务器在原有基础上从性能和功能上都得到了进一步提升 ——支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑等。客户端软件开发包(SDK)支持维护节点模型缓存(与全局模型服务器同步)、节点模型训练和模型通讯的流水线控制、以及片状调度大模型训练等。

LightLDA：LightLDA是一种全新的用于训练主题模型，计算复杂度与主题数目无关的高效算法。在其分布式实现中，我们做了大量的系统优化使得 LightLDA能够在一个普通计算机集群上处理超大规模的数据和模型。例如，在一个由8台计算机组成的集群上，可以在具有2千亿训练样本(token) 的数据集上训练具有1百万词汇表和1百万个话题(topic)的LDA模型(约1万亿个参数)，这种规模的实验以往要在数千台计算机的集群上才能运行。

分布式词向量：词向量技术近来被普遍地应用于计算词汇的语义表示，它可以用作很多自然语言处理任务的词特征。微软为两种计算词向量的算法提供了高效的分步式实现：一种是标准的word2vec算法，另一种是可以对多义词计算多个词向量的新算法。

（部分介绍来自 IT168）

浏览 31

点赞

收藏

分享

举报

评论

图片

表情

MILKPython 机器学习工具包

MILK(MACHINELEARNINGTOOLKIT)是Python语言的机器学习工具包。它主要是在很多可得到的分类比如SVMS、K-NN、随机森林以及决策树中使用监督分类法，它还可执行特征选择。这

MILKPython 机器学习工具包

MILK(MACHINE LEARNING TOOLKIT) 是 Python 语言的机器学习工具包

Waffles机器学习工具包

Waffles 英文原意是蜂蜜甜饼，在这里却指代一个非常强大的机器学习的开源工具包。Waffles里

scikit-learnPython 机器学习工具包

scikit-learn是一个Python的机器学习项目。是一个简单高效的数据挖掘和数据分析工具。基于 NumPy、SciPy 和 matplotlib 构建。Installation依赖scikit

Waffles机器学习工具包

Waffles英文原意是蜂蜜甜饼，在这里却指代一个非常强大的机器学习的开源工具包。Waffles里包含的算法特别多，涉及机器学习的方方面面，推荐系统位于其中的Waffles_recommend to

scikit-learnPython 机器学习工具包

scikit-learn 是一个 Python 的机器学习项目。是一个简单高效的数据挖掘和数据分析工

VELES分布式机器学习平台

VELES是分布式深度学习应用系统，用户只需要提供参数，剩下的都可以交给VELES。VELES使用Python编写，使用OpenCL或者CUDA，利用基于Flow的编程。VELES是三星开发的另一个T

VELES分布式机器学习平台

VELES 是分布式深度学习应用系统，用户只需要提供参数，剩下的都可以交给 VELES。VELES

Petuum分布式机器学习框架

Petuum是一个分布式机器学习框架。它致力于提供一个超大型机器学习的通用算法和系统接口。它主要集中在系统上"plumbingwork"和算法加速的优化上面，当简化分布式ML程序实现时——允许你聚焦在

Petuum分布式机器学习框架

Petuum 是一个分布式机器学习框架。它致力于提供一个超大型机器学习的通用算法和系统接口。它主要集

点赞

收藏

分享

举报