Fregata轻量级大规模机器学习算法库

联合创作 · 2023-09-26 03:53

Fregata 是一个基于 Apache Spark 的轻量级、超快速、大规模的机器学习库，并在 Scala 中提供了高级 API。

特性

更准确：对于各种问题，Fregata 可以实现比 MLLib 更高的精度。

更快速：对于广义线性模型，Fregata 在绝大部分数据上都能够扫描一遍数据即收敛。对于 10 亿 X 10 亿的数据集，Fregata 可以在 1 分钟内用内存缓存训练广义线性模型，或在没有内存缓存的情况下训练 10 分钟。通常，Fregata 比 MLLib 快 10-100 倍。

算法无需调参（调参相对简单）：Fregata 使用 GSA SGD 优化。GSA 算法是梯度型随机优化算法，也是 Fregata采用的核心优化方法。它是基于随机梯度下降法(SGD)的一种改进：保持了 SGD 易于实现，内存开销小，便于处理大规模训练样本的优势，同时免去了 SGD 不得不人为调整学习率参数的麻烦。

更轻量：Fregata 只使用 Spark 的标准 API，能快速，无缝地集成到 Spark 大多数业务的数据处理流程上。

架构

这份文档是关于 Fregata 0.1 版本的

core : 主要实现基于 GSA 的独立算法，包括分类、回归和聚类分析

Classification：支持二进制和多重分类

Regression：即将发布

Clustering：即将发布

spark : 主要通过包裹 core.jar 实现基于 spark 的大规模机器学习算法，并提供相应的算法

Fregata 支持 spark 1.x 以及带 scala 2.10 和 scala 2.11 的 2.x

算法

Logistic Regression

Combine Freatures Logistic Regression

SoftMax

RDT

浏览 21

点赞

收藏

分享

举报

评论

图片

表情

OpenSATSAT算法库

OpenSAT是一个旨在开发SAT算法的项目。关于SAT算法请看：sat2_sjtu_zhaoshuang.pdf

SAT4JSAT算法库

OpenSAT是一个Java实现的SAT算法库。关于SAT算法请看：sat2_sjtu_zhaoshuang.pdf

simhashsimhash算法库

专门针对中文文档的simhash算法库简介此项目用来对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法，现在广泛应用在文本处理中。详见SimhashBlog特性使用 C

KodiakC++ 算法库

Kodiak是一个C++库，它实现了一个严格数值逼近的通用分支定界算法。分支定界算法的特定实例可以让用户重新定义并且隔离非线性方程、不等式、全局优化问题、微分方程集合系统。

SAT4JSAT算法库

OpenSAT 是一个Java实现的SAT算法库。关于SAT算法请看：sat2_sjtu_zhaos

KodiakC++ 算法库

Kodiak 是一个 C++ 库，它实现了一个严格数值逼近的通用分支定界算法。分支定界算法的特定实例

OpenSATSAT算法库

OpenSAT 是一个旨在开发SAT算法的项目。关于SAT算法请看：sat2_sjtu_zhaosh

simhashsimhash算法库

专门针对中文文档的simhash算法库简介此项目用来对中文文档计算出对应的 simhash 值。 s

Github 上最大的开源算法库，还能学机器学习！

机器学习算法与Python实战

ZiplinePythonic 交易算法库

Zipline是一个Pythonic算法交易库。它是一个事件驱动的系统，支持回测检验和实时交易。Zipline目前在生产中用作Quantopian（托管平台）的测试和实时交易引擎。特性使用简单，以便你

点赞

收藏

分享

举报