一款简洁的数据流引擎,让数据自由流转

GitHub精选

共 850字,需浏览 2分钟

 ·

2020-09-21 13:54

【公众号回复 “1024”,免费领取程序员赚钱实操经验】

大家好,我是你们的章鱼猫。

今天推荐一个简洁优雅的数据流引擎工具 Dagster,它的目标是帮助大家构建与时俱进的数据类应用,通过该工具能够让数据科学家、数据工程师以及其他人员在同一个数据管道上进行合作协同。

Dagster 拥有优雅的编程模型、增量可扩展能力以及方便易用的 UI,其创建团队中一名成员参与过 GraphQL 的开发。

  • 优雅的编程模型

Dagster 定义了一系列的抽象类型,帮助我们构建自描述、可测试和可靠的数据类应用。重要的是,该工具将可测试的能力定义为工具的原生能力。

  • 增量可扩展能力

Dagster 能够方便的集成现有的工具和基础设施,比如 Spark、Python、Jupyter notebook、SQL 等。同时也能与其他的流程引擎进行集成,比如 Airflow。

  • 漂亮易用的 UI

Dagster 定义了一套简洁易用的本地开发界面,能够方便数据工程师、机器学习工程师、数据分析师使用。

以下是一个简单的数据流示例。其中 pipeline 对应一个数据流水线,而其中的 solid 对应一直执行单元,按照一定的规则输入和输出,无其他的副作用。通过定义数据的流向,也就是将不同的 solid 的输入和输出进行串联,最终可以构建一个数据的处理流程。下图的代码能够直接转换成对应的数据流图,方便分析和可视化。

更多项目详情请查看如下链接。

开源项目地址:https://github.com/dagster-io/dagster

---特别推荐---

特别推荐:一个新的优质的推荐高效工具,软件,插件的公众号,每天给大家分享优秀的效率工具,「程序员掘金」,专门为程序员挖掘好东西的一个公众号,非常值得大家关注。


浏览 40
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报