Apache DataSketches开源的高性能大数据流算法库

联合创作 · 2023-09-18 20:06

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构,并可大规模处理数据。对于那些想要生成精确结果,但又无法承受大量时间和计算资源消耗的查询,sketches 是一个理想的选择。而对于那些能够接受近似结果的客户,sketches 也是附带实时分析交互式查询的唯一可行选择。

特性:

  • 快速:sketches 算法可一次处理适用于实时和批处理的数据。围绕 sketches 设计系统可以简化系统的体系结构,并减少所需的总体计算资源。
  • 大数据:该库专门为必须处理海量数据的生产系统而设计的。该库包括适用于 Apache Hive、Apache Pig 和PostgreSQL(C ++)。具有跨语言(Java,C ++,Python)和平台的特性。
  • 分析:内置的 Theta Sketch 集运算符(Union,Intersection,Difference)生成 sketches,从而启用基数的完整集表达式,例如(A∪B)∩(C∪D)\( E∪F)。这种功能以及可预测的准确性为快速查询提供了前所未有的分析能力。
浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报