BlinkDB大规模并行查询引擎

联合创作 · 2023-10-01 06:36

BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范围内。

为了达到这个目标，BlinkDB 使用两个核心思想:

一个自适应优化框架，从原始数据随着时间的推移建立并维护一组多维样本；

一个动态样本选择策略，选择一个适当大小的示例基于查询的准确性和（或）响应时间需求。

我们已经使用了 TPC-H 基准测试来评估 BlinkDB 的性能，实际分析工作负载来自 Conviva Inc. 和在 Facebook Inc 的部署。

在 VLDB 2012 中，BlinkDB 演示了在 Amazon EC2 集群部署了 100 个节点，大约 17TB 的数据中查询不到 2 秒钟，比 Hive 快 200 倍，错误率在 2-10%。

浏览 31

点赞

收藏

分享

举报

评论

图片

表情

Shard-QueryMySQL并行查询引擎

ShardQuery 是一个 MySQL 的分布式并行查询引擎，这是一个 PHP 的类，用来轻松访问

Shard-QueryMySQL并行查询引擎

ShardQuery是一个MySQL的分布式并行查询引擎，这是一个PHP的类，用来轻松访问分区数据集。示例代码：$shard_list=array('shard1'=>array('host'=

Apache HAWQ大规模并行 SQL 分析处理引擎

HAWQ是一个Hadoop原生大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库类似，接受SQL，返回结果集。ApacheHAWQ具有大规模并行处理很多传统数据库以及其他数据库没有的特性

Apache HAWQ大规模并行 SQL 分析处理引擎

HAWQ 是一个Hadoop原生大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库类似

SQLikeJavaScript查询引擎

SQLike是一个很小的为JavaScript和ActionScript编写的查询引擎，功能和语法类似SQL可用来查询数组、对象。

OctoSQLSQL查询引擎

OctoSQL是一个SQL查询引擎，它允许您对存储在多个SQL数据库，NoSQL数据库和各种格式的文

Greenplum DB大规模并行处理系统

Greenplum之前属于Pivotal，是一家总部位于美国加利福尼亚州，为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。目前

OctoSQLSQL查询引擎

OctoSQL是一个SQL查询引擎，它允许您对存储在多个SQL数据库，NoSQL数据库和各种格式的文件中的数据编写标准SQL查询，尝试将尽可能多的工作压缩到源数据库，而不是传输不必要的数据。OctoS

SQLikeJavaScript查询引擎

SQLike 是一个很小的为 JavaScript 和 ActionScript 编写的查询引擎，功

HVM大规模并行功能运行时

高阶虚拟机 (HVM) 是一个纯函数式编译目标，它是惰性的、非垃圾收集的和大规模并行的，同时也是 b

点赞

收藏

分享

举报