Apache Tajo分布式数据仓库系统

联合创作 · 2023-09-18 19:17

Tajo 是一个分布式数据仓库系统，基于 Hadoop 实现，特点是低延迟、高可伸缩，提供专用查询和 ETL 工具

特点：

可伸缩性和低延迟
- 完全分布式的 SQL 查询处理，基于存储雨 HDFS 的大数据集
- 超低响应时间（约100毫秒），在合理数据范围内的简单查询

支持长时间运行的查询
- 容错支持，避免某些任务失败后的查询重启
- 动态调度，处理和异构集群节点故障

ETL
- ETL 可实现不同数据格式之间的转换
- 支持多种文件格式，如 CSV、RCFile 和 RowFile

扩展性
- 支持用户自定义函数
- 提供自定义文件格式的 Scanner/Appender 接口

兼容性
- 遵循 ANSI/ISO SQL 标准，非标准方面遵循 PostgreSQL 规范
- 支持 HiveQL 模式
- 在 HCatalog 和 Hive MetaStore 实现表访问
- 支持 JDBC 驱动

简单
- 提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
- 提供备份和恢复工具
- 异步/同步 Java API 来提交 SQL 查询到 Tajo 集群

浏览 17

点赞

收藏

分享

举报

评论

图片

表情

Apache ZooKeeper分布式系统协调

ZooKeeper是一个集中式服务，用于维护配置信息、命名、提供分布式同步和提供组服务。所有这些类型的服务都以某种形式被分布式应用所使用。每次实现这些服务时，都会有大量的工作要去修复不可避免的bug和

Apache Storm分布式实时计算系统

ApacheStorm的前身是TwitterStorm平台，目前已经归于Apache基金会管辖。ApacheStorm是一个免费开源的分布式实时计算系统。简化了流数据的可靠处理，像Hadoop一样实现

Apache Commons JCS分布式缓存系统

Apache Commons JCS 是一个用 Java 编写的分布式、多功能的缓存系统，它旨在通过

Apache SkyWalkingJava 分布式应用追踪系统

Apache SkyWalkingSkyWalking: 针对分布式系统的应用性能监控，尤其是针对微

Apache InLong分布式消息中间件系统

ApacheInLong（原ApacheTubeMQ项目更名）是腾讯在2013年自研的分布式消息中间件系统，专注服务大数据场景下海量数据的高性能存储和传输，较之于众多明星的开源MQ组件，TubeMQ在

Apache SkyWalkingJava 分布式应用追踪系统

ApacheSkyWalkingSkyWalking:针对分布式系统的应用性能监控，尤其是针对微服务、云原生和面向容器的分布式系统架构简介SkyWalking 是一款开源的应用性能监控系统，包括指标监

Apache HTrace分布式系统跟踪框架

ApacheHTrace是Cloudera开源出来的一个分布式系统跟踪框架，支持HDFS和HBase等系统。该项目目前还在孵化阶段。ApacheHTrace是一个ApacheIncubator项目，

Apache InLong分布式消息中间件系统

Apache InLong（原 Apache TubeMQ 项目更名）是腾讯在 2013 年自研的分

Apache Commons JCS分布式缓存系统

ApacheCommonsJCS是一个用Java编写的分布式、多功能的缓存系统，它旨在通过提供管理各种动态性质的缓存数据的手段来加速应用程序。类似其它缓存系统，JCS对于那些高读取的应用程序颇有实用。

Apache HTrace分布式系统跟踪框架

Apache HTrace是Cloudera开源出来的一个分布式系统跟踪框架，支持HDFS和HBas

点赞

收藏

分享

举报