elasticsearch-datatranElasticsearch 高效数据同步工具-技术圈

bboss-datatran --- 简化版Flink

bboss-datatran由 bboss 开源的数据采集&流批一体化工具，提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。

bboss-datatran 数据同步作业采用java语言开发，小巧而精致，同时又可以采用java提供的所有功能和现有组件框架，随心所欲地处理和加工海量存量数据、实时增量数据，实现流批一体数据处理功能；可以根据数据规模及同步性能要求，按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小；可以将作业独立运行，亦可以将作业嵌入基于java开发的各种应用汇总运行；通过作业执行控制API、任务状态监控metircs api，可以定制化开发一些符合自己要求的同步作业任务监控管理功能，提供作业启动、暂停(pause)、继续（resume）、停止控制功能，轻松定制一款属于自己的ETL管理工具。

工具可以灵活定制具备各种功能的数据采集统计作业

1) 只采集和处理数据作业

2) 采集和处理数据、指标统计计算混合作业

3) 采集数据只做指标统计计算作业

指标计算特点

1) 支持时间维度和非时间维度指标计算

2) 时间维度指标计算：支持指定统计时间窗口，单位到分钟级别

3) 一个指标支持多个维度和多个度量字段计算，多个维度字段值构造成指标的唯一指标key，支持有限基数key和无限基数key指标计算

4) 一个作业可以支持多种类型的指标，每种类型指标支持多个指标计算

5）支持准实时指标统计计算和离线指标统计计算

6）可以从不同的数据输入来源获取需要统计的指标数据，亦可以将指标计算结果保存到各种不同的目标数据源

增量数据采集，默认基于sqlite数据库管理增量采集状态，可以配置到其他关系数据库管理增量采集状态，提供对多种不同数据来源增量采集机制：

1) 基于数字字段增量采集：各种关系数据库、Elasticsearch、MongoDB、Clickhouse等

2) 基于时间字段增量采集：各种关系数据库、Elasticsearch、MongoDB、Clickhouse、HBase等，基于时间增量还可以设置一个截止时间偏移量，比如采集到当前时间前十秒的增量数据，避免漏数据，支持纳秒级精度数据同步

3) 基于文件内容位置偏移量：文本文件、日志文件基于采集位置偏移量做增量

4) 基于ftp文件增量采集：基于文件级别，下载采集完的文件就不会再采集

5）支持mysql binlog，实现mysql增删改实时增量数据采集，支持master/slave监听、binlog日志文件直接采集两种模式

可以把 bboss-datatran看成是一个简单的、轻量级的数据同步框架，亦可以把他当做一个小组件，只需导入一个maven坐标，参考提供的一系列案例，就可以轻松愉快地开发出一个非常棒的数据采集、加工、入库、分发、上传的、具备增量状态管理功能的数据采集同步作业，同时还可以在idea、eclipse中进行debug调测，通过一些错误回调处理机制，可以非常方便地洞悉同步过程中的各种数据问题、处理错误和异常；依赖jdk环境，无需额外安装其他工具环境，就可以将bboss数据采集同步作业跑起来。

如果您还在：