框架说明

Light_drtc是一个轻量级分布式实时计算框架，它可以帮助你快速实现自定义的实时计算平台。它主要参考当前流行的实时计算框架Storm的任务分发和Spark Streaming的Mini-Batch处理思想设计，设计目的是为了降低当前大数据时代的分布式实时计算入门门槛，方便初中级学者上手，快速实现企业所需计算实时性要求比较高的业务逻辑。它本身可以做为独立的分布式实时计算平台存在，也可以作为其它项目的基础类库存在。

代码包结构

Light_drtc采用Java8开发，整个项目可以分为3部分：实时数据收集、任务管理和任务计算三部分，三者结合，共同完成完整的分布式实时计算系统。

---"src/main/java": 框架主体包

---"src/main/resources": 框架主体包所需配置文件

---"src/test/java": 框架测试包，也是框架三个核心部分作为一个整体，完成的一个分布式实时计算系统的实例说明。

---"src/test/resources": 框架测试包所需配置文件

使用说明

首先下载Light_drtc，进入根目录，使用命令：mvn package，

打包成“light_drtc-${current_version}.jar”,引入即可。

Light_drtc只提供分布式实时计算的核心开发功能，其中实时日志解析、任务计算落地实现都需要开发者自行定义。以下3个部分为开发者的开发步骤，且为3个独立进程。



1. 数据流实时收集部分，每隔${mqDoBatchTimer}秒批量提交给任务管理节点，至于实时收集数据MQ，框架中已经有了RabbitMQ和Kafka两种实现，如果开发者要使用其它的，则自行开发。框架中也有RabbitMQ作为消费者的实用用例。

   具体开发时，如果学者选用Kafka或RabbitMq，则可以直接使用框架中已实现"org.light.rtc.mq.KafkaMqCollect.java"或"RabbiMqCollect.java"，直接实例化，调用相关方法即可。

     实例可以参考：src/test/java/org/light/rtc/test/KafkaRabbitMqCollect.java

   具体开发时，如果选用其他MQ，可以参考“org.light.rtc.mq.KafkaMqCollect.java”实现，继承org.light.rtc.base.MqConsumer.java, 对所接受的每条数据，代码中调用“this.mqTimer.parseMqText(userId, logText)”即可。 

     实例可以参考：src/test/java/org/light/rtc/test/MqCollect.java



2. 任务管理部分：对于所接受的来自实时数据流的数据，每隔${rtcPeriodSeconds}秒，将所收集的数据，统一加工成每条信息类似: "{uid:设备ID或通行证ID，data:{view:{docIds},collect:{docIds}}}"形式的信息列表。

   具体开发可以参考src/test/java/org/light/ldrtc/test/AdminNodeServer.java， 这里需要开发者需要自行实现实时数据流的日志解析，需要实现“org.light.rtc.base.StreamLogParser.java”接口，具体参考实例src/test/java/org/light/ldrtc/parser/LogParser.java



3. 任务计算部分： 这部分主要依靠开发者自定义实现，实现时，需要实现“org.light.rtc.base.JobStatsWindow.java”相关接口，这里建议大家参考JDK本身提供的Fork/Join并行计算框架，以更高效率的利用服务器资源，开发实例入口参考“src/test/java/org/light/ldrtc/test/JobNodeServer.java”，具体实现参考“org.light.ldrtc.jober.JobService.java及StatsTask.java”。

框架配置文件说明

需要在实际中根据实际需要修改，这里需要说明的是，框架本身负责计算任务管理及资源协调。这里重点说明几个配置属性。 rtc_conf.properties



mqDoBatchTimer=3 #实时收集的数据流每隔3秒批量提交给任务管理节点

rtcPeriodSeconds=7 ＃任务管理节点中每隔7秒将所收集的数据统分发给任务计算节点

atomJobBatchNum=100  ＃默认每个任务计算节点在${rtcPeriodSeconds}秒内所处理的最大元数据条数（比如单个用户规定时间内的所有行为聚合的数据）

minJobBatchNum = 20  ＃默认每个任务计算节点在${rtcPeriodSeconds}秒内所处理的最小元数据条数

adminNodeHosts = 127.0.0.1:16401,127.0.0.1:16406  ＃给数据收集节点使用，这里规定使用2个任务管理节点，双主模式。

adminNodePort = 16401   ＃任务管理节点启动服务所在端口，可以根据需要修改。同台服务器，2个任务管理节点服务端口必须区分

adminNodeId=1       ＃后期功能扩展使用，任务管理节点每个都会扩展一个热备,主：1，从：0

minThreadNum=10      ＃服务端进程，最小线程数

maxThreadNum=10000   ＃服务端进程，最大线程数

jobNodeHosts=127.0.0.1:1641,127.0.0.1:1642,127.0.0.1:1643  #任务计算节点配置，供任务管理节点管理，作者建议每个任务管理节点至少包含3个任务计算节点实例

jobNodePort=16401   ＃任务计算节点启动服务所在端口，可以根据需要调整。

delayTaskDir = /Users/a/delayTask/   ＃任务计算节点不能及时处理的延迟的聚合后的用户行为数据，按时间片段命名写入指定目录，根据需要自定义

delayTaskFileSurfix = .txt      ＃延迟执行的元数据文件后缀命名

maxDelayTaskNum = 6         ＃任务管理节点默认只能接受的未及时执行的元数据组的个数，超过此限制，每个元数据组一个文件写入指定目录

Light_rtdc轻量级分布式实时计算框架

框架说明

代码包结构

使用说明

框架配置文件说明