靠谱推荐 | 我读完了所有数据产品经理的书?!
PMCAFF
共 4352字,需浏览 9分钟
·
2021-10-24 19:58
本文由作者 古牧聊数据 发布于社区
01
02
Hadoop设计的核心有两个:HDFS和 Mapreduce通常需要搭配采集框架(例如比较流行的Kafka+Flume)、 Debase数据库、部署配置工具( Ambari)等一系列件形成一个完整的架构 HDFS( Hadoop Distributed File System,分布式文件系统)既然是一个“系统”就会包含一系列的功能和流程。主要由主服务器( Namenode)和负责存储数据的Datanode组成,,Namenode负责管理文件系统的命名空间和客户端对文件的访问操作 而 Mapreduce的本质是一种编程模型,或者说是一种计算方法。作为一个平台组件,它是用并行的方式处理大规模的计算
可以用不那么严谨的方式把整个过程变成一个故事,会发现这套架构其实是个情报处的组织架构: Flume像个情报员,负责把情报(日志)拿到手交给负责接头的信息员Kafka运送回来,处长HDFS负责接收这些数据,指挥Namenode给它们起好名字并贴上标签,交给档案馆Hbase存起来;这些数据还可以通过情报分析站Mapreduce去做复杂的深度加工,加工好的结论也可以交给Hbase存起来。
而想要使用Mapreduce需要通过工具Hive去实现。虽然Hbase是个超大的档案馆,,MapReduce也能为这个超大的档案馆提供更多结果,但若是急需这些情报采取行动(需要实时输出这些数据),它的效率就显得有点慢。这时Kafka可以使用应急流程,把数据直接交给独立调査员storm做实时分析,分析好了交给临时档案馆Redis存起来,领导(前端页面)可以去找Redis查阅结果。可惜的是,Storm和Redis虽然效率很高,却没有Hbase这个档案馆那么庞大和稳定,工资(成本)又太高,至今只能打一打下手,做一些补充工作
03
我的4条产品设计工作观 用户运营平台产品设计指南 8000字干货|教你打造电商产品的用户体系
评论