在百度,Spark,Hadoop,Hive ,哪个更香?

武培轩

共 1624字,需浏览 4分钟

 ·

2020-09-08 11:56






众所周知,大数据开发和分析、机器学习、数据挖掘中,都离不开各种开源分布式系统。最常见的就是 Hadoop、Hive、Spark这三个框架了。最近不少朋友有问到关于这些的问题:


大厂里还有在用 Hadoop 吗?感觉都在用 Spark,有些慌!

SQL boy 大厂面试都问什么?Hadoop、Spark、Flink 都搞过!

听说百度只用 Hadoop,为什么不用业界都在用的 Spark !

 为什么百度不用SQL支持数据处理,还在写一堆 Hadoop 脚本!

Java 开发需要对大数据了解多少,Hbase、Hive、Spark 这些吗?


不同的业务场景决定了不同的系统架构选型。Hadoop 用于分布式存储和 Map-Reduce 计算,Spark 用于分布式机器学习,Hive 则是分布式数据库。Hive 和 Spark 是大数据领域内为不同目的而构建的不同产品。二者都有不可替代的优势。Hive 是一个基于Hadoop 的分布式数据库,Spark 则是一个用于数据分析的框架。


这就要求技术人不得不掌握各种开源的技术框架。这就会造成顾此失彼,学完易忘、易混淆的情况。为了解决这个问题,这里推荐给大家一个高效学习和开发的宝藏份大数据/分布式开发速查表。内容涵盖:Spark、Hadoop  Hive 等日常工作中几乎所有的技术知识点


对比详细却冗长的技术文档,速查表要显得更加便捷与直观 可以帮大家很轻松的从上面找到具体某项技术的快捷命令与语法,相信能大幅提升开发效率,同时,一些遗忘的知识点也都能通过速查表来快速获取。


由于篇幅原因,下面只展示了速查表的部分内容论你是学习进阶,还是日后温习,这套速查表资料都值得好好珍藏。


1.大数据内存计算框架之
Spark 必知必会
学习 Spark ,从大方向说,算子大致可以分为以下两类:

(1)Transformation 变换 / 转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发。

(2)Action 行动算子:这类算子会触发 SparkContext 提交 job 作业,并将数据输出到 Spark 系统。


Spark 必知必会:Transformation 算子


Spark 必知必会:Action算子


2.大数据分布式文件系统之
Hadoop 必知必会

内容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 两种风格,都可使用,效果相同。


Hadoop 必知必会:Hadoop Shell



3.大数据分布式数据库之
Hive 必知必会

Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行,并可以针对数据仓库进行分布式交互查询。
内容包括:Hive 内置函数速查表 ,具体有关系、数学及逻辑运算符、数值计算、日期函数、条件函数、字符串函数、聚合函数、高级函数及窗口函数等


Hive 必知必会:关系运算符


Hive 必知必会:数值计算


Hive 必知必会:字符串函数


大数据开发代码速查表

高清版全部内容

扫码加微信,免费领取

(添加人多,请耐心等待)



这套速查表是 开课吧 精心准备打磨的,内容很详实,建议大家加微信领取高清版速查表全部内容,打印出来贴在桌上,以便自己随时都能高效学习。

最后,对于想要系统提升的Java、PHP、Python、嵌入式等1-5年编程开发经验的人,开课吧还邀请廖雪峰老师团队打造了《大数据高级开发实战班》付费课程,感兴趣的小伙伴也可扫码咨询哦~
浏览 18
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报