大数据面试天花板，来自面试官夺命连环100问~-技术圈

前言

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据来运营他们的业务，对人才的需求空前高涨。这对您意味着什么？如果您想在任何大数据岗位上工作，它只会转化为更好的机会。您可以选择成为数据分析师，数据科学家，数据库管理员，大数据工程师，Hadoop大数据工程师等。

一、面试题

1、 Hadoop 的核心配置是什么？

2、那当下又该如何配置？

3、“jps”命令的用处？

4、mapreduce 的原理?

5、 HDFS 存储的机制?

6、举一个简单的例子说明 mapreduce 是怎么来运行的 ?

7、用 mapreduce 来实现下面需求？

8、hadoop 中 Combiner 的作用?

9、简述 hadoop 安装

10、请列出 hadoop 进程名

11、解决下面的错误

12、写出下面的命令

13、简述 hadoop 的调度器

14、列出你开发 mapreduce 的语言

15、书写程序

16、不同语言的优缺点

17、 hive 有哪些保存元数据的方式，个有什么特点。

18、 combiner 和 partition 的作用

19、 hive 内部表和外部表的区别

20、 hbase 的 rowkey 怎么创建好？列族怎么创建比较好？

21、用 mapreduce 怎么处理数据倾斜问题？

22、 hadoop 框架中怎么来优化

23、我们开发 job 时，是否可以去掉 reduce 阶段。

24、 datanode 在什么情况下不会备份

25、 combiner 出现在那个过程

26、 hdfs 的体系结构

27、 3 个 datanode 中有一个 datanode 出现错误会怎样？

28、描述一下 hadoop 中，有哪些地方使用了缓存机制，作用分别是什么？

29、如何确定 hadoop 集群的健康状态

30、生产环境中为什么建议使用外部表？

31、你们数据库怎么导入 hive 的,有没有出现问题

32、公司技术选型可能利用 storm 进行实时计算,讲解一下 storm

33、一个 datanode 宕机,怎么一个流程恢复

34、.Hbase 的特性,以及你怎么去设计 rowkey 和 columnFamily ,怎么去建一个 table

35、Redis,传统数据库,hbase,hive 每个之间的区别

36、shuffle 阶段,你怎么理解的

37、Mapreduce 的 map 数量和 reduce 数量怎么确定 ,怎么配置

38、唯一难住我的是他说实时计算,storm 如果碰上了复杂逻辑,需要算很长的时间,你怎么去优化,怎么保证实时性

39、Hive 你们用的是外部表还是内部表,有没有写过 UDF,hive 的版本

40、实时流式计算的结果内容有哪些,你们需要统计出来么

大数据面试笔记（附答案解析）

获取方式↓↓↓

添加VX备注【242】即可免费获取

【JAVA面试题专栏】