2020最新互联网大数据面试题
百度:
1. 操作系统网络通信序列化问题
2. WordCount多线程,按行读取,统计每一行单词的个数和,最后统计总共的单词出现的次数(wordcount),多线程实现
3. mapreduce的shuffle过程详细
4. Mapreduce计算过程中的序列化问题,数据倾斜问题
5. Redis,HBase,MongoDB各个数据库之间的区别
6. 二叉树按层打印并输出层数,非递归
7. 两个10亿url的文件,找重复url
8. 一个百亿大文件,top10查找
9. spark Shuffle,MR shuffle,两个框架shuffle异同
10. Spark内存模型,内存管理怎么做的
11. 三次握手四次断开原理
滴滴:
1. 两个有序数组合并为一个有序数组
2. 快慢指针判断链表是否有环
3. spark shuffle
4. Kafka为什么快,怎么保证数据一致性和高可用性
5. Kafka的二分查找是普通的二分查找吗?为什么不是,那是什么样的
6. hbase rowkey设计原理
7. hbase ,hadoop读写流程
8. Yarn资源调度策略和调度流程
9. Hive优化常用的有哪些,数据量特别的两张表join思路
10. N层子查询和join的SQL优化有哪些思路
11. Hive内部表和外部表的区别
12. Coding:盛水最多的容器,两数之和
伴鱼:
1. 二分查找—口述
2. HBase散列性怎么保证,rowkey的设计,和创建表的方式
3. Yarn优化做了什么
转转
1. HDFS的namenode功能介绍和journalnode的作用
2. YARN调优的相关问题
3. Spark 检查点机制怎么做的,怎么实现的
4. MR和spark的shuffle详细讲解
5. groupByKey和reduceByKey的区别
6. spark怎么精准消费一次kafka
7. Kafka高速率的原因
腾讯:
1. 日活,月活,回流统计
2. spark精准一次消费kafka怎么做
3. flink精准一次消费kafka怎么做
4. Hdfs读写流程,快照原理,三备份和EC的区别
5. hdfs中Crc校验是什么
6. Spark 序列化,广播变量,累加器基本原理和实现
7. spark内存模型
8. 数仓基本理论,各层都是做什么的,怎么设计的
9. Hadoop源码MR中partiton是怎么获取的
蚂蚁金服:
1. K个有序链表合并为一个有序链表
2. 二分查找
3. 非递归二叉树遍历
4. spark groupByKey和reduceByKey区别
5. spark内存模型
触宝:
1:大数据常用组件,每个组件具体运用和整体架构设计
2:了解数据仓库吗?数据仓库的架构,解释下数据库、数据仓库、数据湖,数据中台的区别
3:小白去大润发超市买了一瓶92的拉菲 哪些是纬度 哪些是指标,怎么设计数据模型
4:Kafka怎么保证数据不丢失?
producer 生产端是如何保证数据不丢失的,broker端是如何保证数据不丢失的,会做。
5:HashMap的理解,问题为什么Map桶中个数超过8个才转为红黑树?
6:10亿数据和10亿数据做join 怎么优化
7:count(1) sum(A) 是如何做shuff的
8:SELECT a.uid,b.name,SUM(1) as user1
FROM user_log a
JOIN user b ON a.uid = b.uid
WHERE a.os = '1'
GROUP BY a.uid,b.name spark的过程