2020最新互联网大数据面试题

数据D江湖

共 1747字,需浏览 4分钟

 ·

2020-10-07 07:08


百度:

1. 操作系统网络通信序列化问题

2. WordCount多线程,按行读取,统计每一行单词的个数和,最后统计总共的单词出现的次数(wordcount),多线程实现

3. mapreduce的shuffle过程详细

4. Mapreduce计算过程中的序列化问题,数据倾斜问题

5. Redis,HBase,MongoDB各个数据库之间的区别

6. 二叉树按层打印并输出层数,非递归

7. 两个10亿url的文件,找重复url

8. 一个百亿大文件,top10查找

9. spark Shuffle,MR shuffle,两个框架shuffle异同

10. Spark内存模型,内存管理怎么做的

11. 三次握手四次断开原理

滴滴:

1. 两个有序数组合并为一个有序数组

2. 快慢指针判断链表是否有环

3. spark shuffle

4. Kafka为什么快,怎么保证数据一致性和高可用性

5. Kafka的二分查找是普通的二分查找吗?为什么不是,那是什么样的

6. hbase rowkey设计原理

7. hbase ,hadoop读写流程

8. Yarn资源调度策略和调度流程

9. Hive优化常用的有哪些,数据量特别的两张表join思路

10. N层子查询和join的SQL优化有哪些思路

11. Hive内部表和外部表的区别

12. Coding:盛水最多的容器,两数之和

伴鱼:

1. 二分查找—口述

2. HBase散列性怎么保证,rowkey的设计,和创建表的方式

3. Yarn优化做了什么

转转

1. HDFS的namenode功能介绍和journalnode的作用

2. YARN调优的相关问题

3. Spark 检查点机制怎么做的,怎么实现的

4. MR和spark的shuffle详细讲解

5. groupByKey和reduceByKey的区别

6. spark怎么精准消费一次kafka

7. Kafka高速率的原因

腾讯:

1. 日活,月活,回流统计

2. spark精准一次消费kafka怎么做

3. flink精准一次消费kafka怎么做

4. Hdfs读写流程,快照原理,三备份和EC的区别

5. hdfs中Crc校验是什么

6. Spark 序列化,广播变量,累加器基本原理和实现

7. spark内存模型

8. 数仓基本理论,各层都是做什么的,怎么设计的

9. Hadoop源码MR中partiton是怎么获取的

蚂蚁金服:

1. K个有序链表合并为一个有序链表

2. 二分查找

3. 非递归二叉树遍历

4. spark groupByKey和reduceByKey区别

5. spark内存模型


触宝:

1:大数据常用组件,每个组件具体运用和整体架构设计

2:了解数据仓库吗?数据仓库的架构,解释下数据库、数据仓库、数据湖,数据中台的区别 

3:小白去大润发超市买了一瓶92的拉菲  哪些是纬度 哪些是指标,怎么设计数据模型

4:Kafka怎么保证数据不丢失?

  producer 生产端是如何保证数据不丢失的,broker端是如何保证数据不丢失的,会做。

5:HashMap的理解,问题为什么Map桶中个数超过8个才转为红黑树?

6:10亿数据和10亿数据做join 怎么优化

7:count(1) sum(A) 是如何做shuff的 

8:SELECT a.uid,b.name,SUM(1) as user1 

FROM user_log  a

JOIN user b ON  a.uid = b.uid

WHERE a.os = '1'

GROUP BY a.uid,b.name spark的过程


--------   往 期 推 荐  ----------

    

浏览 44
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报