2020最新互联网大数据面试题

共 1747字，需浏览 4分钟

·

2020-10-07 07:08

百度：

1. 操作系统网络通信序列化问题

2. WordCount多线程，按行读取，统计每一行单词的个数和，最后统计总共的单词出现的次数（wordcount），多线程实现

3. mapreduce的shuffle过程详细

4. Mapreduce计算过程中的序列化问题，数据倾斜问题

5. Redis，HBase，MongoDB各个数据库之间的区别

6. 二叉树按层打印并输出层数，非递归

7. 两个10亿url的文件，找重复url

8. 一个百亿大文件，top10查找

9. spark Shuffle，MR shuffle，两个框架shuffle异同

10. Spark内存模型，内存管理怎么做的

11. 三次握手四次断开原理

滴滴：

1. 两个有序数组合并为一个有序数组

2. 快慢指针判断链表是否有环

3. spark shuffle

4. Kafka为什么快，怎么保证数据一致性和高可用性

5. Kafka的二分查找是普通的二分查找吗？为什么不是，那是什么样的

6. hbase rowkey设计原理

7. hbase ，hadoop读写流程

8. Yarn资源调度策略和调度流程

9. Hive优化常用的有哪些，数据量特别的两张表join思路

10. N层子查询和join的SQL优化有哪些思路

11. Hive内部表和外部表的区别

12. Coding：盛水最多的容器，两数之和

伴鱼：

1. 二分查找—口述

2. HBase散列性怎么保证，rowkey的设计，和创建表的方式

3. Yarn优化做了什么

转转

1. HDFS的namenode功能介绍和journalnode的作用

2. YARN调优的相关问题

3. Spark 检查点机制怎么做的，怎么实现的

4. MR和spark的shuffle详细讲解

5. groupByKey和reduceByKey的区别

6. spark怎么精准消费一次kafka

7. Kafka高速率的原因

腾讯：

1. 日活，月活，回流统计

2. spark精准一次消费kafka怎么做

3. flink精准一次消费kafka怎么做

4. Hdfs读写流程，快照原理，三备份和EC的区别

5. hdfs中Crc校验是什么

6. Spark 序列化，广播变量，累加器基本原理和实现

7. spark内存模型

8. 数仓基本理论，各层都是做什么的，怎么设计的

9. Hadoop源码MR中partiton是怎么获取的

蚂蚁金服：

1. K个有序链表合并为一个有序链表

2. 二分查找

3. 非递归二叉树遍历

4. spark groupByKey和reduceByKey区别

5. spark内存模型

触宝：

1:大数据常用组件,每个组件具体运用和整体架构设计

2:了解数据仓库吗？数据仓库的架构，解释下数据库、数据仓库、数据湖，数据中台的区别

3:小白去大润发超市买了一瓶92的拉菲哪些是纬度哪些是指标，怎么设计数据模型

4:Kafka怎么保证数据不丢失？

producer 生产端是如何保证数据不丢失的，broker端是如何保证数据不丢失的，会做。

5:HashMap的理解，问题为什么Map桶中个数超过8个才转为红黑树？

6:10亿数据和10亿数据做join 怎么优化

7:count(1) sum(A) 是如何做shuff的

8:SELECT a.uid,b.name,SUM(1) as user1

FROM user_log a

JOIN user b ON a.uid = b.uid

WHERE a.os = '1'

GROUP BY a.uid,b.name spark的过程

-------- 往期推荐 ----------

▼

[PPT福利领取】分享一些高大上、有逼格的PPT模板
[数据产品笔记】二、数据可视化设计规范
[数据产品笔记]：一、认识数据产品
我所理解的【数据中台】建设方法论
超级PPT福利贴 | 免费PPT素材资源领取
[阿里首次公开]-数据中台实践完整版（附下载）

浏览 59

点赞

收藏

分享

举报

评论

图片

表情

工业互联网大数据平台建设实践.ppt

肉眼品世界

2020年中国移动互联网大报告！

围猎互联网大厂房补

5W字讲解最新大数据面试题

程序源代码

2020年最新ZooKeeper面试题

互联网大促运维实践案例

最新2021大数据面试题真题汇总(附答案)

最新头条三面面试题汇总

流弊！2021最新 Spring 面试题

最新阿里P7面试题视频教程

点赞

收藏

分享

举报