每日一题:什么是数据倾斜及解决方案?-技术圈

每日一题 精选常考面试题，将其汇总成专栏，利用零碎时间为职业保驾护航，建议大家独立思考答题。题目1、何为数据倾斜?

数据倾斜在MapReduce编程模型中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的。

2、数据倾斜表现

1、绝大多数task执行得都非常快，但个别task执行的极慢。
2、原本能正常执行的Spark作业，某天突然爆出OOM（内存溢出）异常。观察异常栈，是我们写的业务代码造成的

3、解决方案

1、增加jvm内存,这适用于第一种情况(唯一值非常少，极少数值有非常多的记录值(唯一值少于几千)),这种情况下,往往只能通过硬件的手段来进行调优,增加jvm内存可以显著的提高运行效率。

2、增加reduce的个数,这适用于第二种情况(唯一值比较多，这个字段的某些值有远远多于其他值的记录数，但是它的占比也小于百分之一或千分之一),我们知道,这种情况下,最容易造成的结果就是大量相同key被partition到一个分区,从而一个reduce执行了大量的工作,而如果我们增加了reduce的个数,这种情况相对来说会减轻很多,毕竟计算的节点多了,就算工作量还是不均匀的,那也要小很多。

3、自定义分区,这需要用户自己继承partition类,指定分区策略,这种方式效果比较显著。

4、重新设计key,有一种方案是在map阶段时给key加上一个随机数,有了随机数的key就不会被大量的分配到同一节点(小几率),待到reduce后再把随机数去掉即可。

5、使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key数据先进行一个合并,可以看做是local reduce,然后再交给reduce来处理,这样做的好处很多,即减轻了map端向reduce端发送的数据量(减轻了网络带宽),也减轻了map端和reduce端中间的shuffle阶段的数据拉取数量(本地化磁盘IO速率),推荐使用这种方法。

为更好的交流学习，应读者的要求，我建立了一个交流群，有需要的同学可以在下方公众号后台回复关键字：面试，即可获取快速通道。

(长按三秒，即可进入)


后台已放置一份精心整理的技术干货，查看即可获取！后台回复关键字：面试，带你进入高手如云的学习交流群！

推荐阅读

堪比Excel，Python可视化神器Altair入门详解
收藏！一份精炼的 Jupyter Notebook 速查表！
每日一题：SQL 中 row_number()、rank()和dense_rank()的区别
真香！FaceBook 开源"一站式服务"时序利器 Kats ！