转岗大数据了,先用数据看看行情

小数志

共 2767字,需浏览 6分钟

 · 2021-02-06


导读

作为一名数据从业者,当然干什么事都喜欢用数据说话。2020年上半年,在个人正式入职数据分析师前,专门从数据分析的角度探索了一把数据分析师就业现状,近日,刚好自己开启大数据岗位,所以就再分析下大数据相关岗位就业招聘现状,仅供参考。



数据来源:以某直聘平台为数据来源,以“大数据”为关键词,设置搜索条件为:杭州市规模在10000人以上上市公司。由于平台限制仅可显示10页,每页30条招聘信息,除去个别无效记录,最终获取有效数据大概在280条招聘记录。当然,由于这里仅获取到了10页数据而并非海量数据,所以样本排序先后将对数据真实分布有一定影响。


分析目标:为了从多角度描述大数据岗位就业现状,拟从以下几个方面着手分析:

  • 大数据岗位画像,包括岗位类型分布,公司分布、区域分布、招聘学历要求、工作经验要求、薪资分布

  • 主要技术栈,主要是利用招聘岗位标签信息,分析大数据岗位招聘技能需求,并对头部企业进行细分

  • 影响薪资因素,包括分析各区域、各公司、各岗位类型以及各技能对应的薪资分布情况

  • 薪酬福利情况,简单分析大数据岗位整体福利词云


注:因样本数据随机性以及分析结果主观性,本文所属观点结论仅供参考!


01 数据获取及清洗

Garbage in,garbage out!

选取某直聘平台,按照目标岗位设置搜索条件,可以直接访问10页数据,以此为目标,分别爬取各招聘记录的如下信息,且各字段信息直接从查询首页即可完整获取,无需分别访问各岗位详情页:

  • 岗位title

  • 地理区域

  • 薪酬范围

  • 经验要求

  • 学历要求

  • 招聘公司

  • 岗位标签信息

  • 岗位福利描述

招聘信息搜索结果


这里直接爬取的字段相对较为整齐,多数字段均无需清洗处理,但为了后续分析需要,这里做以下4步处理:

  • 过滤实习生招聘记录,即通过薪酬范围字段按天计算的记录,抓取记录中共2条;

  • 将招聘公司统一为集团公司名称,主要是阿里巴巴包括“阿里巴巴集团”、“阿里云”以及“阿里健康”等不同描述;网易包括“网易游戏”和“网易杭州”等子公司名称;海康威视包括“杭州海康威视”和“海康威视武汉研发中心”两个别称。处理过程中统一将这些同一公司的不同名称描述进行统一;

  • 薪酬提取,不失一般性,将给定薪酬范围上下限间的1/3分位数作为岗位薪酬,例如标定20-35K的薪酬范围,最终按25K参与分析,实现薪酬字段的标签向数值转换;

  • 岗位类型划分:主要依据岗位title关键词情况,区分开发(关键词:开发、研发)、算法(关键词:算法、挖掘、分析)、架构师(关键词:架构)、产品(关键词:产品)以及其他,共5种岗位类型。这一定程度上也涵盖了大数据相关岗位的不同类别。


处理后的数据样例如下:


02 大数据岗位画像
画像的本质的在于降维描述!
分别从6个维度描述杭州人员规模在万人以上的上市公司招聘大数据相关岗位的招聘现状,其中薪资采用直方图刻画,区域和学历信息采用饼图描述,而岗位类型、招聘公司TOP5以及经验要求则采用横向直方图描述。结果如下所示:


从中可以得出以下基本结论:

  • 大数据岗位中,绝大部分岗位仍然是研发岗位,常规的研发岗位包括测试、前后端、数据仓库管理等等;而算法、产品和架构则更倾向于开发岗位基础之上的属性,各岗位之间形成完整的数据采集、存储、治理直至创造价值的完整闭环;

  • 杭州市招聘大数据岗位的万人以上上市公司中,主要集中在滨江区(以网易、海康威视、浙江大华和吉利集团为代表)、西湖区和余杭区(均以阿里巴巴为代表);

  • 阿里巴巴以接近50%的比例毫无悬念的成为大数据岗位招聘龙头企业,这既与其本身的人员规模体量直接相关,也与其业务生态圈有密切联系,当然还可能是由于其运营得力,使得岗位搜索排名较为靠前;

  • 大数据岗位的就业门槛要求并不高,绝大部分仍然是只要本科学历即可;但对工作经验往往有一定要求,尤其是要求具有3-5年以及5-10年工作经验的大数据岗位居多;

  • 薪资情况,整体位于20-40K之间,顶薪接近60K,也有10K以下低薪岗位;平均值28.3K,中位数27K。后续将对影响薪资因素重点分析。


03 岗位技术栈
大数据技术的核心是存储和计算!
为了了解大数据岗位从业技能要求,对岗位招聘的标签信息进行统计分析,得到全样本岗位标签TOP10如下,易见以下结论:大数据50%以上岗位都要求掌握数仓技能(数据存储);大数据的核心语言是Java(当然这与阿里主用Java有一定关系,而抓取样本中阿里的招聘记录占大多数);大数据相关的核心环节是ETL(抽取Extract、转换Transform、加载Load);大数据的核心技术栈仍然离不开Hadoop生态圈。


具体到几个头部公司,分别对其招聘岗位技能标签进行分析,结果如下:


对比分析各公司大数据岗位的TOP5技能标签,一定程度上可以管窥各企业的大数据技术栈信息,例如阿里巴巴和海康威视更注重数据分析与挖掘;浙江大华除了Java之外还较多的运用Python以及Spark;而无一例外的,Java都入选了各大公司的技术栈


04 打工人的命根——薪资
不以薪资衡量岗位价值就是不讲武德。
接下来分析打工人最为关心的因素:大数据岗位薪资情况。分别从公司、岗位类型、学历、工作经验以及技能标签等5个维度,分别描绘岗位薪酬分布情况,结果如下图所示。


透过图表,值得关注的几个细节是:

  • 公司层面,阿里和网易整体薪酬更高,不仅在于更具吸引力的平均薪酬,更在于具有更高的薪资天花板

  • 岗位属性方面,研发岗和架构师则略胜一筹,近年火热的算法岗(挖掘)则反而不够突出,这可能与数据量不足有一定关系;

  • 学历层面,不同学历间薪酬差距不大,但这并不等价于高学历无用论,只能归因于工作经验的重要性;因为通过工作经验来看,明显工作年限要求更长的岗位具有更高的薪酬区间(经验不限例外,因为这里的经验不限通常并不意味着真的经验不限,更不等价于零经验)

  • 技能标签方面,整体来看差距不大,毕竟大厂的大数据岗位通常不会仅要求掌握相对单一或孤立的技术栈,而更多的是综合能力和技术体系。

05 岗位福利

最后,以一张岗位福利词云结束本篇分析,主要是依托jieba分词和wordcloud库,对岗位福利描述绘制词云,得到如下结果:

基本都是互联网公司的常规福利,只能说除了股票期权真的是毫无吸引力……



相关阅读:


浏览 31
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报