让你能进“大厂”的数据分析项目是长怎样的?
微信搜索「Dathon数据分析」关注后,在后台回复「亮眼项目」即可免费获取本文提到的项目技能栈与学习路径。
也可以截图后,微信扫码关注后回复「亮眼项目」
文字版
暂时看不到视频的同学看这里:
一、自我介绍
大家好,我是小匿。
今天我们来聊聊“能让你脱颖而出的数据分析项目是怎么样的”
在分享之前,我先做个简短的自我介绍。我是16年毕业于某广东独立院校财务管理专业,毕业后从事了1年的会计工作,期间逐渐对此行业感到失望。于17年2月裸辞学习数据分析相关的知识,在17年8月转行至数据分析师,在这小公司里继续打磨基础,并将数据分析及算法的知识运用到真实的工作项目中。以及期间参与了接近10个算法比赛,并取得了一定名次。在18年12月,加入广州某知名互联网企业,从事数据分析师职。2020年4月,在某机遇下,成功转岗至数据挖掘工程师。
在数据道路上不断前进的这4年,让我确立了自身的数据目标:”专注数据为业务赋能,不局限于方式“。未来,我会在数据道路上继续奔跑,我相信技术和业务的结合,为日渐复杂的需求场景提供自动化&智能化的解决方案才是数据分析师该有的样子。
二、背景
我们应该都了解,数据分析项目是我们向面试官展示我们数据分析技能的最好载体,一个好的项目绝对能够增大我们拿到offer的可能性。最脱颖而出的项目,当然是在大厂的高业务价值的项目,这点毋庸置疑,但在这类项目一般可遇不可求。今天我想讲解的是在脱离这个背景下,我们的个人项目应该怎么做呢?
我有时也会作为面试官,或者帮一些微信好友看简历,我真得很难很难能在简历里看到一个让我“眼睛一亮”的数据分析项目,大多项目真得十分大众,基本是同一个模式,我举几个网红项目。
淘宝用户行为分析
母婴商品销售数据分析
共享单车数据分析
NBA球员数据分析
这些项目的形式全部都是:jupyter notebook + python数据处理代码 + 数据可视化 + 分析结论 = 数据分析报告
这种形式的项目也不能差,我刚转行的时候也是类似这样的项目。
但实在是太大众了,可以说人手几份,我作为面试官,10个有9个面试者都是这种模式,是挺腻的。我很想告诉大家,我们数据分析师能输出的数据产品真得不是只有“数据分析报告”,我们能做的还有不少。那拥有怎样特性的项目才能称之为“”脱颖而出“呢?
我认为有以下几点:
1、非单一的数据分析报告
2、不仅有能体现业务价值也有技术价值
3、整个项目能实现自动化甚至是智能化
这里我将介绍两个我做的我认为能够”脱颖而出“的数据分析项目。
三、项目1:结合用户画像从0到1大家一个公司级别的BI系统
任何项目我们都先得明确背景和目的(价值)
项目背景:运营商旗下某业务发展已经进入成熟期,某省份市场趋于饱和,新增用户有限,因此存量用户的保有尤为重要,目前业务月均退订用户数达30000+个,流失情况严重,已较大程度影响业务发展与收入。
项目目的:1、弄清楚流失用户在各时间段长什么样(用户画像)。2、通过构建流失用户画像,找出可识别流失用户的重要特征,为减少运营商旗下某业务的用户保有工作成本提供依据。
针对此背景与价值,以及鉴于一些中小厂看数据仍在互传PPT或图片的情况下,我觉得搭建一个公司级别的BI系统是明智之选!
现在我们就构思一下我们需要实现哪些功能点:
BI工具的功能点:
1、这个BI工具是网页形式的,并且能适配PC端+移动端(手机与平板),也能用电视大屏做一屏展示。只要有权限的人都能很方便的登录查看。
2、这个BI工具是有强大的数据可视化能力的,有权限的人都能够去配图。
3、要有用户权限系统,有些数据只能Boss看,有些数据只能给某团队编辑,这些都需要适配。
4、要有Dashboard管理系统,以免建立太多而混乱。
5、要能接入各种数据源,常规的mysql,及目前比较火的clickhouse最好都要能接入。
6、要有告警功能,当核心指标异常时,它能自动的用钉钉或企业微信或邮件进行指标告警。
7、要有版本控制功能,当有同学不小心错误保存了,能够回滚版本。
流失用户画像仪表盘功能:
1、搭建流失用户画像仪表盘总览,我需要一目了然的看到某段时间的流失用户”长怎样!“
2、除了总览,我想根据各属性特征各自建立仪表盘,进行多维度下钻分析与配图,更细致的了解数据全貌。
3、所有的时间趋势图我需要配上“环比”功能,清晰目前变化情况。
4、各下钻分析仪表盘都需要有分析结论。
5、要有明细数据下载功能。
其他周边功能:
主要是ETL
可能有些同学,尤其是数据分析师看到这些功能点就慌了,我完全不会前后端啊,怎么可能搭建一个如此完整的BI系统呢?别慌!我介绍一个开源免费极易安装的BI工具给你!- Grafana。
以上所说的功能点它通通都有!完全不需要你在自行开发!它甚至还有N多插件支持,举个例子,echarts也是它们插件之一,这意味着你能配出99%的图表!最后我要再次强调一下,它是开源免费的!现在外面完整的BI系统一般每年需要几万/几十万甚至上百万,如果你能用这个工具为公司搭建,你每年能为公司省下这批成本,你还怕不升职加薪?
OK,我们功能点基本列好了,那我建议大家每个求职项目都应该画一个架构图或流程图(两者都画也行)。那我们本项目架构图如下:
数据层:我们本次核心用mysql存储,但有一些是别的系统下载的csv,所以这层我们都做转换。
数据预处理层:我们需要对数据缺失值、异常值、无效值进行数据清洗;来自数据库里的多个数据表进行合并;基于业务理解构建用户画像新特征;对时间戳及地理位置数据进行转换;最终我们将以上操作基于python做成自动化的脚本,利用计划任务管理器(或linux crontab)每天定时进行数据调度。
数据分析与展示层:采用“总分”仪表盘设计形式,并依据业务形态细分为教育、身份、通信、消费等四大特征。稍后会直接展示。
应用层:客户可以用各终端观看Grafana BI系统,而异常指标告警我们可以通过企业微信/钉钉/邮件进行接收。
来看看项目实际部分截图:
四、项目2:核心指标智能数据监控日报
项目背景:我们数据分析师都会遇到这个问题,核心Kpi指标异常了我们怎么分析?传统的分析手段是人工不断的下钻分析,如下图所示。
当某时间段流失率出现异常时,我们基于业务理解筛选出最可能的维度省份、运营商、平台,基于这三个维度继续进行下钻分析。从省份看各省份流失率均上升,所以该维度不会是异常根因。从运营商角度能明显发现“电信"的突增,平台能明显的发现ios的突增。我们进一步分析这两个维度的组合,最终能确定为”运营商=电信&平台=ios“为根因。
这是传统的下钻分析方式,你有没有想过这整个过程是能够自动&智能化的?以下这个项目就告诉你!
项目价值:本项目对数据分析思维、智能算法、Python工程能力三者进行科学结合。构建智能数据监控日报系统,及时掌握核心指标最新情况,并当核心指标出现异常时,算法智能分析出其原因。与传统手工日报、人工下钻分析相比,大大提高了工作效率。并为业务不断迭代优化提供智能化的支撑。
构建项目流程图:
1、利用任务计划调度器每日定时调度python脚本
2、利用pymysql库与mysql交互,并做常规数据清洗
3、利用时间序列异常检测算法判断核当天核心指标是否异常
4、若没有存在异常,我们对核心维度进行下钻分析,并用pyecharts库进行数据可视化
5、利用html+css制作邮件主要内容,并用stmp&email库进行封装,最终输出核心KPI监控日报
6、但若存在异常,则我们接入根因定位算法,自动&智能的分析异常根因
7、在输出核心KPI监控日报同时,也输出智能根因定位日报
本项目的最大亮点是时序异常检测与根因定位算法。
时序异常检测算法方面,和时序预测其实有一定相似,比如arima、prophet、lstm都是可选择的算法。
根因定位算法方面,目前比较知名的hotspot、squeeeze、adtributor、idice等都可选择。
来看看项目实际部分截图:
五、小总结
本视频的初衷就是前面所说的,真得很难看到亮眼的数据分析项目,网上的数据分析项目基本是单一数据分析报告,我觉得数据分析师能做的远不止这些,技术与业务的结合,开发出有价值的数据产品!
不觉得这样的数据分析师比起单纯的取数做报告有趣多了么!不知道是否有数分的同学觉得你这两个项目不是应该算法工程师或数据开发来做吗?为啥我们数据分析师要做这些。对于这个问题我只想答,不要让title给你自己贴了标签,算法和工程都可以成为我们的工具,我的座右铭“专注数据为业务赋能,不局限于方式”与大家共勉。
以上这些也仅仅个人观点,可能会有些片面,也算是一次抛砖引玉,期待有更多同学分享交流。
微信搜索「Dathon数据分析」关注后,在后台回复「亮眼项目」即可免费获取本文提到的项目技能栈与学习路径。
也可以截图后,微信扫码关注后回复「亮眼项目」
创作不易,求个在看,感谢!