确认数据需求的流程

Python面面观

共 1086字,需浏览 3分钟

 ·

2021-03-03 21:58

配合产品、运营等业务方临时数据需求,是数据分析师部分工作职责。例如,"数分同学,我想看下目前活跃率情况,辛苦拉下数据"。部分没有经验的同学可能一顿操作猛如虎,将结果给到业务,业务说这不是我想要的数据,除此之外对你的专业能力可能也有怀疑。那数据分析师应该怎么确认需求。本文按照几个步骤进行梳理。

确认数据分析目的

以开篇案例为例,当业务想了解目前活跃率情况,我们应该询问需要该数据目的,这样才能对症下药。业务说"目前我这个业务线活跃率降低,需要提升活跃率"。由于这个活跃率比较宽泛,我们还需要进一步确认XX时间段、XX群体活跃率。

确认数据口径

不同业务线对活跃率定义不同,需要确认指标口径和计算逻辑,拿在线教育行业上课活跃率来说,上课活跃率 =某一段时间内上课学生数/总学生数。上课学生数是指完课学生还是参课学生,总学生是指截止目前总学生数还是Learing学生数(总学生中刨除已经结课和退费的学生),都需要提前确认。

确认数据库是否有字段

在上一步确认好数据口径之后,我们整理好需要获取的字段,如果数据库有该字段,可以直接取数校验数据准确性,如果数据库没有该字段,则需进行埋点,再校验数据准确性。

数据库取数

分析好需求后直接写 SQL 代码。要注意两点,第一是确保 SQL 数据准确性,第二是 SQL 查询性能优化。

数据分析

  • 进行描述性分析,对比前一周活跃率下降XX百分点,是否在正常波动范围内;
  • 进行多维度分析,拆分新老用户、系统版本、来源渠道、所在地区等因素,和以往数据对比,计算影响系数((各维度本周量-各维度上周量)/(本周总量-上周总量)),系数越大,对指标影响越大;
  • 看该指标涉及到的部门。和运营、产品沟通最近是否有新的运营策略或新上线XX功能,导致活跃率降低;
  • 近期外部竞品公司是否有新动作;
  • 根据分析结果,给出改进建议以及之后如何避免。

数据可视化

该指标如果是需要长期监控,可以使用第三方平台如 Tableau、Power BI 或公司自研数据分析平台进行可视化展示,业务可自定义进行下钻分析。

追踪落地情况

数据分析师常常自嘲为"取数机"、"表哥"或"表姐",分析出来的数据无法落地,所以我们做出来的数据不能直接交付出去就直接完事了,需要得到业务反馈,从数据角度能够给出其他一些业务洞察,做复盘。

以上是数据分析师确认数据需求的常规流程。

浏览 87
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报