数据分析的“六字决”

python爬虫人工智能大数据

共 1314字,需浏览 3分钟

 ·

2020-07-31 18:40

数据包裹着我们每一个人,推攘着向前,向前,向前;我们也不断的需要在数据中发现知识,快速成长。

怎么更好的完成数据分析呢?发现问题,认识问题,解决问题。

看过万卷书,走过万里的路。发现数据分析也是一件有门有道,有章有法的事。简单而言六个字:“构成,对比,趋势

构成是数据内部的组合分布,主要描述“我”是谁?知道“我”是谁是最为关键的一步,正如一句古语:“知己知彼,百战不殆”。

对比是组成部分的对比知道我最重要的是什么;现在“我”与过去“我”的对比知道成长了多少;同类的对比知道“我”与“他”的不同,显现“我”的优劣不足,这样才能有的放矢。

趋势是变化走向的描述,主要掌握“我”要到哪里去,有迹可循,有踪可跟,我们才能把握未知,不偏不倚的驶向好的未来。


1,构成
构成主要的方法,拆分构成数据的成分,一般多按照自然维度,偶有人为定义(三分法,四分法,多分法):

比如:用户分为年轻,中年,老年的三种年龄构成;产品分为通过价格和质量分为四象限;最常用的是多维度细分,因为一定程度的汇总,会掩盖数据的真实情况而出现辛普森悖论。

假设维度:有(A,B,C,D)将会产生的组合为:15= 2的4次方-1;有时维度组合太多也不是一件好事。
2,对比
对比不是目的,发现自我的优缺点及改善方法才是目的

对比有三种类型:
一是时间上的比较有我们耳熟能详的年,季,月,周的同比和环比,今日与昨天基准的比较。

二是数据内部同维度不同维值的对比:比如在地域的店铺,可以对比北上广各个城市的比较。

三是竞对/同类产品的比较:主要比较与竞对/同类产品的优势劣势。

对比的具体例子生活中比比皆是:比如看别人家的孩子,别人的父母,别人的男朋友。这些不对等的对比除了气人,没有啥价值。

最合适的对比:有A/B test,A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。比如测试首页的改版效果,就需要保证来源渠道一样,用户质量一样,上线时间保持相同,这样测试出来的数据才有意义。

3,趋势
趋势分析一般而言,适用于产品核心指标的长期跟踪,核心指标是要能够度量业务努力的状态的,比如,点击率(业务活动是否让用户喜欢),GMV(最后的成交金额),活跃用户数等。做出简单的数据趋势图,并不算是趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。

如下图:趋势图让我们直观的发现数据的波动。比如周六日的周期下跌;网站活动对日活的影响。

趋势关注的是业务人员的努力状态:比如开车,行程数只是结果的反映,这种趋势看不到人的努力;只有速度我们可以看到司机每个时间段的状态(忽略其它路况原因)。每小时的速度变化能反映出人的状态,只有我们处理好业务产出与人效的关系。我们就能以人来推断业务增长。

希望大家分析数据的时候,学会 从“构成,对比,趋势”中发现问题,找到解决办法,促进事态的稳步发展。

python爬虫人工智能大数据公众号


浏览 14
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报