数据分析怎么学?我画了一个导图

共 6755字,需浏览 14分钟

 ·

2021-08-10 10:20

导读:数据分析史上最强书单!

作者:华章静老师 来源:大数据DT(ID:hzdashuju)


数据分析是从数据中提取信息的过程,其在各个领域发挥着非常重要的作用。数据分析是检查、清理、转换和建模数据的过程,它有助于从数据中发现规律并制定更加科学的决策,已被广泛应用于自然科学、社会科学和管理科学的各个领域。

数据分析的流程一般为:数据采集→数据传输→数据预处理→数据统计与建模→数据分析/挖掘→数据可视化/反馈。


因此,数据采集是基本,是源头。


01 数据采集

数据采集一般需要包含两大基础功能

  • 通过埋点来采集数据。
  • 将采集的数据传输到指定的服务器端。

不论是采集数据,还是传输数据,都要求数据采集SDK能最大限度地保证数据的准确性、完整性和及时性,这就要求数据采集能处理很多细节方面的问题,比如用户标识、网络策略、缓存数据策略、同步数据策略、数据准确性和数据安全性等。

1. 数据埋点

目前,业界主流的埋点方式主要有如下三种。

  • 代码埋点
  • 全埋点
  • 可视化埋点

代码埋点指应用程序集成埋点SDK后,在启动时初始化埋点SDK,然后在某个事件发生的时候调用埋点SDK提供的方法来触发事件。代码埋点是“最原始”的埋点方式,同时也是“最万能”的埋点方式,这是因为它具有下述一系列的优点。

全埋点也叫无埋点、无码埋点、无痕埋点、自动埋点,指无须应用程序开发工程师写代码或者只写少量的代码,即可预先自动收集用户的所有或者绝大部分的行为数据,然后根据实际的业务分析需求从中筛选出所需的数据并进行分析。

可视化埋点也叫圈选,是指通过可视化的方式进行埋点。

iOS全埋点解决方案
作者:王灼洲

推荐语:国内知名大数据公司神策数据出品,多位行业专家联袂推荐。执笔人是神策数据合肥研发中心负责人,在Android & iOS等领域有10年的研发经验,对各种数据采集技术和解决方案都有深入研究,开发和维护着国内第一个商用的开源 Android & iOS 数据埋点 SDK。

2. 网络爬虫

网络爬虫是自动采集数据的有效手段。网络爬虫(又被称为网页蜘蛛、网络机器人,在FOAF社区中,更经常地称为网页追逐者)是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

网络爬虫通过爬取互联网上网站服务器的内容来工作。它是用计算机语言编写的程序或脚本,用于自动从Internet上获取信息或数据,扫描并抓取每个所需页面上的某些信息,直到处理完所有能正常打开的页面。

作为搜索引擎的重要组成部分,爬虫首要的功能就是爬取网页数据,目前市面流行的采集器软件都是运用网络爬虫的原理或功能。

现如今大数据时代已经到来,网络爬虫技术成为这个时代不可或缺的一部分,企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等,而这一切的首要条件就是数据的采集。

网络爬虫的价值其实就是数据的价值,在互联网社会中,数据是无价之宝,一切皆为数据,谁拥有了大量有用的数据,谁就拥有了决策的主动权。这里给大家推荐一本网络爬虫的实战宝典《Python网络爬虫技术与实战》。

Python网络爬虫技术与实战
作者:赵国生 王健

推荐语:这是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。


02 数据预处理

数据预处理主要包括数据清理和数据整理。

1. 数据清理

数据清理是指发现并处理数据中存在的质量问题,如缺失值异常值等。

其中,缺失值是指缺失的数据项,如某用户在填写调查问卷时,没有填写“年龄”一栏的信息,那么对于该用户填写的这条数据来说,年龄数据项就是缺失值;异常值是指虽然有值但值明显偏离了正常取值范围,如针对18~30岁成年人的调查问卷中,某用户填写调查问卷时将年龄误填为2。

在数据建模前,必须处理好包含缺失值或异常值的数据,否则会严重影响数据分析结果的可靠性。

2. 数据整理

数据整理是指将数据整理为数据建模所需要的形式。例如,建立一个回归模型进行房屋价格预测时,通常需要将对数据预测无用的数据项(如房屋的ID编号)去除,将用于预测目标值的特征(如房龄、朝向等)和目标变量(房屋价格)分开。

Python数据整理
作者:Tirthajyoti Sarkar, Shubhadeep Roychowdhury

推荐语:一本实用的Python数据整理入门教程。书中全面、系统地阐释数据整理和提炼过程背后的所有核心思想,通过大量的练习和实例,帮助你全方位理解并掌握相关概念、工具和技术。


03 数据统计与建模

数据统计与建模是指对数据计算均值、方差等统计值,通过描述性统计分析掌握数据特性,完成对已知数据的解释;根据已有数据建立模型以对未来数据进行预测、分类,从而解决实际应用问题。


04 数据分析/挖掘

大数据分析与挖掘已经成为大数据时代重要的技能之一,社会对这方面的人才的需求随着数据的增长而不断增长。数据分析师这个职业变得越来越重要,数据分析能力也变得尤为重要。

1. 数据分析

大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理的时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极帮助。

数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然目前大数据在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的焦点。

为了满足日益增长的大数据分析人才需求,很多高校开始尝试开设不同程度的大数据分析课程。“大数据分析”作为大数据时代的核心技术,必将成为高校数学与统计学专业的重要课程之一。为大家推荐数据分析领域人手一本的经典《利用Python进行数据分析》。

利用Python进行数据分析
(原书第2版)
作者:韦斯·麦金尼(Wes McKinney)

推荐语:Python数据分析经典畅销书。本书由Python pandas项目的创始人Wes McKinney创作,阅读本书可以获得一份关于在Python下操作、处理、清洗、规整数据集的完整说明。

如果你想充分发挥Python的强大作用,如果你想成为一名好的Python数据分析师,你应该先学好Pandas,它是数据科学武器库中的瑞士军刀,为大家推荐《深入浅出Pandas:利用Python进行数据处理与分析》。

深入浅出Pandas
作者:李庆辉

推荐语:这是一本全面覆盖了Pandas使用者的普遍需求和痛点的著作,基于实用、易学的原则,从功能、使用、原理等多个维度对Pandas做了全方位的详细讲解,既是初学者系统学习Pandas难得的入门书,又是有经验的Python工程师案头必不可少的查询手册。《利用Python进行数据分析》学习伴侣,用好Python必备。

2. 数据挖掘

LinkedIn通过对全球超过3.3亿用户的工作经历和技能进行分析后得出,在目前炙手可热的25项技能中,数据挖掘人才需求排名第一。那么数据挖掘是什么呢?

数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。

数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此,数据挖掘已成为企业保持竞争力的必要方法。为大家推荐《Python数据分析与挖掘实战(第2版)》

Python数据分析与挖掘实战
(第2版)
作者:张良均 谭立云 刘名军 江建明

推荐语:畅销书全新升级,第1版销售超过10万册,被国内100余所高等院校采用为教材,同时被广大数据科学工作者奉为经典,是该领域公认的事实标准。


05 数据可视化

数据可视化是指将数据统计分析及建模结果通过图形化的方式表现出来,直观展示数据特性及数据模型的性能。

使用可视化来表示数据的概念已经有几百年的历史了。今天,随着技术和商业智能(BI)技术的进步,有许多工具可以帮助创建可视化。技术已经使得快速处理大量数据成为可能。技术可能会继续推进创建可视化的能力——也许是通过音频描述用户想要看到的内容,或者是通过机器学习来创建可视化。

可视化的形式有数字图、饼图、条形图、折线图、散点图、热力图、气泡图等,就像机器学习、数字人脸识别、非结构化数据分析和数据科学的发展一样,创建可视化的实践正在快速增长。目前市场上一些不需要复杂的编程技能就能创建可视化的主流工具:Qlik、Tableau、Microsoft Power BI、Sisense等。

数据可视化在过去的几年中得到了长足的发展。开发者对于可视化产品的期待不再是简单的图表创建工具,而在交互、性能、数据处理等方面有了更高级的需求。Apache ECharts 始终致力于让开发者以更方便的方式创造灵活丰富的可视化作品。

Apache ECharts 是一个直观、可交互、强大的可视化图表库,非常适合用来作为商业级的图表演示。该项目在 2013 年起源于百度,2018 年 1 月进入 Apache 孵化器。为大家推荐ECharts官方推荐的《ECharts数据可视化:入门、实战与进阶》。

ECharts数据可视化
作者:王大伟

推荐语:这是一部ECharts的实战手册,内容系统而全面,由浅入深,能带领读者快速从新人晋级为高手,做出漂亮的商业级数据图表。


小结:有什么用?

说了半天,学习数据分析到底有什么用?

数据分析能力已经成为进大厂的一项必要技能,越早掌握,对自己越有利。这份数据分析思维路径推荐书单请收好,学会数据分析,抢占职场风口机遇。

下面列举数据分析的几个典型应用场景。

1. 历史数据描述

通过对历史数据的描述性统计分析(如产品季度销量、平均售价等),使分析者能够在有效掌握过去一段时间数据全貌的基础上,制定出更有利的决策。例如,对于一家超市,可根据过去一个月各种产品不同促销活动下的销量数据进行统计分析,从而制定出利润最大化的销售方案。

2. 未来数据预测

通过对历史数据进行建模,使分析者能够对数据的未来走势进行预判,进而制定出合理的应对方案。例如,对于一家生产型企业,可根据历史市场数据建立市场需求预测模型,基于未来市场对各种产品的需求量进行预估,确定各种产品的产量。

3. 关键因素分析

一个结果通常是由大量因素共同决定的,但有些因素起的作用较小,而有些因素起的作用较大。通过关键因素分析,可以挖掘出那些重要的因素,并从重要因素入手来有效改善最终的结果。

例如,对于酒店管理者,可根据用户在酒店订购网站上的文字评论和打分进行影响酒店评价的关键因素分析,利用挖掘出的关键因素(如早餐是否丰富、房间是否干净、交通是否方便等)改进酒店管理,进一步提高用户满意度、增加客源。

4. 个性化推荐

基于用户的历史行为,挖掘用户的兴趣点,为用户完成个性化推荐。例如,对于一个电子商城,可以根据用户的浏览记录、购买记录等历史行为数据,分析用户可能感兴趣的商品,并向用户推荐这些商品,从而在节省用户搜索商品所用时间的同时增加商品销量。

最后整理一下导图上的全部22本书和简介。

  1. 《Python网络爬虫技术与实战》:一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。
  2. 《Android全埋点解决方案》:10年Andriod开发经验专家撰写,8种Android全埋点技术方案,附源码。
  3. 《iOS全埋点解决方案》:手把手教你实现iOS场景下的各种全埋点解决方案。
  4. 《Python数据整理》:一本实用的Python数据整理入门教程。书中全面、系统地阐释数据整理和提炼过程背后的所有核心思想,通过大量的练习和实例,帮助你全方位理解并掌握相关概念、工具和技术。
  5. 《统计学习导论》:概述了统计学习领域,提供了理解大数据和复杂数据必不可少的工具。介绍了一些重要的建模方法和预测技术,以及它们的相关应用。内容涉及线性回归、分类、再抽样方法、压缩方法、基于树的方法和聚类等,用彩图和实例来阐释相关方法。
  6. 《大规模数据分析和建模》:Spark发明者撰写,Spark发明者亲笔作序推荐,详细讲解展示如何将Spark和R结合起来进行大数据分析。
  7. 《利用Python进行数据分析(原书第2版)》:Python数据分析经典畅销书。本书由Python pandas项目的创始人Wes McKinney创作,阅读本书可以获得一份关于在Python下操作、处理、清洗、规整数据集的完整说明。
  8. 《Python数据分析与挖掘实战(第2版)》:公认经典,第1版销售10万余册,100余所高校用作教材;提供上机环境、源代码、建模数据、教学PPT。
  9. 《Python数据分析与数据化运营(第2版)》:畅销书大幅升级,资深大数据专家撰写,14个数据分析与挖掘主题,4个数据化运营主题,8个综合性案例。
  10. 《深入浅出Pandas》:一本全面覆盖了Pandas使用者的普遍需求和痛点的著作,基于实用、易学的原则,从功能、使用、原理等多个维度对Pandas做了全方位的详细讲解,既是初学者系统学习Pandas难得的入门书,又是有经验的Python工程师案头必不可少的查询手册。
  11. 《数据挖掘与数据化运营实战》:本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。
  12. 《数据分析即未来》:融合了数据科学、设计思维和组织理论,全方位阐释如何高效达成高水平企业级数据分析能力。
  13. 《社交网站的数据挖掘与分析(原书第3版)》:第21届Jolt大奖图书,聚焦社交网站生态的某个具体方面,使用Python代码分析社交媒体中的真知灼见。
  14. 《社交媒体数据挖掘与分析》:前Twitter一线数据处理专家撰写,从用户角度深入阐释大数据环境下处理社交媒体数据所需的工具、原理和实践。
  15. 《Python广告数据挖掘与分析实战》:广告行业数据分析和AI技术专家撰写,系统讲解广告数据挖掘模型、算法、方法,提供大量案例和代。
  16. 《广告数据定量分析》:资深广告优化师撰写,宋星、吴俊等近10位专家推荐,快速提升广告优化师数据分析能力。
  17. 《Python金融数据分析(原书第2版)》:不仅涵盖核心的金融理论及相关数学概念,还详细讲解行业使用的先进金融模型及Python解决方案。
  18. 《金融数据分析导论:基于R语言》:本书向读者展示了可视化金融数据的基本概念,共有7章内容,涉及R软件、线性时间序列分析、资产波动率的不同计算方法、波动率模型在金融中的实际应用、高频金融数据的处理、用于风险管理的量化方法等。
  19. 《基于R语言的金融分析》:本书关注计算机模拟技术,提供一站式解决方案,涵盖用R语言进行金融分析所需要的一切知识。
  20. 《电商数据分析与数据化运营》:作者从事电商行业10余年,是电商数据分析与运营专家。从业务、数据、运营3个维度为电商的经营和决策提供了科学的方法论,真正做到了“业务中有数据,数据中有运营”。
  21. 《Python数据可视化:基于Bokeh的可视化绘图》:这是一本适合零基础读者快速入门并掌握Bokeh的实战指南,作者是Bokeh的先驱用户和布道者,实践经验丰富。本书从图形绘制、数据动态展示、Web交互等维度全面讲解Bokeh功能和使用,不涉及复杂的数据处理和算法,包含大量实战案例。
  22. 《ECharts数据可视化》:这是一部ECharts的实战手册,内容系统而全面,由浅入深,能带领读者快速从新人晋级为高手,做出漂亮的商业级数据图表。


推荐阅读

(点击标题可跳转阅读)

神经网络入门

统 计 学 无 用 了 ???

神经网络的可解释性综述!

测评:《机器学习中的数学》

清华大学出版!《机器学习导论》PDF下载

【奥运会】Yahoo的这个骚操作令人费解。。。

老铁,三连支持一下,好吗?↓↓↓

浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报