数据爬取+数据分析，教你几招Python数据分析大招-技术圈

背景

你们好

很早之前提到一个观点：一个优秀的数据人应该是思维、业务、分析和工程能力的综合体，谈思维、业务等能力可能大家觉得飘在空中。

确实，在我一开始入门数据行业的时候，我也有这样的感觉，为什么那些大佬老是跟我吹产品Sense，业务感等等。

那好，今天我们抛开这些，就谈工程能力，或者再细化一点，就谈数据人应该了解和学习哪些技术栈。

首先说观点，我不清楚精通Python是什么样的体验，因为我真的不精通。我只是熟悉Python语法，相关的函数、模块和包以及一些面向对象的写法等等。

对于数据人，我觉得更重要的是去思考哪些问题可以利用Python扩展而来的一些程序库处理，比如遇到大型矩阵的数值计算问题，你就应该想到Numpy来解决。

类似的我会问，那Pandas呢？其实Pandas和SQL几乎是一致的数据处理方式，都只是提供了快速便捷地处理数据的函数和方法，这也是Python为什么会经常会被认为可以高效应用于数据分析原因之一了。

对于Python相关要掌握的程度，我整理了一些学习视频和课件（文末自由获取）。

大部分小伙伴应该是了解HiveSQL的，但如果仔细问他什么是Hive这类的问题其实不能理解的很好，这样学往往不能很扎实。

通俗的理解Hive是一个基于Hadoop的开源数据仓库工具，用于存(HDFS)和处理(MapReduce)海量结构化数据。使用MapReduce计算，HDFS储存。

之前我说数据分析师不精通Hadoop、MapReduce、HDFS这些是啥，但不代表你不需要了解和学习基本的内容。其实不只是需要了解这些，还有Storm、Hbase、Flume、Spark、SparkSQL等等都是需要数据分析、数据挖掘、数据算法等岗位去学习和了解的。

对于想从事数据开发的朋友来说，上面的那些技术栈更是应该非常熟练的掌握（我个人建议没有项目经历和工作经验的朋友不要转数据分析，因为真的HC太少，可以考虑数据开发，很吃香，工资也很高，竞争系数相对算法和分析来说要小一些）。

不用慌，我也给大家准备了一套学习资料（文末自由获取），非常详细的讲解了这些内容：

有些业务场景的任务不是简单的对比、交叉之类的分析可以解决（一般是提供一些探索性过程结果）。比如分类、预测、人群聚类、文本挖掘等等。

我之前提到说数据分析一般可以分成定量和定性的分析，定量的大家都比较清楚，也比较常见，但是定性的会去研究用户的主动反馈意见，而这些一般都是文本，当数据量较大的时候，肯定不是一条条自己去分析用户的情感、观点等维度，这时候完全可以利用文本挖掘的方法快速准确的抽取出用户观点、主题和情感分析等等。

同样，这部分我也给大家整理了一套学习资料（文末自由获取）