数据爬取+数据分析,教你几招Python数据分析大招
背景
你们好
很早之前提到一个观点:一个优秀的数据人应该是思维、业务、分析和工程能力的综合体,谈思维、业务等能力可能大家觉得飘在空中。
确实,在我一开始入门数据行业的时候,我也有这样的感觉,为什么那些大佬老是跟我吹产品Sense,业务感等等。
那好,今天我们抛开这些,就谈工程能力,或者再细化一点,就谈数据人应该了解和学习哪些技术栈。
到底要不要精通Python
首先说观点,我不清楚精通Python是什么样的体验,因为我真的不精通。我只是熟悉Python语法,相关的函数、模块和包以及一些面向对象的写法等等。
对于数据人,我觉得更重要的是去思考哪些问题可以利用Python扩展而来的一些程序库处理,比如遇到大型矩阵的数值计算问题,你就应该想到Numpy来解决。
类似的我会问,那Pandas呢?其实Pandas和SQL几乎是一致的数据处理方式,都只是提供了快速便捷地处理数据的函数和方法,这也是Python为什么会经常会被认为可以高效应用于数据分析原因之一了。
对于Python相关要掌握的程度,我整理了一些学习视频和课件(文末自由获取)。
谈下数据架构
大部分小伙伴应该是了解HiveSQL的,但如果仔细问他什么是Hive这类的问题其实不能理解的很好,这样学往往不能很扎实。
通俗的理解Hive是一个基于Hadoop的开源数据仓库工具,用于存(HDFS)和处理(MapReduce)海量结构化数据。使用MapReduce计算,HDFS储存。
之前我说数据分析师不精通Hadoop、MapReduce、HDFS这些是啥,但不代表你不需要了解和学习基本的内容。其实不只是需要了解这些,还有Storm、Hbase、Flume、Spark、SparkSQL等等都是需要数据分析、数据挖掘、数据算法等岗位去学习和了解的。
对于想从事数据开发的朋友来说,上面的那些技术栈更是应该非常熟练的掌握(我个人建议没有项目经历和工作经验的朋友不要转数据分析,因为真的HC太少,可以考虑数据开发,很吃香,工资也很高,竞争系数相对算法和分析来说要小一些)。
不用慌,我也给大家准备了一套学习资料(文末自由获取),非常详细的讲解了这些内容:
学些数据挖掘模型有好处
有些业务场景的任务不是简单的对比、交叉之类的分析可以解决(一般是提供一些探索性过程结果)。比如分类、预测、人群聚类、文本挖掘等等。
我之前提到说数据分析一般可以分成定量和定性的分析,定量的大家都比较清楚,也比较常见,但是定性的会去研究用户的主动反馈意见,而这些一般都是文本,当数据量较大的时候,肯定不是一条条自己去分析用户的情感、观点等维度,这时候完全可以利用文本挖掘的方法快速准确的抽取出用户观点、主题和情感分析等等。
同样,这部分我也给大家整理了一套学习资料(文末自由获取)
以上整理内容【获取方式】
扫描以下二维码添加好友 备注:python
备注:python