背景
我一直认同这个观点:一个优秀的数据人应该是思维、业务、分析和工程能力的综合体,谈思维、业务等能力可能大家觉得飘在空中。
那好,今天我们抛开这些,就谈工程能力,或者再细化一点,就谈数据人应该了解和学习哪些技术栈。
到底要不要精通Pandas
我一直觉得,Pandas是数据分析中一个超级好用的工具,不接受任何反驳。在学习完Python基础后,我们完全可以上手Pandas库。其实并没有那么难,最主要还是多写多练、多总结。这里我为大家整理出来了一个Python文档和一个Pandas文档(文末自由获取)。部分截图如上
掌握一些机器学习方法
有些业务场景不是简单的对比、交叉分析就可以解决(一般是提供一些探索性过程结果)。比如分类、预测、人群聚类、文本挖掘等等。我之前提到说数据分析一般可以分成定量和定性的分析,定量的大家都比较清楚,也比较常见,但是定性的会去研究用户的主动反馈意见,而这些一般都是文本,当数据量较大的时候,肯定不是一条条自己去分析用户的情感、观点等维度,这时候完全可以利用方法快速准确的抽取出用户观点、主题和情感分析等等。关于这部分,我也给大家整理了学习视频(文末自由获取)。部分截图如上
掌握一些大数据方法
在数据爆炸的年代,有些大数据处理方法,我们不得不掌握。这也就是很多招聘网站,都必须要求我们会hadoop和hive等方法。掌握这些方法,对于你找工作,觉得具有很大的竞争力。不用慌,我还是给大家准备了一套视频资料(文末自由获取)。