Python|我在项目中常用的Python库
《学习笔记》专栏·第24篇
文 | Pyer
1592字 | 4分钟阅读
【数据科学与人工智能】开通了Python语言群和机器学习群,大家可以相互学习和交流。请扫描下方二维码,备注:姓名-Py或姓名-ML,添加我为好友,诚邀你入群,一起进步。
我在做数据挖掘项目的时候,会常用这些Python库,通过它们,帮助我做数据获取、数据处理、数据探索、数据分析、数据建模和数据可视化。
1 numpy库
它在项目中主要用来做一些数值运算,比方说数据的转换、统计性描述里面分位数计算等。这个库提供的数组结构,可以进行向量化运算,提升了计算的效率。
2 pandas库
它在项目用于做数据的获取,比方说从数据库中获取数据或者获取本地格式文件,数据处理,比方说缺失值处理,数据选择,比方说样本选择和变量选择,数据聚合运算,数据集成操作,数据的向量化操作,数据的移位操作和窗口加工以扩充特征集,数据集可视化等。我会经常翻阅这个库的官方文档,学习相关函数的使用。
官方文档下载链接:
http://tfcs.tpddns.cn:15888/f/08b9f766a4b147dea9a3/
3 matplotlib库
它在项目中用于做数据可视化,通过数据可视化,一方面,可以做数据的探索性分析,另一方面做数据结果的呈现和表示。我常用的图形包括散点图、折线图、条形图、柱状图、直方图、核密度曲线图、热力图和雷达图等。
伙伴们,请思考一个问题:matplotlib库绘图时,figure和axes有什么区别?请留言。
4 scikit-learn库
它在项目中用于做传统的机器学习算法,包括有监督的学习,分类问题和回归问题,无监督的学习,聚类问题和降维问题,以及数据的预处理,数据的划分,奇异值检测,特征选择等。我会常用到里面多元线性回归模型、逻辑回归模型、决策树模型、随机森林模型、梯度提升树模型、K均值模型、PCA算法、特征选择的算法等。
5 statsmodels库
它在项目中用于做统计模型相关的事情,比方说OLS模型构建和结果分析,以及经典的时间序列分析和预测模型,比方说ARIMA算法,包括平稳性序列检验,超参数p,d,q阶的确定,以及ARIMA模型的建构。
6 keras库
它在项目中用于做深度学习相关的事情,它以tensorflow做后端计算框架,tensorflow2.0及以上已经内置了keras,换而言之,我们可以通过keras框架,类似搭建积木一样,来设计和构建深度学习框架,把深度学习技术应用到实际问题。
7 xgboost库
它在项目中用作xgboost算法和模型,这个算法在学术界和工业界,都有着广泛的用途。算法的原理,可以参考这篇论文。
https://arxiv.org/pdf/1603.02754.pdf
在我所从事的金融科技领域,还会用到其它一些算法,比方说lightgbm,catboost等,这些算法都有相应的库,还有一个用于做评分模型的库:toad库。
朋友们,你们在项目中会用到那些Python库,请留言。
需要学习机器学习和深度学习技术与技能的伙伴们,可以查阅李宏毅老师的机器学习课程,这门课程的学习笔记和观看视频如下,会持续更新。
13 笔记|李宏毅老师机器学习课程,视频13深度学习的Helloworld
14 笔记|李宏毅老师机器学习课程,视频14Keras2.0
15 笔记|李宏毅老师机器学习课程,视频15Keras Demo
16 笔记|李宏毅老师机器学习课程,视频16DNN训练的Tips
17 笔记|李宏毅老师机器学习课程,视频17Keras Demo2
18 笔记|李宏毅老师机器学习课程,视频18Fizz Buzz in Tensorflow
20 笔记|李宏毅老师机器学习课程,视频20Why Deep Learning?
每周一书