四个好用却可能不为人所熟知的Pandas函数
作者:俊欣
来源:数据分析与篮球
点击蓝色文字
关注我们
奉献更多优质内容
在数据分析的过程中,相信大家用的最多的就是Pandas库,无论是统计分析还是可视化等等,Pandas都给我们提供了诸多便利。今天小编就来和大家说说在Pandas库中那些不为人所熟知但是却十分好用的函数,希望大家看了之后也能够受益匪浅
01PARTidxmax()和idxmin()
从函数名称中我们就能直观的理解这几个函数的作用--返回最大值或者是最小值的索引,这里我们用到的数据集是“泰坦尼克号”乘客信息的数据集(是的,就是那个家喻户晓的kaggle入门级别的项目的数据集),假设我们要找到年龄最小或者最大的乘客的姓名,我们可以这么做,
但是酱紫稍显繁琐,要是我们运用上述提到的函数就可以,
输出的结果都是一致,但是显得更加的简洁与高效
02PART cut()
简而言之,cut()函数能够将数值划分成等额的数份,比如还是“泰坦尼克号”数据集中有代表乘客年龄的数据,我们将乘客的年龄等额的划分成5份,
第一位乘客的年龄在16与32岁之间,第二位乘客的年龄则在32到48岁之间等等。或者你想用数字来代替图中的区间,则可以用
03PARTnsmallest和nlargest
从函数名中,我们就能轻松的领悟到函数的作用了,比方说我们想找到在泰坦尼克号乘船中,年龄最大的3位乘客的姓名是什么,我们则可以
04PART pivot_table
也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了类似的功能,名为pivot_table,比方说我们想查找出数据集当中,三等舱男性的平均生存率,我们可以通过层层筛选来得出结论,
但假如我们想查找船舱中不同性别不同等级的客舱的平均生还率时,pivot_table就是一个非常好的工具,我们可以将性别设置成为索引,每一列代表客舱的等级,计算的方式则是采用取平均,也就是mean,如下图所示,
在Pandas库当中能够帮我们显著提效的函数还有很多,但是数据分析说到底也只是一种工具,来帮助我们发现与分析问题,但是要落实到解决问题,靠的依然是对业务的理解与思考。
◆ ◆ ◆ ◆ ◆
长按二维码关注我们
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
● 华农兄弟、徐大Sao&李子柒?谁才是B站美食区的最强王者?
● 你相信逛B站也能学编程吗