【Python】Pandas中的宝藏函数-rank()

机器学习初学者

共 6244字,需浏览 13分钟

 ·

2021-09-07 15:18

所谓的排名,就是一组数据,我们想要知道每一条数据在整体中的名次,需要的是输出名次,并不改变原数据结构。

排序会改变原来的数据结构,且不会返回名次,这一点区别需要弄明白。初学的时候容易弄混淆。

本文将通过一个实例,讲清楚Pandas中rank()排名函数的应用。下面是案例数据,包括我、张三以及唐宋八大家的语文考试成绩。

import pandas as pddata = pd.DataFrame({'班级':['1班','1班','1班','1班','1班','2班','2班','2班','2班','2班'],'姓名':['韩愈','柳宗元','欧阳修','苏洵','苏轼','苏辙','曾巩','王安石','张三','小伍哥'],'成绩':[80,70,70,40,10,60,60,50,50,40]})#姓名长度不一样的,加个符号调整下,这该死的强迫症data['姓名'] = data['姓名'].str.rjust(3,'〇'


一、DataFrame的正常排名

Pandas中的排名,函数为rank(),使用也比较简单,需要注意的是各种排名的差异,需要进行充分理解,这样在实际应用中才不会出错。

函数用法:

DataFrame.rank(axis=0,method='average',numeric_only=None,na_option='keep',ascending=True,pct=False)

参数说明:

axis:0或'index',1或'columns',默认0,沿着行或列计算排名

method:'average','min','max','first','dense',默认为'average',如何对具有相同值(即ties)的记录组进行排名:

  • average:组的平均等级

  • min:组中最低的排名

  • max:组中最高等级

  • first : 按排列顺序排列,依次排列

  • dense:类似于 ‘min’,但组之间的排名始终提高1

numeric_only:bool,是否仅仅计算数字型的columns,布尔值

na_option:{'keep','top','bottom'},默认为'keep',NaN值是否参与排名及如何排名

  • keep:将NaN等级分配给NaN值

  • top:如果升序,则将最小等级分配给NaN值

  • bottom:如果升序,则将最高等级分配给NaN值。

ascending:bool,默认为True,元素是否应该按升序排名。

pct:bool,默认为False,是否以百分比形式显示返回的排名。

所有的参数中,最核心的参数是method,一共5种排名方法,下面对这5种方法进行对比,应用的时候更好的去选择。


1、method='first'

当method='first'时,当里两个人的分数相同时,分数相同的情况下,谁先出现谁的排名靠前(当method取值为min,max,average时,都是要参考“顺序排名”的),表中的柳宗元和欧阳修分数相同,但是柳宗元在表格的前面,所以排名第2,欧阳修排名第3。

班级

姓名

成绩

成绩(method='first')

1班

〇韩愈

50

1

1班

柳宗元

30

2

1班

欧阳修

30

3

1班

〇苏洵

20

4

1班

〇苏轼

10

5

代码如下:

#为了简化,我们只选择1班的成绩来看data_1 = data[data['班级']=='1班']data_1['成绩_first'] = data_1['成绩'].rank(method='first',ascending=False)data_1   班级   姓名  成绩  成绩_first0  1班  〇韩愈  50       1.01  1班  柳宗元  30       2.02  1班  欧阳修  30       3.03  1班  〇苏洵  20       4.04  1班  〇苏轼  10       5.0

 

2、method='min'

当method='min'时,成绩相同的同学,取在顺序排名中最小的那个排名作为该值的排名,会出现名次跳空,柳宗元和欧阳修分数相同,在上面的排名中,分别排第2、第3,所以这里取两个中最小的为排名名次2作为共同的名次。

班级

姓名

成绩

成绩(method='min')

1班

〇韩愈

50

1

1班

柳宗元

30

2

1班

欧阳修

30

2

1班

〇苏洵

20

4

1班

〇苏轼

10

5

代码如下:

data_1 = data[data['班级']=='1班']data_1['成绩_min'] = data_1['成绩'].rank(method='min',ascending=False)data_1   班级   姓名  成绩  成绩_min0  1班  〇韩愈  50     1.01  1班  柳宗元  30     2.02  1班  欧阳修  30     2.03  1班  〇苏洵  20     4.04  1班  〇苏轼  10     5.0

 

3、method='max'

当method='max'时,与上面的min相反,成绩相同的同学,取在顺序排名中最大的那个排名作为该值的排名,,会出现名次跳空,柳宗元和欧阳修分数相同,在顺序排名中,分别排第2、第3,所以这里取两个中最大的为排名名次3作为共同的名次。

班级

姓名

成绩

成绩_max

1班

〇韩愈

50

1

1班

柳宗元

30

3

1班

欧阳修

30

3

1班

〇苏洵

20

4

1班

〇苏轼

10

5

代码如下:

data_1 = data[data['班级']=='1班']data_1['成绩_max'] = data_1['成绩'].rank(method='max',ascending=False)data_1   班级   姓名  成绩  成绩_max0  1班  〇韩愈  50     1.01  1班  柳宗元  30     3.02  1班  欧阳修  30     3.03  1班  〇苏洵  20     4.04  1班  〇苏轼  10     5.0

 

4、method='dense'

method='dense',dense是稠密的意思,即相同成绩的同学排名相同,其他依次加1即可,不会出现名次跳空的情况。柳宗元和欧阳修分数相同,在上面的排名中,分别排第2、第3,取相同排名2,这个看上去和min一样的,但是下一名的排名发生了变化,〇苏洵同学从第4名排到了第3名,排名数字连续的,没有跳跃。

班级

姓名

成绩

成绩_dense

1班

〇韩愈

50

1

1班

柳宗元

30

2

1班

欧阳修

30

2

1班

〇苏洵

20

3

1班

〇苏轼

10

4

代码如下:

data_1 = data[data['班级']=='1班']data_1['成绩_dense'] = data_1['成绩'].rank(method='dense',ascending=False)data_1   班级   姓名  成绩  成绩_dense0  1班  〇韩愈  50       1.01  1班  柳宗元  30       2.02  1班  欧阳修  30       2.03  1班  〇苏洵  20       3.04  1班  〇苏轼  10       4.0

 

5、method='average'

当method='average'或者默认值时,成绩相同时,取顺序排名中所有名次之和除以该成绩的个数,即为该成绩的名次;比如上述排名中,30排名为2,3,那么 30的排名 = (2+3)/2=2.5,成绩为50的同学只有1个,且排名为1,那50的排名就位1/1=1。

班级

姓名

成绩

成绩_average

1班

〇韩愈

50

1

1班

柳宗元

30

2.5

1班

欧阳修

30

2.5

1班

〇苏洵

20

4

1班

〇苏轼

10

5

代码如下:

data_1 = data[data['班级']=='1班']data_1['成绩_average'] = data_1['成绩'].rank(method='average',ascending=False)data_1   班级   姓名  成绩  成绩_average0  1班  〇韩愈  50         1.01  1班  柳宗元  30         2.52  1班  欧阳修  30         2.53  1班  〇苏洵  20         4.04  1班  〇苏轼  10         5.0

综合上面的所有排名类型类型整体对比看看

班级

姓名

成绩

rank

rank_min

rank_max

rank_first

rank_dense

1班

〇韩愈

50

1

1

1

1

1

1班

柳宗元

30

2.5

2

3

2

2

1班

欧阳修

30

2.5

2

3

3

2

1班

〇苏洵

20

4

4

4

4

3

1班

〇苏轼

10

5

5

5

5

4

data_1 = data[data['班级']=='1班']data_1['rank']       = data_1['成绩'].rank(ascending=False) data_1['rank_min']   = data_1['成绩'].rank(method='min',ascending=False) data_1['rank_max']   = data_1['成绩'].rank(method='max',ascending=False) data_1['rank_first'] = data_1['成绩'].rank(method='first',ascending=False) data_1['rank_dense'] = data_1['成绩'].rank(method='dense',ascending=False)data_1  班级   姓名  成绩  rank  rank_min  rank_max  rank_first  rank_dense0  1班  〇韩愈  50   1.0       1.0       1.0         1.0         1.01  1班  柳宗元  30   2.5       2.0       3.0         2.0         2.02  1班  欧阳修  30   2.5       2.0       3.0         3.0         2.03  1班  〇苏洵  20   4.0       4.0       4.0         4.0         3.04  1班  〇苏轼  10   5.0       5.0       5.0         5.0         4.0  

其他参数都比较简单了,计算一行的排名,axis=0即可。

参数pct=True时,返回排名的分位数,可以用于计算排名的百分比,非常方便。

data_1 = data[data['班级']=='1班']data_1['成绩_first'] = data_1['成绩'].rank(method='first',ascending=False,pct=True)data_1班级   姓名  成绩  成绩_first0  1班  〇韩愈  80       0.21  1班  柳宗元  70       0.42  1班  欧阳修  70       0.63  1班  〇苏洵  40       0.84  1班  〇苏轼  10       1.0


二、DataFrame的分组排名

在上文中,我们看到了rank()函数对DataFrame直接排名,非常方便,也非常丰富,当然,rank()也可以对经过groupby分组后的数据进行排名,分组排名的功能,让数据分析更加的精细化,大大提高分析效率。直接使用开头创建好的数据集,按班级排名,看看乜咯班级的第一名是谁。

data['成绩_dense']= data.groupby('班级')['成绩'].rank(method='dense')data班级   姓名  成绩  成绩_dense0  1班  〇韩愈  50       4.01  1班  柳宗元  30       3.02  1班  欧阳修  30       3.03  1班  〇苏洵  20       2.04  1班  〇苏轼  10       1.05  2班  〇苏辙  60       3.06  2班  〇曾巩  60       3.07  2班  王安石  50       2.08  2班  〇张三  50       2.09  2班  小伍哥  40       1.0

同上面的直接排名,method一样的可以使用各种方法,达到各种排名的目的。

data['成绩_average']= data.groupby('班级')['成绩'].rank(method='average')data   班级   姓名  成绩  成绩_average0  1班  〇韩愈  80         5.01  1班  柳宗元  70         3.52  1班  欧阳修  70         3.53  1班  〇苏洵  40         2.04  1班  〇苏轼  10         1.05  2班  〇苏辙  60         4.56  2班  〇曾巩  60         4.57  2班  王安石  50         2.58  2班  〇张三  50         2.59  2班  小伍哥  40         1.0


三、Series的排名

对于Series。其实就是数据框的一列,没啥多说的,一样的方法就行,下面写了两个简单的示例,大家参考下。

from pandas import Seriess = Series([1,3,2,1,6])s.rank()a  1.5c  4.0d  3.0b  1.5e  5.0

 

根据值在数组中出现的顺序进行排名,method='first'

s.rank(method='first')a  1.0c  4.0d  3.0b  2.0e  5.0

根据值在数组中出现的顺序密集排名,method='dense'

s.rank(method='dense')a    1.0c    3.0d    2.0b    1.0e    4.0

 

码字不易,大家多多分享传播。求个点赞+在看

往期精彩回顾




本站qq群851320808,加入微信群请扫码:
浏览 63
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报