小白学竞赛:10个基础的Pandas函数

小数志

共 1740字,需浏览 4分钟

 ·

2021-10-30 14:23

Hello大家好,我是Coggle菌。从今天开始我将和大家一起学习竞赛中的各种基础知识点,从基础库使用到具体的比赛案例。

今天我们将学习Pandas,一个非常强大的数据分析、数据清洗和读取的工具,也是在Kaggle竞赛中必备的库。

在这篇文章中,我将通过最常见的一些Pandas函数,希望入门的同学在学习完成后可以掌握。

uniquenunique函数

unique函数某列返回唯一元素的列表,此函数比NumPy中的unique函数更快。

data['Embarked'].unique()

nunique函数计算列不同值,其中NaN值被忽略。

data['Embarked'].nunique()

describe函数

describe函数统计表格中每列的平均值、最大值、最小值、分位点和分布情况。在统计时describe会忽略缺失值,用于查看数据整体的情况。

data.describe()

sort_values函数

sort_values函数可以对表格按照某列或者多列进行排序,通过ascending参数可以控制排序次序。

data.sort_values(by='Age', ascending=False)

value_counts函数

value_counts函数返回列中每个唯一值的计数,并按降序显示,最频繁出现的元素排在最前面。value_counts函数不包括空值。

data[['Pclass','Sex']].value_counts()

isnull函数

isnull函数计算数组的对象中是否存在任何缺失值,并返回布尔值。

fillna函数

fillna函数函数用于根据指定的方法填充缺失值,可以向其传入填充值(用于填充缺失值的值)和填充方法(如 bfill、ffill 等)等参数。

data['Age'].fillna(value=data['Age'].median(),inplace=True)

groupby 函数

groupby函数用于拆分数据并进行一些聚合(例如 sum、mean、count 等)或对其进行转换(例如用于填充缺失值或标准化数据)。

data.groupby(['Sex'])['Age'].agg(['max','min','mean','median'])

map函数

map函数用于映射将一个系列的值替换为另一个值。

sex = {'male':1, 'female':0} 
data['Sex'].map(gender)

apply函数

apply函数无疑是所有函数中最有用的函数之一,可以在 apply函数 内部传递一个函数,它将根据需要应用于整个数据帧或特定系列。

df = pd.DataFrame({'Name':['X','Y','Z'], 'Marks':[150,120,175]})

def percentage_marks(x):
    return x/2
df['Marks'].apply(percentage_marks)

pivot函数

pivot函数通过索引或列值重塑数据框,这个功能基本类似于数据透视表。它使用列的唯一值来形成数据帧的索引。但与groupby函数不同,pivot不支持数据聚合。

df = pd.DataFrame({'Class':['1st','2nd','3rd','1st','2nd','3rd'],'Section':['A','A''A','B','B','B'],'Gr':[1,2,3,4,5,6]}) 
df.pivot(index='Class', columns='Section',values='Gr')




相关阅读:


浏览 49
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报