小白学竞赛:10个基础的Pandas函数
共 1740字,需浏览 4分钟
·
2021-10-30 14:23
Hello大家好,我是Coggle菌
。从今天开始我将和大家一起学习竞赛中的各种基础知识点,从基础库使用到具体的比赛案例。
今天我们将学习Pandas
,一个非常强大的数据分析、数据清洗和读取的工具,也是在Kaggle竞赛中必备的库。
在这篇文章中,我将通过最常见的一些Pandas
函数,希望入门的同学在学习完成后可以掌握。
unique
和nunique
函数
unique
函数某列返回唯一元素的列表,此函数比NumPy中的unique
函数更快。
data['Embarked'].unique()
nunique
函数计算列不同值,其中NaN值被忽略。
data['Embarked'].nunique()
describe
函数
describe
函数统计表格中每列的平均值、最大值、最小值、分位点和分布情况。在统计时describe
会忽略缺失值,用于查看数据整体的情况。
data.describe()
sort_values
函数
sort_values
函数可以对表格按照某列或者多列进行排序,通过ascending
参数可以控制排序次序。
data.sort_values(by='Age', ascending=False)
value_counts
函数
value_counts
函数返回列中每个唯一值的计数,并按降序显示,最频繁出现的元素排在最前面。value_counts
函数不包括空值。
data[['Pclass','Sex']].value_counts()
isnull
函数
isnull
函数计算数组的对象中是否存在任何缺失值,并返回布尔值。
fillna
函数
fillna
函数函数用于根据指定的方法填充缺失值,可以向其传入填充值(用于填充缺失值的值)和填充方法(如 bfill、ffill 等)等参数。
data['Age'].fillna(value=data['Age'].median(),inplace=True)
groupby
函数
groupby
函数用于拆分数据并进行一些聚合(例如 sum、mean、count 等)或对其进行转换(例如用于填充缺失值或标准化数据)。
data.groupby(['Sex'])['Age'].agg(['max','min','mean','median'])
map
函数
map
函数用于映射将一个系列的值替换为另一个值。
sex = {'male':1, 'female':0}
data['Sex'].map(gender)
apply
函数
apply
函数无疑是所有函数中最有用的函数之一,可以在 apply
函数 内部传递一个函数,它将根据需要应用于整个数据帧或特定系列。
df = pd.DataFrame({'Name':['X','Y','Z'], 'Marks':[150,120,175]})
def percentage_marks(x):
return x/2
df['Marks'].apply(percentage_marks)
pivot
函数
pivot
函数通过索引或列值重塑数据框,这个功能基本类似于数据透视表。它使用列的唯一值来形成数据帧的索引。但与groupby
函数不同,pivot
不支持数据聚合。
df = pd.DataFrame({'Class':['1st','2nd','3rd','1st','2nd','3rd'],'Section':['A','A', 'A','B','B','B'],'Gr':[1,2,3,4,5,6]})
df.pivot(index='Class', columns='Section',values='Gr')
相关阅读: