Pandas教程
Pandas 是为了解决数据分析任务而创建的一种基于 NumPy 的工具包,囊括了许多其他工具包的功能,具有易用、直观、快速等优点。要想成为一名高效的数据科学家,不会 Pandas 怎么行? 

import pandas as pd 
data = pd.read_csv( my_file.csv ) 
data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
最常用的功能:read_csv, read_excel
其他一些很棒的功能:read_clipboard, read_sql
data.to_csv( my_new_file.csv , index=None) 

Gives (#rows, #columns) 
data.describe() 
data.head(3) 
data.loc[8] 
data.loc[8, column_1 ] 
data.loc[range(4,6)] 
data[data[ column_1 ]== french ] 
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990)]
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990) & ~(data[ city ]== London )]
data[data[ column_1 ].isin([ french , english ])] 
data[ column_numerical ].plot() 

data[ column_numerical ].hist() 

%matplotlib inline 
data.loc[8, column_1 ] = english 将第八行名为 column_1 的列替换为「english」 
data.loc[data[ column_1 ]== french , column_1 ] = French 
data[ column_1 ].value_counts() 

data[ column_1 ].map(len) 
data[ column_1 ].map(len).map(lambda x: x/100).plot() 
data.apply(sum) 
from tqdm import tqdm_notebook 
tqdm_notebook().pandas()
data[ column_1 ].progress_map(lambda x: x.count( e )) 

data.corr() 
data.corr().applymap(lambda x: int(x*100)/100)

pd.plotting.scatter_matrix(data, figsize=(12,8)) 

data.merge(other_data, on=[ column_1 , column_2 , column_3 ]) 
data.groupby( column_1 )[ column_2 ].apply(sum).reset_index() 

dictionary = {} 
for i,row in data.iterrows():
dictionary[row[ column_1 ]] = row[ column_2 ]
易用,将所有复杂、抽象的计算都隐藏在背后了;
直观;
快速,即使不是最快的也是非常快的。

看完本文有收获?请转发分享给更多人
你想成为数据人才吗?你要找数据工作吗?
关注「数据人才」,找满意数据工作
我们创建了Python语言交流群,
请扫码下方二维码
备注:姓名-Python,邀请你加入群
评论
