Pandas教程
Pandas 是为了解决数据分析任务而创建的一种基于 NumPy 的工具包,囊括了许多其他工具包的功能,具有易用、直观、快速等优点。要想成为一名高效的数据科学家,不会 Pandas 怎么行?
![](https://filescdn.proginn.com/6b9b0738c1ce1117066787a61df0b339/38ddabcd13b5cb7df4a03690d022360c.webp)
import pandas as pd
data = pd.read_csv( my_file.csv )
data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
最常用的功能:read_csv, read_excel
其他一些很棒的功能:read_clipboard, read_sql
data.to_csv( my_new_file.csv , index=None)
![](https://filescdn.proginn.com/9ee1f9d2b60e529bcb555f353af6b082/b80a17d21ff2caba63369be81ef86b2d.webp)
Gives (#rows, #columns)
data.describe()
data.head(3)
data.loc[8]
data.loc[8, column_1 ]
data.loc[range(4,6)]
data[data[ column_1 ]== french ]
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990)]
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990) & ~(data[ city ]== London )]
data[data[ column_1 ].isin([ french , english ])]
data[ column_numerical ].plot()
![](https://filescdn.proginn.com/438353b870c3f2657fbfb91086396e45/5d2b193e458fc7a54cd6f6a027782878.webp)
data[ column_numerical ].hist()
![](https://filescdn.proginn.com/2d503845486b5546385e19c3e0838d35/415c7af1693270a8428659aa4b0f1279.webp)
%matplotlib inline
data.loc[8, column_1 ] = english 将第八行名为 column_1 的列替换为「english」
data.loc[data[ column_1 ]== french , column_1 ] = French
data[ column_1 ].value_counts()
![](https://filescdn.proginn.com/46480e32ba54dedde58404a55e4fb6e5/7d15af0a8f0699904ec8afafb36dfad1.webp)
data[ column_1 ].map(len)
data[ column_1 ].map(len).map(lambda x: x/100).plot()
data.apply(sum)
from tqdm import tqdm_notebook
tqdm_notebook().pandas()
data[ column_1 ].progress_map(lambda x: x.count( e ))
![](https://filescdn.proginn.com/6dd84e744adada083a25c7fe25e1a81c/584b83b323bd5c12aadb1fba225c33af.webp)
data.corr()
data.corr().applymap(lambda x: int(x*100)/100)
![](https://filescdn.proginn.com/7af4c9a73b40e13fe7845b77f57cdfb4/f24526821d35878fabf188083f842aee.webp)
pd.plotting.scatter_matrix(data, figsize=(12,8))
![](https://filescdn.proginn.com/c3a54a5995bc8b7e3587ce9460ef6da0/4da1ad597d4f22ec0f0e19e3cc3cdc6d.webp)
data.merge(other_data, on=[ column_1 , column_2 , column_3 ])
data.groupby( column_1 )[ column_2 ].apply(sum).reset_index()
![](https://filescdn.proginn.com/ac5f2aa131b044291ea96f5dd2e15060/69c29cdfa1ef5af85959cc3dc44e2335.webp)
dictionary = {}
for i,row in data.iterrows():
dictionary[row[ column_1 ]] = row[ column_2 ]
易用,将所有复杂、抽象的计算都隐藏在背后了;
直观;
快速,即使不是最快的也是非常快的。
![](https://filescdn.proginn.com/aa89029580835f0c8fe62739a620aa10/1ac39bc3275dfe1011ab8c4a12594dff.webp)
看完本文有收获?请转发分享给更多人
你想成为数据人才吗?你要找数据工作吗?
关注「数据人才」,找满意数据工作
我们创建了Python语言交流群,
请扫码下方二维码
备注:姓名-Python,邀请你加入群
评论