Pandas,还能做这些

慕寒说

共 1685字,需浏览 4分钟

 · 2022-08-14

各位看官们里面请,今天慕寒再来接着说一下这Pandas的用法。在本系列的前一篇中,慕寒已经介绍过了一些基本的数据结构,今天我们就来看看Pandas到底为我们提供了哪些神奇的工具。我们都知道,Pandas库可以用来处理数据,既然如此,那数据的读写就是最基本的了Pandas库内置的数据读写函数支持CSV、JSON、txt等多种数据,我们就以CSV格式为例。Pandas库提供了“read_csv”函数来进行CSV数据的读入操作,该函数的语法结构及参数说明如下:

0a7467e8066e59a989b1976ebd748d5c.webp

  • filepath_or_buffer:需要读写的文件名

  • sep:指定分隔符,默认使用逗号

  • header:指定某行作为列名,默认为0行,设为None表示不设置列名

  • index_col:指定某列作为行名

  • names:可作为结果的列名列表,若没有列的标题行可设为None

  • dtype:表明每列的数据类型

下面代码以带有经纬度信息的房价数据为例,该案例中data.head()表示只输出前5行的数据:

c94464d9b9ea29659d9a8eae0d90f49a.webp

65d2cc58b511b0f5c3dca655605675ba.webp

当然,Pandas库还提供了CSV数据的写入函数“to_csv()”,该函数的语法结构及参数说明如下:

a19f66f72222d7bd16afe67740c934e9.webp

  • path_or_buf:写入的文件名

  • sep:指定分隔符,默认使用逗号

  • header:写入文件的列名,默认为true

  • columns:选择写入文件的列

  • index:写入的行名

  • encoding:写入文件时的编码方式

我们以前文的房价为例:

93f637530427e3679f76b5cadcf8b654.webp


37eac51dc58a48f716bc83387a5fad81.webp

在拥有了数据之后,我们就要想法子对他们采取必要的操作,所以Pandas库就为我们提供了很多数据操作函数,涉及数据处理的整个流程:数据采集、数据读写、数据预处理、数据探索性分析等。我们今天就先了解一下数据预处理阶段的操作函数,以下是常用的操作函数及简要说明:
  • dtypes:返回每列的数据类型

  • empty:如果数据帧为空,返回true,否则false

  • size:返回元素数

  • head(n):返回前n行数据

  • tail(n):返回后n行数据

  • cov:计算数据帧指定列的协方差

  • corr:计算数据帧各列数据的相关系数

  • lower:将字符转为小写

  • upper:将字符转为大写

  • info:返回数据帧的基本信息

  • describe:返回数据帧各列的统计信息

前文的head函数就是一个操作函数,在此我们再来了解很重要的函数“corr”。在GIS的空间统计分析中,往往需要分析多个因子之间的相关性,corr函数可得出指定数据的相关系数:

a3bae9714bfc614d9966c8058a07fd0f.webp

de514dc3d625f9b4f524878f83277337.webp

本案例分析的是房价的均价信息与经度的相关关系,由输出可知二者没有明显的相关关系,当然啦,这可能是个废话(手动滑稽~)。其他的函数,慕寒就不一一介绍了,各位看官可以自行尝试一下。其实,我们在处理数据的时候,往往会遇到一种特殊的数据:缺失数据。在Pandas中这部分数据会以“NaN”的形式进行显示。这部分数据被称为噪声数据,会对数据分析成果的精确度产生一定的影响。所以,Pandas库为我们提供了许多处理缺失数据的方法:0值填充、前一个值填充、删除等。
  • isnull/notnull:检查数据帧中的缺失数据

  • fillna:用指定的数值填充缺失值

  • dropna:删除缺失值

如果我们用isnull函数的话,我们就会以每个元素作为判断对象,如果该元素为空则输出True,否则输出False:

13ca8f4640f34379828ce97d31a522a0.webp

c95d5c829b83aa20603ce0bd7ec4256f.webp

在我们对数据进行分析的整个流程中,分析结果的可视化是数据与使用者之间交互的重要途径。在统计分析领域涉及到很多种可视化图表,接下来慕寒将介绍Pandas库中常用的几种图形绘制函数。
  • bar:条形图,stacked参数表示是否堆积,默认false,不堆积

  • hist:直方图

  • box:箱形图

  • area:面积图

  • scatter:散点图,可用作回归分析

  • pie:饼状图

还是用前文的房价信息作为数据。以scatter绘制散点图为例,在GIS空间分析领域会经常涉及到回归分析,即分析所选要素之间的关系。

d004de92e50886942252a6496b1fafb5.webp

acfcc8658194e14d50b471987998de29.webp

从图形可知,均价与总价之间存在一定的线性关系。以上便是今天的慕言慕语,各位看官是否还在回味呢?至此,慕寒已经简单介绍了numpy库与Pandas库的两个系列,后面慕寒将在此基础上简要介绍一些机器学习及相关。溜~


浏览 10
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报