数据分析之pandas的基本操作-技术圈

记得点击“Python日志”关注我们哦！

哈喽各位好啊

我是土豆哦

今天就来跟大家说一说数据分析其中一个库

pandas

首先我们要了解一下什么是pandas

Pandas的名称来自于面板数据（panel data）和Python数据分析（data analysis）。

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。

一个强大的分析和操作大型结构化数据集所需的工具集

基础是NumPy，提供了高性能矩阵的运算

提供了大量能够快速便捷地处理数据的函数和方法

应用于数据挖掘，数据分析

提供数据清洗功能

Series和DataFrame中的索引都是Index对象，索引对象不可变，保证了数据的安全

Index对象种类：Index，索引；Int64Index，整数索引；MultiIndex，层级索引；DatetimeIndex，时间戳类型

Pandas有两个最主要也是最重要的数据结构：Series 和 DataFrame

pandas的基本数据结构

目前，pandas的基本数据结构有3种，Series,DataFrame和Pandel。要想熟练使用Pandas,这三种数据结构一定要牢记于心。其中DataFrame使用频率最高。

Series

Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之对应的索引（数据标签）组成。

索引(index)在左，数据(values)在右

索引是自动创建的

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值。DataFrame既有行索引也有列索引，它可以被看做是由Series组成的字典（共用同一个索引），数据是以二维结构存放的。

类似多维数组/表格数据 (如，excel, R中的data.frame)

每列数据可以是不同的类型

索引包括列索引和行索引

操作	代码实现	返回值	说明
获取前n行	dataframe.head(3)	新DataFrame	获取前三行，默认获取前五行
获取后n行	dataframe.tail(3)	新DataFrame	获取后三行，默认获取后五行
shape	dataframe.shape	元组	返回dataframe形状
获取index	dataframe.index	RangeIndex	获取index
columns	dataframe.columns	RangeIndex	DataFrame列索引列表
获取values	dataframe.values	ndarray二维数组	获取所有values
获取列数据	dataframe['A'] <=> dataframe.A	新Series	通过列索引获取列数据
	dataframe[['A']]	新DataFrame(只有一列)	注意是双层中括号[[…,…,…,]]
增加列数据	dataframe['G'] = series dataframe['G'] = dataframe['A'] + 4	新DataFrame	类似Python的dict添加key-value
删除列数据	del(dataframe['G'])	None
不连续索引	dataframe[['a','c']]	新DataFrame	注意是双层中括号[[…,…,…,]]

呱唧呱唧

对于pandas这个库的一些基础我们就写到这里啦

觉得不错的话别忘了给土豆一个三连哦

我们下期再见哦

需要学习资料的可以添加土豆的微信领取哦

Python日志

关注我们

一个认真搞知识的公众号

内容源自网络