处理数据表格时“一行拆多行”和“多行并一行”,Python轻松搞定!
Crossin的编程教室
共 1664字,需浏览 4分钟
·
2020-10-29 07:59
粉丝提问
大家好,欢迎来到Crossin的编程教室!
前两天有人提了下面这样一个问题,其中一个是“一行拆多行”(将单行一列中的多个值分成多行单值),另外一个是“多行并一行”(将多行单值合并为单行一列中的多个值)。这是在对Excel数据表格进行数据处理时经常可能遇到的一个场景,如果是用 Python 做数据处理应该怎样解决呢?今天我们就来演示一下。
一行拆多行
上面这个问题我会提供两个思路,供大家选择,当然肯定是越简单得越好。每种方法中都有一些好用的技巧,希望大家能够好好学习。
1)方法一
下方代码中有很多重要的知识点,需要我们下去好好学习一下,我只提供解题思路,关于每个知识点怎么用,希望大家下去自行研究学习。
Pandas.melt()函数的用法; Series.str.split("/",expand=True)中,expand=True参数的用法; Series.sort_values()对文本进行排序; Python中enumerate()函数的用法;
import pandas as pd
# 读取数据
df = pd.read_excel("test1.xlsx",sheet_name="Sheet1")
# 将一列炸裂成多列
df[["类型1","类型2","类型3"]] = df["电影类型"].str.split("/",expand=True)
# 选取想要的列
df_final = df[["电影名","类型1","类型2","类型3"]]
# 将行转列
df_final = df_final.melt(id_vars=["电影名"],value_name="类型")
# 对“电影名”字段进行排序
df_final = df_final[["电影名","类型"]]
df_final.sort_values(by="电影名",inplace=True)
# 删除“类型==None”的行
for index,value in enumerate(df_final["类型"]):
if value == None:
df_final.drop(df_final.index[index],inplace=True)
df_final
结果如下:
2)方法二
上述方法确实复杂,由于我的Pandas版本是0.23.4,因此无法使用explode()方法,进行炸裂操作。在pandas0.25版本的时候,DataFrame中才新增了一个explode()方法,专门用来将一行变多行。
Pandas.explode()函数的用法;
import pandas as pd
# 读取数据
df = pd.read_excel("test1.xlsx",sheet_name="Sheet1")
# 将一行拆分成列表形式,注意:这里不需要使用expand=True参数
df["type"] = df["电影类型"].str.split("/")
# 直接炸裂指定列
df.explode("type")
结果如下:
多行并一行
这里没有使用什么特别的知识,好好的理解Pandas中分组聚合应用某个函数,即可轻松解决这个问题。
import pandas as pd
# 读取数据
df = pd.read_excel("test1.xlsx",sheet_name="Sheet2")
# 分组聚合,应用某个函数
def func(df):
return ','.join(df.values)
df = df.groupby(by='电影名').agg(func).reset_index()
df
结果如下:
作者:黄伟呢
_往期文章推荐_
评论