Pandas知识点-合并操作merge

Python 碎片

共 2882字,需浏览 6分钟

 ·

2021-06-14 11:07

merge()方法是Pandas中的合并操作,在数据处理过程中很常用,本文介绍merge()方法的具体用法。


基础合并操作




merge(left, right): 将两个DataFrame或Series合并到一起。left和right参数是必传参数,分别传入一个DataFrame或Series对象,合并的顺序与传入的顺序一致。从参数名left和right可以看出,merge()方法主要用于按列合并(横向合并)。

原理如下:


merge()方法也可以实现按行合并(纵向)的效果,需要两个DataFrame的列名完全一样,且要指定合并方式为outer。


如果两个DataFrame的列名完全相同,使用outer合并方式,效果是将两个DataFrame按行合并到一起。merge()默认的合并方式是inner(取交集),列名完全相同时取交集合并的结果是空DataFrame。

原理如下:

其实,此时合并的原理也是按列合并,特殊的是两个DataFrame中列名完全一样,且没有指定on参数。merge()方法自动将所有列同时作为连接列,合并时取并集,所有的连接列在结果中都返回了,得到的效果就与按行合并一样。(理解how参数和on参数后就会明白,下文马上介绍)。


连接方式




how: 指定合并时使用的连接方式,连接方式有四种,默认为inner。

inner内连取key列的交集
outer外连取key列的并集
left左连使用左边df的key列
right右连使用右边df的key列


指定连接的列




on: 指定合并时用于连接(外连,内连,左连,右连)的列。默认为None,merge()方法自动识别两个DataFrame中名字相同的列,作为连接的列,如本文前面的例子中没有指定on参数,也自动识别了相同的列作为连接列。

合并时,先找到两个DataFrame中的连接列key,然后将第一个DataFrame中key列的每个值依次与第二个DataFrame中的key列进行匹配,匹配到一次结果中就会有一行数据。上面的left和right中key列都是k0~k2,k0~k2分别匹配到一次,共匹配三次,所以结果有三行。假如将k0~k2都改成k,则left中的每一个k可以与right中的k匹配到三次(many_to_many,后面会介绍),共匹配9次,结果会有9行。

on参数指定的列必须在两个被合并DataFrame中都有,否则会报错。

on参数也可以指定多列,合并时按多个列进行连接。


在合并时,只有多个列的值同时相等,两个DataFrame才会匹配上。上面的例子中,用于连接的列是key1,key2,k0,k0在两个DataFrame中都有,匹配到一次,k1,k1匹配到两次,k2,k2和k2,k3等都没有匹配成功,所以结果为三行(默认合并方式为inner)。

原理如下:


两个DataFrame分别指定连接列



使用on参数时,指定的列必须在两个DataFrame中都有。merge()方法也支持两个DataFrame分别指定连接的列,此时不要求指定列在两个DataFrame中都有。


left_on: 指定第一个DataFrame中用于连接的列,默认为None。

right_on: 指定第二个DataFrame中用于连接的列,默认为None。

当left_on和right_on都指定一样的列时,与用on参数的结果一样。如果left_on和right_on指定不同的列,可能因为连接列的值匹配不上,结果是一个空DataFrame,将连接方式改成outer后才能得到非空的DataFrame。


left_on和right_on也可以指定一个array数组,长度与DataFrame中的列长度相等,连接原理不变。


left_index: 设置第一个DataFrame用行索引进行连接,默认为False。

right_index: 设置第二个DataFrame用行索引进行连接,默认为False。

left_on和right_on可以与left_index和right_index混合使用,当指定了其中一个DataFrame的连接列时,必须同时指定另一个DataFrame的连接列,否则会报错。两个DataFrame都有两种方式指定连接列,所以组合的方式有四种。

DataFrameleftright

四种指定连接列的组合

left_onright_on
left_indexright_index
left_onright_index
left_indexright_on


自定义相同列名的后缀




suffixes: 当被合并的两个DataFrame中有相同的列名时,会给列名拼接后缀以作区分,默认为('_x', '_y')。可以修改suffixes参数进行设置,传入长度为2的字符串元组。


连接列是否存在DataFrame中




indicator: 在结果中增加一列,显示连接列是否存在于两个DataFrame中。indicator默认为False,如果修改为True,会增加一列,增加的列名默认为_merge。

给indicator参数指定一个值,则将这个值作为新增列的列名。在新增的列中,如果连接列同时存在于两个DataFrame中,则对应的值为both,如果连接列只存在其中一个DataFrame中,则对应的值为left_only或right_only。


连接列的对应关系




validate: 用于指定两个DataFrame连接列的对应关系,有one_to_one(一对一),one_to_many(一对多),many_to_one(多对一),many_to_many(多对多)四种对应方式。默认为None,merge()方法自动根据两个DataFrame的连接列采用适合的对应方式。

one_to_one: 检查两个DataFrame中的连接列,值必须唯一。

one_to_many: 检查第一个DataFrame中的连接列,值必须唯一。

many_to_one: 检查第二个DataFrame中的连接列,值必须唯一。

many_to_many: 两个DataFrame连接列中的值都可以不唯一。


使用多对多的对应方式,任何情况都满足,合并不会报错。而使用其他三种方式时,如果one对应的DataFrame中连接列的值不唯一,会报错。所以,在对数据不够了解、也没有特别的对应要求时,不用指定validate参数。

以上就是Pandas合并方法merge()的介绍,本文都是以DataFrame为例,Series合并以及Series与DataFrame合并的原理相似。

如果需要本文代码,可以点击关注公众号“Python碎片”,然后在后台回复“pandas13”关键字获取完整代码。

浏览 112
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报