对比sql，学习pandas操作-技术圈

↑↑↑关注后"星标"简说Python

人人都可以简单入门Python、爬虫、数据分析

简说Python推荐

译者：黄伟呢来源：数据分析与统计学之美

阅读须知

本文翻译自pandas官方文档。

由于许多潜在的 Pandas 用户对SQL有一定的了解，因此本页旨在提供一些示例，说明如何使用 Pandas 执行各种 SQL 操作。

如果您不熟悉 Pandas，您可能需要先阅读 10 Minutes的官方文档，以熟悉该库。按照惯例，我们按如下方式，导入 pandas 和 NumPy：

import pandas as pd
import numpy as np

大多数示例，将使用tip数据集，用于Pandas 测试。我们将数据读入一个名为 DataFrame 的数据框，tips并假设我们有一个同名和结构相同的数据库表。

url = ("https://raw.github.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv")
tips = pd.read_csv(url)
tips

1. 副本与就地操作

大多数 Pandas 操作返回 Series/DataFrame 的副本。要使更改“保持不变”，您需要分配给一个新变量。

sorted_df = df.sort_values("col1")

或覆盖原来的。

df = df.sort_values("col1")

如果您想就地操作，您将看到某些方法可用的 inplace=True 关键字参数。

df.sort_values("col1", inplace=True)

2. select关键字

在 SQL 中，选择是使用逗号分隔的列列表完成的，您要选择（或* 选择所有列）：

SELECT total_bill, tip, smoker, time
FROM tips;

使用 Pandas，列选择是通过将列名列表，传递给您的 DataFrame 来完成的：

tips[["total_bill", "tip", "smoker", "time"]]

结果如下：

在没有列名列表的情况下，调用 DataFrame 将显示所有列（类似于 SQL 的 *）。

在 SQL 中，您可以添加计算列：

SELECT *, tip/total_bill as tip_rate
FROM tips;

您可以使用DataFrame.assign()方法追加新列：

tips.assign(tip_rate=tips["tip"] / tips["total_bill"])

结果如下：

3. where关键字

SQL 中的过滤是通过 WHERE 子句完成的。

SELECT *
FROM tips
WHERE time = 'Dinner';

可以通过多种方式过滤数据帧；其中最直观的是使用布尔索引。

tips[tips["total_bill"] > 10]

结果如下：

上面的语句只是将一个True/False对象传递给 DataFrame，返回所有带有True的行。

is_dinner = tips["time"] == "Dinner"
is_dinner.value_counts()
tips[is_dinner]

结果如下：

就像 SQL 的OR和AND一样，可以使用| ( OR) 和&( AND)将多个条件传递给 DataFrame 。

例子：晚餐超过 5 美元的小费；

SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

在Pandas中：

tips[(tips["time"] == "Dinner") & (tips["tip"] > 5.00)]

结果如下：

例子：至少 5 人的派对小费或账单总额超过 45 美元；

SELECT *
FROM tips
WHERE size >= 5 OR total_bill > 45;

在Pandas中：

tips[(tips["size"] >= 5) | (tips["total_bill"] > 45)]

结果如下：

NULL 检查是使用notna()和isna() 方法完成的。

frame = pd.DataFrame({"col1": ["A", "B", np.NaN, "C", "D"], "col2": ["F", np.NaN, "G", "H", "I"]})
frame

结果如下：

假设我们有一个与上面的 DataFrame 结构相同的表。col2通过以下查询，我们只能看到IS NULL的记录：

SELECT *
FROM frame
WHERE col2 IS NULL;

在Pandas中：

frame[frame["col2"].isna()]

结果如下：

获取其中的物品col1，IS NOT NULL可以做到的，notna()也可以做到。

SELECT *
FROM frame
WHERE col1 IS NOT NULL;

在Pandas中：

frame[frame["col1"].notna()]

结果如下：

4. group by关键字

在 Pandas 中，SQL 的 GROUP BY 操作是使用类似命名的 groupby() 方法执行的。groupby() 通常是指我们希望将数据集拆分为多个组，应用一些函数（通常是聚合），然后将这些组组合在一起的过程。

一个常见的 SQL 操作是获取整个数据集中每个组中的记录数。例如，一个查询让我们知道性别留下的小费数量：

SELECT sex, count(*)
FROM tips
GROUP BY sex;
/*
Female     87
Male      157
*/

在Pandas中：

tips.groupby("sex").size()

结果如下：

请注意，在 Pandas 代码中，我们使用了 size() 而不是 count()。这是因为 count() 将函数应用于每一列，返回每一列中 NOT NULL 记录的数量。

tips.groupby("sex").count()

结果如下：

或者，我们可以将 count() 方法应用于单个列：

tips.groupby("sex")["total_bill"].count()

结果如下：

也可以同时应用多个功能。例如，假设我们想查看小费金额在一周中的某天有何不同 - agg() 允许您将字典传递给分组的 DataFrame，指示将哪些函数应用于特定列。

SELECT day, AVG(tip), COUNT(*)
FROM tips
GROUP BY day;
/*
Fri   2.734737   19
Sat   2.993103   87
Sun   3.255132   76
Thu  2.771452   62
*/

在Pandas中：

tips.groupby("day").agg({"tip": np.mean, "day": np.size})

结果如下：

通过将列列表传递给 groupby() 方法，来完成按多列分组。

SELECT smoker, day, COUNT(*), AVG(tip)
FROM tips
GROUP BY smoker, day;
/*
smoker day
No     Fri      4  2.812500
       Sat     45  3.102889
       Sun     57  3.167895
       Thu    45  2.673778
Yes    Fri     15  2.714000
       Sat     42  2.875476
       Sun     19  3.516842
       Thu    17  3.030000
*/

在Pandas中：

tips.groupby(["smoker", "day"]).agg({"tip": [np.size, np.mean]})

结果如下：

5. JOIN关键字

可以使用 join() 或 merge() 执行 JOIN。默认情况下，join() 将在其索引上加入 DataFrame。每个方法都有参数，允许您指定要执行的连接类型（LEFT、RIGHT、INNER、FULL）或要连接的列（列名或索引）。

df1 = pd.DataFrame({"key": ["A", "B", "C", "D"], "value": np.random.randn(4)})
df2 = pd.DataFrame({"key": ["B", "D", "D", "E"], "value": np.random.randn(4)})

假设我们有两个与 DataFrame 名称和结构相同的数据库表。

现在让我们来看看各种类型的 JOIN。

① 内连接

SELECT *
FROM df1
INNER JOIN df2
  ON df1.key = df2.key;

在Pandas中：

# 默认情况下合并执行 INNER JOIN
pd.merge(df1, df2, on="key")

结果如下：

当您希望将一个 DataFrame 的列与另一个 DataFrame 的索引连接时，merge() 还提供参数。

indexed_df2 = df2.set_index("key")
pd.merge(df1, indexed_df2, left_on="key", right_index=True)

结果如下：

② 左外连接

显示 df1 中的所有记录。

SELECT *
FROM df1
LEFT OUTER JOIN df2
  ON df1.key = df2.key;

在Pandas中：

pd.merge(df1, df2, on="key", how="left")

结果如下：

③ 右连接

显示 df2 中的所有记录。

SELECT *
FROM df1
RIGHT OUTER JOIN df2
  ON df1.key = df2.key;

在Pandas中：

pd.merge(df1, df2, on="key", how="right")

结果如下：

④ 全连接

pandas 还允许 FULL JOIN，它显示数据集的两侧，无论连接的列是否找到匹配项。在撰写本文时，并非所有 RDBMS (MySQL) 都支持 FULL JOIN。

显示两个表中的所有记录。

# 这个不是MySQL写法
SELECT *
FROM df1
FULL OUTER JOIN df2
  ON df1.key = df2.key;

在Pandas中：

pd.merge(df1, df2, on="key", how="outer")

结果如下：

⑤ 联合

UNION ALL 可以使用 concat() 执行。

SELECT city, rank
FROM df1
UNION ALL
SELECT city, rank
FROM df2;
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
      Chicago     1
       Boston     4
  Los Angeles     5
*/

在Pandas中：

df1 = pd.DataFrame({"city": ["Chicago", "San Francisco", "New York City"], "rank": range(1, 4)})
df2 = pd.DataFrame({"city": ["Chicago", "Boston", "Los Angeles"], "rank": [1, 4, 5]})
pd.concat([df1, df2])

结果如下：

SQL UNION 类似于 UNION ALL，但是 UNION 会删除重复的行。

SELECT city, rank
FROM df1
UNION
SELECT city, rank
FROM df2;
-- notice that there is only one Chicago record this time
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
       Boston     4
  Los Angeles     5
*/

在 Pandas 中，您可以将 concat() 与 drop_duplicates() 结合使用，实现此操作。

pd.concat([df1, df2]).drop_duplicates()

结果如下：

6. limit关键字

SELECT * FROM tips
LIMIT 10;

在Pandas中：

tips.head(10)

结果如下：

7. SQL和pandas的一些等效操作

① 具有偏移量的前 n 行

-- MySQL
SELECT * FROM tips
ORDER BY tip DESC
LIMIT 10 OFFSET 5;

在Pandas中：

tips.nlargest(10 + 5, columns="tip").tail(10)

结果如下：

② 每组前 n 行

# 需要窗口函数
SELECT * FROM (
  SELECT
    t.*,
    ROW_NUMBER() OVER(PARTITION BY day ORDER BY total_bill DESC) AS rn
  FROM tips t
)
WHERE rn < 3
ORDER BY day, rn;

在Pandas中：

(
    tips.assign(
        rn=tips.sort_values(["total_bill"], ascending=False)
        .groupby(["day"])
        .cumcount()
        + 1
    )
    .query("rn < 3")
    .sort_values(["day", "rn"])
)

结果如下：

同样可以使用 rank(method='first') 函数。

SELECT * FROM (
  SELECT
    t.*,
    RANK() OVER(PARTITION BY sex ORDER BY tip) AS rnk
  FROM tips t
  WHERE tip < 2
)
WHERE rnk < 3
ORDER BY sex, rnk;

在Pandas中：

(
    tips.assign(
        rn=tips.sort_values(["total_bill"].rank(method='first'), ascending=False)
        
    )
    .query("rnk < 3")
    .sort_values(["day", "rnk"])
)

结果如下：

让我们找到每个性别组（提示 < 2）的提示（等级 < 3）。请注意，当使用 rank(method='min') 函数时，rnk_min 对于相同的提示保持不变（如 Oracle 的 RANK() 函数）

(
    tips[tips["tip"] < 2]
    .assign(rnk_min=tips.groupby(["sex"])["tip"].rank(method="min"))
    .query("rnk_min < 3")
    .sort_values(["sex", "rnk_min"])
)

结果如下：

8. update关键字

UPDATE tips
SET tip = tip*2
WHERE tip < 2;

在Pandas中：

tips.loc[tips["tip"] < 2, "tip"] *= 2

9. delete关键字

DELETE FROM tips
WHERE tip > 9;

在Pandas中，我们选择应该保留的行，而不是删除它们。

tips = tips.loc[tips["tip"] <= 9]

--END--

老表推荐

图书介绍：《Python自动化测试实战》本书从自动化测试理论入手，全面地阐述自动化测试的意义及实施过程。全文以Python语言驱动，结合真实案例分别对主流自动化测试工具Selenium、RobotFramework、Postman、Python Requests、Appium等进行系统讲解。通过学习本书，读者可以快速掌握主流自动化测试技术，并帮助读者丰富测试思维，提高Python编码能力。

扫码即可加我微信

老表朋友圈经常有赠书/红包福利活动

学习更多：
整理了我开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面，别再说不知道该从哪开始，实战哪里找了

优秀的读者都知道，“点赞”传统美德不能丢