我用Python分析1585家电商车厘子销售数据,发现这些秘密
大数据DT
共 3409字,需浏览 7分钟
·
2021-02-20 12:41
作者:J哥
来源:菜J学Python(ID:caijxuepy)
def main():
browser.get('https://www.taobao.com/')
page = search_product(key_word)
print(page)
get_data()
page_num = 70
while int(page) != page_num:
print("-" * 100)
print("正在爬取第{}页数据".format(page_num + 1))
browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))
browser.implicitly_wait(10)
get_data()
page_num += 1
print("数据抓取完成")
if __name__ == '__main__':
key_word = "车厘子"
browser = webdriver.Chrome("./chromedriver")
main()
import pandas as pd
import numpy as np
df = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,
names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称
df.sample(5)
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 商品名称 1595 non-null object
1 商品价格 1595 non-null float64
2 付款人数 1595 non-null object
3 店铺名称 1595 non-null object
4 发货地址 1585 non-null object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB
发货地址有缺失值 付款人数需做提取 发货地址需做分割 自定义索引并降序
#剔除缺失记录
df.dropna(axis=0, how='any', inplace=True)
#从发货地址字段中切分出省份和城市
df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列
df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市
df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充
#用正则表达式从付款人数中提取数字
import re
df['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值
df['数字'] = df['数字'].astype('float') # 转化数值型
df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万)
df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)
df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数
df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列
#按商品价格降序并重置索引
df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序
df = df.reset_index(drop=True) #重置索引
结语
评论