python爬虫实战:爬取二手房数据
现如今房价持续上涨,更多人开始把注意力转移到二手房市场上,各种买房软件也开始推出各种各样的二手房页面,丰富的内容也使我们眼花缭乱,那你知道如何爬取丰富的二手房内容吗?本文将向大家介绍并演示使用python爬虫爬取二手房网站数据的具体过程。
一、基本开发环境
Python 3.6
Pycharm
二、相关模块的使用
1、requests
2、parsel
3、csv
安装Python并添加到环境变量,pip安装需要的相关模块即可。
三、python爬虫爬取二手房数据过程
1、请求url地址接获取数据内容
url = 'https://cs.lianjia.com/ershoufang/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)
2、解析数据
相关的数据内容都包含在 li 标签里面。通过 parsel 解析库,进行解析提取数据就可以了。
for li in lis:
# 标题
title = li.css('.title a::text').get()
if title:
# 地址
positionInfo = li.css('.positionInfo a::text').getall()
# 小区
community = positionInfo[0]
# 地名
address = positionInfo[1]
# 房子基本信息
houseInfo = li.css('.houseInfo::text').get()
# 房价
Price = li.css('.totalPrice span::text').get() + '万'
# 单价
unitPrice = li.css('.unitPrice span::text').get().replace('单价', '')
# 发布信息
followInfo = li.css('.followInfo::text').get()
dit = {
'标题': title,
'小区': community,
'地名': address,
'房子基本信息': houseInfo,
'房价': Price,
'单价': unitPrice,
'发布信息': followInfo,
}
print(dit)
3、保存数据(数据持久化)
# 创建文件
f = open('二手房数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题', '小区', '地名', '房子基本信息',
'房价', '单价', '发布信息'])
# 写入表头
csv_writer.writeheader()
''''
''''
csv_writer.writerow(dit)
4、多页爬取
需要for 循环遍历pg的参数 即可多页爬取
# 第二页url地址
url_2 = 'https://cs.lianjia.com/ershoufang/pg2/'
# 第三页url地址
url_3 = 'https://cs.lianjia.com/ershoufang/pg3/'
# 第四页url地址
url_4 = 'for page in range(1, 101):
url = f'https://cs.lianjia.com/ershoufang/pg{page}/'
以上就是使用python爬虫爬取二手房数据的具体过程
搜索下方加老师微信
老师微信号:XTUOL1988【切记备注:学习Python】
领取Python web开发,Python爬虫,Python数据分析,人工智能等精品学习课程。带你从零基础系统性的学好Python!
*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权
评论