【Python】Python爬虫快速入门,BeautifulSoup基本使用及实践
来源:Python数据之道
作者:Peter
整理:阳哥
爬虫,是学习Python的一个有用的分支,互联网时代,信息浩瀚如海,如果能够便捷的获取有用的信息,我们便有可能领先一步,而爬虫正是这样的一个工具。
「Python数据之道」 之前已经分享过一些关于介绍 爬虫 的内容,大家也可以前往阅读:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。由于 BeautifulSoup 是基于 Python,所以相对来说速度会比另一个 Xpath 会慢点,但是其功能也是非常的强大,本文会介绍该库的基本使用方法,帮助读者快速入门。
网上有很多的学习资料,但是超详细学习内容还是非官网莫属,资料传送门:
英文官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
中文官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
本文的主要内容如下:
data:image/s3,"s3://crabby-images/f7ae5/f7ae589c12c9e21dde1dfb0e17b2138b73ba1ef0" alt=""
安装和使用
安装
安装过程非常简单,直接使用pip即可:
pip install beautifulsoup4
上面安装库最后的4是不能省略的,因为还有另一个库叫作 beautifulsoup
,但是这个库已经停止开发了。
因为BS4在解析数据的时候是需要依赖一定的解析器,所以还需要安装解析器,我们安装强大的lxml:
pip install lxml
在python交互式环境中导入库,没有报错的话,表示安装成功。
data:image/s3,"s3://crabby-images/dad03/dad03dc25922075c60ef096035ebd1c9e5ab597f" alt=""
使用
使用过程直接导入库:
from bs4 import BeautifulSoup
解析原理
解析原理
实例化一个BeautifulSoup对象,并且将本地或者页面源码数据加载到该对象中 通过调用该对象中相关的属性或者方法进行标签定位和数据提取
如何实例化BeautifulSoup对象
将本地的HTML文档中的数据加载到BS对象中 将网页上获取的页面源码数据加载到BS对象中
案例解析
原数据
假设我们现在本地有一个HTML文件待解析,具体内容如下,数据中有各种HTML标签:html、head、body、div、p、a、ul、li等
data:image/s3,"s3://crabby-images/b7db4/b7db480feca4289e28798b664911bee2fa6d51db" alt=""
加载数据
from bs4 import BeautifulSoup
fp = open('./test.html','r',encoding='utf-8') # 打开本地文件
soup = BeautifulSoup(fp,'lxml')
soup
data:image/s3,"s3://crabby-images/175bf/175bf8617cf1ae8f45b421ae520c91bc02f396a7" alt=""
所有的数据解析都是基于soup对象的,下面开始介绍各种解析数据方法:
soup.tagName
soup.TagName返回的是该标签第一次出现的内容,以a标签为例:
data:image/s3,"s3://crabby-images/64f2e/64f2edb9891f321701817af7256e8d642e233d43" alt=""
数据中多次出现a标签,但是只会返回第一次出现的内容
data:image/s3,"s3://crabby-images/f6ca8/f6ca8e826d5a737ede875ca9445f9faed33886b2" alt=""
我们再看下div标签:
data:image/s3,"s3://crabby-images/cbab1/cbab160e12b1ea990de8908f032aeea84b87fb44" alt=""
出现了2次,但是只会返回第一次的内容:
data:image/s3,"s3://crabby-images/6a24d/6a24dad4e27910343c0611be08fac28a54287e22" alt=""
soup.find('tagName')
find()主要是有两个方法:
返回某个标签第一次出现的内容,等同于上面的soup.tagName 属性定位:用于查找某个有特定性质的标签
1、返回标签第一次出现的内容:
比如返回a标签第一次出现的内容:
data:image/s3,"s3://crabby-images/c35a6/c35a62facd293ee0a8580540708b04f1ed50e756" alt=""
再比如返回div标签第一次出现的内容:
data:image/s3,"s3://crabby-images/b6ce1/b6ce10f1e221f63870fd0be8ec102025578bdd9f" alt=""
2、属性定位
比如我们想查找a标签中id为“谷歌”的数据信息:
data:image/s3,"s3://crabby-images/5251b/5251b731089ea7b174ddd53b1850b0d78f4c234b" alt=""
在BS4中规定,如果遇到要查询class情况,需要使用class_来代替:
data:image/s3,"s3://crabby-images/8364c/8364cbf13da98e442e13b7f7834d0004ceb6fbe5" alt=""
但是如果我们使用attrs参数,则是不需要使用下划线的:
data:image/s3,"s3://crabby-images/8f151/8f1511eb3a873442f9e8fe13c9ed4d011efca7c4" alt=""
soup.find_all()
该方法返回的是指定标签下面的所有内容,而且是列表的形式;传入的方式是多种多样的。
1、传入单个指定的标签
data:image/s3,"s3://crabby-images/41fff/41fff6ee0595171821d838dfca6bb55b40494f52" alt=""
上面返回的是列表形式,我们可以获取我们想要的内容:
data:image/s3,"s3://crabby-images/8c295/8c295cdb6a6cee6f528a1d8442487b6c51f1bf48" alt=""
2、传入多个标签(列表形式)
需要主要返回内容的表达形式,每个标签的内容是单独显示的
data:image/s3,"s3://crabby-images/97ad9/97ad9214f101f5241985656d23639d37af77e47d" alt=""
3、传入正则表达式
比如查看以a开头标签的全部内容
data:image/s3,"s3://crabby-images/f2500/f25005af87e25dcf03394e3764e86fd1ad31e8ab" alt=""
查看以li标签开头的全部内容:
data:image/s3,"s3://crabby-images/3f6da/3f6dab03ef1ae6e34ea389daddefe60064c81f0c" alt=""
选择器soup.select()
主要是有3种选择器,返回的内容都是列表形式
类选择器:点 id选择器:# 标签选择器:直接指定标签名
1、类选择器
data:image/s3,"s3://crabby-images/cbf74/cbf748a443afd6cb051c50f96233d78be8aa88c5" alt=""
2、id选择器
data:image/s3,"s3://crabby-images/fe34a/fe34a0cb976bc6a44e99f887a2eb70d9fa6c4913" alt=""
data:image/s3,"s3://crabby-images/e53a3/e53a36a72fbaaba0f19d9a8e2e8e183d43decd4b" alt=""
3、标签选择器
直接指定li标签
data:image/s3,"s3://crabby-images/db689/db68948cec318d197446fb288c94fe05faf8b334" alt=""
4、选择器和find_all()可以达到相同的效果:
data:image/s3,"s3://crabby-images/ef49e/ef49ea8651c459168e9e5bef05c0da5acdfff252" alt=""
soup.tagName和soup.find('tagName')的效果也是相同的:
data:image/s3,"s3://crabby-images/6ce84/6ce84b02c29b04d6d51cad960cb8f39a3f1d2105" alt=""
层级选择器使用
在soup.select()方法中是可以使用层级选择器的,选择器可以是类、id、标签等,使用规则:
单层:> 多层:空格
1、单层使用
data:image/s3,"s3://crabby-images/66fb3/66fb363dd1833c9ed94c663a8aa560503ac8c3b3" alt=""
2、多层使用
data:image/s3,"s3://crabby-images/4c9c3/4c9c3d31f4d1262214044c87064b51bb249e3021" alt=""
获取标签文本内容
获取某个标签中对应文本内容主要是两个属性+一个方法:
text string get_text()
1、text
data:image/s3,"s3://crabby-images/ef67f/ef67f6e5b893627cba80257d87a4ca104f66d4b9" alt=""
2、string
data:image/s3,"s3://crabby-images/b774a/b774a44b5a55dfb20cb1488b5a914a2836f6fbaf" alt=""
3、get_text()
data:image/s3,"s3://crabby-images/b8439/b84397965f1c786dfbb9b74704fc498b3a7793dc" alt=""
3者之间的区别
# text和get_text():获取标签下面的全部文本内容
# string:只能获取到标签下的直系文本内容
data:image/s3,"s3://crabby-images/28752/28752e09504a9b0480e57f4f1ce74acbc5d0f5aa" alt=""
获取标签属性值
1、通过选择器来获取
data:image/s3,"s3://crabby-images/4e00c/4e00cff1a9cba7b62115aa7021b3dc2e55615f40" alt=""
2、通过find_all方法来获取
data:image/s3,"s3://crabby-images/38af8/38af8efbef53137913a62c7b4ed62ec296f29b2c" alt=""
BeautifulSoup实战
下面介绍的是通过BeautifulSoup解析方法来获取某个小说网站上古龙小说名称和对应的URL地址。
网站数据
我们需要爬取的数据全部在这个网址下:https://www.kanunu8.com/zj/10867.html,右键“检查”,查看对应的源码,可以看到对应小说名和URL地址在源码中位置
每行3篇小说在一个tr标签下面,对应的属性href和文本内容就是我们想提取的内容。
data:image/s3,"s3://crabby-images/a8315/a83150eda4e4120be34f6d41f93d11f5c91a4b71" alt=""
获取网页源码
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
url = 'https://www.kanunu8.com/zj/10867.html'
headers = {'user-agent': '个人请求头'}
response = requests.get(url = url,headers = headers)
result = response.content.decode('gbk') # 该网页需要通过gbk编码来解析数据
# result
实例化BeautifulSoup对象
soup1 = BeautifulSoup(result,'lxml')
# print(soup1.prettify()) 美化输出源码内容
获取名称和URL地址
1、先获取整体内容
两个信息全部指定a标签中,我们只需要获取到a标签,通过两个属性href和target即可锁定:
# 两个属性href和target,不同的方法来锁定
information_list = soup1.find_all('a',href=re.compile('^/book'),target='_blank')
information_list
data:image/s3,"s3://crabby-images/5200b/5200bfd2486b89419f4ae5e7e2a5eafcf367a6a0" alt=""
2、再单独获取两个信息
通过属性来获取URL地址,通过文本来获取名称
url_list = []
name_list = []
for i in information_list:
url_list.append(i['href']) # 获取属性
name_list.append(i.text) # 获取文本
data:image/s3,"s3://crabby-images/48387/4838749f410c41670fa86a720469c11e94d0956a" alt=""
data:image/s3,"s3://crabby-images/1c491/1c4916ec1f9d09b12b5afa32e08a70807058c871" alt=""
3、生成数据帧
gulong = pd.DataFrame({
"name":name_list,
"url":url_list}
)
gulong
data:image/s3,"s3://crabby-images/a5c16/a5c16e458e8380d27e705d9dd3f4b48b03c7f6b6" alt=""
我们发现每部小说的具体地址其实是有一个公共前缀的:https://www.kanunu8.com/book,现在给加上:
gulong['url'] = 'https://www.kanunu8.com/book' + gulong['url'] # 加上公共前缀
gulong.head()
data:image/s3,"s3://crabby-images/5599f/5599fe1969628260881a3d76901323e5d5dd62c4" alt=""
另外,我们想把书名的《》
给去掉,使用replace替代函数:
gulong["name"] = gulong["name"].apply(lambda x:x.replace("《","")) # 左边
gulong["name"] = gulong["name"].apply(lambda x:x.replace("》","")) # 右边
# 保存
gulong.to_csv("gulong.csv",index=False) # 保存到本地的csv文件
最后显示的前5行数据:
data:image/s3,"s3://crabby-images/03aa3/03aa32aec7d0304e75eecce578208d5e88ce046a" alt=""
总结
本文从BeautifulSoup4库的安装、原理以及案例解析,到最后结合一个实际的爬虫实现介绍了一个数据解析库的使用,文中介绍的内容只是该库的部分内容,方便使用者快速入门,希望对读者有所帮助。
作者简介
Peter,硕士毕业僧一枚,从电子专业自学Python入门数据行业,擅长数据分析及可视化。喜欢数据,坚持跑步,热爱阅读,乐观生活。个人格言:不浮于世,不负于己
个人站点:www.renpeter.cn
往期精彩回顾
本站qq群851320808,加入微信群请扫码: