python爬虫学习教程:爬取表情包【附源码】

python教程

共 1503字,需浏览 4分钟

 ·

2021-08-02 10:06

1、创建请求头,也被称为伪装浏览器


如果不添加请求头的话,可能会出现当前网站没有访问权限。


2、使用requests 网络请求库完成网站数据请求


3、获取数据后使用bs4对页面数据进行提取


需要用到一个非常好用的第三方包:bs4。


4、实例

import osimport requestsfrom bs4 import BeautifulSoup if not os.path.exists('./images/'):    os.mkdir('./images/') headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'} url = 'https://fabiaoqing.com/biaoqing/lists/page/1.html'response = requests.get(url, headers=headers).text '''lxml: html解析库,因为python和html两者没有关系python没有办法直接控制html代码我们就需要使用lxml这个库将html代码转成python对象    需要大家去下载 pip install lxml'''soup = BeautifulSoup(response, 'lxml')img_list = soup.find_all('img', class_='ui image lazy')for img in img_list:img_url = img['data-original']img_title = img['title']print(img_url, img_title)try:     with open('./images/' + img_title + os.path.splitext(img_url)[-1], 'wb') as f:        '''        因为一张图片是二进制数据            如果我们使用text文本形式返回            会对文件造成破坏                        使用content去返回原始数据                    '''         image = requests.get(img_url, headers=headers).content         # 写入二进制数据 image这个变量是存储requests返回的二进制数据的         f.write(image)         print('保存成功:', img_title)except:     pass

以上就是python爬虫获取表情包的方法,希望对大家有所帮助。

搜索下方加老师微信

老师微信号:XTUOL1988切记备注学习Python

领取Python web开发,Python爬虫,Python数据分析,人工智能等精品学习课程。带你从零基础系统性的学好Python!

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权


浏览 19
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报