让你的爬虫速度提高100倍,就用这招!
共 3220字,需浏览 7分钟
·
2021-08-16 23:42
听说过异步爬虫的同学,应该或多或少听说过aiohttp
这个库。它通过 Python 自带的async/await
实现了异步爬虫。
使用 aiohttp,我们可以通过 requests 的api写出并发量匹敌 Scrapy 的爬虫。
我们在 aiohttp 的官方文档上面,可以看到它给出了一个代码示例,如下图所示:
我们现在稍稍修改一下,来看看这样写爬虫,运行效率如何。
修改以后的代码如下:
import asyncio
import aiohttp
template = 'http://exercise.kingname.info/exercise_middleware_ip/{page}'
async def get(session, page):
url = template.format(page=page)
resp = await session.get(url)
print(await resp.text(encoding='utf-8'))
async def main():
async with aiohttp.ClientSession() as session:
for page in range(100):
await get(session, page)
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
这段代码访问我的爬虫练习站100次,获取100页的内容。
大家可以通过下面这个视频看看它的运行效率:
可以说,目前这个运行速度,跟 requests 写的单线程爬虫几乎没有区别,代码还多了那么多。
那么,应该如何正确释放 aiohttp 的超能力呢?
我们现在把代码做一下修改:
import asyncio
import aiohttp
template = 'http://exercise.kingname.info/exercise_middleware_ip/{page}'
async def get(session, queue):
while True:
try:
page = queue.get_nowait()
except asyncio.QueueEmpty:
return
url = template.format(page=page)
resp = await session.get(url)
print(await resp.text(encoding='utf-8'))
async def main():
async with aiohttp.ClientSession() as session:
queue = asyncio.Queue()
for page in range(1000):
queue.put_nowait(page)
tasks = []
for _ in range(100):
task = get(session, queue)
tasks.append(task)
await asyncio.wait(tasks)
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
在修改以后的代码里面,我让这个爬虫爬1000页的内容,我们来看看下面这个视频。
可以看到,目前这个速度已经可以跟 Scrapy 比一比了。并且大家需要知道,这个爬虫只有1个进程1个线程,它是通过异步的方式达到这个速度的。
那么,修改以后的代码,为什么速度能快那么多呢?
关键的代码,就在:
tasks = []
for _ in range(100):
task = get(session, queue)
tasks.append(task)
await asyncio.wait(tasks)
在慢速版本里面,我们只有1个协程在运行。而在现在这个快速版本里面,我们创建了100个协程,并把它提交给asyncio.wait
来统一调度。asyncio.wait
会在所有协程全部结束的时候才返回。
我们把1000个 URL 放在asyncio.Queue
生成的一个异步队列里面,每一个协程都通过 while True 不停从这个异步队列里面取 URL 并进行访问,直到异步队列为空,退出。
当程序运行时,Python 会自动调度这100个协程,当一个协程在等待网络 IO 返回时,切换到第二个协程并发起请求,在这个协程等待返回时,继续切换到第三个协程并发起请求……。程序充分利用了网络 IO 的等待时间,从而大大提高了运行速度。
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
量化: 定投基金到底能赚多少钱? | 我用Python对去年800只基金的数据分析
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|
年度爆款文案
点阅读原文,领AI全套!