重磅！Scrapy-Redis 正式发布新版本了-技术圈

重磅！Scrapy-Redis 正式发布新版本了

大邓和他的Python

共 2188字，需浏览 5分钟

· 2021-06-24

2021暑期 | 结构模型、Stata实证前沿、Python数据挖掘暑假工作坊

今天这篇文章算是一篇非常简单的通告，主要告诉大家 Scrapy-Redis 这个时隔四年没有更新的库，终于发正式的新版本了。

有的朋友可能会问：你不是前几天就说更新了吗？是，的确是更新了，但是没有发布正式版到 PyPi 上面，仅仅发布了一个 beta 版本，0.7.1b1，大家如果不指定版本号的话，依然还会安装四年前的版本 0.6.8。

beta 版本我联系人进行了一番试用，没有什么大问题，于是决定今天发布一个正式的新版本。

大家可能最好奇的是这个版本升级都带来了什么更新呢？这里总结下。

我们把这几年新进的 PR 总结下。

创建 dupefilter 的时候支持通过 from_spider 创建

这里增加了一个 from_spider 方法，方便在其他类初始化或者复写 Dupefiler 类的时候直接调用 from_spider 实现，增加了可扩展性。

PR：https://github.com/rmax/scrapy-redis/pull/83

对 Python3 增加了 REDIS_DECODE_RESPONSES 的支持

我们知道 Python2 和 3 的 Redis 返回结果的默认编码是不同的，Python3 会变成 bytes 格式，增加这个参数，可以自动将 Redis 的结果进行 decode，算是一个小优化吧。

PR：https://github.com/rmax/scrapy-redis/pull/146

增加了 DB 的设置支持

在之前的版本中，没有把 db 这个参数暴露出来，这里增加了 DB 的配置支持。

但是现在还没有 Password 的支持，后续会加上，可以先用 REDIS_URL 配置。

PR：https://github.com/rmax/scrapy-redis/pull/166

读取 Redis 队列的时候使用 pipeline 实现

在之前的版本中，RedisSpier 读取 Redis 列表结果的时候，直接使用了一个 lpop 用来读取一个列表元素，这里增加了多个元素的读取，于是也将实现改成了 Redis 的 pipeline 实现，保证原子性。

PR：https://github.com/rmax/scrapy-redis/pull/169

start_urls 增加了优先级的支持

之前的时候 start_urls 的实现是不支持优先级配置的，这里增加一个 zset 的支持，可以用来配置 start_urls 中 URL 的优先级，方便实用。

PR：https://github.com/rmax/scrapy-redis/pull/172

增加了批量初始化 Request 的支持

当初始化请求是 Iterable 类型的时候，增加了遍历获取和初始化的功能。

PR：https://github.com/rmax/scrapy-redis/pull/176

增加了基于 Redis 的全局数据统计功能

之前的时候每个 Spider 的数据统计都是分离的，没法统一，这里借助 Redis 进行了同步。

PR：https://github.com/rmax/scrapy-redis/pull/186

这个功能是我加的，具体的原理大家可以参考这篇文章：我给 Scrapy Redis 开源库发的 PR 被合并了

以上就是 Scrapy-Redis 更新的全部内容啦，现在已经发布到 PyPi 上面，版本是 0.7.1，欢迎大家试用。

另外大家到 Scrapy-Redis 的 GitHub 仓库也能看见更新信息：

以及 Release 信息：

如果大家更新之后遇到了什么问题，请大家及时提 Issue 到 GitHub 反馈，我会及时跟进修正，谢谢。

精选文章

腾讯课堂 | Python网络爬虫与文本分析
B站视频 | Python自动化办公
语法最简单的微博通用爬虫weibo_crawler
发布一个智能解析算法库
hiResearch 定义自己的科研首页
大邓github汇总， 觉得有用记得star
multistop ~ 多语言停用词库
Jaal 库 轻松绘制动态社交网络关系图
SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站
爬虫实战 | 采集&可视化知乎问题的回答
Clumper | dplyr式的Python数据操作包
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述  
综述:文本分析在市场营销研究中的应用
plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G

好文和朋友一起看~