5分钟撸了个小小爬虫....
咪哥杂谈
共 1985字,需浏览 4分钟
· 2019-12-06
咪哥杂谈
本篇阅读时间约为 4 分钟。
1
前言
这几天在用“必应”搜索时,发现必应的背景图片挺好看的,有的是风景,有的是动物。。。于是产生了一个想法,爬下来当做桌面背景图吧。。
2
开工
简单的分析下:必应首页。
如何下载呢?其实很简单,说下逻辑。
requests库请求主页,正则匹配地址,再用 requests 请求,将返回的 content 以二进制的形式写入文件,保存为图片。
核心代码:
url = 'https://cn.bing.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) '
'AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Safari/605.1.15'
}
r = requests.get(url=url, headers=headers)
# 正则匹配到 url 地址
a = re.findall(r'rel="preload" href="(.*?)" as="image"', r.text)
if a:
# 拼接 https://cn.bing.com/xxxxxx图片的地址
picture_url = parse.urljoin(url, a[0])
print(f'当前图片地址:{picture_url}')
r_picture = requests.get(url=picture_url, headers=headers)
write_file(file, r_picture.content) # 写入文件
执行后的结果:
主要是正则表达式,如何书写,匹配出来,用 urllib 的 urljoin 方法拼接下图片地址即可。可以看下核心代码的相关注释。
3
定时任务
windows系统:
如果你是 windows 环境,推荐看下这篇博客,之前是我总结的如何用 windows 定时执行 Python 文件。
https://blog.csdn.net/s740556472/article/details/78239204
大咪的csdn博客
了解 Linux 系统的同学,一定知道有个自带的系统工具,叫 crontab。
使用方法,两个。
1. 编辑 crontab :
crontab -e
回车后,进入内容,用法和 vim 一样,按下 i 即可编写,然后 wq 保存。
0 10 * * * /Users/sy/anaconda3/bin/python /Users/sy/PycharmProjects/python-tools/spider/bing_picture/crawl_bing.py > /Users/sy/PycharmProjects/python-tools/spider/bing_picture/log
第一段,是cron特有的时间配置表达式,可以看下图的简介,顺便给大家一个网址,可以在线查看其表达式的含义。而我脚本中写的则是每天十点整执行 Python。
工具网址:
https://tool.lu/crontab/
写完 cron 表达式,后面跟的其实就是 python xxx.py 这样的命令,只不过,在 cron 中一定要写绝对路径,否则不生效。
再执行 python 命令的基础上,我还追加了 > xxx.log 这样,意思是将 python 脚本的打印内容输出到一个指定目录的 log 文件里。
2. 查看定时任务 crontab:
crontab -l
每日自动抓取,导入图片,换背景即可。
4
总结
本篇介绍的定时工具,其实用途很大,因为基于系统层面,所以不依赖于脚本,只要你电脑开着,就可以随心所欲的触发你写的脚本,而不依赖你脚本本身使用代码的定时任务!
想看完整代码的同学,可以后台回复 bing ,即可获得。
评论
老爸嘲讽我了,写破代码一年就挣十几万,他在工地带50个工人,一个月光人头费就3万,让我滚回去跟他干!
点击上方 "大数据肌肉猿"关注, 星标一起成长点击下方链接,进入高质量学习交流群今日更新| 1052个转型案例分享-大数据交流群来自:网络,侵删有个网友的父亲是做工程的,天天就嘲笑他,说他天天写着破代码有啥用,一年就拿个十多万的死工资,然后告诉他自己在工地里面带了50个工人,一个月能抽三万
程序源代码
0
微软开源MS-DOS操作系统源码,冲到GitHub第一了!
大家好,我是轩辕。这两天逛GitHub的时候,突然发现一个叫 MS-DOS的项目冲到Trending榜首了!定睛一看,微软官方啊,搜了一下才知道,原来前两天,微软把MS-DOS 4.0系统开源了!关于这个系统,估计现在很多程序员都不知道了,或者只在古老的教科书上看过这玩意儿。MS-DOS,全称为Mi
编程技术宇宙
6
多人同时导出 Excel 干崩服务器!新来的阿里大佬给出的解决方案太优雅了!
点击关注公众号,Java 干货及时推送↓推荐阅读:面试辅导,我们出大成果了!来源:juejin.cn/post/7259249904777838629前言 业务诉求:考虑到数据库数据日渐增多,导出会有全量数据的导出,多人同时导出可以会对服务性能造成影响,导出涉及到mysql查询的io操作,
Java技术栈
1
今年后端爆了???
大家好,我是二哥呀。每次登录牛客,看到最多的就是各种 Java 后端岗位的喜讯,美团 OC了、快手 OC 了、就连腾讯 OC 的都是 Java 岗,我怀疑牛客是不是给我打了“只报喜不报忧”的标签?星球里也有不少球友给我发来喜讯,难道说每年都在凉凉的 Java 后端又承担起了就业的重任?!不可能,绝对
沉默王二
3
真心建议大家搞个香港身份,再不冲就晚了
香港一直有“互联网荒漠”之称,疫情这三年,香港开始大力扶持互联网 科技工程 /IT产业,公布了《香港智慧城市蓝图》。目前规划已经覆盖到交通、医疗、经济、教育、环境等多个方面。目前在智能制造,5G网络、智慧城市等领域人才,通过香港优才计划入境都极具优势。什么是香港优才计划优才计划,全称优秀人才入境计划
公子龙
0
竞业真太TM恶心了!
看到一个新闻,本周漂亮国的联邦贸易委员会(FTC) 宣布全面禁止所有员工(包括高级管理人员)签署新的竞业禁止协议。对于现有的竞业协议,高级管理人员的现有竞业协议仍然有效,其他员工的现有竞业协议则在规定生效日期后不再强制执行。由于国外的互联网发展的早,很多国内的习惯也是照搬他们的,现在漂亮国
公子龙
2
如此“爬虫”?代码全省了
大家好,我是章北海Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️项目地址:https://github.com/jina-ai/readerJina AI Reader 特征:免费使用开源延迟大概 2S 内,复杂的内容可能需要
机器学习算法与Python实战
0
LangChain又上新了!LangChain项目贡献者@莫尔索新书重磅上市
在 AI 领域,每天都有新技术和框架出现,作为一个开源框架,LangChain 提供了构建基于大模型的 AI 应用所需的模块和工具,大大降低了 AI 应用开发的门槛,使得任何人都可以基于 GPT-4 等大模型构建自己的创意应用。LangChain 框架的爆火LangChain 作为开源项目首次进入公
机器学习实验室
0