不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

FightingCoder

共 795字,需浏览 2分钟

 ·

2020-04-07 23:21


公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!


2bac401ae576fcc0940cdc2868f49f2b.webp

前言

前几天发现了一个比较有用的谷歌插件,大家看标题也许已经知道它有啥用了。下面给大家介绍一下这款插件的用法,文末也提供了下载链接。dc9c0d46e0e40ff5c87a134bc443f4a9.webp

使用

首先简单介绍一下是个啥插件:627e80954f2afb4dd8345c3fc85deba3.webp如图所示确保安装成功插件后,我们就可以愉快的玩耍了。4316184863bd1d8474e3d9303bc4d4be.webp第一步,打开熟悉的开发者工具。30d0a6998c6a0602bf82dad1476d94d0.webp可以看到,最右边多了一个 Web Scraper 的选项栏。找到地方后,我们找个网站来爬爬。3d842f6d5020c1227456d59623beb6b7.webp我这里找的是菜鸟笔记的网站,地址扔给大家,大家可以先拿它练练手。
https://www.runoob.com/w3cnote
接下来怎么做呢?8bcea5992dcf0baf7f71b8713c0e45ad.webp点击Create Sitemap创建一个项目。334a40df5235ab7e77bab55ff97a5cab.webp填写相关信息,在开始url那个框里,可能大家注意到后面加了个[1-10:1]这代表着我要爬取前十页的数据。这里也是对url进行了一个简单的分析。ac4c7892c5e511aaa7924daa94e0c0bf.webp创建完成,增加一个选择器。由于,我这里只是简单的给大家操作一下怎么爬取,所以我这里就爬取前十篇文章中的标题,插件了也有很多的爬取方式,大家可以试一试。8a0cde597b898339dbdc943e368b8e65.webp首先我们锁定外面的红框79a1bb5072b48a16196991aab180b707.webp263fc69ffff772c9450707b2cc019d5d.webp大家按照我的图片上操作,选择自己要爬取的元素。cd3c0db4486610fab2290a4d6f352f2a.webp保存之后9dd292cb4e01bf2ffc41d203927767e3.webp点击id,进行下一步选定爬取元素。47b11913d43e78d4596719ee52cd651b.webp62249120d52af5f582d77bf072402570.webp选定标题后,记得选择父节点,保存。完事之后,我们就可以愉快的运行了!6177885736c9799bb1c0e8682e019011.webp点击爬取。等待它自动爬取。e4154139452835b1fdd65e402881c772.webp过一小会就可以看到数据了,数据支持导出!

总结

这个插件对于一些简单的静态爬虫还是处理的很不错的。不用写一行代码,可以节省我们的时间,直接点几下鼠标就能写个简单的爬虫,所以推荐给大家。

获取方式

① 可以去谷歌拓展程序商城下载② 我也给大家打包好了,直接在公众号后台发送爬虫即可领取。

推荐阅读

1

今天网站都变成灰色了,这其中是怎么实现的?

2

如何用 GitHub Actions 写出高质量的 Python代码?

3

孙杨一夜之间风评变差,从数据上看是真的吗?

4

进来看看你中了几条


好文和朋友一起看~
浏览 30
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报