爬信息爬到服务器瘫痪,今日头条的头条搜索成了小网站的噩梦!

FightingCoder

共 2766字,需浏览 6分钟

 ·

2019-10-29 23:21

阅读本文大概需要 7 分钟。


今年上半年,字节跳动放出了个让百度虎躯一震的消息 —— 今日头条开始做搜索引擎了。


a8dcfc6636a543cc5f7eed6042f82c1b.webp两个月前还大张旗鼓的在亲爸爸字节跳动的官方公众号上招人组队来着~
504422a84bf6e70ee4d7b68f73523625.webp没过多久移动端的 “ 头条搜索 ” 就低调上线。


头条搜索从只限于头条 App 的站内搜,变成可以抓取全网内容的全新搜索引擎,期间还和百度互刚了好几波,字节跳动的野心可见一般。


( 世超之前还带大家体验了一把,没看过的差友们可以点这里补补课传送门7efc433afcb367d4424a86f9b4eab8a2.webp


字节跳动下这步棋,其实完全是在情理之中的举动。


依靠着今日头条过亿日活带来的天然信息流资源,头条搜索已经有了很大的基础优势,这不考虑分百度一羹都说不过去。。。


eb535e11e71fdb496f4b39d549351a5a.webp不过上线的这段时间,差评君关于他们的官方消息没看到几个,倒是爆出了这么个新闻 —— 81ac86cdd92531a53a5a4317bbc0d8f3.webp


什么是爬虫?


爬虫就是自动抓取全网内容的一种程序,它会定时把互联网上的内容爬下来,汇总存储到自己的服务器上,这样你每次搜索的时候,搜索引擎就会在这些内容里进行匹配相似度高的内容反馈给你。086973ad45fb75f872cb66d5f0f7168e.webp


为了让大家总能查询到互联网上的最新内容,爬虫一般每隔一段时间就再重新爬取一下网站内容。


在这个新闻里,一些服务器体量较小的网站称,一种名为 Bytespider 的爬虫爬取他们的网站信息的频率太高,直接把网站整瘫痪了。


大家顺着爬虫的 IP 地址查了一下,发现 Bytespider 就是今日头条的搜索爬虫。


crawl.bytedance.com7e3518ea5662d133f243319f13e023c0.webp


大公司的爬虫都有自己的名字,像是谷歌的爬虫叫 Googlebot,百度的爬虫是 Baiduspider,搜狗的爬虫 Sogouspider,而今日头条家的就是 Bytespider。但让差评君疑惑的是,像是用爬虫爬信息这种在互联网界已经算得上最常规不过的操作,小体量的公司都很少出错,今日头条这种大厂怎么把人家网站给搞瘫了?今日头条在业内的技术口碑一直不错啊。。


f21067afe2a7db302daf07e2b11a9cb6.webp会不会是漏洞或者是乌龙?所以差评君就多留心了下。。


不查不知道,一查吓一跳,其实从今年 6 月开始就有网站主抱怨了这个 Bytespider。84c9f174bd5edc3f20faa0a81c196174.webp


根据网站主的描述,爬虫短短一上午时间就对网站发出了 46W 次请求,直接耗掉服务器 7 个多 G 的流量。


4416a8e708ae4965922d43a68cd2b0a1.webp46W 次请求。。。


这对平均日活可能都没有过千的小网站来说,已经算得上一次小型的 DDoS 攻击了啊。


而且从今年 6 月到 10 月,越来越多的人开始在网上爆料自己也遇到了类似的情况。


CNDS 上也能找到相关文章20418e74f2aa1cd35dfbe16dc00f72dd.webp
4cc201c098914f5b61ecd2264d8b9865.webp


某家网站的的服务器日志
d1b8e8ecef2eddf98e4c644ac527421d.webp


而且连国外的网站也不能幸免!!在国外的编程交流网站上


最过分的是,无论是国内还是国外的开发者,都表示遇到 Bytespider 无视自家网站 robots 协议的情况。2ad00f7f45e3e570a36afba27e0ad896.webp


差评君给大家解释一下什么是 robots 协议。


它是一种网站附带的文本文件,专门用来告诉爬虫引擎在这个网站上的爬虫规矩。


譬如说哪些内容可以被爬取,哪些内容不能被爬取,而某些涉及用户隐私的会直接禁止爬取。。。


如果你想查看某个网址的 robots 规则,只需要在主域名后面添加 /robots.txt 便可以看到。。


166d293dd498e95ea6a06fc55d5af8bc.webp举个栗子,下面这个图片就是 Google 搜索的 robots 规则,Disallow 后面跟着的就是禁止爬虫做的事情,Allow 后面跟着的则是允许爬虫的操作。e5861a518c4aa2e5cf182bb2793fdec0.webp


当然 robots 协议并不是每个网站都有,并且 robots 协议也没有什么法律效力, robots 协议更像是一种江湖规矩,就像电影院里贴着不要大声喧哗,博物馆里不让用闪光灯一样。。那些专门写了 robots 协议的网站,就是告诫那些爬虫网站,进了我家门,请遵守我的规定。


再举个栗子,在用谷歌搜索的时候,你有可能会碰到有词条有链接,却没有页面说明的搜索结果。
6c0bd659e42d6b4c1601e5f3b60d8b76.webp


这就很可能是因为对方的 robots 协议里允许谷歌抓取信息,但不让谷歌搜索结果对网页进行描述。c8f0f4c58045a9359f82e41b4c05312e.webp
7c135305f615daf3d5d82375a0bd88bd.webp大家都在互联网这个江湖混,所以大部分人都老老实实的尊重这个江湖规矩。


有些小网站会根据自己的服务器体量和维护成本,直接在 robots 协议里规定爬虫爬取的频率。然而 Bytespider 却会忽略掉人们的规矩,仗着自己财大气粗、服务器牛逼,每秒几十次,几百次的抓爬访问频率,让小网站变得卡顿,甚至直接 502 挂掉。。。


Google 上搜索 “ Bytespider ”全是抱怨
d378d05ba7cd0c69e16c753a1f64a71b.webp


4ceeea624ebab00632f92fc24c6f159d.webp这不是不给小网站活路么。。。本来网站们是并不排斥爬虫过来爬取他们的内容的,因为对他们来说被正常抓爬不是坏事,反而给自己的网站多了一个搜索曝光位,何乐而不为?


我给你提供内容,你给我曝光量,这本来是个双赢的事情,但这回头条搜索的操作实在是太乱来了,压根不管你的承受能力,索取无度。。


而且,遇到这种情况的开发者偏偏又很难找到渠道去和今日头条沟通,只能在自己这边直接禁掉今日搜索的爬虫 IP 了。。。


但其实这样,对双方来说都没好处。


搜索引擎公司爬虫被禁,可能直接导致它的搜索结果失去了一条有用结果;而对于禁爬虫的公司来说,他们无疑少了一个渠道的曝光。


60af8a6f24012939f348674b20a3f0c1.webp两败俱伤。。。


曾经 YisouSpider 也因为流氓爬取,被程序员们唾弃30a8a44854dc69c15d863852a723b810.webp
而且忽略网站 robots 规则,也就是说,没准儿今日搜索的爬虫会爬到一些网站禁止访问的内容,譬如用户隐私信息啥的,这可就是在法律边缘试探了。。
至于头条搜索为什么要这么做,差评君猜测很可能是因为产品急着上线,需要快速扩充内容库,下了个狠手。


截止到目前,字节跳动或者头条官方都没有出面对这个事情做出辟谣或任何解释。


差评君唯一能看到官方对于这个事情的回应还是在微博上的一则回复。


接受一切反馈40b04832dce4bcbe5561df0a8ecf29b7.webp


ac467a8c3f7f031273cadfb2ad4b912f.webp不过所有的反馈能不能得到实际行动上的回应,着我们也不得而知了。


有人说,在搜索引擎界,头条算是新入局的小孩儿,如果要拿他这次的 “ 流氓行为 ” 和现在已经数据基础庞大,但是遵守规定的谷歌、百度去比,有点不公平。
差评君说句实话,字节跳动已经算得上一个大佬,这样的行为对那些无力反抗的小网站来说公平吗?大家都遵守 robots 规则是有道理的:做信息分发等业务时,不能竭泽而渔扰乱互联网生态,这样大家相安无事互助互赢。


现在这么一波暴力抓取,为了节省时间成本逼得网站不得不完全屏蔽掉它,结果整得大家都费力不讨好。


关键是,无财无势的小网站还输不起啊!


不管是物资还是财力都更庞大的巨头,更应该成为江湖界守规矩的标杆,老大要是乱了风气,江湖可就彻底糊了。


参考资料:

cnBeta:《 头条搜索还没有推出但派出的ByteSpider爬虫令小网站痛苦不堪 》

维基百科:robots.txt

微博:@互联网的那点事

stackoverflow:What is the “Bytespider” user agent?

知乎:YisouSpider是合法的网站蜘蛛吗?

IPHunter:今日头条 搜索爬虫

浏览 83
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报