爬信息爬到服务器瘫痪,今日头条的头条搜索成了小网站的噩梦!
FightingCoder
共 2766字,需浏览 6分钟
·
2019-10-29 23:21
“
阅读本文大概需要 7 分钟。
没过多久移动端的 “ 头条搜索 ” 就低调上线。
大家都在互联网这个江湖混,所以大部分人都老老实实的尊重这个江湖规矩。
而且忽略网站 robots 规则,也就是说,没准儿今日搜索的爬虫会爬到一些网站禁止访问的内容,譬如用户隐私信息啥的,这可就是在法律边缘试探了。。
至于头条搜索为什么要这么做,差评君猜测很可能是因为产品急着上线,需要快速扩充内容库,下了个狠手。
差评君说句实话,字节跳动已经算得上一个大佬,这样的行为对那些无力反抗的小网站来说公平吗?大家都遵守 robots 规则是有道理的:做信息分发等业务时,不能竭泽而渔扰乱互联网生态,这样大家相安无事互助互赢。
参考资料:
cnBeta:《 头条搜索还没有推出但派出的ByteSpider爬虫令小网站痛苦不堪 》
维基百科:robots.txt
微博:@互联网的那点事
stackoverflow:What is the “Bytespider” user agent?
知乎:YisouSpider是合法的网站蜘蛛吗?
IPHunter:今日头条 搜索爬虫
评论