美国宣布爬虫合法,万亿级爬虫大军暗流涌动SegmentFault关注共 2243字,需浏览 5分钟 ·2022-04-27 23:38 据TechCrunch报道,在本周一的第二次裁决中,针对LinkedIn发起的长期法律诉讼,美国第九巡回上诉法院重申了其最初的决定,网络爬虫是合法的。这一具有里程碑意义的裁决,在美掀起轩然大波,面对万亿级的爬虫攻击,人人自危。图源:TechCrunch面对爬虫攻击,美企“无法可依”2017年5月,LinkedIn致信hiQ,要求其停止未经授权的访问和数据爬取行为,随后hiQ向美国加州北部地区法院提出诉讼,主张LinkedIn的行为违反言论自由的规定。至此,LinkedIn也开启了长达5年的法律诉讼,这便是轰动科技圈的「hiQ Labs Inc v. LinkedIn Corporation」事件。图源:Wikipedia该案于2021年送达美国最高法,但最后又被送回至第九巡回上诉法院,由其重新审查。2022年4月18日,在第二次裁决中,第九巡回上诉法院重申了其最初的决定——网络爬虫是合法的。并表示,抓取互联网上公开数据的行为,并不违反美国《计算机欺诈和滥用法案》,即CFAA。对此,LinkedIn 发言人 Greg Snapper 在一份声明中表示,“我们对法院的判决感到失望,这只是一项初步裁决,案件还远未结束。”很明显,在面对爬虫攻击时,即便强如硅谷巨头的领英,在法律层面依旧得不到有效的保护。那么在未来,会有更多的美企遭遇同样的问题,面对爬虫攻击,将陷入“无法可依”的窘境,人人自危。 二、爬虫攻击成为企业线上资产首要威胁根据Akamai的统计,全球互联网流量中,近40%的流量由爬虫所占据。在2021年第二季度,全球遭遇的账户滥用攻击达到了700亿次,同比增长15%,更让人担心的是,日峰值超过10亿次的恶意登录行为变得逐渐频繁。据Check Point Research数据显示,相较于2020 年,2021 年黑产每周对企业的网络攻击数量增加了 50%。图源:Check Point Research图源:Akamai据IDC预测,2022年超过50%的中国经济将建立在数字化的基础上。而随着产业数字化步伐的加快,爬虫攻击已渗透至各行各业。2022年4月11日,数字出版服务平台「斑马中国」发布声明,存在部分用户使用外挂、机器、脚本、爬虫等违规行为,并最终通过网上代抢、代买等操作获利。数字出版服务平台「斑马中国」遭遇爬虫攻击以官方主推的西南首个航空3D数字出版物“金沙号”主题飞机为例,官方售价99元,分别于2022年4月18日、4月22日、4月25日分三批次在「斑马中国」官方平台限量发行。当前,在某二手交易平台,“金沙号”主题飞机已被炒至千元,足足翻了10倍。除了规模与日俱增外,爬虫攻击的形式也越来越丰富,撞库攻击、银行卡攻击、库存囤积、薅羊毛、礼品卡攻击,这都是常见的攻击形式与目标。并且,黑产发起的万亿级爬虫攻击,会给企业造成大量的带宽资源消耗,从而占用大量的服务器资源。若服务器没有储备额外的业务并发,就会对正常业务造成影响,导致用户访问速度变慢,甚至服务器崩溃。在互联网竞争白热化的今天,爬虫攻击已成为企业线上资产的首要威胁。 三、反爬利器——验证码当然,企业针对爬虫的攻防战也从未停歇。在我们的日常生活中,反爬无处不在,例如:在浏览网站或者打开某个应用的时候,经常会遇到各式各样的验证码,在多数情况下这些验证码会出现在注册、登录场景,也可能会出现在访问页面的过程中,比如,看视频直播、玩游戏等过程中弹出的小窗口,严格来说,这些细节的背后,便是企业与爬虫大军的博弈。作为区分人类与机器的利器,验证码也成为当前最为常见与普遍的反爬虫解决方案之一。如今,所谓的爬虫工具随处可见,为黑产进一步降低了攻击门槛。而面对爬虫攻击造成的各类威胁,企业面临的挑战有3个:来自竞争对手的数据爬取行为用户隐私数据泄露与账号盗用对用户轻打扰,甚至零打扰所以,面对日益泛滥的爬虫攻击,如何在兼顾用户体验的同时,做好防御黑产对业务的破坏,保证业务的正常开展,成为企业所面临的重大挑战。国家企业信用信息公示系统部署极验「行为验证」极验始终追求安全和体验的平衡,作为可信流量三要素重要一环,极验「行为验证」采用主动动态对抗,提供7层动态安全防护,通过不停的变化,使黑产攻击脚本失效,其中7层动态安全防御分别为:JS动态混淆、参数动态更新、全网风险库、验证形式、验证难度、行为算法模型、参数加密。单位周期内多达4,374种变化,大大提升黑产攻击成本。而在用户体验方面,在轻点验证的瞬间,极验后台即可处理200多种单维度的策略检查。用户平均仅需 1.4s 就能通过验证,且支持无感探针模式,可进行用户无感风险检测。极验「行为验证」,能够帮助企业应对复杂多变的安全形势,辅助监测平台流量,对风险流量进行有效拦截。最终,以其良好的用户体验,以及高效稳定的防御能力,在各行业头部企业中得到广泛应用。结语互联网竞争日趋白热化的当下,针对线上资产的竞争必将愈演愈烈,围绕爬虫攻击的利益摩擦也将越来越多。站在市场的角度,需要平衡商业利益与公平竞争之间的关系,一方面,平台积累的数据及其来之不易的资源优势,值得保护,但不能过度保护,形成垄断;另一方面,商业利益不应该凌驾于公众利益之上,遵循用户选择、数据开放交换和共享以及数据安全的原则。而站在企业的角度,当数据保护存在定义模糊,甚至不在法律保障范围内,强有力的反爬手段将成为企业最后的护城河。 浏览 3点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 五年官司终败诉,万亿爬虫大军蠢蠢欲动Java技术迷0爬虫究竟是合法还是违法的?FightingCoder0Crowbarajax 爬虫Crowbar: 基于Mozilla浏览器的 ajax 爬虫,还可作为远程浏览器使用,比较有意思。scrapeWeb 爬虫scrape是一个简单高级的Web爬虫库,使用Go语言开发。示例代码:package mainimport ( "fmt" "net/http" "github.com/yhat/sHeritrixweb爬虫Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和METArobots标签。其最出色之处在于它爬虫需求根据关键词采集搜狗移动结果,然后判断符合要求的url保留 w : vicguo53HarvestmanWeb 爬虫Harvestman 是一个非常简单、轻量级的 Web 爬虫,使用 Ruby 编写,示例代码:req爬虫神器,大幅提升爬虫效率!Python编程与实战0HarvestmanWeb 爬虫Harvestman是一个非常简单、轻量级的Web爬虫,使用Ruby编写,示例代码:require'harvestman'Harvestman.crawl'http://www.foo.com/barCrowbarajax 爬虫Crowbar:基于Mozilla浏览器的ajax爬虫,还可作为远程浏览器使用,比较有意思。点赞 评论 收藏 分享 手机扫一扫分享分享 举报