因为爬虫失控,CTO 和程序员双双被判刑
简说Python
共 2813字,需浏览 6分钟
·
2022-03-05 16:35
开发
KG公司2014年成立,早期做互联网金融,2017年转型做互联网科技公司,主营业务是“助贷”,也就为按揭贷款购房的客户提供赎楼及债务置换贷款等服务。
这个业务需要经常性地访问政府居住证网站,查询房产地址、房屋编码和学区房的使用情况,用于做房产的市场评估和客户风险评估。
因为手动查询效率低下,公司产品组经讨论后提出了一个建议——用爬虫软件自动查询。
2017年12月,CTO安排新入职的程序员负责这个项目,要求他研发一个自动定时抓取的小程序,主要用来查询、下载网上的数据。
2018年1月,项目经理给程序员一个抓取数据的程序源代码,程序员开始修改。
2018年3月,小程序被部署在阿某云服务器上自动运行,其内置的“网络爬虫”可以:
链接某市居住证网站,也就是某市公安局人口管理处的居住证系统;
可以在某市居住证网站上查询到房产地址、房屋编码等对应的资料;
软件对网站访问量能达到每小时数十万次。
查询的信息都被下载保存到公司购买的阿某云服务器上。
这个程序还被用于查询房地产中介(中原地产、链家地产、Q房网等)在网上挂盘的房子信息,主要是查询房价、用作参考。
所有市民的网上自助受理系统; 151个派出所、街道办居住证受理点的现场受理系统; 后台接口为市网格办、市交警局、市民政局,市交委等多个政府部门提供居住证、居住登记条件查询和审核。
软件对某市居住证系统查询访问量为每秒183次,共计查询信息约151万条次,窃取大量建筑物编码数据,造成政府信息泄漏; 所有居住证办理、居住登记申报、信息查询、对外服务功能均无法正常工作,影响面极广; 市民无法办理居住证和居住登记,相关生产生活秩序受到严重影响。
导出的库备份中检出多个包含房产信息的数据表,包括房产的所处位置、楼宇编号、房间编号等信息,约有2905万条; 在程序员的电脑上检测出爬虫程序的源代码; 在IP地址为XXXX的服务器检出爬虫程序,这两个爬虫软件程序均使用遍历查询的方式短时间向目标网址URL地址“......”发起大量查询请求,从而实现非授权下载数据库内容。
网站遭受自动化程序攻击。IPXXXX对居住证服务器的持续大量的访问造成了平台在……期间无法正常对外提供服务,服务器无法正常运行。
爬取的是公开信息,没有任何恶意去攻击网站和系统,只是为了提高查询效率。没有爬取个人信息,没有在市场上买卖或者和其他公司搞资源置换,没有通过查询某市居住证网站信息获利。软件是公司管理层开会决定开发的,由法定代表人交代技术部研发,系统里的查询和下载功能是程序员程序员负责开发的。程序员设定的是每周三次自动查询,后面怎么实施的我也不清楚,主要是程序员负责。
不清楚抓取数据的原程序是谁研发的,没有因查询居住证网站而获利,这是工作任务。3月份后就去做公司安排的其他任务了,这个程序在服务器上启动后,也没有对程序做修改和更新,也没有进入服务器的权限,权限在运维部门。 没有爬取个人信息,没有在市场上买卖或者和其他公司搞资源置换,只是用于公司业务上的参考。4月27日在公司,5月2日在日本,当时没对程序作出修改,猜测是因为居住证平台更新了验证码登陆功能,而我们的查询软件未做相应的更新,导致程序出错,发出攻击行为。
都提出自己只是过失、疏忽大意,没有预见可能会造成的后果,主观上完全没有破坏系统的故意; 都提出爬取的是公开信息,只是为了让公司业务更高效,并没有以此牟利; CTO认为自己授权程序员开发爬虫程序,只是一次性爬取,并未要求每天自动爬取,不是主犯; 程序员认为自己只是按领导指示、完成工作任务……
CTO,负责并授权程序员开发涉案爬虫软件,系主犯,判处有期徒刑三年 程序员受指派开发爬虫软件,在共同犯罪中起次要作用,系从犯,判处有期徒刑一年六个月。
来源:数据保护官
那么下期见,我是爱猫爱技术,更爱思思的老表⁽⁽ଘ( ˙꒳˙ )ଓ⁾⁾
近期阅读学习推荐:
Python自动化处理Excel表格实战完整代码分享(课表解析)
如何找到我:
评论