一名博士生决定去淘宝扫“垃圾”
共 2043字,需浏览 5分钟
·
2021-02-05 21:19
Python实战社群
Java实战社群
长按识别下方二维码,按需求添加
扫码关注添加客服
进Python社群▲
扫码关注添加客服
进Java社群▲
作者 | 刘琳
毕业于香港中文大学的博士生,你怎么也不会想到他会去扫“垃圾”吧。
不过,此垃圾非彼垃圾。而是网络垃圾。
相信各位童鞋对此也并不陌生。
每个打工人上班摸鱼的时候肯定都见过一些奇奇怪怪的文字——如“胃♡”、“叩--裙”、“9え”、“发嘌”。
你以为这是追求个性,其实是黑灰产为了规避系统排查,以便发送成千上万条“垃圾信息”。
而清除这些垃圾就是这位博士生的工作。
1
博士生在淘宝扫“垃圾”
故事的主人公名叫刘翔宇,是一名来自阿里的安全工程师,他的日常工作就是扫“垃圾”
那么,这些垃圾是哪里来的呢?
类似于现实生活中的“海王”,他们广撒网,几乎日日有不同花样,让你甩都甩不掉。
网络垃圾也同样如此,他们每天都会骚扰平台商家,每天试图向商家群发上百万条垃圾信息。
据刘翔宇介绍,黑灰产通常掌控上千个账号,并编写程序,利用机器海量给商家群发信息,有一些刷单、欺诈信息等违法内容,更多的是营销、店铺代运营等各种招揽生意的广告,像极了那些上门捣乱的人。
黑灰产团伙通常会在很短的时间内把大量的垃圾消息海量群发给商家。他们嗡嗡不停,少则一天群发几万条信息,多则一天上百万条,最疯狂时,一分钟就能群发上万条信息。
旺旺上线“戳一戳”的新功能后,有的黑灰产试图编写程序,同时“戳一戳”上万人。被“乱戳”的主要是新商家,这样的骚扰可能会让初入淘宝大门的商家不胜其扰。
那么,如何才能清理掉这些网路垃圾呢?
这位博士生想到的办法是利用 AI 来对抗。
2
AI 上线,一个顶俩
所谓 AI 对抗就是根据算法进行分层识别,在发现黑灰产群发的垃圾信息后,系统可在一秒内撤回信息,实现净化商家运营环境的效果。
当然,“垃圾清理人”面对的不是散兵游勇,而是黑灰产的团伙作战。
“他们应该是专业团伙,按照攻击时间,可以看出他们每天也有固定的上下班时间,不少人应该是学计算机相关专业出身的,甚至是像我们一样做过安全防控的人,这些人对安全防控非常了解,会用智能化手段对抗,比如他们会发测试信息,对我们的拦截做试探再做调整。”
刘翔宇这样介绍道。
更让人头疼的是,这些黑灰产并没有规律可言,不知道他们什么时候忽然发动攻击,每周少则几次,多则十几次。
尤其是“双11”大促期间,黑灰产非常疯狂,发出的垃圾信息量比平时多几十倍。
甚至,黑灰产还会想办法通过“变异”试图突破安全防线。
所谓的“变异对抗”,就是黑灰产会试图改变发送的垃圾消息内容,让系统无法快速识别。黑灰产故意把一些关键,用音近、形近或语义相近的字词代替。在黑灰产黑话中,qq 群变成了“叩--裙”,私人微信写成“私入崴伈”,发票可能成为“发嘌”。
所以,这就是大家有时候在上网冲浪的时候总会看到一些奇怪的字符的原因。
黑灰产在进化,AI 能力也需要升级。
于是,针对黑灰产的“作案方式”,这名博士生和他的团队研究出一套新的解决办法。
即利用神经机器翻译和多模态词嵌入技术,增强垃圾文本内容风险识别系统的性能。
具体有什么作用呢?
首先,来看下神经机器翻译技术。
这项技术主要解决的问题是基于主动生成的对抗平行语料,利用神经机器翻译技术,构建对抗纠错模型,可消除黑灰产发出的内容对抗扰动。
也就是说,这项技术可以实现对黑灰产的拦截。
再来看下多模态词嵌入技术。
这项技术的主要功能是可以利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征,并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性,可进一步提供系统识别准确率。
也就是说,这个技术的加入进一步增强了 AI 识别错误的能力。
现在,这位博士生打造的算法已能够自行理解某个字和与它音形义近似的字的关联,识别准确率高于 98%,可有效新增识别变异违规文本内容 50% 以上。
此外,他还开发了“变异垃圾语言”翻译功能,系统可以将“变异信息”翻译回正常语句。
这波操作真的是让人直呼 666。
值得注意的是,每天这位博士需要处理的账号在上万个以上,处罚方式包括扣分、禁言、封号等。
当然,如果商家依旧不堪其扰,还是得去寻找警察蜀黎的帮助,交给警察蜀黎处理。
最后,雷锋网还是要提醒大家一句:千万别因为觉得投诉和举报没有用,就放弃了维护自己的权益。
在没有良心的黑灰产面前,如果你放弃追责,那就真的没有人在乎你的权益了。
近期精彩内容推荐: