浅谈图深度学习在广告反作弊领域的应用
近些年随着图深度学习的迅猛发展,图神经网络在风控领域有着广泛的应用。图深度学习算法可以刻画图中的结构信息和节点自身的特征信息,并且深度学习方法有强大的泛化能力,能大幅提升识别效果。如下图所示,根据节点的上下文特征,我们希望采用图神经网络的方法,构建设备的二分类问题,预测用户群体是否属于作弊群体,来达到检测的目的。
图神经网络预测示意图
2018年,Liu等提出了欺诈行为的图嵌入模型(Graph Embedding for Malicious accounts, GEM),认为同时存在设备聚集(Device Aggregation)和行为聚集(Activity Aggregation),并结合两者构建异质图挖掘支付宝上的欺诈行为。
其中设备聚集可解释为,受购买设备花销考量,欺诈者一般并不会拥有大量的计算机设备,通常会在相同设备群上采用多个账号的方式实施欺诈行为,称为设备聚集;欺诈者往往需要在某个时期内,完成相应的欺诈任务,受时间的限制,会在设备上执行类似或者说重复性的任务,称为行为聚集。
建图是应用图算法的基础,良好的构图依赖对业务的理解。在现实生活中,相同的IP地址段内,可能同时存在着正常的用户与欺诈者,因此要综合考虑设备积聚和行为积聚。展开而言,设备聚集性表现为一个帐户注册或登录同一个设备或一组公共设备,若这一个(一组)设备上有大量其他账户登陆,那么此类帐户是可疑的;行为聚集性具体表现为,如果共享设备的账户行为是批量进行的,那么此类账户是可疑的。
实践中图模型包括,构建关系图、图上特征、图算法三个方面,本案例中采用的图算法模型为GraphSAGE模型,构图关系和图上的特征则需要精细的设计。
图关系
风控中一般将图构建为二部异质图,使用用户的行为数据作为数据源,其中一类节点表示用户(设备),另一类节点则表示为特征节点。如果在同一个时间窗口,多个用户使用了同一个IP,就可以将这个用户和IP关联到一起,构建了一个由用户和节点形成的二部图,边就是二者之间的关系。
风控场景图特征工程
针对图算法,特征工程和图的构建方式是非常重要的。如果图的结构不合理的话,即使算法模型再强大、特征工程处理得再好,算法训练出的结果也不是最终理想的效果。一些团伙攻击广告主,特征表现为cookie、IP、utdid(设备唯一标识符)的排列组合,同时,为了绕开基于简单统计的反作弊系统,作弊团伙会让每个设备介质有较少的点击次数。作弊团伙虽然会不断切换IP和账户ID,但是受成本限制,作弊团伙使用过的帐户和IP会不可避免的产生一些关联。
相较于正常用户,欺诈用户之间具有较强的关联性,可以认为这个簇是一个高可疑作弊团伙,下图是抽取的其中一个簇的行为示例,同颜色的表示使用同一资源,簇中的用户在不断点击京东的广告页面,并且在短时间内不断切换IP、cookie、useragent等资源以绕过反作弊系统。
节点特征向量分段含义
黑产设备(恶意点击)点击示意图
广告流量作为互联网变现的重要方式,虚假流量作为广告产业的灰色领域,是广告流量风控的重灾区。广告反作弊应运而生,成为广告系统的一部分。在实际应用中,我们采用Fraudar无监督学习方法得到的作弊设备作为GraphSAGE图神经网络的标签样本,然后做深度学习训练,召回更多的作弊设备。
图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。本书由浅入深,全面介绍图神经网络的基础知识、典型模型方法和应用实践。《图深度学习从理论到实践》不仅包括一般的深度学习基础和图基础知识,还涵盖了图表示学习、图卷积、图注意力、图序列等典型图网络模型,以自研的Galileo平台为代表的图学习框架,以及图神经网络在电商推荐和流量风控方面的两个典型工业应用。
推荐阅读