浅谈图深度学习在广告反作弊领域的应用-技术圈

近些年随着图深度学习的迅猛发展，图神经网络在风控领域有着广泛的应用。图深度学习算法可以刻画图中的结构信息和节点自身的特征信息，并且深度学习方法有强大的泛化能力，能大幅提升识别效果。如下图所示，根据节点的上下文特征，我们希望采用图神经网络的方法，构建设备的二分类问题，预测用户群体是否属于作弊群体，来达到检测的目的。

图神经网络预测示意图

2018年，Liu等提出了欺诈行为的图嵌入模型（Graph Embedding for Malicious accounts, GEM），认为同时存在设备聚集（Device Aggregation）和行为聚集（Activity Aggregation），并结合两者构建异质图挖掘支付宝上的欺诈行为。

其中设备聚集可解释为，受购买设备花销考量，欺诈者一般并不会拥有大量的计算机设备，通常会在相同设备群上采用多个账号的方式实施欺诈行为，称为设备聚集；欺诈者往往需要在某个时期内，完成相应的欺诈任务，受时间的限制，会在设备上执行类似或者说重复性的任务，称为行为聚集。

建图是应用图算法的基础，良好的构图依赖对业务的理解。在现实生活中，相同的IP地址段内，可能同时存在着正常的用户与欺诈者，因此要综合考虑设备积聚和行为积聚。展开而言，设备聚集性表现为一个帐户注册或登录同一个设备或一组公共设备，若这一个（一组）设备上有大量其他账户登陆，那么此类帐户是可疑的；行为聚集性具体表现为，如果共享设备的账户行为是批量进行的，那么此类账户是可疑的。

实践中图模型包括，构建关系图、图上特征、图算法三个方面，本案例中采用的图算法模型为GraphSAGE模型，构图关系和图上的特征则需要精细的设计。

图关系

风控中一般将图构建为二部异质图，使用用户的行为数据作为数据源，其中一类节点表示用户（设备），另一类节点则表示为特征节点。如果在同一个时间窗口，多个用户使用了同一个IP，就可以将这个用户和IP关联到一起，构建了一个由用户和节点形成的二部图，边就是二者之间的关系。

风控场景图特征工程

针对图算法，特征工程和图的构建方式是非常重要的。如果图的结构不合理的话，即使算法模型再强大、特征工程处理得再好，算法训练出的结果也不是最终理想的效果。一些团伙攻击广告主，特征表现为cookie、IP、utdid（设备唯一标识符）的排列组合，同时，为了绕开基于简单统计的反作弊系统，作弊团伙会让每个设备介质有较少的点击次数。作弊团伙虽然会不断切换IP和账户ID，但是受成本限制，作弊团伙使用过的帐户和IP会不可避免的产生一些关联。

相较于正常用户，欺诈用户之间具有较强的关联性，可以认为这个簇是一个高可疑作弊团伙，下图是抽取的其中一个簇的行为示例，同颜色的表示使用同一资源，簇中的用户在不断点击京东的广告页面，并且在短时间内不断切换IP、cookie、useragent等资源以绕过反作弊系统。

相较于正常用户，欺诈用户之间具有较强的关联性

GraphSAGE 是图神经网络模型中一个优秀的模型，它是一种归纳框架，可以利用节点特征信息来高效地为未出现过的节点生成节点向量，模型不是为每个节点专门训练节点向量，而是训练得到一个函数，这个函数功能是从节点的局部邻居节点采样并聚合特征信息，这使得GraphSAGE可以适应大规模图动态变化的场景，聚合函数也有平均聚合，LSTM，最大池化等选项进行调优。同时，GraphSAGE可采用小批量的训练方式，通过采样邻居节点以有效减少内存开销以及训练时间。

在流量风控中为检测出作弊设备，需要将网络关系图构建为包括设备统计节点和设备信息节点的二部图。设备统计节点的特征包含：时序特征（一段时间内的点击量分布）、统计特征（点击量、IP个数、操作系统个数）、节点度等相关特征。设备信息节点则包括设备端口、时间区段、用户代理（User Agent）。GraphSAGE一般适用于同构图中，为了能让该异构网络适用于GraphSAGE，我们采用相同长度N的向量表示两种节点的特征，前m维表示设备节点特征，后面N-m维表示信息节点特征，即采用一种扩展的特征向量，将异质图信息融合成同构图。

节点特征向量分段含义

在设备节点上并无信息节点特征，在信息节点占有的向量分量上按零填充，信息节点也做类似处理，进行初始化，以满足向量有意义的加减。下图中两种颜色分别表示设备节点特征数据占位和信息节点目标节点数据。两类节点，即设备节点和特征节点。设备信息作为关系纽带，将具有同一设备信息节点的设备特征节点关联到一起。

GraphSAGE二阶信息传递过程

在实际业务中，通过无监督算法如Fraudar等，再由强规则得到的校验的黑白标签数据作为GraphSAGE算法的有监督学习样本部分，进行更大规模的召回。采用图模型后，召回率得到提升，可检出更多作弊设备和账号。

黑产设备（恶意点击）点击示意图

广告流量作为互联网变现的重要方式，虚假流量作为广告产业的灰色领域，是广告流量风控的重灾区。广告反作弊应运而生，成为广告系统的一部分。在实际应用中，我们采用Fraudar无监督学习方法得到的作弊设备作为GraphSAGE图神经网络的标签样本，然后做深度学习训练，召回更多的作弊设备。

图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。本书由浅入深,全面介绍图神经网络的基础知识、典型模型方法和应用实践。《图深度学习从理论到实践》不仅包括一般的深度学习基础和图基础知识,还涵盖了图表示学习、图卷积、图注意力、图序列等典型图网络模型,以自研的Galileo平台为代表的图学习框架,以及图神经网络在电商推荐和流量风控方面的两个典型工业应用。


推荐阅读
我逃到国企了
再也不接私活了
Kaggle出了一本竞赛书（500页）
机器学习基础：用 Lasso 做特征选
机器学习自动补全代(hán)码(shù)神器