蚂蚁金服-支付风险识别亚军方案！-技术圈

比赛名称：蚂蚁金服-支付风险识别

比赛链接：

https://dc.cloud.alipay.com/index#/topic/intro?id=4

比赛背景

基于移动互联网的线下支付、保险、理财等新金融业务快速发展，互联网金融行业不断突破创新。与此同时，潜伏在网络暗处的黑产势力也不断升级，并威胁着整个行业，其中以信息泄露导致电子账户安全最为严重，并且愈演愈烈之趋势。

黑客窃取的用户信息包括社保号码、地址、信用卡信息等，并利用这些泄露信息尝试登陆盗取账号资金或盗刷银行卡，直接导致银行和第三方支付公司的用户蒙受大量经济损失。

赛题目的

如何更好地利用海量的交易数据和有限的样本来识别迁移中的黑产手法，从而高效准确地判别交易的风险，是人工智能和大数据在风控场景中需要持续解决的技术难题。

在此背景下，本次大赛希望围绕信息泄露导致账户安全威胁为课题，面向行业征集最智慧的安全解决方案，引领互联网风控核心技术发展。

赛题数据

在本次大赛中，将给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的有正负标签的支付行为样本构成的测试数据集，数据集均经过严格处理。

亚军方案

赛题背景

赛题数据为支付宝交易数据，根据历史交易中(17.09-17.10)欺诈情况来预测未来的交易行为(18.02)的欺诈情况。

测评指标是用于反欺诈测评指标的覆盖率：

下面是本次比赛中的原生特征，可以看到基本全部来自于设备信息。

在本次比赛中数据有以下特点，并且我们针对数据的特点需要提出针对性的处理方案。由图可见，数据样本的标签类别极度不均衡，缺失值情况也参差不齐，并且欺诈率与缺失情况关系很明显。

特征工程

不管是机器学习还是深度学习都是要有合适应用场景，熟悉其中的业务知识其实往往可以更快速或者更好的去做好一个模型，我们根据交易的业务将字段进行整理和分类，然后从业务的角度多维度的建立特征。

从多维度多角度去思考特征，思考通常欺诈交易会产生哪些方面的变化和异常。

多维度考虑，我们做了以下维度的特征依次为基础特征，信息校验，用户行为，即时特征，设备特征，时间特征，IP属性特征，收款方特征。

其实可以看出交易量是呈周期性变化的，在训练集中有两个完整月的数据，测试集为一个完整月的数据，为充分利用数据同时保证训练验证测试的一致性，我们将训练集按月与测试集同结构拆分，分别做off_val，然后分别预测测试集，以更好的依据期周期来进行训练和预测。也由于复赛线上平台训练速度太慢，但拆分预测我们认为也是更合理的充分利用数据的一种方式。