蚂蚁金服-支付风险识别亚军方案!

Datawhale

共 1776字,需浏览 4分钟

 ·

2020-11-13 20:11

比赛名称:蚂蚁金服-支付风险识别
比赛链接
https://dc.cloud.alipay.com/index#/topic/intro?id=4

比赛背景

基于移动互联网的线下支付、保险、理财等新金融业务快速发展,互联网金融行业不断突破创新。与此同时,潜伏在网络暗处的黑产势力也不断升级,并威胁着整个行业,其中以信息泄露导致电子账户安全最为严重,并且愈演愈烈之趋势。
黑客窃取的用户信息包括社保号码、地址、信用卡信息等,并利用这些泄露信息尝试登陆盗取账号资金或盗刷银行卡,直接导致银行和第三方支付公司的用户蒙受大量经济损失。

赛题目的

如何更好地利用海量的交易数据和有限的样本来识别迁移中的黑产手法,从而高效准确地判别交易的风险,是人工智能和大数据在风控场景中需要持续解决的技术难题。
在此背景下,本次大赛希望围绕信息泄露导致账户安全威胁为课题,面向行业征集最智慧的安全解决方案,引领互联网风控核心技术发展。

赛题数据

在本次大赛中,将给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的有正负标签的支付行为样本构成的测试数据集,数据集均经过严格处理。

亚军方案

赛题背景

赛题数据为支付宝交易数据,根据历史交易中(17.09-17.10)欺诈情况来预测未来的交易行为(18.02)的欺诈情况。
测评指标是用于反欺诈测评指标的覆盖率:
下面是本次比赛中的原生特征,可以看到基本全部来自于设备信息。
在本次比赛中数据有以下特点,并且我们针对数据的特点需要提出针对性的处理方案。由图可见,数据样本的标签类别极度不均衡,缺失值情况也参差不齐,并且欺诈率与缺失情况关系很明显。

特征工程

不管是机器学习还是深度学习都是要有合适应用场景,熟悉其中的业务知识其实往往可以更快速或者更好的去做好一个模型,我们根据交易的业务将字段进行整理和分类,然后从业务的角度多维度的建立特征。
从多维度多角度去思考特征,思考通常欺诈交易会产生哪些方面的变化和异常。
多维度考虑,我们做了以下维度的特征依次为基础特征,信息校验,用户行为,即时特征,设备特征,时间特征,IP属性特征,收款方特征。
其实可以看出交易量是呈周期性变化的,在训练集中有两个完整月的数据,测试集为一个完整月的数据,为充分利用数据同时保证训练验证测试的一致性,我们将训练集按月与测试集同结构拆分,分别做off_val,然后分别预测测试集,以更好的依据期周期来进行训练和预测。也由于复赛线上平台训练速度太慢,但拆分预测我们认为也是更合理的充分利用数据的一种方式。
构造特征时保证特征的稳定性是金融行业最重要的思想,我们需要使特征在训练集 验证集和测试集保证分布一致,这也是保证模型稳定的关键。
标签为-1是蚂蚁金服模型中判断为异常从而使交易失败的样本,灰样本的处理也是本赛题上分的关键点,这里涉及到一部分拒绝推断知识。
这里可以看出交易的场景,方式,与交易相关的次数和频度都是具有良好区分度的特征。

模型设计

模型结构分为以下四部分,我们依次进行分析。
  • 首先是最好的白样本的剔除,我们用9月标签为0和1的样本预测10月标签为0,1的样本,去除其中概率最小的一部分(最优阈值需要不断尝试),同理去除9月的一部分白样本。

  • 然后训练去除最好白样本的这批样本,预测off_val的-1,然后将概率最大的一部分加入到样本中给定标签为1。

我们先去除好样本是为了弱化好客户的特征,凸显坏客户的特征,增加预测-1是坏客户的准确性。

比赛开源

第7名代码:https://github.com/mathcbc/Rank7-Solution-for-2018-ATEC-Anti-Fraud-Competition

亚军文章转载自:吊车尾学院-E哥
原文链接:https://zhuanlan.zhihu.com/p/57347243

竞赛组队交流群

鱼佬,武汉大学硕士,2020腾讯广告算法大赛冠军

阿水,北航计算机硕士,CV领域Top选手

杰少:南京大学硕士,DCIC冠军选手

浏览 30
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报