【数据竞赛】消费金融场景下的用户购买预测冠军方案分享
大赛介绍
2000多年前,阿基米德说:“给我一个支点,我可以撬动整个地球”。伴随近年来新技术的快速涌现和迅猛发展,大数据或将成为传统金融行业向金融科技转型的“阿基米德支点”。
作为业内领先品牌,招商银行信用卡中心在全力打造Fintech银行的过程中,始终走在变化的前沿。我们在全景智额、千人千面、大数据风控等金融科技方面的尝试与创新,也正是因为打造了从数据收集到数据清洗、再到数据挖掘和商业应用的一体化大数据平台。
我们希望,在数据已经成为战略资源和经济资产的今天,通过此次数据大赛,捕捉在消费金融场景下的用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。也可以让广大高校学生对消费金融、对信用卡数据应用,能有更深刻的接触与了解。
赛题背景
掌上生活APP是招商银行于2010年推出的手机客户端应用软件,全面升级了信用卡的使用体验。当前6.0版本的掌上生活APP,提供了手机商城、饭票影票、在线客服、基金理财、办卡开卡、额度管理、消费信贷、账单管理等全方位功能,同时实现了LBS查询服务和手机远程支付,全面满足并提升了持卡人对金融和日常生活需求的消费体验。
招商银行信用卡在不断拓展业务与场景的同时,也希望通过数据积累与数据驱动,主动捕捉用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。
赛题任务
利用招商银行客户的个人属性、信用卡消费数据,以及部分客户在掌上生活APP上的一个月的操作行为日志,设计合理的特征工程与模型算法方案,预测客户在未来一周内(4月1日-7日),是否会购买掌上生活APP上的优惠券(包括饭票、影票等)。考虑到客户隐私,客户的个人属性数据与信用卡消费数据,采用脱敏并标准化处理为V1,V2,…,V30数值型属性。客户在APP上的行为日志,一些字段也进行了相应加密。
赛题数据
本次比赛提供的数据集包括训练数据与测试数据,训练数据共分为三部分:
(1)个人属性与信用卡消费数据:包含80000名信用卡客户的个人属性与信用卡消费数据,其中包含枚举型特征和数值型特征,均已转为数值并进行了脱敏和标准化处理。
(2)APP操作行为日志:上述信用卡客户中,部分已绑定掌上生活APP的客户,在近一个月时间窗口内的所有点击行为日志。
(3)标注数据:包括客户号及标签。其中,标签数据为用户是否会在未来一周,购买掌上生活APP上的优惠券。
文件清单和使用说明
train/ ——训练样本目录,包含三个文件 train_agg.csv —— 个人属性与信用卡消费数据 train_log.csv ——APP操作行为日志 train_flag.csv ——标注数据 test/ ——评测样本目录,包含两个文件,不提供标注数 test_agg.csv —— 个人属性与信用卡消费数据 test_log.csv—— APP操作行为日志
冠军方案
赛题分析
特征工程(常规特征)
主要按照特征群进行提取:基础统计特征,离散特征,时序相关特征。
特征工程(亮点一:时序特征)
特征工程(亮点二:NLP特征)
特征工程
特征选择:
基于XGB的特征重要性 先训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择。 基于wrapper的方式
目的:
降维,使模型泛化能力更强,减少过拟合。
模型设计
模型融合(基于Rank)
比赛评价标准为AUC,其本质为排序优化问题概率得分线性加权是存在问题的,所以需要进行调整。
应用场景
潜力:
特征具有可解释性 模型的验证方法具有稳定性 随着数据量的增大,Word2vec特征会有更好的效果。 自然语言处理领域中成熟的方法可应用到用户行为识别中。
价值:
商家广告精准投放。 个性化推荐优惠信息。
参赛总结
不足:
对于agg表只进行了简单的二元化和rank处理,没有深度发掘。 模型的融合的权重是根据线上成绩,其实可以采用线性回归的方式得到。
收获:
NLP和普通机器学习的结合 坚持的重要性 团队协作能力都得到了较大的提升
往期精彩回顾
获取本站知识星球优惠券,复制链接直接打开:
https://t.zsxq.com/qFiUFMV
本站qq群704220115。
加入微信群请扫码: