概述：机器学习和大数据技术在信贷风控场景中的应用-技术圈

来源：知乎
本文约5400字，建议阅读10分钟
本文简要概述在当前大数据和机器学习技术如何在信贷风控场景下的常见应用。

似乎一夜之间，所有的互联网公司在对外的宣传稿中都会提及自己使用机器学习和大数据技术，一时间成为了近几年来最炙手可热的名词，不谈机器学习、大数据似乎都不好意思说自己是做高新技术的了。

上图来自最近7年来这两个词的百度搜索指数，可以看到从2013年开始一直在稳步攀升，在2017年的时候迎来了爆发式的增长，这些都与我们的感知类同。

机器学习和大数据应用是相辅相成的，目的是想用机器去模拟人类的思考过程，人类通过自身经历经过思考可以形成经验，并用来解决新的问题，而机器学习是需要利用大量的历史数据去训练一个模型去解决一个特定的问题：比如识别两张脸是否一致、该用户是不是精准客户等。

虽然这两个词这两年才火起来，但是这些概念早在半个多世纪前就有理论的提出，尤其机器学习的算法已经在几十年前就非常成熟了，但是受制于计算效率、存储等硬件的限制，大数据和机器学习在实际业务上的应用场景十分受限，很难有大规模的场景应用。最近十年来随着存储、芯片等层面的突破让大数据和机器学习的计算应用成本大大降低，这也支撑了基于这两项技术的应用场景呈现爆发式增长。

除了机器学习之外，我们也发现互联网信贷成为了这几年最火的行业方向，互联网信贷的工作重心在风控。于是天作佳成，正如目前我们看到的，信贷风控成为当前机器学习和大数据技术最适合也是最成熟的应用场景之一：

1.金融业务自身需要大量的数据且也会产生更多的数据，这天然的让信贷风控成为最适合大数据和机器学习的场景；

2.风控涉及的数据量大、数据面广、关联复杂，也急需利用大数据和机器学习技术解决风控过程中效率低、缺乏公平准则、风险难以量化的问题；

所以正是因为这样的相互依赖，信贷风控成为当前大数据和机器学习技术应用最成熟的领域之一。

信贷风控中的主要问题

信贷风控最关键的目标就是从全量申请用户样本中找到会逾期的客户，所以风控的核心目的是评估用户的还款意愿和还款能力。从过去的业务实践经验来看，风控当中需要重点关注的问题包括：

非本人申请：申请人利用虚假身份申请信贷，这一问题在信贷业务高速增长的蛮荒阶段，银行或者互金机构缺乏对黑产全面的认知，在部分业务环节被黑产用虚假/残缺或者非本人身份证欺诈，包括一些知名的持牌消金机构也遇到过大量类似的欺诈案例。

伪造资料：申请人为了更容易获得贷款或者贷后恶意逾期避免催收，伪造收入证明、联系人、工作地址等资料。

中介团伙：中介在网络上大量招徕需要信贷申请的用户，使用不同的攻略“教”客户如何有机会以较高概率通过银行/信贷机构的审核。

历史信用记录：用户历史如果存在大量失信行为，或者存在赌/毒等不良社会行为，那么其逾期失联的概率也很高。

还款能力不足：申请人负债收入比较高，外部有大量债务且自身收入不稳定，这些都有可能导致用户愿意还款但是却没有能力还款。

基于大数据和机器学习技术的风控解决方案

为了解决上述的这些问题，目前业内已经形成了一套基于大数据和机器学习技术的较为完整的解决方案。

非本人申请：人脸识别技术

目前人脸识别技术已经应用在生活中的方方面面，如刷脸支付、高铁进站甚至公安的天网系统；而在金融业务中，信用卡办理、网贷申请也都普遍使用人脸识别：将申请人照片与在公安系统中身份证存照进行比对，判断两张照片的相似度，可有效避免非本人申请的问题。

与人类识别面部类似，当我们人类对一个人比较熟悉的时候，我们很容易根据他的面部特征与我们在脑海里过去存储的特征进行比对，就能判断这个人是否是这个人（虽然也会有误判的时候），同样的，人脸识别技术的背后也是一套深度学习的算法，把我们思考的过程转化为模型算法，目前市面上有多家提供人脸识别服务的商业化应用公司，不过其算法的本质基本是类同的，人脸识别的核心思想在于：不同人脸由不同特征组成。

理解这个思想，首先需要引入的的是“特征”的概念。先看下面这个例子：

假设这 5 个特征足够形容一张人脸，那每张人脸都可表示为这 5 个特征的组合：

（特征1，特征2，特征3，特征4，特征5）

一位双眼皮，挺鼻梁，蓝眼睛，白皮肤，瓜子脸的小姐姐即可用特征表示为（见表格加粗项）：（1,1,0,1,0）

那么遍历上面这张特征表格一共可以代表32张不同的脸。32 张脸可远远不够覆盖70 多亿的人口。为了让不同特征组成的人脸能覆盖足够多人脸，我们需要扩充上面那张特征表。扩张特征表可以从行、列两个角度展开。

列的角度很简单，只需要增加特征数量：（特征6.脸型,特征7.两眼之间距离，特征8.嘴唇厚薄…）实际应用中通常应用 128,256,512 或者 1024 个不同特征。从行的角度扩充也很好理解，比如“特征3”，除了值 0 代表蓝色，值 1 代表灰色，是不是可以增加一个值 2 代表黑色，值 3 代表没有头发呢？此外，除了这些离散的整数，我们也可以取连续的小数，比如特征 3 的值 0.1，代表“蓝中略微带黑”，值 0.9 代表“灰中带蓝”……

经过这样的扩充，特征空间便会变得无限大。扩充后特征空间里的一张脸可能表示为：

用于表示人脸的大量特征从哪来？这便是深度学习（深度神经网络）发挥作用的地方。它通过在千万甚至亿级别的人脸数据库上学习训练后，会自动总结出最适合于计算机理解和区分的人脸特征。

阐明了不同人脸由不同特征组成后，我们便有了足够的知识来分析人脸，算法工程师通常需要一定的可视化手段才能知道机器到底学习到了哪些利于区分不同人的特征：同一人的不同照片提取出的特征，在特征空间里距离很近，不同人在特征空间里相距较远。

三张不同角度的撒贝宁照片经过神经网络提取出 128 维的特征后，变成了 3 个在 128 维空间中的点（红色），刘德华的特征点为绿色。

不过在实际应用中在光照较差、遮挡、形变（大笑）、侧脸等诸多条件下，神经网络很难提取出与“标准脸”相似的特征。另外，在金融风控领域还需要解决伪造人脸的情况，面对这些问题，通常采取四种应对措施：

1. 工程角度：研发质量模型，对检测到人脸质量进行评价，质量较差则不识别/检验。

2. 应用角度：施加场景限制，比如刷脸解锁、人脸闸机、会场签到时，都要求用户在良好的光照条件下正对摄像头，以避免采集到质量差的图片。

3. 算法角度：提升人脸识别模型性能，在训练数据里添加更多复杂场景和质量的照片，以增强模型的抗干扰能力。

4.精准活体识别：通过3D建模软件可以使用用户已有的照片模拟一张真实的头像，以此来骗过人脸识别算法，所以如何验证这个头像是来自一个真实的人同样也是一个机器学习的过程。

1.基于知识图谱技术的复杂网络

在影视节目当中，我们经常看到警察办案时会把嫌疑人、证人、受害人及他们之间的关联关系等信息画在墙上，用以分析案情，这就是典型的关系图谱应用。墙上的画便是图，图中有用的信息便是知识，将其进一步扩展到其他事物；人为实体，在图中我们称之为点，人之间代表着关联关系的连线，在图中我们称之为边，就这样点与边共同组成了我们的关系图谱。

构建关系图谱的底层还是大数据的技术：基于庞大的用户数据，从不同的数据源抽取出来存入到图数据库里，所以数据是构建关系图谱的基础。一种是以关系型数据库存储的结构化数据，例如：IP地址，经纬度，设备指纹等，另一种是爬虫采集的非机构化数据，例如行为记录、网上的浏览记录。实践应用中我们利用机器学习、自然语言处理技术把这些数据变成结构化的数据也存入到图谱里。

从用户大数据和基于大数据的关系图谱体系我们可以实现以下目的：

2.1 资料伪造识别

校验用户信息可以用来判断借款人是否可能存在欺诈风险，使用关系图谱做交叉校验，虽然不能保证百分之百的准确性，但是它在人工审核时便是一个有力的参考依据。欺诈用户填写的个人信息通常都是虚假的。例如：比如借款人张三和借款人李四填写的是同一个公司电话，但张三填写的公司和李四填写的公司完全不一样，这就成了一个风险点。我们将关系图谱数据可视化，可以很直观的发现两者的矛盾，我们便可以判断他们二人至少有一人存在欺诈风险。

2.2 团伙欺诈分析

在信贷场景中，团伙欺诈造成的损失更加严重，不过从繁复的数据中发现团伙的难度也很大。基于知识图谱我们通常直观分析多层级的数据，一度关联、二度关联、三度关联，甚至是更多维度关联。团伙虽然使用虚假信息进行授信、支用，但通常都有共有的信息，例如同一个WIFI，同一片区域。LOUVAIN、LPA、SLPA等社区发现算法、标签传播算法可以有效快速的发现团伙。

2.3 失联客户管理

对于贷后管理来说，用户本人及紧急联系人失联是催收失败最大的原因，这时可以利用关系图谱去发现失联用户的潜在联系人，提高催收成功率。例如张三是失联用户，李四和赵六是张三的联系人也都失联了，这时我们可以试图通过李四的联系人王五，或者与张三使用相同设备的用户老王来达到失联客户管理的目的。

3.征信数据与信用评分卡

3.1征信与大数据

与国外相比，中国最大的差异在于征信体系的不完善。我们的人行征信系统覆盖了8亿人，但是可能只有4亿左右是有信贷记录的，剩下的无任何信贷记录的，我们称之为白户。所以国内银行对于大部分非中高端用户实际上是不愿意也没有能力提供金融服务的。没有征信数据，那套国外搬过来的基于征信数据的方式方法就不管用了。

不过，我们很快发现，利用互联网技术可以解决征信数据缺失的白户问题，而这些看似与信贷记录不相关的数据在一定程度上却能够评估是否能够给该用户借款：

（1）All data is credit data：互联网可以提供每个信贷申请用户庞大的、碎片化的、种类繁多的信息。这里面包括用户提交的电子化信息（如身份证、营业执照、房产证、学历证、工资单、社保，银行流水等），第三方权威机构的查询信息（如公民身份证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询信息），还包括了海量的互联网碎片数据，如用户的电商交易信息、微博等社交网络数据，百度搜索引擎数据等。

（2）互联网的高效性和便捷性使我们能以较低的成本、较短的时间，积累大量的用户数据，为分析建模提供足够的样本量。

在信贷的业务实践中，常用的行业大数据包括：

央行征信报告：一般持牌金融机构有央行征信介入权限，包括个人的执业资格记录、行政奖励和处罚记录、法院诉讼和强制执行记录、欠税记录等。
司法信息：最高法以及省市各级法院的最新公布名单，包括执行法院、立案时间、执行案号、执行标的、案件状态、执行依据、执行机构、生效法律文书确定的义务、被执行人的履行情况、失信被执行人的行为等信息。
公安信息：覆盖公安系统涉案、在逃和有案底人员信息，包括案发时间、案件详情如诈骗案/生产、销售假药案等信息。
信用卡信息：银行储蓄卡/信用卡支出、收入、逾期等信息。
航旅信息：包含过去一年中，每个季度的飞行城市、飞行次数、座位层次等数据。
社交信息：包含社交账号匹配类型、社交账号性别、社交账号粉丝数等。
运营商信息：核查运营商账户在网时长、在网状态、消费档次、通话习惯等信息。
网贷黑名单：根据个人姓名和身份证号码验证是否有网贷逾期、黑名单信息。
驾驶证状态，租车黑名单，电商消费记录等也是可以考量的因素

正是因为大数据技术的发展才形成了带着强烈中国特色的官方+民间结合的征信体系，支撑互联网信贷脱离蛮荒可以实现高速发展，信贷从业者可以在合规的前提下获取对提升效率有用的用户信息完善风控策略。

3.2 机器学习与评分卡

评分卡我们应该是最为熟悉的，芝麻信用分就是一个典型的信用评分，支付宝官方利用自身积累及外部征信渠道获取的各种数据从五个维度对一个用户进行评分，而这个评分对于每个用户来说是透明的，这也非常好帮助用户理解和改善自身的信用状况。

从和信贷业内的小伙伴沟通来看，芝麻的信用评分还是比较有区分度的，这与阿里的大数据积累息息相关，阿里体系内积累了大量用户特有数据可以对用户形象进行更好的刻画。

这套评分卡的背后其实是一套依赖在大数据基础上的机器学习算法，因此在本身拥有大量数据的基础上如何挖掘出一套有效的客户评分这就是机器学习需要做的事情。

机器学习中目前应用最广泛的就是有监督学习：这类模型最复杂的地方在于模型的训练过程，算法人员根据这些历史用户的表现打上标签（逾期/不逾期），基于这些用户大量数据，使用不同的算法（一般来说都会使用逻辑回归算法）来对这些用户进行评分，得到一个在各维度评价指标来看都能过关的模型，并用这个模型来预测未来的数据表现。

目前银行信用卡体系、网贷体系基本都是使用类似的方法构建评分卡，当然不同的场景、不同的行业所用的评分卡也不尽相同。基于这套评分卡我们基本上可以在用户申请环节实现量化风险的目的。基于大数据的机器学习并不是完全改变传统风控，实际是丰富传统风控的数据纬度和量化风险的方式。

结语

本文简单介绍了大数据和机器学习在信贷风控领域的应用场景。机器学习听起来很高大上，在实际工作中也经常会遇到一味炒作概念的人，过分夸大机器学习所能起到的作用，或者盲目的追求高深复杂的算法。不过无论是机器学习还是大数据其本质还是为了服务业务，提高业务的效率降低成本是其最根本的目的。

随着信贷行业的不断发展，机器学习和大数据技术的越来越成熟，二者结合的应用场景相信也会愈加丰富，相信在这块未来会有更多新颖的应用场景。

编辑：王菁