十个人里就有一个在黑名单？-技术圈

中国目前有多少负债者，有多少逾期和失信人员，它们是什么样的组成结构，一直以来都没有详细的权威统计。

包括央行及各种官方版本给出的数据都偏保守，并且有一定的滞后性。而且，有些数据是有争议的。

比如说，失信被执行人员是690w，但实际上老赖的数量肯定比这要多的多。因为很多人没有上法院，没有被上报。

我根据不同官方平台以及媒体报道的数据统计，进行反复比对，加上个人经验，来作一些推断，总结了几个数据。

有多少的负债者？央行的数据统计是不足的，根据征信和互金的比例推断，目前的话有7亿人次，也就是说有征信记录者的数量，包括拥有信用卡、房贷、车贷以及消费贷、现金贷等的人士。

这里面，有75%左右的人，也就是5亿人员是有过逾期记录的，包括可能还款晚了几天啊，这种也算。

有7%左右的人，也就是5kw人士是有比较严重的逾期记录的，传统贷款行业的说法就是“连3累6”。连3累6是说最近两年有连续3个月逾期，累计超过6次逾期这样子。这个连3累6往往会影响一个人短期内办理房贷、车贷的按揭。

这里面严重逾期的，也就是逾期达6个月及以上者，是有3kw以上的人次。

这些逾期当中，一部分会上报给法院成为失信被执行人，按上面官方统计是690w。

这些人不仅会被用来做拒贷的黑名单，还会被限飞限乘限住，等等。

不夸张地说，各行各业涉及到的黑名单上亿规模是有的。

光聊现象，不谈问题和解决方法，那是耍流氓。在信贷业务中，用到的黑名单也容易越积越多，这容易导致其失效。

我们需要对其中低风险的人清退，就像失信被执行人履约完毕后也会被退出一样。

记得差不多两年前，部门开会的时候说到黑名单清退的问题，然后老板问大家，为什么要清退，而不是拦截。说的是，黑名单规模越来越大了，是从里面把好人放出来，还是把坏人排掉后其他人都放出来？

我脑袋瓜子一想就有说辞了，毕竟我太能扯了。然后等着被cue，可惜cue了好几个人也没cue我，我懒得说话。

今天突然想起来，就又来扯一下。基本都是当时的想法，我总是很困扰，我怎么总没有新想法。

我们都知道，风控是把风险高的人或者行为给拦下来，让风险低的人或者行为通过去。

那怎么去判断风险高的人和行为呢？用数据。

我们这里要聊的就是其中一类数据，黑名单。

做过风控的都知道，我们实际工作中，都会用到一个黑名单。这个黑名单库可以是外部数据，也可以是内部业务积累的数据，实际上就是各种风险名单的合集。

这个名单很有用，因为已知是一个坏用户，直接拒绝好了，不用费七八咧做这做那了。

但这个名单有一个问题，它很多时候都被做成只进不出的了。因为入黑容易出黑难，你看别人不爽把人拉黑了，什么时候想过放出来看看呢。

这会导致名单人数会越来越多。这显然不合理。

一方面涉黑具有时效性，例如一个人当前逾期不一定永远逾期；另一方面加入黑名单是有误杀的，这些人会被用来查杀用户，然后进一步入黑了更多的用户。

所以，黑名单应该是一个有进有出的体系，要么自动出去，要么手动出去。

入黑的逻辑决定了其时效长短。

就像被拒的用户可以放进黑名单里，但这是为了防止用户再次申请时重复查询数据，产生数据费用。这个有效期可能一个月是比较合适的，更长就不合理了。因为用户状态发生变化了，重新评估可能会得到不一样的结果。

内部用户的风险都容易被评估，因而入黑很容易。这些人信息也可以及时地被跟踪。

这类入黑规则就适合自动设置一个出黑逻辑。

而那些外部黑名单数据呢，不是给你你就接来用的，收不收费不重要，最重要的是你要保证它准。

大数据发展这些年，出现了太多的三方数据平台，几乎每家都有黑名单的输出，短信的、支付的、法院公安的、设备的、互金的等等，什么类型的都有，非常丰富。

这也导致，名单来源千奇百怪，风险不一，你也不知道这个output的input是什么。所以，在接入的时候我们要评估它的覆盖率和准确率。

准确率就是命中的人风险是多少，显然是越高越好，实际上可能达到大盘风险的3倍、5倍就是合理的了。那覆盖率呢，就不能太高，3%、5%可能比较合适，如果达到10%以上，同时在这个水平上还能达到很高的准确率，就太夸张了，那这个数据的可靠性值得去怀疑下。

所以啊，不怕你没得拦，就怕你拦的太多。

不可避免，即使有合理的自动出黑机制，黑名单也容易越拦越多。

那怎么办？可能还得想点办法手动出黑。

也就是对其中一些低风险用户进行清退。但是这些用户又都是直拒的，没有风险表现。

手动清退还蛮困难的。

有困难也得做啊。怎么做呢？

这就是最开始提到的问题，是从里面把好人放出来，还是把坏人排掉后其他人都放出来？

这本质是风险偏好的问题。

如果我们认为样本总体，也就是待处理的黑名单全体，比正常用户要差，从里面捞好人就是更稳妥的办法；反之，如果我们认为样本总体和正常用户差不多，那应该采用排坏人的形式，要相信我们的模型，因为模型就是这样做的。

风险评估是伴随着置信度同步存在的，我们用模型做一个风险评分，评分好的用户里面有一批置信度高的好人，评分差的用户里面有一批置信度高的坏人。剩下大多数是中间态。

因为黑名单较差，清退中间态的用户太过冒险。稳妥起见，我们应该捞好人。

这相当于默认这些人有问题，捞回那些你能证明是好人的人。

这是有罪假说啊。

陪审团审判，首先假定一个人无罪，然后收集证据证明他有罪，如果有足够证据证明他有罪，就拒绝他无罪的假设。

我们做风控黑名单清退，竟然是在采用有罪假说。

具体怎么做呢？

我们需要一个模型去筛选置信度高的好人，其实无监督是不太合适的，因为那是找极端的坏人。我们需要定义合适的标签，一是，这些黑名单用户中应该还是有低比例用户有风险表现的，贷中的入黑就会产生这种结果；二是，图网络技术在这是合适的，因为信用风险是可以传播的，想法设法给一部分黑名单用户打出这个标签。

显然，这样的清退只能清退较少比例的用户，如果你期望黑名单规模减半，那还是从入黑的有效性入手吧。

正因为清退困难，作为用户来说，尽量别触黑了。

你也许会说，这个自助餐店不让你进了，你去其他家不就得了。

如果说，这些自助餐店共用一套黑名单呢？

黑名单容易传导，同时又很难被清退，入黑容易出黑难。这件事情背后是，一个坏用户带来的不良影响是需要很多很多好用户来弥补的，甚至是毁灭性的。

连我这样的号写点这样的文章，都难免有要回避的人。

我要强调一下这个做法的合理性。不然你可能觉得很多事情很难理解。

为什么很多平台会设置高危地区的规则？

为什么找工作要非常认真地考察自己的直系领导？

为什么读研究生要选一个家庭和谐的导师？

……

其实都是风险控制。

大家都知道再高危的地区也只是曾经出现过并且少数人出现过聚集性风险，绝大多数的直系领导都是正常人，有辱师德的是极少数，但因为这些影响足够大，“宁可错杀一个，不可放过一千”就是合理的。

当你有的选，排除法就要做的严一些。不要想着把他们从黑名单里放出来，以期后续的风控能够解决。

《孙子兵法》最重求全的思想，从来不以击败敌人为目标，而是以保全自己，强大自已为目标。

风险控制的重要性，如何强调都不过分，因为仗没打赢可以再打，命没了，就什么都没了。

不要轻视敌人。

黑名单清退的逻辑说来说去也就是这六个字的思想。