风控ML[9] | Vintage和Roll Rate 分析的详解

SAMshare

共 2323字,需浏览 5分钟

 ·

2022-01-31 13:24

75e36cd92b0a3a3263d6360f9e483a64.webp

我们说了好几期的风控建模了,也有不少的同学私信我说一般来说我们需要怎么确定Y值呢?,到底多坏的逾期表现的客户可以被我们定义为坏客户呢?今天这篇文章,就给大家介绍一个大家既熟悉又陌生的分析工具——Vintage Analysis(账龄分析)和Roll Rate Analysis(滚动率分析),希望对大家有一定帮助。

本次文章从以下几个模块来展开说说,先介绍一下理论,然后造一批虚拟数据来实际实现一波加深理解,最后再回归我们的主题。

00 Index

01 Roll Rate Analysis的理论
02 Vintage Analysis 的理论
03 如何确定建模的A卡Y值

01 Roll Rate Analysis的理论

Roll Rate Analysis,即滚动率分析,目的在于确定坏客户的定义逻辑,比如说逾期多少天之后的客户,不会在未来还钱了。为了找到更加准确的坏人,我们这个阈值,不能太小。于是,就有了滚动率分析的方法,来确定这个阈值。
滚动率分析,就是选择一个观测点,向前和向后的一段时间窗口,统计不同档次客户的变化情况,从而来确定坏人的划分标准,具体实现步骤如下:
1,选择观测点,比如20210601;
2,以观测点向前统计6个月内(20201201-20210601),客户的档次分布情况(档次一般分为C:正常,M1:逾期0-30天,M2:逾期31-60天,M3:逾期61-90天,M4+:逾期90+,逾期标签以时间窗口内,最坏的逾期表现,一般用指标:最长逾期天数来衡量并归类档次);
3,以观测点向后统计6个月内(20210601-20211201),客户的档次分布情况,如下表;

cf0b56b4f7602d72a5b6f47d63c5b638.webp


4,将分布用占比的形式表示,如下表;

970a15163be566d24afa22c2bb64d54c.webp


5,选择多个观测点,重复迭代2-3步,得到更多的分布,最终确定一个平均水平。

那我们有了上面的表格之后,就可以着手去分析下了。上面我们提及到,滚动率分析的目的是为了找到一个阈值,用来区分坏人的阈值。所以,我们基于现有的数据,分析一下当下客群(不同客群的好坏定义不相同)的坏人在多久会体现得比较明显。
我们从表中可以看到,这是一张交叉表,是同一个在过去6个月和未来6个月的表现来统计的。比如说第一行,代表的含义就是:原先(即过去6个月内)还款表现正常的客户,在未来(即未来6个月内)还款表现的重新分布。比如原先正常的客户有8355个,经过6个月的表现,有95.8%(8000个)客户仍是正常的,有3%的客户变成了M1,有1.2%的客户变成了M2,以此类推。

592a58d8294c77046f238e6ed0796f3f.webp


在Roll Rate Analysis中,有一个名词很有意思,就是“从良率”,也就是说,原先是“坏人”,后面正常还款了,变成了“好人”,这个也是决定我们确定Bad的阈值的关键!
比如,从表中,我们可以看到,原先是M3的(第4行)客户,只有3.4%变成了C(正常),从良率太低了,所以我们可以确定,在当下客群,客户如果在过去6个月内,最长逾期天数超出了60天(即M3+),基本上都是坏人了,所以我们可以以这个阈值,作为我们确定坏人的阈值。

604803e7ca3740656146603001e03db1.webp


02 Vintage Analysis 的理论

一开始我接触这个名词的时候就觉strong text得很高大上,就那种不明觉厉的感觉,于是就去百度了下。

f46f5870211621cc7d3b04badf051e33.webp

Vintage分析其实一开始是起源于葡萄酒行业,酿酒师们为了观察葡萄酒的变化质量而常用的分析方法,可以通过每年观察酒精浓度来衡量当年葡萄酒的品质,后面类似的分析方法就在各行各业应用开来了,最为经典的就是在风控领域的应用。

我们先来直观地看一下 Vintage 曲线(随意造的数据)。

0c8ccd68786e39cc841c0778095c285d.webp

49eae33c5155c681b30e83ae8f788dd0.webp

我们要看懂上图,需要了解一下的知识:
1,Now: 指的是当下观测时间点;
2,DPD60+: 指的是定义坏人的阈值,即逾期60天以上,这个值就是在上面👆的Roll Rate Analysis中得到的;
3,Loan Month: 放款所处月份,也就是贷款发放的月份;4,MOB: 即Month On Book,也就是账龄,可以理解为贷款的年龄,放款当月为MOB0,次月为MOB1,以此类推;
5,有些月份的MOB为空? 这是因为还没有发生,比如最后一行,2021年10月放款的借据(或者客户),在当下观测时间点(20220101),只有3个自然月的表现可以统计,分别是MOB0-2,对应月份202110、202111、202112

有了上面的认识,我们可以看到大多数的放款的逾期占比情况,会在MOB9的时候达到稳定,即我们常说的“成熟期”,因此我们在选择样本客户的时候,会选择表现期大于等于9期的客户,因为在这个时候,坏人基本都现形了,我们可以找到大多数的坏人作为样本。

03 如何确定建模的A卡Y值

有了上面两小节的认识,我们就可以比较轻易确定样本Y值了,直接给出答案:

Good: 表现期大于8期,并且逾期状态未达到M3+的客户,定义为好,Y=0;
Bad: 表现期大于8期,并且逾期状态为M3+的客户,定义为坏,Y=1;
Else:其他的样本由于“未成熟”,所以我们不纳入建模样本。

为什么这么定义呢?概括来说就是Roll Rate Analysis确定了表现期,用来过滤未成熟的客户;Vintage Analysis确定了坏客户的阈值,用来区分一下好坏客户。
That's All! 其实也没那么复杂,对吧。

Reference

1,《Vintage Analysis 野谈》 https://zhuanlan.zhihu.com/p/95796921 2,《信贷风控中Vintage、滚动率、迁移率的理解》 https://zhuanlan.zhihu.com/p/81027037

浏览 64
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报