- 数据化风控:信用评分建模教程
- 单良 乔杨
- 6387字
- 2020-08-27 23:33:58
第二节 评分卡建立与验证
信用评分的建立并非仅限于单纯的模型开发,因为我们需要的不是统计专家的评分卡,也不是技术人员的评分卡,而是真正能够给予风险管理及营销业务实际帮助的整体方案。建立评分卡之前,风险管理单位必须就其对信用评分的期望、应用计划及策略提出项目规划,主要包括下列6项。
一、项目目标
陈述目前作业现状及想要以信用评分项目解决的问题。信用评分卡的建立需投入大量的时间、精神、金钱及人力,风险管理各单位人员只有仔细、反复思考目前的工作瓶颈和对信用评分的期望,目标设定必须清楚明确,这样,最后产出的结果才会对银行的风险管理有真正的帮助。
目标确认之后,若想要与外部信用评分卡厂商合作,就必须依照需求内容、开发时间、开发成本及开发经验与能力等方面设定选商条件并设定各项条件的评分权重。
二、项目范围
依急迫程度排列处理程序,避免因一次性处理太多问题,而模糊重要焦点。应针对选定目标设定项目范围,包括项目主要内容、涉及业务、相关部门、项目组织架构及成员等,且皆必须逐项确认并列示于计划书中。
若想要针对信用卡全新客户建立一张进件评分卡,一般多由授信政策部门担任项目管理人角色,涉及业务包括企划、业务推展、征审、作业、MIS和IT等,在需求讨论及项目规划时需共同会商,因此,上述部门皆应遴选资深人员担任项目成员。
三、时程规划
时程规划可分为银行内部前置规划、流程与系统修改、评分模型建立、效力测试及上线导入等几个重要阶段。项目长度依其复杂度及银行数据质量状况而定,一般为6~9个月。
四、成本效益分析
成本评估包括相关设备扩充、系统购置或修改和模型开发等费用。效益则分为质化与量化两方面,质化效益包括风险管理技术与观念的提升及授信质量稳定等,量化效益则需估算可节省的人力、作业时间及作业成本等。
五、配套措施
与信用评分相关的事项如授信规范、申请书格式修改、进件及征审流程设计、数据质量确认和教育训练等皆须事先规划,另外与之搭配的系统如评分运算引擎、决策系统及征审系统等也需在评分模型建立完成前准备就绪,否则,将出现空有评分模型却无使用平台或是业务流程运转不顺等窘境。
六、营运计划
信用模型上线之后的实际应用及管理,诸如信用评分的运用、模型效能监控、相关系统维护、紧急备援计划、营运作业成本(如JCIC查询预算)和MIS分析等作业皆需详细规划,以确保信用评分与风险管理业务整合之后能够顺利运行。
项目规划完成之后,方可展开评分模型的开发工作,此阶段可分为7个执行步骤(见图1-1)。
图1-1 评分模型开发7步骤
(一)步骤1:确定评分目的
此步骤是项目成败的关键,也是最容易被忽略的部分。发展评分模型前,必须先决定评分目的及想要预测的事件,并要有明确定义。模型未来的应用目的不同,对于变量选择或好坏客户的定义也可能不同。
风险管理单位依照先前项目规划设定的目标与模型建立人员进行讨论,以确认建立模型的目的。另外,双方对于项目进行方式、建立时程、成本、交付文件项目及格式、模型测试指针、项目验收标准、教育训练以及其他特殊要求或条件限制必须达成共识。
虽然需要讨论的事项繁多,往往需经过多次会议反复研商,但双方对于目标及项目内容的了解程度及共识越高,往后进行的过程就会越顺利。
(二)步骤2:基本定义
在评分目的确认之后,紧接着对建模所需的重要指标的基本定义进行讨论。
1.观察期与表现期
如图1-2所示为观察期与表现期。
图1-2 观察期与表现期
所谓的观察期,即为变量计算的历史期间,比如,有一变量为“近6个月延滞一期以上(M1+)的次数”,其观察期即等于6个月。观察期设定太长,可能无法反映近期状况,设定太短则稳定性不高,因此多半为6~24个月。
表现期则是准备预测的时间长度。例如,若欲预测客户未来12个月内出现违约的概率,则表现期等于12个月。依各种产品特性不同,表现期也可能不同,通常设定为12~24个月。
2.违约(Bad)定义
评分模型的任务在于区隔好坏客户(Good/Bad Account),因此,必须定义违约(Bad)的条件,这些条件并不限定为逾期,只要银行认定此情况为“非目标客户”。例如,未来一年内出现M2以上逾期、催收、呆账、强停、拒往和协商等,皆可作为评分模型中的违约条件。
3.不确定(Indeterminate)定义
在某些条件下的客户,其风险处于较为模糊的灰色地带,很难将其归类为好客户或坏客户。比如,“半年内曾出现一次M1”,由于此类客户并无鲜明的风险特征,很难判断其好坏。因此,为强化模型的区隔能力,不确定的客户不适合被纳入建模样本之中。不过在模型完成后可加入测试,观察其分数落点,理论上应以中等分数居多。
在实际应用中,可利用转移分析(Roll Rate Analysis)观察各条件下的客户经过一段时间后的表现,以评估违约定义的区隔能力与稳定度,作为其选择好坏及不确定条件的参考(见表1-1)。
表1-1 转移分析(Roll Rate Analysis)
表1-1中B01至B04表示违约定义,I01至I03表示不确定定义,G01至G03表示正常定义。经过12个月的观察,原违约者大多数仍停留在违约状态,而原正常者转坏的概率也不高,这表示好坏客户的定义可被接受。不过原I03客户在12个月过后明显往正常方向移动,因此,可考虑将其改入正常定义群组。
4.评分范围
虽然信用评分可快速预测潜在风险,但并非所有状况都必须依赖评分来判断风险。例如,目前逾期中的客户,本身已出现违约的事实,因此不需要再加以评分。另外,如数据缺漏严重、数据期间过短和近来无信用往来记录者等状况的出现使这些客户的信息不足,对其评分也没有太大意义。
5.样本分组(Segmentation)
为了获得最佳的预测效果,工作人员通常会依客群或产品特性做样本分组,分别发展数张子评分卡。以信用卡的行为评分卡为例,预借现金、长期循环及全额缴清等几类客户行为各具特色,其风险变量及变量权重可能有所差异。因此,可考虑分别就这几类客户发展专属的子评分卡。
当然,若限于预算或时间,暂时无法细致分组而共享同一评分卡也不是不可以。权宜的做法是调整准驳临界点或是外加条件,不过其效果可能较差。
适度的样本分组有助于提高模型的预测效果,不过要避免过度使用。如果切割过细,不但后续子评分卡维护困难,且建模样本不足,反而影响模型的预测能力及稳定度。
(三)步骤3:资料准备
建立模型的数据源有三个:一是申请资料及其所附文件,可由其了解客户最新的职业、财力等状况;二是内部数据,若客户为本行的既有客户,数据库中已有其各类基本数据与往来记录;三是外部信息,例如,联合征信中心等征信机构数据。其优点是网罗各家金融机构客户信用信息,数据齐全且可靠度高,缺点是银行必须预先编列查询预算,无法经常进行大规模的信用查询。
整个建模项目,最耗费时间的通常是数据整理阶段,对于数据质量特别要求以下5个要件。
1.正确性
正确性是对数据最基本的要求,否则,后续以其所做的任何分析及预测模型,可信度皆让人存疑。
2.完整性
此处所谓的完整性包括数据的广度、深度及长度。数据保留越完整,预测风险可用的变量选择性越高,预测的效果越好。
3.实时性
数据的新鲜度高,表示其对客户近况的掌握度也高。因此,实时更新的信息对风险预测有极大的帮助。
4.合法性
数据的取得必须合法。此外,在使用之前,必须确认当地法令对于授信准驳依据是否有特殊限制。某些国家不允许以性别及种族等因子作为准驳依据的条件。
5.可用性
对于各种来源的数据必须制订统一规格及定义,避免信息混乱。不合理的数据,如年龄过小或过大,应予以剔除。若遇缺漏值,则可利用平均数、中位数、极大值、极小值或其他指定值予以填补。在认为某些字段的缺漏值有其特殊意义时,也可直接保留空值。另外,各种数据的保留期限不一,或是某些数据需经特殊处理才能得到建模所需的格式等,诸如此类的数据限制皆需一一厘清。
(四)步骤4:变量分析
变量的形态可分为连续变量(Continuous Variable)和离散变量(Discrete Variable)。若依其内容区分,则可分为个人资料变量、缴款类变量、负债类变量、信用往来长度变量和信用形态变量,而这些变量都可成为建立信用模型的材料。
首先,从手中拥有的数据中挑选或组合出可能影响风险的变量,这些一开始先挑出的变量群被称为长变量列表(Long List),由于数量较多,因此,必须先检查这些变量之间的相关性(Correlation)。若变量间存在高度相关性,之后只要依预测能力及稳定度择一保留即可。
接下来,进行单因子分析,以检视各变量的预测强度。表1-2所示为年收入变量的单因子分析。
表1-2 年收入变量的单因子分析
表1-2一开始先依收入高低切分较细的组别(Fine Classing)。分组的原则为组间差异大,组内差异小。分组占率不宜低于5%,而各组中必须同时拥有好坏客户。
表1-2中的WOE称为迹象权数(Weight Of Evidence),计算公式为ln 。违约件占率高于正常件时,迹象权数为负数。绝对值越高,表示该组别好坏客户的区隔程度越高。各组之间WOE值差距应尽可能拉开并呈现由低至高的合理趋势。
另一个重要指针为信息值(Information Value,IV),又称VOI(Value of Information),计算公式为 (正常件占比-违约件占比)×迹象权数,其中,n表示数据的分组数,信息值可用来表示变量预测能力的强度。以本例来看,信息值等于0.422,表示年收入变量对于区别好坏客户的预测效果良好(见表1-3)。
表1-3 信息值与预测能力解释对照
为了使信息值提高,需要调整合并迹象权数相近的组别,最后得到的分组结果称为粗分类(Coarse Classing)。待所有长列表的变量信息值都计算完成后,即可从中挑选变量,优先排除高度相关、趋势异常、解释不易及容易偏移者。经过筛选后的变量集合称为短变量列表(Short List),这个列表即为模型的候选变量。在建立模型时可利用顺向进入法(Forward Selection)、反向排除法(Backward Elimination)及逐步回归法(Stepwise)等方式选出效果最佳的变量组合。
(五)步骤5:建立模型
理想中最佳的信用评分模型可将所有好坏客户完全划分清楚,只是在实际状况中坏客户的比率通常很低,无法凸显风险因子的特征。因此,在抽取建模样本时,会刻意将违约样本的比率拉高,好坏客户样本比率约为3:1~5:1。先将70%的样本列为开发样本(Development Sample)作为建模之用,再将另外30%的样本列为保留样本(Holdout Sample),在模型建立完成后作为验证之用。
信用评分的目的为预测客户是否将违约,因变量为二元性数据,也就是0与1的关系。线性回归所计算出来的条件概率估计值有可能会大于1或小于0,显然不合常理,而且自变量与因变量之间是固定的线性关系,也与现实生活中的情况不同。例如,年收入高者与极高者违约的概率已相差无几;同理,年收入很低与极低者的违约概率也很接近,差异较大者出现在中间地带。逻辑回归(Logistic Regression)处理二元化数据的线性较符合实际状况,因此也成为了普遍被采用的预测方式(见图1-3)。
逻辑回归可得到好坏比值的自然对数,即ln(Odds),其中Odds即表示好客户与核销户比值(好坏比),也称为胜算率。若要以分数形态呈现,必须要经过转换,其公式为Score = ln(Odds)×Scale + Location,转换步骤如下:
图1-3 逻辑回归与线性回归
(1)设定Odds = 1:1时的分数(假设为300分)
(2)设定Odds每增加1倍时,相对增加的分数(假设为20分),此分数称为PDO(Point of Double Odds)
(3)将Odds = 1:1及2:1时的分数套入公式,得到下列二式:
由式(1-1)可得
300 = ln(1)×Scale + Location
⇒Location = 300-ln(1)×Scale = 300
由式(1-2)-式(1-1)得
20 = ln(2)×Scale
⇒Scale =
(4)最后得到的转换公式为 ,转换结果如表1-4所示。
表1-4 信用评分与胜算率转换范例
上述分数转换方式可使不同评分卡的风险评量尺度统一,即同样分数下对应的违约概率皆相等。
(六)步骤6:拒绝推论
拒绝推论多用于申请评分卡(Application Scorecard)。由于初步建立的模型所采用的样本皆来自核准案件,这些案件当初都已经过征审人员筛选,质量相对较好,因此,建模时若仅使用核准案件而把拒绝案件排除在外,将会造成模型的偏误。问题是案件遭银行拒绝后,事后无法观察其实际表现表现,也无从得知有哪些案件当时遭到误判,因此,必须借拒绝推论(Reject Inference)推测拒绝案件的好坏,以进行模型修正,使未来模型的预测更接近实际状况(见图1-4)。
图1-4 拒绝案件进行模型修正
较常被使用的拒绝推论方法为扩充法(Augmentation),其概念是先以核准客户为样本建立初步模型,接着将拒绝案件套入该模型,以推测其好坏,再与原核准客户样本合并建立新的模型。下面介绍两种利用扩充法发展而来的拒绝推论。
1.单纯扩充法(Simple Augmentation)
拒绝客户以初步模型算出违约概率,讨论一个可容忍的临界点,以此决定客户的好坏。若违约概率小于临界点,则推论为好客户;反之,则推论为违约客户。
2.分组法(Parceling)
核准客户以初步模型的分数划分为10~20个分组,每个分组皆可算出其正常及违约比率,拒绝客户依初步模型算出违约概率并归类至各分组中,再以该分组的正常及违约比率随机分配拒绝客户的好坏属性(见表1-5)。
表1-5 拒绝推论——分组法(Parceling)
假设申请案件共有1 000件,其中核准700户,拒绝300户。先将核准户依照初步模型评分高低分为10个分组,分别将各分组客户事后的好坏状况填入正常户(B)及违约户(C)字段中,并以此计算各分组的正常概率(D)及违约概率(E)。
拒绝案件依初步模型套算的好坏比(Odds),归类至对应的分组中,以分组6为例,被分类至此的拒绝户共计28户,此分组的正常率为94%,因此,可从28户中随机抽取94%(26户)假定其为正常户,剩余2户则假定为违约户。
(七)步骤7:效力验证
模型建立完成后的验证可分为样本外验证(Out-of-Sample Validation)和时间外验证(Out-of-Time Validation),前者使用保留样本(Holdout Sample),后者则使用建模样本期间之外的案件以进行测试(见图1-5)。
图1-5 样本外验证
除了测试样本外,模型效力评量指针也可分为区分度与稳定度两大类,以下将就这两类指标进行说明。
1.区分度指标
所谓的区分度指模型对好坏客户的辨识能力,区分度越强,表示模型准确性越高(见图1-6)。如果借由评分就可以精准地将好坏客户完全区分开来,那是理想上最好的模型,只可惜现实世界中无法做到百分之百的预测,虽然在绝大多数的状况下坏客户集中于低分区域,而好客户则集中于分数较高区域,但两者仍会有一定程度的重叠,建模人员所要努力的是尽可能将好坏客群的分数差距拉开。最糟糕的状况是完全无法显现风险排序效果,好坏客户的分配几乎一样。
图1-6 客户评分最佳分布
图1-6 客户评分最佳分布(续)
常用的区分度指标有K-S值(Kolmogrov-Smirnov)(见图1-7)及基尼系数(Gini Coefficient)。
图1-7 检验图
K-S值主要是测量好坏分布的最大差距,因此,需先依分数分别画出好坏客户累计百分比线图,两者之间最大的差距值即为K-S值(见表1-6)。计算公式为MAX(| Bad%(累计)-Good%(累计)|),其值越大表示模型区分能力越强。
表1-6 K-S值与解释能力关系表
另一个常用的区分度指标为基尼系数,分别以纵轴及横轴表示分数由高至低及好坏客户的累计百分比,用以显示各分数下好坏客户的累计差异(见图1-8)。
图1-8 好坏客户累计百分比
图1-8中好坏客户累计百分比所画出的对应关系线称为洛伦茨曲线(Lorenz Curve),45°线表示完全无好坏区分能力的模型,两者之间的区域除以45°线以下面积即为基尼系数。与K-S值一样,其值越大表示模型区分能力越强(见表1-7)。
表1-7 基尼系数与解释能力关系
2.稳定度指标
由于模型是由特定时期的样本所开发,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(Population Stability Index,PSI)是指可衡量测试样本及模型开发样本评分的分布差异,也是最常见的模型稳定度评估指标(见表1-8)。PSI计算公式如下:
式中,i为分数级距,n为分数级距数;
Ri%为保留样本于各分数级距下占率;
Bi%为模型开发样本于各分数级距下占率。
表1-8 稳定度指标衡量
稳定度指标(PSI)的实际应用范例如下。
(1)样本外测试。本例中保留样本与开发样本之间的PSI值仅0.08%,表示建模的样本并无偏误状况(见表1-9)。
表1-9 建模开发样本与保留样本的PSI
(2)时间外测试(见图1-9)。
测试基准日与建模基准日相隔越远,测试样本的风险特征与建模样本的差异可能越大,因此PSI值通常较高。以本例而言,测试基准日2距离建模基准日较远,故其PSI值较测试基准日1高。
图1-9 建模基准日与不同评分基准日的PSI
以上介绍的各项指标不仅于建模时期用以验证模型效力,未来上线之后每月也需定期监控模型区分力及稳定度表现,如发现指标背离理想值,则需进一步了解各个变量是否出现异常。