- 数据化风控:信用评分建模教程
- 单良 乔杨
- 408字
- 2020-08-27 23:33:58
第二节 应排除的数据样本
并非所有历史数据皆可纳入模型开发样本,在筛选合格样本时,首先需透过数据检核摒除有瑕疵的样本。例如,数据不完整导致变量遗失值比例过高,或是样本留存的逻辑不符合模型开发需求等;其次则需设定属于“不予评分”或“政策拒绝”等项目的排除条件。
进一步说明排除条件的定义,其泛指用来辨认因政策更改或其他因素致使其信用行为与一般客户不同的样本条件。如果将这类样本用于开发,将会使模型效度产生偏移。例如,专为VIP客户设计的顶级信用卡,因其对收入设置高门槛,此类客户倒账的情况可以说微乎其微;若将其纳入开发样本中,可能使得模型在预测除收入外的其他变量属性与VIP相同客群的行为表现时,产生显著偏低的倒账概率。
政策拒绝条件是指客户申请信用贷款时,因客观条件明显被认定具有高信用风险(如在联征中心有强停或拒往记录)而遭自动拒绝的申请条件。模型开发单位在选取开发样本时,必须将该政策拒绝样本予以排除,以避免影响评分模型的效度。