评分卡校准


评分卡校准

该文章来自于:评分卡校准

1. 前言

  1. 评分卡校准分为两个场景:1)模型预测概率校准 2)样本分数区间坏样本率校准
  2. 评分卡校准原因:由于在建模过程中,出于使坏用户特征表现的更加明显或者坏用户样本量不够等原因,会考虑对好用户进行欠抽样或将表现期不足的样本中的坏用户纳入建模范畴等操作,使得建模样本的坏用户浓度高于产品实际坏用户浓度,两者浓度的不一致导致预测出来的概率值和实际有偏差。

2. 模型预测概率校准

由于建模样本违约率于总体样本违约率存在差异,故使用模型时需要将模型结果进行调整。
违约概率(PD)和几率(Odds)的对应关系是: \[ln\left(Odds\right)=ln\frac{PD}{1-PD}\] \[PD=\ \frac{e^{ln\left(Odds\right)}}{1+e^{ln\left(Odds\right)}}\] 校准基于几率进行,如下式: \[ln\left({Odds}_{adjust}\right)=ln\left(Odds\right)+adjust\] 其中,\(adjust=ln\left({Odds}_{all}\right)-ln\left({Odds}_{sample}\right),{Odds}_{all}\)为总体样本几率,\({Odds}_{sample}\)为建模样本几率,则: \[{PD}_{adjust}=\ \frac{e^{ln\left({Odds}_{adjust}\right)}}{1+e^{ln\left({Odds}_{adjust}\right)}}\]

特别的,在logistic回归模型下,其预测模型为: \[ln\left(Odds\right)=ln\frac{PD}{1-PD}=\ \alpha+\ {\beta}{X}\] 基于几率的校准即体现为对常数项\(\alpha\)的调整,也即: $$ln\left({Odds}_{adjust}\right)=ln\frac{{PD}_{adjust}}{1-{PD}_{adjust}}={\ \alpha}_{adjust}+\ {\beta}{X}$$ 其中, \[{\ \alpha}_{adjust}=\ \alpha+adjust\]

违约概率(PD)或几率(Odds)都是专业术语,为了方便使用和沟通,需要将违约概率转换为分数,转换原则是将对数几率(ln(Odds))转换为得分。评分卡尺度变换公式如下: \[Score=A-B\ast\ln{\left({Odds}_{adjust}\right)}=\ A-B\ast\left({\ \alpha}_{adjust}+\ {\beta}{X}\right)\]

3. 样本分数区间坏样本率校准

评分卡校准后,可以得到每个样本的校准后概率,但如果涉及到每个分数段的好坏比,该好坏比还是建模样本的而非总体样本的。这是因为在模型校准过程虽然校准了每个客户违约概率的值,即整个违约概率值分布发生了变化,但是并不会改变评分模型的排序顺序,在训练样本里相应的得分区间,还是有那么多坏用户。
因此对计算出来的各个分数段的好坏用户也需要校准,特别是在进行利率定价时,需要计算风险成本时,需要还原到产品真实的违约概率水平。

校准步骤如下:
S1:产品真实样本坏好比=产品最终真实坏用户数/产品最终真实好用户数
S2:建模样本坏好比=建模样本坏用户数/建模样本好用户数
S3:调整因子=ln(产品真实样本坏好比/建模样本坏好比)
S4:每箱坏好比自然对数=ln(每箱坏用户数/每箱好用户数)
S5:调整后每箱坏好比自然对数=每箱坏好比自然对数+调整因子
S6:每箱还原后坏用户占比(校准后违约概率)=1/(1+e^-调整后每箱坏好比自然对数)

校准示例如下:


文章作者: HEHEOMG
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 HEHEOMG !
  目录