首页
/
每日頭條
/
圖文
/
分類模型的常見度量指标
分類模型的常見度量指标
更新时间:2024-10-01 23:24:58

信貸評分模型的評估指标常見的有P-R曲線、AUC、KS、混淆矩陣、AR、洛倫茨曲線等,各個評估指标之間都有或多或少的聯系和區别,從而從不同角度對模型進行評估。本文嘗試寫一些各個評估指标間的聯系,從而對模型評估指标有更加深入的理解。

目錄

  1. 正負樣本的選擇
  2. 混淆矩陣與概率密度分布
  3. 提升圖與洛倫茨曲線
  4. 洛倫茨曲線與KS
  5. KS與AUC值
  6. 參考資料

一、正負樣本的選擇

直觀上,在信貸風控建模中都以好樣本為正樣本,以壞樣本為負樣本。其實正負樣本的選擇不同直接影響的就是混淆矩陣,在以好樣本為正樣本的情況下,信貸業務的一些指标如通過率與壞賬率如下:

通過率,即模型判斷為好樣本的數量占總樣本的數量。

分類模型的常見度量指标(模型評估指标之間的一些聯系)1

壞賬率為模型判斷為好樣本(P)中真正的壞樣本(FP)所占的比例。

分類模型的常見度量指标(模型評估指标之間的一些聯系)2

而模型的準确率Precison定義為模型判斷為好樣本中真正的好樣本所占比例,即:

分類模型的常見度量指标(模型評估指标之間的一些聯系)3

由此可見,壞賬率就是1-Precison,在模型優化時設法讓Precison值更高,即通過樣本中的好樣本占比盡可能高,這是一個很好的性質,也是将好樣本作為正樣本的優點。但同時其他的一些指标比如F1指标,這個時候就是無效的。

在機器學習中,往往是将少數樣本定義為正樣本,在信貸模型也就是将壞樣本定義為正樣本,表示希望模型在訓練時更加關注壞樣本,控制模型對壞樣本的預測能力,這也更符合業務場景。

總結一下,正負樣本的選擇沒有強制要求,根據自身需求而定,不同正負樣本的選擇會對指标的表現方式産生影響。

二、混淆矩陣與概率密度分布

為了便于理解,以好樣本為正樣本,将混淆矩陣與正負樣本的概率密度函數對應到一張圖上:

分類模型的常見度量指标(模型評估指标之間的一些聯系)4

虛線左邊為拒絕的樣本,即經模型預測低于cutoff值的壞樣本;右邊為通過的樣本,即經模型預測高于cutoff的好樣本。FN為模型預測為壞樣本但實際為正樣本,即被誤拒的好人;FP為模型預測為好樣本但實際為壞樣本,即誤準入的壞人。

TPR為預測為正例且實際為正例的樣本占所有正例樣本的比例,即所有好樣本中通過樣本的占比。

分類模型的常見度量指标(模型評估指标之間的一些聯系)5

FPR為預測為正例但實際為負例(誤準入)的樣本占所有負例樣本的比例,即所有壞樣本中被誤準入的樣本占比。

分類模型的常見度量指标(模型評估指标之間的一些聯系)6

由于KS值是取TPR和FPR之差的最大值,可以理解為兩個累計分布之差。以上圖中的cutoff值為例,虛線往左移則TP增加的比例要小于FP增加的比例,虛線往右移則TP減少的比例大于FP減少的比例,因此隻有在虛線處TP的占比與FP的占比差值最大,也就是KS的取值。所以上圖中三條線交叉的地方取到的cutoff值,正好為KS值對應的cutoff值。

三、提升圖與洛倫茨曲線

提升圖比較的是采用模型與不采用模型帶來的改善,即采用模型後對壞樣本識别能力的提升程度。計算過程如下圖:

分類模型的常見度量指标(模型評估指标之間的一些聯系)7

上圖中的右側有兩條曲線,綠色的這根是Lift曲線,它是将每一組的壞樣本占比除以整體的壞樣本占比得到。這條曲線是趨于0的,且越陡說明模型的區分度越高。還有一根藍色的曲線是累計的Lift曲線,是将累計的壞樣本比例除以整體的壞樣本占比所得,這條線是的臨界點是1。

如果将用模型判斷得到的每組累計壞樣本占比與随機判斷每組的累計壞樣本占比進行繪圖,就得到洛倫茨曲線,計算方式如下圖:

分類模型的常見度量指标(模型評估指标之間的一些聯系)8

洛倫茨曲線如下:

分類模型的常見度量指标(模型評估指标之間的一些聯系)9

用洛倫茨曲線比較模型性能時,較好的模型的洛倫茨圖應該更偏向于左上方坐标軸,這種比較模型性能的方式與ROC曲線相同。上圖中洛倫茨曲線上一點的含義是:在通過率為50%的情況下,模型可以識别出80%的壞樣本。

分類模型的常見度量指标(模型評估指标之間的一些聯系)10

現在知道洛倫茨曲線越往左上方說明模型的性能越好,因此可以用一個指标來量化這種性質,如上圖将圖形分為A、B、C三塊區域,理想狀态下A的面積等于A B的和,此時可以完美地識别所有壞樣本。因此,将A和A B的比值定義為基尼系數,也叫作AR值。

四、洛倫茨曲線與KS

洛倫茨曲線中在給定通過率後,隻能得到對壞樣本的識别能力,并沒有反應對好樣本的識别能力。而K-S曲線的本質是對壞樣本的洛倫茨曲線和好樣本的洛倫茲曲線構成的。

分類模型的常見度量指标(模型評估指标之間的一些聯系)11

所以,上圖中壞樣本的累計占比曲線就是FPR,好樣本的累計占比曲線就是TPR。上圖中KS值為0.36,其含義是在通過率為62%時,模型能識别70%的逾期用戶,但有34%的好樣本被誤判為壞樣本拒絕。

KS值的高低與建模樣本中的壞樣本濃占比相關,并不是KS值越高風控就越好。下面是知乎"獨孤qiu敗"文章中的一個例子:

(1)如果建模樣本中好壞樣本比例good/bad=50/50,壞賬率為50%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識别80%的壞樣本;那麼使用模型之後的結果為good/bad=40/10,壞賬率變為20%;這個我們做風控策略的人都知道在使用一些較好的變量的情況下是有可能的,因為畢竟做到50%的壞賬已經是夠爛的了。(2)如果建模樣本中好壞樣本比例good/bad=80/20,壞賬率為20%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識别80%的壞樣本;那麼使用模型之後的結果為good/bad=64/4,壞賬率變為5.88%,其實我們知道這個一個模型是很難做到。

五、KS與AUC值

這一部分直接搬運求是汪的文章了,風控模型—區分度評估指标(KS)深入理解應用。

分類模型的常見度量指标(模型評估指标之間的一些聯系)12

因為KS = |TPR - FPR|,如果添加輔助線TPR = FPR KS,那麼這條直線的截距就是KS值。當與ROC曲線相切時,截距最大,也就對應max_ks。

在理解KS和ROC曲線的關系後,我們也就更容易理解——為什麼通常認為KS在高于75%時就不可靠?我們可以想象,如果KS達到80%以上,此時ROC曲線就會變得很畸形,如下圖:

分類模型的常見度量指标(模型評估指标之間的一些聯系)13

六、參考資料

1.《Python金融大數據風控建模實戰》

>【作者】:Labryant

>【原創公衆号】:風控獵人

>【簡介】:某創業公司策略分析師,積極上進,努力提升。乾坤未定,你我都是黑馬。

>【轉載說明】:轉載請說明出處,謝謝合作!~

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
賽爾号本周最新活動(賽爾号6月29日活動預告公開)
賽爾号本周最新活動(賽爾号6月29日活動預告公開)
  賽爾号6月29日的相關預告在近日公開了,本次不僅僅有大暗黑天的最後一位長老登場,更有X戰隊合體進化後的王系精靈實裝,一起來看看相關的預告活動吧。      常長老艾夏拉降臨   黑色的能量,席卷整個宇宙。遠古的封印,此刻終于解封。大暗黑天,八王齊現!她既是大暗黑天最後一員,她又是天蛇星的末代女王。此刻,她将撕裂整個空間。本周主打精靈,怎麼說呢,除了屬性是...
2024-10-01
驚蟄劉芬芳扮演者(驚蟄中的劉芬芳)
驚蟄劉芬芳扮演者(驚蟄中的劉芬芳)
  《驚蟄》中的劉芬芳,《完美關系》中的崔英俊,他一人千面受關注。   文/岩姐 原創内容,抄襲必究!   有些人,不要顔值靠實力,一旦發現他的優秀,就會被他圈粉。      董可飛就是這樣一位演員,年輕時候也是小鮮肉一枚,從出道至今參演作品很多,除了電影、電視劇,還曾經登上過很多聯歡晚會,出演小品也是一絕。   說董可飛是一人千面一點也不過分,從他15歲參...
2024-10-01
知否中不同時期的漢服(知否中的宋代女子妝容)
知否中不同時期的漢服(知否中的宋代女子妝容)
  序說起來以宋朝為背景的古裝劇不多,大多數都是正史劇,沒有那種可以欣賞男女主羅曼史的偶像劇,前段時間大熱的《知否》也一直被大家探讨背景,不少人都不确定《知否》是不是以宋朝為背景的,實際上這部電視劇是架空曆史,但它的框架還在,電視劇的背景就是在北宋。      從很多細節比如:東京、,燕雲十六州,開封府,通判,官家等等等等,這些也可以證明電視劇的背景是宋朝,...
2024-10-01
沈陽夏至音樂節(FêtedeLa)
沈陽夏至音樂節(FêtedeLa)
  2016年6月21日,最令沈陽人期待的音樂派對---法國夏至音樂節如約而至!沈陽麗都索菲特酒店聯合駐沈陽法國領事館及法國文化中心,舉辦嗨爆沈陽城的Fête de La Musique夏至音樂節派對。      這場仲夏夜音樂派對,讓熱愛音樂的沈陽人,盡情體驗生活美妙絕倫!      法國駐沈陽總領事館總領事馬克拉米先生緻辭:法國夏至音樂節,音樂無國界,每...
2024-10-01
網店裝修都需要裝修什麼(網店裝修具體包含哪些内容)
網店裝修都需要裝修什麼(網店裝修具體包含哪些内容)
  在電商平台開店,好的店鋪裝修風格是可以一下子就吸引買家的,這樣不僅可以增加點擊率,還可以大大提高購買率,那網店裝修具體包含哪些内容?接下來我們就來給大家講解一下這方面的内容。      1、店鋪店标設計   店标是作為本身店鋪的标志,要能表現本身的個性、店鋪經營的内容和能夠給人以深刻的印象。店标顯示在您店鋪的左上角。店标也可以用本身的真實照片,這樣讓人感...
2024-10-01
Copyright 2023-2024 - www.tftnews.com All Rights Reserved