文章詳情頁(yè)

利用Python計(jì)算KS的實(shí)例詳解

瀏覽：102日期：2022-08-04 15:15:57

在金融領(lǐng)域中，我們的y值和預(yù)測(cè)得到的違約概率剛好是兩個(gè)分布未知的兩個(gè)分布。好的信用風(fēng)控模型一般從準(zhǔn)確性、穩(wěn)定性和可解釋性來(lái)評(píng)估模型。

一般來(lái)說(shuō)。好人樣本的分布同壞人樣本的分布應(yīng)該是有很大不同的，KS正好是有效性指標(biāo)中的區(qū)分能力指標(biāo)：KS用于模型風(fēng)險(xiǎn)區(qū)分能力進(jìn)行評(píng)估，KS指標(biāo)衡量的是好壞樣本累計(jì)分布之間的差值。

好壞樣本累計(jì)差異越大，KS指標(biāo)越大，那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。

1、crosstab實(shí)現(xiàn)，計(jì)算ks的核心就是好壞人的累積概率分布，我們采用pandas.crosstab函數(shù)來(lái)計(jì)算累積概率分布。

2、roc_curve實(shí)現(xiàn)，sklearn庫(kù)中的roc_curve函數(shù)計(jì)算roc和auc時(shí)，計(jì)算過(guò)程中已經(jīng)得到好壞人的累積概率分布，同時(shí)我們利用sklearn.metrics.roc_curve來(lái)計(jì)算ks值

3、ks_2samp實(shí)現(xiàn)，調(diào)用stats.ks_2samp()函數(shù)來(lái)計(jì)算。鏈接scipy.stats.ks_2samp¶為ks_2samp()實(shí)現(xiàn)源碼，這里實(shí)現(xiàn)了詳細(xì)過(guò)程

4、直接調(diào)用stats.ks_2samp()計(jì)算ks

import pandas as pd import numpy as npfrom sklearn.metrics import roc_curvefrom scipy.stats import ks_2samp def ks_calc_cross(data,pred,y_label): ’’’ 功能: 計(jì)算KS值，輸出對(duì)應(yīng)分割點(diǎn)和累計(jì)分布函數(shù)曲線(xiàn)圖輸入值: data: 二維數(shù)組或dataframe，包括模型得分和真實(shí)的標(biāo)簽 pred: 一維數(shù)組或series，代表模型得分（一般為預(yù)測(cè)正類(lèi)的概率） y_label: 一維數(shù)組或series，代表真實(shí)的標(biāo)簽（{0,1}或{-1,1}）輸出值: ’ks’: KS值，’crossdens’: 好壞客戶(hù)累積概率分布以及其差值gap ’’’ crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]]) crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum() crossdens[’gap’] = abs(crossdens[0] - crossdens[1]) ks = crossdens[crossdens[’gap’] == crossdens[’gap’].max()] return ks,crossdens def ks_calc_auc(data,pred,y_label): ’’’ 功能: 計(jì)算KS值，輸出對(duì)應(yīng)分割點(diǎn)和累計(jì)分布函數(shù)曲線(xiàn)圖輸入值: data: 二維數(shù)組或dataframe，包括模型得分和真實(shí)的標(biāo)簽 pred: 一維數(shù)組或series，代表模型得分（一般為預(yù)測(cè)正類(lèi)的概率） y_label: 一維數(shù)組或series，代表真實(shí)的標(biāo)簽（{0,1}或{-1,1}）輸出值: ’ks’: KS值 ’’’ fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]]) ks = max(tpr-fpr) return ks def ks_calc_2samp(data,pred,y_label): ’’’ 功能: 計(jì)算KS值，輸出對(duì)應(yīng)分割點(diǎn)和累計(jì)分布函數(shù)曲線(xiàn)圖輸入值: data: 二維數(shù)組或dataframe，包括模型得分和真實(shí)的標(biāo)簽 pred: 一維數(shù)組或series，代表模型得分（一般為預(yù)測(cè)正類(lèi)的概率） y_label: 一維數(shù)組或series，代表真實(shí)的標(biāo)簽（{0,1}或{-1,1}）輸出值: ’ks’: KS值，’cdf_df’: 好壞客戶(hù)累積概率分布以及其差值gap ’’’ Bad = data.loc[data[y_label[0]]==1,pred[0]] Good = data.loc[data[y_label[0]]==0, pred[0]] data1 = Bad.values data2 = Good.values n1 = data1.shape[0] n2 = data2.shape[0] data1 = np.sort(data1) data2 = np.sort(data2) data_all = np.concatenate([data1,data2]) cdf1 = np.searchsorted(data1,data_all,side=’right’)/(1.0*n1) cdf2 = (np.searchsorted(data2,data_all,side=’right’))/(1.0*n2) ks = np.max(np.absolute(cdf1-cdf2)) cdf1_df = pd.DataFrame(cdf1) cdf2_df = pd.DataFrame(cdf2) cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1) cdf_df.columns = [’cdf_Bad’,’cdf_Good’] cdf_df[’gap’] = cdf_df[’cdf_Bad’]-cdf_df[’cdf_Good’] return ks,cdf_df data = {’y_label’:[1,1,1,1,1,1,0,0,0,0,0,0], ’pred’:[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]} data = pd.DataFrame(data)ks1,crossdens=ks_calc_cross(data,[’pred’], [’y_label’]) ks2=ks_calc_auc(data,[’pred’], [’y_label’]) ks3=ks_calc_2samp(data,[’pred’], [’y_label’]) get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statisticks4=get_ks(data[’pred’],data[’y_label’])print(’KS1:’,ks1[’gap’].values)print(’KS2:’,ks2)print(’KS3:’,ks3[0])print(’KS4:’,ks4)

輸出結(jié)果：

KS1: [ 0.83333333]KS2: 0.833333333333KS3: 0.833333333333KS4: 0.833333333333

當(dāng)數(shù)據(jù)中存在NAN數(shù)據(jù)時(shí)，有一些問(wèn)題需要注意！

例如，我們?cè)谠瓟?shù)據(jù)中增加了y_label=0，pred=np.nan這樣一組數(shù)據(jù)

data = {’y_label’:[1,1,1,1,1,1,0,0,0,0,0,0,0],’pred’:[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}

此時(shí)執(zhí)行

ks1,crossdens=ks_calc_cross(data,[’pred’], [’y_label’])

輸出結(jié)果

KS1: [ 0.83333333]

執(zhí)行

ks2=ks_calc_auc(data,[’pred’], [’y_label’])

將會(huì)報(bào)以下錯(cuò)誤

ValueError: Input contains NaN, infinity or a value too large for dtype(’float64’).

執(zhí)行

ks3=ks_calc_2samp(data,[’pred’], [’y_label’])

輸出結(jié)果

KS3: 0.714285714286

執(zhí)行

ks4=get_ks(data[’pred’],data[’y_label’])

輸出結(jié)果

KS4: 0.714285714286

我們從上述結(jié)果中可以看出

三種方法計(jì)算得到的ks值均不相同。

ks_calc_cross計(jì)算時(shí)忽略了NAN，計(jì)算得到了數(shù)據(jù)正確的概率分布，計(jì)算的ks與我們手算的ks相同

ks_calc_auc函數(shù)由于內(nèi)置函數(shù)無(wú)法處理NAN值，直接報(bào)錯(cuò)了，所以如果需要ks_calc_auc計(jì)算ks值時(shí)，需要提前去除NAN值。

ks_calc_2samp計(jì)算得到的ks因?yàn)閟earchsorted()函數(shù)（有興趣的同學(xué)可以自己模擬數(shù)據(jù)看下這個(gè)函數(shù)），會(huì)將Nan值默認(rèn)排序?yàn)樽畲笾担瑥亩淖兞藬?shù)據(jù)的原始累積分布概率，導(dǎo)致計(jì)算得到的ks和真實(shí)的ks有誤差。

總結(jié)

在實(shí)際情況下，我們一般計(jì)算違約概率的ks值，這時(shí)是不存在NAN值的。所以以上三種方法計(jì)算ks值均可。但是當(dāng)我們計(jì)算單變量的ks值時(shí)，有時(shí)數(shù)據(jù)質(zhì)量不好，存在NAN值時(shí)，繼續(xù)采用ks_calc_auc和ks_calc_2samp就會(huì)存在問(wèn)題。

解決辦法有兩個(gè)

1. 提前去除數(shù)據(jù)中的NAN值

2. 直接采用ks_calc_cross計(jì)算。

以上這篇利用Python計(jì)算KS的實(shí)例詳解就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：使用python 計(jì)算百分位數(shù)實(shí)現(xiàn)數(shù)據(jù)分箱代碼下一條：python生成大寫(xiě)32位uuid代碼

相關(guān)文章：

1. 每日六道java新手入門(mén)面試題,通往自由的道路第二天2. python b站視頻下載的五種版本3. 解決Java中的java.io.IOException: Broken pipe問(wèn)題4. 測(cè)試模式 - XSL教程 - 55. Python結(jié)合百度語(yǔ)音識(shí)別實(shí)現(xiàn)實(shí)時(shí)翻譯軟件的實(shí)現(xiàn)6. 《CSS3實(shí)戰(zhàn)》筆記--漸變?cè)O(shè)計(jì)（一)7. JAVA抽象類(lèi)及接口使用方法解析8. 讓chatgpt將html中的圖片轉(zhuǎn)為base64方法示例9. python如何寫(xiě)個(gè)俄羅斯方塊10. 教你JS更簡(jiǎn)單的獲取表單中數(shù)據(jù)(formdata)

排行榜

					
					讓chatgpt將html中的圖片轉(zhuǎn)為base64方法示例
《CSS3實(shí)戰(zhàn)》筆記--漸變?cè)O(shè)計(jì)（一)
教你JS更簡(jiǎn)單的獲取表單中數(shù)據(jù)(formdata)
python如何寫(xiě)個(gè)俄羅斯方塊
JavaScript設(shè)計(jì)模式之策略模式實(shí)現(xiàn)原理詳解
測(cè)試模式 - XSL教程 - 5
如何通過(guò)vscode運(yùn)行調(diào)試javascript代碼
python b站視頻下載的五種版本
JS實(shí)現(xiàn)簡(jiǎn)單的todoList(記事本)效果
JAVA抽象類(lèi)及接口使用方法解析
解決Java中的java.io.IOException: Broken pipe問(wèn)題
				

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

利用Python計(jì)算KS的實(shí)例詳解