您的位置:首頁>財經>正文

案例:恒豐銀行——對公客戶貸後違約預測模型

本篇案例為資料猿推出的大型“金融大資料主題策劃”活動(查看詳情)第一部分的系列案例/徵文;感謝 恒豐銀行的投遞

作為整體活動的第二部分,

2017年6月29日, 由資料猿主辦, 互聯網普惠金融研究院合辦, 中國資訊通信研究院、大資料發展促進委員會、上海大資料聯盟、首席資料官聯盟協辦的《「資料猿·超聲波」之金融科技·商業價值探索高峰論壇》還將在上海隆重舉辦【論壇詳情丨上屆回顧】

在論壇現場, 也將頒發“技術創新獎”、“應用創新獎”、“最佳實踐獎”、“優秀案例獎”四大類案例獎

近年來, 擔保圈風險在一些行業和地區凸顯。 據《第一財經日報》獲得的監管部門監測資料顯示, 佛山的銀行不良貸款餘額從2013年末的60.54億元飆升至2014年7月末的192.14億元, 7個月增幅達217%;不良貸款率也從去年末的0.85%升至2.6%, 究其原因, 經濟上升週期鋼貿行業的“聯保互保”貸款機制, 成為了風險蔓延時的“連坐”機制。

“互保互聯”將非系統性風險變得系統起來, 加速風險擴散, 增加貸款主體和銀行的風險。 因此梳理、分析、防範和化解擔保圈風險, 已成為穩定經濟增長, 維護金融穩定的重要方面。

擔保鏈中主要隱藏以下幾類風險:

(一)擔保鏈中存在企業超出自身擔保能力對外擔保的現象。

(二)擔保鏈中個別企業出現信貸風險, 風險會通過擔保鏈條迅速傳導和放大。

(三)擔保鏈信貸風險的集中爆發, 易引發區域性和行業性風險, 對區域性經濟發展產生衝擊。

恒豐銀行正處於高速增長的新階段, 信貸業務與日俱增, 客戶貸後違約案例也隨之上升, 傳統的人工盲掃式的風控手段跟不上業務的發展。 本案例創新應用了大資料技術和機器學習方法, 綜合客戶行內資訊、外部資料以及客戶擔保網路圖等資訊, 深度挖掘和揭示了恒豐銀行擔保圈風險, 構建了貸後違約風險預警模型。 此模型成功對客戶貸後違約風險進行自動化預警, 控制了信貸違約風險, 減少了恒豐銀行風險運營成本。

週期節奏

本案例具體實施時間從16年4月份到17年4月份, 主要分為以下幾個階段

一, 業務調研和需求梳理(2016.04—­2016.05)

二, 資料獲取及預處理 (2016.05—­2016.07)

三, 特徵工程 (2016.05—­2016.09)

四, 建模分析評估及優化(2016.06­—2016.10)

五, 模型部署上線 (2016.10—­2016.11)

六, 後期改進及前端開發對接 (2016.11­—2017.04)

客戶名稱/所屬分類

恒豐銀行/貸後風控

任務/目標

●如何利用大資料技術進行建模並及時識別、量化企業違約風險;

●如何識別擔保圖中主要風險企業及其完整的擔保路徑;

●如何對擔保圈貸款進行高效清查, 並分析擔保風險的原因, 及時採取防範措施;

本案例針對以上問題, 基於複雜網路技術深入挖掘擔保違約風險影響因數, 並運用分散式機器學習演算法進行建模, 預測企業貸後違約概率。

構建動態的擔保鏈網路監控平臺, 基於客戶所在擔保鏈的圖特徵以及客戶行為特徵進行建模, 提供風險客戶名單, 基於擔保鏈網路模型找出高風險的擔保鏈和高風險企業客戶, 加強風控力度, 重點監控。

挑戰

傳統的風險管理模型主要基於線性數學模型, 沒有考慮到擔保圈的複雜圖結構和關聯關係對風險的影響, 且主要基於行內資料。 本文模型融合行內、行外、征信方面的資料提取企業基本屬性, 歷史行為以及擔保圖和社區特徵, 精確預測貸後客戶下一季度的逾期概率。

實施過程中遇到的一些挑戰主要歸納為以下幾個方面:

1)業務資料分析及模型解釋

在資料採擷過程中, 與一些前沿的演算法模型相比, 對業務的理解同樣重要。資料採擷建模各個環節都有一定相似的思路和流程,但是每個領域和場景下的業務知識都不同,需要資料採擷人員深入到客戶現場,多和業務人員溝通交流,多看資料,才能有所把握。

對業務資料的理解,我們認為包括2個方面:

其一是對整體業務流程的理解,比如做貸後違約預測,需要先瞭解這個業務從開始到結束都有哪些流程,每個流程中都涉及到哪些主體,以及主體之間的關係是怎麼樣的。

其二 ,根據自己理解的業務流程框架,從銀行資料倉庫中找對應的資料,在找資料過程中,你可能會遇到一個欄位出現在多張表中,那麼你就需要和數倉人員確認這幾張表主要的用途和意義以及所表達的資料細微性,然後一張張表去看資料分佈,最終確認哪張表哪個欄位是方案所需要的。

整個業務資料的理解、分析流程相當繁瑣,這也是對資料採擷人員的考驗,需要耐心分析總結,最終才能達到事半功倍的效果。倘若業務理解分析不到位,就無法通過建模分析得出有指導意義的結果。

在專案中,模型最終得到一個不錯的精度並不代表建模工作完成,接下來需要花費大量時間去解釋你的模型,解釋每一個變數是如何影響你的模型的,預測出的結果如何一步步追溯到指標。

比如模型預測出該企業下一季度違約的可能性比較大,那麼就需要去定位違約的原因,是因為過去經常違約,還是因為他在在擔保網路中受到與之關聯企業風險的傳導等等,這些都需要一步步去分析拿到證據。

2)多資料來源融合及分散式建模

眾所周知資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限,所以特徵工程在整個資料採擷過程中佔據大部分精力和時間。模型融合行內外多維度數據,並基於這些資料提取企業靜態和行為特徵,並基於大規模分散式圖計算引擎從擔保網路中提取大量圖特徵和社區特徵,給模型精度帶來質的提升。

實施過程/解決方案

本文模型案例基於TDH平臺Discover進行開發,恒豐銀行在此引擎上通過綜合使用多種機器學習演算法,實現了對客戶行為分析、客戶標籤畫像、客戶流失預警、風險分析、智慧推薦等模型開發。本案例主要包括以下6大模組。

對公擔保貸款主要業務

對公擔保貸款業務主要涉及客戶,擔保,貸款以及借據相關資訊。企業在向銀行借款的時候,銀行為了降低風險不直接放款,而是要求借款人找到協力廠商為其做信用擔保,協力廠商擔保可以是擔保人也可以是擔保公司。

首先銀行需要和協力廠商簽訂擔保合同,擔保合同形成後,銀行和借款人簽訂貸款合同,然後發放貸款,並產生借據資訊。

根據業務流程定位模型資料

模型資料主要包括三大類,分別為行內資料、人行征信資料、外部資料。行內資料直接描述企業在整個業務流程中的行為以及擔保關係的形成,根據以上的業務流程從CDM(對各個系統的資料按主題進行匯總整理的公共資料模型層,模型需要的資料主要從該層取)獲取客戶、擔保、貸款以及借據相關的所有資料。

人行征信資料記錄企業以及企業法人等相關的信用資訊。外部資料作為補充。企業互聯網上面的負面資訊,以及企業所在行業的經濟趨勢對企業是否逾期都會產生一定的影響。資料取出來之後,根據主鍵進行關聯匯總,並對資料進行去噪、去缺省值/異常值等處理,加工成模型標準特徵輸入表。

資料到特徵

特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好作用的過程。更好的特徵意味著只需用簡單模型(小資料量複雜模型容易過擬合)。

基於以上資料,如何做資料預處理,從哪些角度提取模型輸入特徵,如何選擇特徵,是整個建模過程中比較關鍵的一步。

1.資料預處理

首先,由於資料中存在大量的缺失值,需要對缺失值資料進行預處理。對於類別型的變數我們視缺失值為一種特徵值進行處理,而對於連續性變數我們一般用均值,中位數替代或者運用K近鄰方法根據它周圍的點來預估。

其次,資料中違約客戶遠遠少於未違約的客戶,針對類別不平衡問題,我們進行了過採樣處理。從業務意義和模型穩定性方面考慮,我們對部分連續變數進行了離散化,離散化主要有兩種劃分方式:一種是等值劃分(按照值域均分),另一種是等量劃分(按照樣本數均分)。

我們對數值類型的特徵採用了等量劃分的離散化方式:先將每一維特徵按照數值大小排序,然後均勻地劃分為10 個區間,即離散化為1~10。 前面已經對特徵進行了離散化,如某個客戶某個特徵離散化後它的值是5,3,1,2,2,2,2,7,2,可以進一步統計離散特徵中 1~10 出現的次數ni(i=1,2,…,10),即可得到一個10維計數特徵。

基於這10維特徵訓練了xgboost分類器,得到一定精度的提高,說明這10維特徵具有不錯的判別性。對於無序的變數,我們一般對它進行One—Hot 編碼,解決了分類器不能處理類別特徵的問題。為了防止異常值對模型的影響,我們對離群值進行了處理;為了統一量綱,對特徵進行了歸一化等操作。

2.特徵提取

基於以上處理好的資料,我們從多個角度提取特徵,其中主要包括以下幾類特徵。

1)基本資訊特徵定性地反映客戶的資歷,信用及還款能力,描述了授信企業基本情況。如經濟性質,註冊資本,信用評級狀態,中小企業標誌等。

2)行為特徵根據客戶的歷史行為判斷客戶未來違約的可能,企業的歷史行為反應了他的習性,而習性一般會延續。行為特徵如歷史逾期天數、歷史逾期次數、歷史逾期本金利息等。

3)圖結構特徵描述客戶所在擔保圖的圖結構特徵,企業所在圖中所處的位置對其它節點產生的影響。比如企業在圖中的影響度值,中心程度等(如果圖中的關鍵企業破產違約了,可能會對它相關的企業產生一定的影響)。

4)圖行為特徵描述客戶所在擔保圖中客戶的行為特徵,企業是否會違約和給他擔保的企業品質是密切相關的。比如子圖違約率、子圖違約天數、子圖違約額度等。

5)社區行為特徵描述客戶所在社區中客戶的行為特徵,人以群分物以類聚,所以社區內的企業一般具有相似的性質。比如客戶所在社區的違約率、逾期天數、罰息等。

3.特徵降維與特徵選擇

特徵選擇是為了踢除原本特徵裡和結果預測關係不大的特徵,而降維是做特徵的計算組合構成新特徵。前面我們基於原始資料生產了幾百維特徵,這麼多維特徵一方面可能會導致維度災難,另一方面很容易導致過擬合,因此需要做降維處理,常見的降維方法有 PCA、ICA、LDA等。

除了採用降維演算法之外,我們也做了特徵選擇來降低特徵維度。特徵選擇的方法很多,其中包括最大資訊係數(MIC)、皮爾森相關係數(衡量變數間的線性相關性)、正則化方法(L1, L2)、基於模型的特徵排序方法。比較高效的是最後一種方法,即基於學習模型的特徵排序方法,這種方法有一個好處:模型學習的過程和特徵選擇的過程是同時進行的,因此我們採用這種方法。

基於決策樹的演算法(如 random forest,boosted tree)在模型訓練完成後可以輸出特徵的重要性,我們綜合了多種方法進行特徵選擇和解釋判斷,其中包括統計指標方法Z­Score,基於集成學習的特徵重要性計算方法等,隨後使用了shrinkage和subsampling等方法進行特徵選擇和比較。

特徵分析

從以上資料中提取了上百個特徵,那麼這些特徵對模型的影響有多大,是否對預測企業貸後違約有幫助?

依據行內近3年資料訓練模型,觀察基礎資訊,貸款行為,複雜網路相關特徵的變化趨勢。我們發現隨著時間的變化,複雜網路圖的特徵越來越重要,進一步說明加入擔保圖進行擔保貸後分析的必要性。以下分別舉例介紹這3類特徵的重要性。

靜態特徵:註冊資本

上圖每個季節中逾期客戶和非逾期客戶註冊資本均值相差較大(已歸一化處理),可以看出註冊資本的多少對企業是否會逾期有一定的影響,註冊資本較小的企業更容易逾期,這相對符合常理。

行為特徵:歷史逾期天數

從上圖可以看出每個季節中逾期客戶和非逾期客戶歷史逾期天數均值相差較大,說明過去逾期的天數越多,貸款逾期概率可能越大。

圖特徵:社區違約率

上圖是一個擔保鏈示意圖,該擔保鏈圖包括2個社區(橙色為逾期客戶,藍色為非逾期客戶),不同社區的違約率差距非常明顯,這表明了社區特徵的必要性。

構建模型

1)模型訓練之前,我們先提取特徵和標籤,我們以每個季度為時間窗提取特徵,這裡時間窗設置為一個季度是因為我們統計發現近幾年擔保貸款逾期呈現出季節性週期規律,每個季度具有相似的走勢和分佈。

2)建模過程中,我們選取多種機器學習分類演算法,並做相應的融合。其中用到基於樹模型的集成學習方法,基本思想是把成百上千個分類準確率較低的樹模型組合起來成為一個準確率較高的模型。

它的最大特點在於能夠自動利用CPU的多執行緒進行平行計算,同時在演算法上加以改進提高了精度。考慮到後期資料量不斷增長,我們開發了該演算法的分散式實現,部署於生產環境。

3)在部署生產環境之前,我們利用近3年的資料進行多次模型驗證,優化和調參,以達到較高的精度和模型穩定性。

結果/效果總結

模型用數倉近3年的真實資料進行了驗證,auc均在0.85以上(auc為度量分類模型好壞的一個標準,越接近1表明模型預測能力越強)。

上圖為模型對所有違約客戶,首次違約客戶,非首次違約客戶命中和未命中的分佈圖。首先提取客戶2016年第三季度和第四季度行為特徵和標籤,並訓練學習得到模型,然後模型預測2017年第一季度有活躍貸款的客戶違約情況,模型預測最有可能違約的TOP N客戶中,違約客戶的命中覆蓋率為64.24%,與傳統方式相比提升了6倍左右。

其中首次逾期客戶命中覆蓋率為46.5%,非首次逾期客戶命中覆蓋率為66.9%。可以看出不管客戶是首次還是非首次違約,模型都有較高的識別能力。即使客戶沒有歷史逾期行為,根據擔保圖中企業風險的傳導關聯關係也可以較準確的識別未來可能產生違約行為的客戶,這也論證了複雜圖特徵的重要性。

模型上線以來,對客戶信貸中後期進行檢測,提前發現大量違約風險,貸後違約壞賬率逐漸下降,較之前的貸後違約數量平均減少30%,有效遏制了客戶貸後違約風險,極大的減少了貸後違約損失並提升了風險運營效率。

從整個實施過程來看,深入挖掘分析複雜網路對識別企業風險資訊至關重要,本案例主要基於擔保網路挖掘風險資訊,後期會不斷探索交易圖譜,供應鏈圖譜,投資、高管任職圖譜等對企業風險的影響,進一步提高模型識別違約客戶的精度。

企業介紹:

恒豐銀行股份有限公司是12家全國性股份制商業銀行之一,註冊地煙臺。

近年來,恒豐銀行穩健快速發展。截至2016年末,恒豐銀行資產規模已突破1.2萬億元,是2013年末的1.6倍;各項存款餘額7682億元,各項貸款餘額4252億元,均比2013年末翻了一番。2014年至2016年累計利潤總額312.17億元,這三年的累計利潤總額為以往26年的累計利潤總額;服務組織架構不斷完善,分支機搆數306家,是2013年末的兩倍。

近年來,恒豐銀行屢獲榮譽。在英國《銀行家》雜誌發佈的“2016全球銀行1000強”榜單中排名第143位;在香港中文大學發佈的《亞洲銀行競爭力研究報告》中位列亞洲銀行業第5位;在中國銀行業協會發佈的“商業銀行穩健發展能力‘陀螺(GYROSCOPE)評價體系’”中,綜合能力排名位列全國性商業銀行第7位,全國性股份制商業銀行前三;榮獲“2016老百姓最喜歡的股份制商業銀行”第二名、“2016年互聯網金融創新銀行獎”、“2016年最佳網上銀行安全獎”、“2016年度創新中國特別獎”等多項榮譽。

作為一家肇始于孔孟之鄉山東的全國性股份制商業銀行,恒豐銀行秉承“恒必成 德致豐”的核心價值觀,踐行“1112·5556”工程,即:一個願景(打造“精品銀行、全能銀行、百年銀行”)、一個文化(打造“開放、創新、競爭、協同、守規、執行”的“狼兔文化”)、一個目標(五年目標是以客戶為中心,以創新為驅動,高效協同,彎道超車,五年內進入全國性股份制商業銀行第二方陣;十年目標是要打造一個國際金融控股集團)、兩個策略(“植根魯蘇,深耕成渝,拓展中部六省和海西,進軍京滬廣深”的區域策略和“四輪驅動、兩翼齊飛”的經營策略)、“五化”強行戰略(國際化、資訊化、精細化、科技化、人才化)、“五力”工作方針(忠誠力、執行力、目標力、風險經營力、恒久發展力)、五個引領(人才引領、科技引領、創新引領、效率引領、效益引領)、六大綜合能力(價值分析能力、風險鑒別能力、定價能力、創新能力、調研能力、學習能力);大力實施“12345”行動綱領,即:“1”是做金融綜合解決方案的提供商,“2”是金融雲平臺和大資料平臺,“3”是數位銀行、交易銀行、銀行的銀行,“4”是龍頭金融、平臺金融、家庭金融、O2O金融等四大金融創新業務模式,“5”是投行、資管、平臺、人才盤點和以“One Bank”為核心的績效評價體系等五大戰略落地工具,致力於做“知識和科技的傳播者、管道和平臺的建設者、金融綜合解決方案的提供者”,力求打造令人矚目、受人尊敬的商業銀行,為客戶和社會提供效率最高、體驗最佳的綜合金融服務。

歡迎更多大資料企業、大資料愛好者投稿資料猿,來稿請直接投遞至:tougao@datayuan.cn

對業務的理解同樣重要。資料採擷建模各個環節都有一定相似的思路和流程,但是每個領域和場景下的業務知識都不同,需要資料採擷人員深入到客戶現場,多和業務人員溝通交流,多看資料,才能有所把握。

對業務資料的理解,我們認為包括2個方面:

其一是對整體業務流程的理解,比如做貸後違約預測,需要先瞭解這個業務從開始到結束都有哪些流程,每個流程中都涉及到哪些主體,以及主體之間的關係是怎麼樣的。

其二 ,根據自己理解的業務流程框架,從銀行資料倉庫中找對應的資料,在找資料過程中,你可能會遇到一個欄位出現在多張表中,那麼你就需要和數倉人員確認這幾張表主要的用途和意義以及所表達的資料細微性,然後一張張表去看資料分佈,最終確認哪張表哪個欄位是方案所需要的。

整個業務資料的理解、分析流程相當繁瑣,這也是對資料採擷人員的考驗,需要耐心分析總結,最終才能達到事半功倍的效果。倘若業務理解分析不到位,就無法通過建模分析得出有指導意義的結果。

在專案中,模型最終得到一個不錯的精度並不代表建模工作完成,接下來需要花費大量時間去解釋你的模型,解釋每一個變數是如何影響你的模型的,預測出的結果如何一步步追溯到指標。

比如模型預測出該企業下一季度違約的可能性比較大,那麼就需要去定位違約的原因,是因為過去經常違約,還是因為他在在擔保網路中受到與之關聯企業風險的傳導等等,這些都需要一步步去分析拿到證據。

2)多資料來源融合及分散式建模

眾所周知資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限,所以特徵工程在整個資料採擷過程中佔據大部分精力和時間。模型融合行內外多維度數據,並基於這些資料提取企業靜態和行為特徵,並基於大規模分散式圖計算引擎從擔保網路中提取大量圖特徵和社區特徵,給模型精度帶來質的提升。

實施過程/解決方案

本文模型案例基於TDH平臺Discover進行開發,恒豐銀行在此引擎上通過綜合使用多種機器學習演算法,實現了對客戶行為分析、客戶標籤畫像、客戶流失預警、風險分析、智慧推薦等模型開發。本案例主要包括以下6大模組。

對公擔保貸款主要業務

對公擔保貸款業務主要涉及客戶,擔保,貸款以及借據相關資訊。企業在向銀行借款的時候,銀行為了降低風險不直接放款,而是要求借款人找到協力廠商為其做信用擔保,協力廠商擔保可以是擔保人也可以是擔保公司。

首先銀行需要和協力廠商簽訂擔保合同,擔保合同形成後,銀行和借款人簽訂貸款合同,然後發放貸款,並產生借據資訊。

根據業務流程定位模型資料

模型資料主要包括三大類,分別為行內資料、人行征信資料、外部資料。行內資料直接描述企業在整個業務流程中的行為以及擔保關係的形成,根據以上的業務流程從CDM(對各個系統的資料按主題進行匯總整理的公共資料模型層,模型需要的資料主要從該層取)獲取客戶、擔保、貸款以及借據相關的所有資料。

人行征信資料記錄企業以及企業法人等相關的信用資訊。外部資料作為補充。企業互聯網上面的負面資訊,以及企業所在行業的經濟趨勢對企業是否逾期都會產生一定的影響。資料取出來之後,根據主鍵進行關聯匯總,並對資料進行去噪、去缺省值/異常值等處理,加工成模型標準特徵輸入表。

資料到特徵

特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好作用的過程。更好的特徵意味著只需用簡單模型(小資料量複雜模型容易過擬合)。

基於以上資料,如何做資料預處理,從哪些角度提取模型輸入特徵,如何選擇特徵,是整個建模過程中比較關鍵的一步。

1.資料預處理

首先,由於資料中存在大量的缺失值,需要對缺失值資料進行預處理。對於類別型的變數我們視缺失值為一種特徵值進行處理,而對於連續性變數我們一般用均值,中位數替代或者運用K近鄰方法根據它周圍的點來預估。

其次,資料中違約客戶遠遠少於未違約的客戶,針對類別不平衡問題,我們進行了過採樣處理。從業務意義和模型穩定性方面考慮,我們對部分連續變數進行了離散化,離散化主要有兩種劃分方式:一種是等值劃分(按照值域均分),另一種是等量劃分(按照樣本數均分)。

我們對數值類型的特徵採用了等量劃分的離散化方式:先將每一維特徵按照數值大小排序,然後均勻地劃分為10 個區間,即離散化為1~10。 前面已經對特徵進行了離散化,如某個客戶某個特徵離散化後它的值是5,3,1,2,2,2,2,7,2,可以進一步統計離散特徵中 1~10 出現的次數ni(i=1,2,…,10),即可得到一個10維計數特徵。

基於這10維特徵訓練了xgboost分類器,得到一定精度的提高,說明這10維特徵具有不錯的判別性。對於無序的變數,我們一般對它進行One—Hot 編碼,解決了分類器不能處理類別特徵的問題。為了防止異常值對模型的影響,我們對離群值進行了處理;為了統一量綱,對特徵進行了歸一化等操作。

2.特徵提取

基於以上處理好的資料,我們從多個角度提取特徵,其中主要包括以下幾類特徵。

1)基本資訊特徵定性地反映客戶的資歷,信用及還款能力,描述了授信企業基本情況。如經濟性質,註冊資本,信用評級狀態,中小企業標誌等。

2)行為特徵根據客戶的歷史行為判斷客戶未來違約的可能,企業的歷史行為反應了他的習性,而習性一般會延續。行為特徵如歷史逾期天數、歷史逾期次數、歷史逾期本金利息等。

3)圖結構特徵描述客戶所在擔保圖的圖結構特徵,企業所在圖中所處的位置對其它節點產生的影響。比如企業在圖中的影響度值,中心程度等(如果圖中的關鍵企業破產違約了,可能會對它相關的企業產生一定的影響)。

4)圖行為特徵描述客戶所在擔保圖中客戶的行為特徵,企業是否會違約和給他擔保的企業品質是密切相關的。比如子圖違約率、子圖違約天數、子圖違約額度等。

5)社區行為特徵描述客戶所在社區中客戶的行為特徵,人以群分物以類聚,所以社區內的企業一般具有相似的性質。比如客戶所在社區的違約率、逾期天數、罰息等。

3.特徵降維與特徵選擇

特徵選擇是為了踢除原本特徵裡和結果預測關係不大的特徵,而降維是做特徵的計算組合構成新特徵。前面我們基於原始資料生產了幾百維特徵,這麼多維特徵一方面可能會導致維度災難,另一方面很容易導致過擬合,因此需要做降維處理,常見的降維方法有 PCA、ICA、LDA等。

除了採用降維演算法之外,我們也做了特徵選擇來降低特徵維度。特徵選擇的方法很多,其中包括最大資訊係數(MIC)、皮爾森相關係數(衡量變數間的線性相關性)、正則化方法(L1, L2)、基於模型的特徵排序方法。比較高效的是最後一種方法,即基於學習模型的特徵排序方法,這種方法有一個好處:模型學習的過程和特徵選擇的過程是同時進行的,因此我們採用這種方法。

基於決策樹的演算法(如 random forest,boosted tree)在模型訓練完成後可以輸出特徵的重要性,我們綜合了多種方法進行特徵選擇和解釋判斷,其中包括統計指標方法Z­Score,基於集成學習的特徵重要性計算方法等,隨後使用了shrinkage和subsampling等方法進行特徵選擇和比較。

特徵分析

從以上資料中提取了上百個特徵,那麼這些特徵對模型的影響有多大,是否對預測企業貸後違約有幫助?

依據行內近3年資料訓練模型,觀察基礎資訊,貸款行為,複雜網路相關特徵的變化趨勢。我們發現隨著時間的變化,複雜網路圖的特徵越來越重要,進一步說明加入擔保圖進行擔保貸後分析的必要性。以下分別舉例介紹這3類特徵的重要性。

靜態特徵:註冊資本

上圖每個季節中逾期客戶和非逾期客戶註冊資本均值相差較大(已歸一化處理),可以看出註冊資本的多少對企業是否會逾期有一定的影響,註冊資本較小的企業更容易逾期,這相對符合常理。

行為特徵:歷史逾期天數

從上圖可以看出每個季節中逾期客戶和非逾期客戶歷史逾期天數均值相差較大,說明過去逾期的天數越多,貸款逾期概率可能越大。

圖特徵:社區違約率

上圖是一個擔保鏈示意圖,該擔保鏈圖包括2個社區(橙色為逾期客戶,藍色為非逾期客戶),不同社區的違約率差距非常明顯,這表明了社區特徵的必要性。

構建模型

1)模型訓練之前,我們先提取特徵和標籤,我們以每個季度為時間窗提取特徵,這裡時間窗設置為一個季度是因為我們統計發現近幾年擔保貸款逾期呈現出季節性週期規律,每個季度具有相似的走勢和分佈。

2)建模過程中,我們選取多種機器學習分類演算法,並做相應的融合。其中用到基於樹模型的集成學習方法,基本思想是把成百上千個分類準確率較低的樹模型組合起來成為一個準確率較高的模型。

它的最大特點在於能夠自動利用CPU的多執行緒進行平行計算,同時在演算法上加以改進提高了精度。考慮到後期資料量不斷增長,我們開發了該演算法的分散式實現,部署於生產環境。

3)在部署生產環境之前,我們利用近3年的資料進行多次模型驗證,優化和調參,以達到較高的精度和模型穩定性。

結果/效果總結

模型用數倉近3年的真實資料進行了驗證,auc均在0.85以上(auc為度量分類模型好壞的一個標準,越接近1表明模型預測能力越強)。

上圖為模型對所有違約客戶,首次違約客戶,非首次違約客戶命中和未命中的分佈圖。首先提取客戶2016年第三季度和第四季度行為特徵和標籤,並訓練學習得到模型,然後模型預測2017年第一季度有活躍貸款的客戶違約情況,模型預測最有可能違約的TOP N客戶中,違約客戶的命中覆蓋率為64.24%,與傳統方式相比提升了6倍左右。

其中首次逾期客戶命中覆蓋率為46.5%,非首次逾期客戶命中覆蓋率為66.9%。可以看出不管客戶是首次還是非首次違約,模型都有較高的識別能力。即使客戶沒有歷史逾期行為,根據擔保圖中企業風險的傳導關聯關係也可以較準確的識別未來可能產生違約行為的客戶,這也論證了複雜圖特徵的重要性。

模型上線以來,對客戶信貸中後期進行檢測,提前發現大量違約風險,貸後違約壞賬率逐漸下降,較之前的貸後違約數量平均減少30%,有效遏制了客戶貸後違約風險,極大的減少了貸後違約損失並提升了風險運營效率。

從整個實施過程來看,深入挖掘分析複雜網路對識別企業風險資訊至關重要,本案例主要基於擔保網路挖掘風險資訊,後期會不斷探索交易圖譜,供應鏈圖譜,投資、高管任職圖譜等對企業風險的影響,進一步提高模型識別違約客戶的精度。

企業介紹:

恒豐銀行股份有限公司是12家全國性股份制商業銀行之一,註冊地煙臺。

近年來,恒豐銀行穩健快速發展。截至2016年末,恒豐銀行資產規模已突破1.2萬億元,是2013年末的1.6倍;各項存款餘額7682億元,各項貸款餘額4252億元,均比2013年末翻了一番。2014年至2016年累計利潤總額312.17億元,這三年的累計利潤總額為以往26年的累計利潤總額;服務組織架構不斷完善,分支機搆數306家,是2013年末的兩倍。

近年來,恒豐銀行屢獲榮譽。在英國《銀行家》雜誌發佈的“2016全球銀行1000強”榜單中排名第143位;在香港中文大學發佈的《亞洲銀行競爭力研究報告》中位列亞洲銀行業第5位;在中國銀行業協會發佈的“商業銀行穩健發展能力‘陀螺(GYROSCOPE)評價體系’”中,綜合能力排名位列全國性商業銀行第7位,全國性股份制商業銀行前三;榮獲“2016老百姓最喜歡的股份制商業銀行”第二名、“2016年互聯網金融創新銀行獎”、“2016年最佳網上銀行安全獎”、“2016年度創新中國特別獎”等多項榮譽。

作為一家肇始于孔孟之鄉山東的全國性股份制商業銀行,恒豐銀行秉承“恒必成 德致豐”的核心價值觀,踐行“1112·5556”工程,即:一個願景(打造“精品銀行、全能銀行、百年銀行”)、一個文化(打造“開放、創新、競爭、協同、守規、執行”的“狼兔文化”)、一個目標(五年目標是以客戶為中心,以創新為驅動,高效協同,彎道超車,五年內進入全國性股份制商業銀行第二方陣;十年目標是要打造一個國際金融控股集團)、兩個策略(“植根魯蘇,深耕成渝,拓展中部六省和海西,進軍京滬廣深”的區域策略和“四輪驅動、兩翼齊飛”的經營策略)、“五化”強行戰略(國際化、資訊化、精細化、科技化、人才化)、“五力”工作方針(忠誠力、執行力、目標力、風險經營力、恒久發展力)、五個引領(人才引領、科技引領、創新引領、效率引領、效益引領)、六大綜合能力(價值分析能力、風險鑒別能力、定價能力、創新能力、調研能力、學習能力);大力實施“12345”行動綱領,即:“1”是做金融綜合解決方案的提供商,“2”是金融雲平臺和大資料平臺,“3”是數位銀行、交易銀行、銀行的銀行,“4”是龍頭金融、平臺金融、家庭金融、O2O金融等四大金融創新業務模式,“5”是投行、資管、平臺、人才盤點和以“One Bank”為核心的績效評價體系等五大戰略落地工具,致力於做“知識和科技的傳播者、管道和平臺的建設者、金融綜合解決方案的提供者”,力求打造令人矚目、受人尊敬的商業銀行,為客戶和社會提供效率最高、體驗最佳的綜合金融服務。

歡迎更多大資料企業、大資料愛好者投稿資料猿,來稿請直接投遞至:tougao@datayuan.cn

Next Article
喜欢就按个赞吧!!!
点击关闭提示