摘要: 在互聯網金融、消費金融的蓬勃發展的當下,央行徵信在數據時效性、全面性和層次性上的短板日益凸顯。深度挖掘互聯網大數據信息,開發大數據風控模型,更加精準的評估風險,已經逐漸成為了新一代信用風險模型體系建設的核心課題。......
▲(來源:36大數據)
本文在傳統風險模型體系的基礎上,嫁接邏輯回歸和決策樹模型建立T-L模型,並結合Random Forest模型完善模型結構。採用T-L核模型替代RF模型中的傳統決策樹模型,將RF模型和T-L核模型結合,建立了ScoreNet模型體系。既大大提升了風險模型區分能力,也保證了模型結構的清晰和評分廣泛的應用。
1.选题背景及意义
無論是線上還是線下的用戶消費、社交數據,都有著不同於傳統徵信信息的獨有特徵: 數據的稀疏性強(用戶線上線下的行為散佈廣泛,極難全量收集和覆蓋;用戶行為偏好亦各有不同,在不同門類的行為差異很大,因此數據的稀疏性極為明顯。一般情況下,用戶行為信息的缺失率均超過50%);
數據覆蓋面廣(信息覆蓋面廣泛,支付寶或微信都有超4億活躍用戶,用戶行為覆蓋服裝、書籍、租房、休閒、娛樂等各方面,單指標維度超過1000個);
單變量風險區分能力弱(不同於傳統風險模型採用的歷史履約情況,個人資產評估等強變量,消費或社交變量一般均為區分能力較弱的弱變量)。
傳統信用風險評估模型在業務邏輯架構下,利用數據驅動或專家經驗開發模型模板,最終結合統計分析模型(邏輯回歸、判別分析等)得到精準的計量結果。然而在新的數據畫像和業務情景下,不僅喪失了原有的業務邏輯框架,更使得傳統統計分析模型的應用受到嚴重限制。近年來,機器學習技術得到飛速的發展,在信息識別、推薦引擎等領域都取得了出色的應用效果,大量實驗結果證明機器學習模型有著良好的魯棒性和泛化性。但機器學習模型的模型邏輯極為複雜,很難把控模型的真實效果,也不易於直觀展示和解釋變量的風險特性。如何結合傳統風險評估模型體系和機器學習技術,在保證業務邏輯和評分廣泛應用的前提下,更加精準的評估風險已經成了新一代信用風險模型體系建設的核心課題。
文章所提到的機器學習模型就請點進36大數據連結一探究竟吧......
轉貼自: 36大數據
留下你的回應
以訪客張貼回應