搜索
您的当前位置:首页正文

基于数据挖掘的信用卡授卡风险评估模型

来源:知库网
维普资讯 http://www.cqvip.com

援张 基于数据挖掘的 信用卡授卡风险评估模型 西安交通大学经济与金融学院李猛沈菊菊 商业银行在信用卡发放审批时,通常使用信用评分体 的目的,在于研究如何利用数据挖掘方法,构建一个能从众 系为客户进行信用评分。目前,比较权威的信用评分体系为 多客户申请资料属性中找到影响客户信用的关键因素,并 美国的FICO(Fair Isaac and Company)信用评分模型。 同时得到客户信用或风险评分的模型。 一般情况下,一个完善的客户评分体系可能涉及近20个变 量,其中有些可能涉及客户隐私。这样,客户在填写申请的 =、信用卡授卡风险评估数据挖掘建模 过程中有可能出现的漏填、不填、错填及假填等现象,对银 完整的数据挖掘建模过程包括7个环节:定义目标(选 行实施信用评分模型无疑带来了很大困难。而事实上,有经 题);建立行销数据库(构建数据源);探索数据(考查数据 验的商业银行信用卡审批人员,通常能够通过客户申请资 源分布特征),为建模准备数据t建立模型;评估模型;应 料中的几个关键性因素,熟练而准确地作出发卡与否的判 用模型。以下将数据挖掘建模过程简化为数据准备、数据挖 断。这说明在众多信用卡申请资料中,存在着直接影响客户 掘建模、模型评估和模型应用4个环节。 信用水平的几个关键性因素。如果能准确把握这几个因素, 1.数据准备 并通过它分析出客户的信用状况,便可大大提高信用卡发 由于目前国内尚无公开的信用卡客户信用情况的实例 放工作的效率,进而逐渐弥补并改善信用评分体系的漏洞 数据,所以本文从“SAS中国论坛”中求得国内某商业银 与缺憾。所以,本文借助成熟的信用评估系统评分思想,利 行的250名信用卡申请者的背景资料及发卡情况,为了确保 用数据挖掘方法,建立信用卡授卡风险评估的数据挖掘模 商业秘密和申请者的个人隐私,资料中的属性均换成了保 型 持数据原有关联关系和数据特征的无意义代码。 资料中的变量名隐去了真实代表的属性名称,用a1~ 一、信用卡授卡风险评估模型概述 al5分别代表客户的性别、年龄、职业、学历、收人、住房、 本文所定义的“信用卡授卡”是指信用卡的发放;本文 家庭、存款、贷款等情况;用s代表为银行通过深入调查后 所定义的“信用卡授卡风险评估模型”是指在信用卡发放 给出的信用状况,其中,“1”代表信用良好,可以发卡;“0” 时,对信用卡申请者的信用风险进行评估的模型。商业银行 代表信用较差,不予发卡。资料中属性类型如表1所示。 对信用卡申请者的资料要进行科学而谨慎的评分,从而得 本文利用SAS/Enterprise Miner作为模型实现的平 出客户的信用水平,在此基础上决定是否为该客户发放信 台,具体SAS环境中实现的过程参数设置及数据源的相关 用卡,并根据客户不同的信用水平,初步判定该客户的信用 说明如下: 等级,为客户提供相应信用等级的服务。本文所建立的模型 (1)鉴于数据源只有250条记录,所以直接被作为样本 56【l】幽信用卡2006.II 维普资讯 http://www.cqvip.com

使用,无需再 表1个人资料中属性(变量)的类型 属性名 a1 a2 a3 ③结论:通过发现颅洲因子X与in(p/(1-p))之间 ,导出 进行抽佯处 的线性关系in(p/(1 P))=卢o+卢lX】+…+ 理; 变量类型与取值 离散字符型变量 连续数值型变量 连续数值型变量 预测系数成权重后,用公式计算p,uJJ (2)由J 该 佯本数据巾的 S变量,作为银 P—exp‘ /(1+exp‘ 帆 ’、 (2)利用SAS实现小文所要建立的逻辑回归模型的相 a4 离散数值型变量 行通过深人调 a5 离散字符型变量 查后给出的发 a6 离散数值型变量 与否的状态 a7 离散字符型变量 变量,且眩属 a8 连续数值型变量 性值只有0和1 a9 离散字符型变量 值,所以,呵以 a10 离散字符型变量 把S作为书件 a1 1 连续数值型变量 响应变量,即 a1 2 离散字符型变量 预测类数据挖 a1 3 离散数值型变量 掘建模过程r}I a14 连续数值型变量 的目标变量; a1 5 连续数值型变量 (3)…十建 S 离散数值型变量. 模目标是为了 取值为0,1 找到影响日标 变量的关键变 量,只要选择适 的数据挖掘方法直接评估其错分率即可; (4)对数据分块比例采用训练数据占70%,验证数据占 30%: (5)该数据源叶1无缺失值,所以无需进行缺失f 处理。 经过E述处理后输出的数据便 J-以用来作为数据挖掘 的数据源,使用适当数据挖掘方法,建立数据挖掘模型。 2.数据挖掘建模 鉴于本文的建模目标是通过佯本数据找到 以预洲客 户信用水平的关键属性,同叫一由于数据源中 经有叫确的 目标变量,并且目标变量本身具有_=值属性(0,1),所以, 逻辑回归是本文最佳的数据挖掘方法。 (1)逻辑回归的原理 ①前提是因变量非连续,通过对因变量进行转换,使之 成为连续的值,即关于事件发生的概率的函数。 ②假设p为事件发生的概率;In(p/(1_P))是预测 因子的线性阑数。 天设置说明 ①设信用 申请客户的信息变量a ( 1,2,…,15) 为x,对客户信用水平的预测值为尸; ②将S设为 变量,即Iq标变量; ③因颅测变量较多,所以同 方式选择逐步回归,引进 和剔除变量的显著性水平为0.05。 经过以上设置,通过SAS 归_T具运行上述模型得到 的同归结果如 1所示。 引入变量 卡方值 大于预置卡方值的概率 a1 5 4 3339 0 0374 a9 21 7882 <0001 a10 4 9302 0 0264 a0 4 1 756 0 041 0 图1 客户信用预测变量选择IglJ ̄3结果 图l中给出厂四个颅测因子:a15,a9,al0,a5,各预 测因子同归系数如图2所示。 根据 述逻辑回归原理及图l、图2中的结果,ur得客 户信用颅测因子的回归方程 Lp…I)・6j 57 om㈣I527a1 ̄1 0.4989a5-i一23O2n ro.5o43‘x 1-根据该结果方程求得的P值是0~1的概率俏,代表该 客户的信用水平,将概率P乘以100,得到0~100的百分 制得分。根据钟楚男往其著作 个人信用征信制度 (2002) l}],将客户按其收入水平、偿债意愿、社会地位和家庭环境 情况 l等客户的信用等级依次划分为7个等级:AAA、AA、 A、BBB、BB、B、C,本文将客户信用得分与客户信用等 级的对应关系发定为:AAA级(90分以上)、AA级(80~ 89分)、A级(70~79分)、BBB级(60~69分)、BB级 (50~59分)、B级(40~49分)、C级(40分以下)。 根据如上对应关系,银行可以通过L述评分模型决定 【苴】围I者团长2006-rT 57 维普资讯 http://www.cqvip.com

l囊谛 计~一一瑚一一值盯 引∞ 堙 蛆 SAS逻辑回归模型回归系数估计结果 O 取代信用评分体系。只有在信用评分体系的支持 参数 标准差 Wald卡方值 大于预置卡方值的概率 下,才有可能得到丰富、完整的客户资料,随着 截距 0 31OO 3 95 0.0470 信用卡业务及整个社会信用状况的发展,决定客 a1 5 0 000253 4 33 0+0374 a9 0+2635 21 79 (0001 户信用的关键因素也会不断变化,所以,数据挖 a1O 0 2271 4 93 0.0264 掘方法可以灵活使用。通过发现客户信息冲的规 a5 0 2441 4 18 0 041O 律,找出银行需要重点关注的要素,为银行的查 图2客户信用水平预测变量回归系数 实核对起着方向性的指导作用。这样,既保证了 是否为信用卡申请者发放信用卡,并初步评估该客户在将 模型拟台指标统计结果 来的信用卡使用过程中的透支还款风险。 拟合指标 训练数据 验证数据 平均标准方差 O 1 344697033 0 1 276936564 本文利用样本数据中,银行实际发卡情况与模型评分 平均误差平方 0,42449251 27 0 4069209949 情况对比,即将信用卡授卡信用风险评估模型给出的客户 误差自由度 1 70 模型自由度 信用水平值,与数据源中信用卡发卡记录进行对比,数据源 总自由度 1 75 中信用卡发卡记录由0明显过渡到1时,即由某个分界线开 最大绝对误差 0 945266781 6 0.8677261083 平均方差 0.1 384246946 O 1 276936564 始,s的值由绝大多数是0开始向绝大多数是1转变时,那个分 平均绝对误差 0 372054693 0 357342491 8 界线就是发卡概率P的值,本文得到的发卡概率为P≥0.404.0。 差制平方和 47 0643961 55 1 9 409435775 当P<0.4O40时,银行将认定客户信用较差,不予发卡。 错分率 0 0771428571 0 071052631 6 3.模型评估 图3客户信用回归模型误差统计 本文采用错分率指标对模型进行评估,该模型的评 估结果数据如图3所示。图3中显示模型的错分率不到 8%,对于250个数据来说,错分的客户不到20个,所以 该模型的拟合效果基本可以接受。 4.模型应用 本文利用SAS/Enterprise Miner实现的信用卡授 卡信用风险评估模型的整个数据挖掘流程如图4所示。 该数据挖掘流程每个节点的功能分别为引入建模数 据源、设置目标变量、数据分块、回归建模、模型评估、 评估结果统计、抽取模型评分程序、引入运用模型数据 源、查看数据评分分布情况、编写应用程序。 通过运行上述流程中的抽取模型评分程序节点可以 得到每个信用卡申请客户的信用水平的概率值,通过在 最后的编写应用程序节点中运行相应的程序代码,可以 得到与个人信用征信制度信用等级相对应的信用分,例如: 图4信用卡授卡信用风险评估数据挖掘流程 if P—creditscore>=90 then P—class= AAA’。 效率,又保证了效益。另外,通过数据挖掘发现的一些新模 式,可以进一步调整客户信用评分体系,从而为将来完善信 三 需要说明的问题 用评分体系起着重要作用。《噶 本文设计的信用卡授卡信用风险数据挖掘模型并不能 栏目编辑——韩立平 58由国信用卡2006_ll 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top