CN112102074A - 一种评分卡建模方法 - Google Patents
一种评分卡建模方法 Download PDFInfo
- Publication number
- CN112102074A CN112102074A CN202011099338.9A CN202011099338A CN112102074A CN 112102074 A CN112102074 A CN 112102074A CN 202011099338 A CN202011099338 A CN 202011099338A CN 112102074 A CN112102074 A CN 112102074A
- Authority
- CN
- China
- Prior art keywords
- variables
- variable
- derivative
- scoring
- logistic regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种评分卡建模方法,包含确定变量及筛选变量、中间衍生变量逻辑回归、模型验证。其中在变量确定的过程中不但引入了WOE变量同时还引入了Recode变量,进而从稳定性和精确性两方面构建和筛选变量;本方法引入了基于因子分析和PCA算法的变量聚类分析,将自变量按其主成分分簇,并在每个分簇中各选取若干变量,从而最大限度地保留了维度的解释度和覆盖面。本发明的评分卡建模方法完成计分模型的建模,仅在特定的几个步骤中需要人为介入,采用这种半自动建模方法将现有的建模时间由一个月缩短到了三天的时间,克服了现有技术中建模时间较长的技术问题。
Description
技术领域
本发明涉及信贷风控管理领域,具体地说,涉及针对放贷对象所做的一种评分卡建模方法。
背景技术
在信贷风控领域的传统评分卡构建流程非常复杂,一般分为数据探索、WOE计算、变量筛选、相关性分析、分箱调整、模型调参、模型评估、评分卡转换、模型稳定性验证等诸多步骤。传统模型建模流程主要有以下几个问题:
1.建模时间长:由于上述流程十分繁琐,所以评分卡的建立从数据探索到稳定性测试完成往往需要近一个月的时间,这就大大影响了以评分卡为基础的风控系统对市场变化的反应速度。其中,最费时费力的步骤主要集中在变量筛选、分箱调整和模型调参上。这些步骤往往需要反复的迭代测试。
2.模型效果:传统模型在变量筛选时仅依赖两个方面:
a)筛选与因变量相关性较高的自变量,基于如IV/KS/Gini值等;
b)为了减少共线性,剔除相关性较高的自变量;
基于以上筛选条件会过度消减训练逻辑回归模型前的入模变量个数,从而影响模型精度。
误操作率高:手动建立传统评分卡在每个步骤上都要做大量的数据分析、数据整理,这就大大增加了出错的可能性。
发明内容
本发明的目的在于提供一种评分卡建模方法,用于解决现有技术中评分卡建模过程中耗时长,不能适应外部市场变化、以及建模模型效果差,错误率高的技术问题。
本发明提供的一种评分卡建模方法包括以下步骤:
步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量;
步骤S2,中间衍生变量逻辑回归:先对所述中间衍生变量做向后逻辑回归,逐次剔除无效的或共线性较强的中间衍生变量;再对被剔除的所述中间衍生变量做向前回补,尝试逐个加回被剔除的中间衍生变量,确保模型效果最优,在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重,即确定了计分模型;
步骤S3,模型验证:利用样本验证集对所述计分模型进行验证,判断验证结果的合理性;当所述验证结果不合理时,退回执行所述步骤S2。
采用本发明的评分卡建模方法完成计分模型的建模,仅在特定的几个步骤中需要人为介入,采用这种半自动建模方法将现有的建模时间由一个月缩短到了三天的时间,克服了现有技术中建模时间较长的技术问题;除此之外,在对样本训练集中的中间衍生变量逻辑回归的步骤中采用了后逻辑回归及向前回补的两种回归迭代过程,对中间衍生变量中共线性较高的变量再次进行了验证和剔除,同时通过多次迭代后保证确定的各个中间衍生变量的权重最为合理,即便是在实际应用时部分变量缺失情况下,确定的权重也不会影响计分模型的输出结果,能够使得计分模型计分更加的精确,和快速,防止宕机。最后,本发明的评分卡计分模型除过需要人为介入的步骤外,其他的步骤均是标准化封装,其系统自动运行,减少了人工建模出错的可能性。
附图说明
图1是本发明评分卡建模方法的整体流程图;
图2是本发明步骤S1的流程图;
图3是本发明步骤S13的流程图;
图4是本发明的评分卡建模方法的另一种实施方式流程图。
具体实施方式
下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:
请参考图1,本发明公开的一种评分卡建模方法。其方法主要用于对银行金融机构评估客户的消费和信贷还款能力,用于信贷金融机构的风险评估。
具体的所述评分卡建模方法包括:
步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量。
在本步骤中,首先需要对数据探索和修正:统计样本训练数据,确定样本训练数据中所需要的变量类型和分布,并人工判断、修正部分错误变量类型。
在本步骤中样本训练数据主要对象是面向银行的个人或者企业机构,其样本训练数据包括用于描述这些个人或者企业机构的数据,例如:个人年龄、性别、信用等级、贷款金额、还款期限、婚姻、工作岗位性质、收入情况、贷款途径、名下财产等多个变量。
当银行确定了样本训练数据后,在模型建模前需要对样本训练数据的这些变量进行检验,修正,修改其中异常的变量格式或者数值,这样才能为后边进一步的样本训练数据建模提供条件。
在本步骤中,接着需要变量确定:对所述变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量。
变量确定是指要从银行提供的对象的总的变量中通过筛选算法选出影响评分的最关联变量,且这些变量之间尽量不具有共线性,这样才能保证最终的计分模型输出的结果尽可能的精确而稳定,受外界其他变量影响较小。
参阅图2,具体的,确定变量并将所述变量转化为衍生变量的方法包括:
步骤S11:对银行提供的变量分别做证据权重(WOE,Weight of Evidence)计算、重编码(Recode)计算,得到两组所述衍生变量。
其中,证据权重(WOE,Weight of Evidence)计算能够对总的变量进行分析,确定这些总的变量中对评分结果影响大的变量有哪些。而重编码(Recode)计算是指对部分的样本中某个变量缺失、变量异常以及特殊值进行处理后,通过recode函数进行修改,修改为连续变量,从而能够保证所有的变量在证据权重计算后都不存在缺失、数值异常等情况。相较于传统的仅针对变量进行证据权重计算的情况来说,保留了更多的变量,虽然在计分模型的构建中复杂度增加了,但是增加的复杂度在可接受的范围内,最主要的是引入Recode计算后能够提高构建的计分模型的精确度和稳定性。
步骤S12:对两组所述衍生变量的计算结果做相关性以及基于因子分析的变量聚类分析,剔除高共线性的所述衍生变量。
共线性是指某一个变量对计分结果的影响与另一变量对计分结果的影响相似或者相同,此时基于两个变量进行模型构建后形成的计分模型稳定性差;当共线性变量比较多完成模型构建后,计分模型的通用性急剧恶化,甚至不能适应实际的需要,所以在模型构建的时候尽可能的保证各个变量之间不具有共线性,从多个维度上描述并拟合出计分模型,这样的计分模型更加稳定。
如图3,其中,在做相关性和变量聚类分析时还包括以下方法:
首先,步骤S121:基于所述衍生变量的个数确定若干备选分簇数;
接着,步骤S122:基于因子分析以及主成分分析(PCA,Principal componentAnalysis)算法将衍生变量按照备选分簇数分簇;
之后,步骤S123:评估不同备选分簇数下分簇的结果对整个衍生变量的样本训练集的解释度,选取具有最大解释度的分簇方式作为分簇结果;
再有,步骤S124:从最终所述分簇方式的每个分簇中选取若干个最优衍生变量,选取最优衍生变量时,当所述分簇中具有WOE变量和Recode变量时优先选取WOE变量;
在本步骤中,选取的若干个最优变量包括:
每个分簇中拟合系数率(coefficient of Determination ratio)最小的衍生变量;
每个分簇中柯尔莫哥洛夫-斯米诺夫(KS,Kolmogorov-Smirnov)检验值最高的衍生变量;
当分簇中拟合系数(coefficient of Determination)小于0.3的衍生变量具有多个时,选择所述衍生变量中柯尔莫哥洛夫-斯米诺夫(KS,Kolmogorov-Smirnov)检验值最高的衍生变量。
最后,步骤S125:汇总每个分簇中选取的多个所述衍生变量,如果同一个变量衍生出的WOE变量和Recode变量同时存在时,优先选择WOE变量,从而最终筛选出所述中间衍生变量。
在对样本训练数据中的变量进行以上操作后,就获得了中间衍生变量,所述中间衍生变量是录入后边的逻辑回归模型中,作为基本变量从而确定变量权重的基础。
步骤S2:中间衍生变量逻辑回归:先对所述中间衍生变量做向后逻辑回归,逐次剔除无效的或共线性较强的中间衍生变量;再对被剔除的所述中间衍生变量做向前回补,尝试逐个加回被剔除的中间衍生变量,确保模型效果最优,在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重,即确定了计分模型;
在执行步骤S2之前,为了能够更加快速的得到逻辑回归模型,优选的还可以增加确定权重方向:确定所述中间衍生变量的权重方向,确定的所述权重方向能够使得利用所述中间衍生变量和所述权重的计算结果符合样本训练集的评分趋势。
具体的,所述向后逻辑回归为:从全部的所述中间衍生变量中每次剔除满足第一条件的一个变量,并对每次剔除后剩余的中间衍生变量做逻辑回归迭代运算,直至在所有的所述中间衍生变量中不存在任何一个变量满足所述第一条件;
所述第一条件包括:
WOE衍生变量权重值为负值或Recode衍生变量的权重方向错误;或
p-value值过大的衍生变量,即变量权重均位于沃尔德(wald)置信区间外;或
衍生变量权重的方差膨胀系数(VIF,variance inflation factor)过大。
在本实施方式中,通过WOE计算的变量的权重均为正值,当某一个变量的权重值为负值说明,在WOE计算的过程中存在某一个或者几个变量的共线性较高,而权重为负值的变量就是共线性较高的变量中的一个,所以此时应该剔除所述变量;
p-value值过大是指某一个权重数值在整个权重分布中处于不可信的区间,即权重值偏移量过大,此时为保证计分模型的精确性直接将该变量剔除后重新逻辑回归迭代;
变量权重的方差膨胀系数(VIF,variance inflation factor)过大是指对所有变量中的某一个变量的权重分析,该变量的权重相对于所有变量的权重的方差膨胀系数大,即离散性太强,偏离分布区间的情况,此时这个变量也应该被剔除后重新逻辑回归的迭代计算权重。
在本步骤S2的方法中还包括向前回补,向前回补是指逐个将所述向后逻辑回归中剔除的中间衍生变量加回到向后逻辑回归的总入模变量中,并对加回后的整体的所述中间衍生变量做逻辑回归迭代运算,根据所述运算结果是否满足第二条件,如果满足则确定加回剔除的所述中间衍生变量,直至所有所述向后逻辑回归中剔除的中间衍生变量均检测完毕。
所述第二条件包括:
加回的所述中间衍生变量使得所述权重系数依然正确;且
加回的所述中间衍生变量的p-value值大小合理,且位于沃尔德(wald)置信区间内;且
加回的所述中间衍生变量使得整个所述中间衍生变量的权重的方差膨胀系数(VIF,variance inflation factor)在合理范围内。
在本发明的实施方式中,当将剔除的中间衍生变量加回整体所述中间验证变量后,如果加回的变量使得第二条件成立的,此时则认为加回的变量是有效变量,并没有影响到计分模型的稳定性和精确度,此时增加上所述变量后能够进一步地提高计分模型的精度和稳定性。
步骤S3,模型验证:利用样本验证集对所述计分模型进行验证,判断验证结果的合理性;当所述验证结果不合理时,退回执行所述步骤S2。在本步骤中,当验证结果不合理时,则认为在步骤S2中变量确定存在问题,例如删除了部分影响较大的变量,或者确定的变量里存在部分共线性高的变量,此时最根本的方式是重新回到步骤S2中完成变量确定,并再执行后续步骤。
具体的,步骤S3模型验证的方法包括:分别将所述样本训练集以及样本验证集输入中间衍生变量逻辑回归后形成的计分模型,并通过所述计分模型计算所述样本训练集以及样本验证集的柯尔莫哥洛夫-斯米诺夫(KS,Kolmogorov-Smirnov)检验值并验证所述检验值的合理性。
参阅图4,在本发明的另外一些实施方式中,本发明的评分卡建模方法还包括:
步骤S4,评分转化及调整转换参数:对所述验证结果转化为评分,判断所述评分的合理性,并手动修正转化过程中的转化参数,从而输出最终评分。
其中,所述步骤S4的评分转化及调整转换参数的方法包括:将所述计分模型计算的结果进行中心化和标准化映射,使所述计分模型计算的结果转化为一个区间内;在转化时人为根据抽样情况以及计分模型计算时剔除的部分样本训练数据做转化参数的微调,从而使的最终计分值更贴合实际应用。
例如,计分模型计算出的结果值在0~1之间,将计分结果转化到更适合人类分析观察的分布区间中,例如1~1000内,在转化的同时,还需要考虑之前剔除的特殊的样本情况,或者对样本的抽样计算情况,从而尽可能的使转换贴合实际需要。
步骤S5,模型稳定性验证:对所述计分模型初步应用,并验证所述计分模型的稳定性,适时做出模型微调。
在本步骤中,所述计分模型已经建模完成,此时进入应用阶段,在应用阶段需要将所述计分模型直接应用于金融机构及银行等,用于分析客户的消费和信贷还款能力,仅在出现某个或者一些较大偏差的时候才需要后期介入修改计分模型的部分变量以及权重。
进一步地,所述计分模型在运行后能自动提供验证和测试报告,验证和测试包括以下的至少一种:针对样本训练集和/或验证数据集运行的KS值、提升度以及各个分箱的统计量;样本训练集与验证数据集的对比测试;样本训练集的评分分布以及稳定性验证;计分模型的变量稳定性验证。
采用本发明的评分卡建模方法完成计分模型的建模,仅在特定的几个步骤中需要人为介入,采用这种半自动建模方法将现有的建模时间由一个月缩短到了三天的时间,克服了现有技术中建模时间较长的技术问题;除此之外,在对样本训练数据中的中间变量逻辑回归的步骤中采用了后逻辑回归及前逻辑回归的两种回归迭代过程,对中间变量中共线性较高的变量再次进行了验证和剔除,同时通过多次迭代后保证确定的各个变量的权重最为合理,即便是在实际应用时部分变量缺失情况下,确定的权重也不会影响计分模型的输出结果,能够使得计分模型计分更加的精确。最后,本发明的评分卡计分模型除过需要人为介入的步骤外,其他的步骤均是标准化封装,其系统自动运行,减少了人工建模出错的可能性。
利用本发明的方法还具有以下有益效果:
维度覆盖面更广:
a)本算法同时引进了WOE(Weight Of Evidence)变量以及recode变量(处理了空值、特殊值、异常值的变量),进而从稳定性和精确性两方面构建和筛选变量。
b)本算法创新性地引入了基于因子分析和PCA(主成分分析)算法的聚类分析,将自变量按其主成分分簇,并在每个分簇中各选取若干变量,从而最大限度地保留了维度的解释度和覆盖面。
拟合精确度高:
c)由于本算法同时引入了WOE和recode变量,且采用聚类分析筛选变量以增加其覆盖面,所以本算法的逻辑回归入模变量一般多于传统建模过程,其精确度也相对较高。
d)本算法在传统的向后逻辑回归算法基础上,创新性地加入了向前回补过程——将之前剔除的变量逐个加回到逻辑回归迭代中再次判断其有效性,从而最大限度地保留了有效变量,提高模型精度。
建模时间短:本算法分为多个主要模块,各模块可以独立运行。发明者将实现各个功能的最优方法及流程集成到模块之中,从而减少了手动建模过程中为实现某一功能反复调试的过程,用户仅需要在少数几个步骤介入人工判断,这也就大大的缩短了建模时间。
不易出错:由于大部分功能已经实现自动化,人工介入较少,所以在缩短建模时间的同时还可以减少人工数据分析时出错的可能性。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (10)
1.一种评分卡建模方法,其特征在于,包括以下步骤:
步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量;
步骤S2,中间衍生变量逻辑回归:先对所述中间衍生变量做向后逻辑回归,逐次剔除无效的或共线性较强的中间衍生变量;再对被剔除的所述中间衍生变量做向前回补,尝试逐个加回被剔除的中间衍生变量,确保模型效果最优,在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重,即确定了计分模型;
步骤S3,模型验证:利用样本验证集对所述计分模型进行验证,判断验证结果的合理性;当所述验证结果不合理时,退回执行所述步骤S2。
2.如权利要求1所述的一种评分卡建模方法,其特征在于,还包括:
步骤S4,评分转化及调整转换参数:对所述验证结果转化为评分,判断所述评分的合理性,并手动修正转化过程中的转化参数,从而输出最终评分;
步骤S5,模型稳定性验证:对所述计分模型初步应用,并验证所述计分模型的稳定性,适时做出模型微调。
3.如权利要求1所述的一种评分卡建模方法,其特征在于,所述步骤S2中确定变量并将所述变量转化为衍生变量的方法包括:
步骤S11:对变量分别做证据权重(WOE,Weight of Evidence)计算、重编码(Recode)计算,得到两组所述衍生变量;
步骤S12:对两组所述衍生变量的计算结果做相关性以及基于因子分析的变量聚类分析,剔除高共线性的所述衍生变量;
步骤S13:对确定的所述衍生变量以及变量值手动精调分箱,根据分箱结果得到所述中间衍生变量。
4.如权利要求3所述的一种评分卡建模方法,其特征在于,所述步骤S12中的相关性及变量聚类分析的方法包括以下步骤:
步骤S121:基于所述衍生变量的个数确定若干备选分簇数;
步骤S122:基于因子分析以及主成分分析(PCA,Principal component Analysis)算法将衍生变量按照备选分簇数分簇;
步骤S123:评估不同备选分簇数下分簇的结果对整个衍生变量的样本训练集的解释度,选取具有最大解释度的分簇方式作为分簇结果;
步骤S124:从最终所述分簇方式的每个分簇中各选取若干个最优衍生变量,选取最优衍生变量时,当所述分簇中具有WOE变量和Recode变量时优先选取WOE变量;
步骤S125:汇总每个分簇中选取的多个所述衍生变量,如果同一个变量衍生出的WOE变量和Recode变量同时存在时,优先选择WOE变量,从而最终筛选出所述中间衍生变量。
5.如权利要求4所述的一种评分卡建模方法,其特征在于,所述步骤S124中选取的多个衍生变量包括:
每个分簇中拟合系数率(coefficient of Determination ratio)最小的衍生变量;
每个分簇中柯尔莫哥洛夫-斯米诺夫(KS,Kolmogorov-Smirnov)检验值最高的衍生变量;
当分簇中拟合系数(coefficient of Determination)小于0.3的衍生变量具有多个时,选择所述衍生变量中柯尔莫哥洛夫-斯米诺夫(KS,Kolmogorov-Smirnov)检验值最高的衍生变量。
6.如权利要求1至5任意一项所述的一种评分卡建模方法,其特征在于,所述步骤S2中中间变量逻辑回归的方法包括:
确定权重方向:确定所述中间衍生变量的权重方向,确定的所述权重方向能够使得利用所述中间衍生变量和所述权重的计算结果符合样本训练集的评分趋势。
7.如权利要求6所述的一种评分卡建模方法,其特征在于,所述步骤S2中的中间变量逻辑回归的方法包括:
向后逻辑回归:从全部的所述中间衍生变量中每次剔除满足第一条件的一个变量,并对每次剔除后剩余的中间衍生变量做逻辑回归迭代运算,直至在所述中间衍生变量中不存在任何一个变量满足所述第一条件;
所述第一条件包括:
WOE衍生变量权重值为负值或Recode衍生变量权重方向错误;或
p-value值过大的衍生变量,即变量权重均位于沃尔德(wald)置信区间外;或
衍生变量权重的方差膨胀系数(VIF,variance inflation factor)过大。
8.如权利要求6所述的一种评分卡建模方法,其特征在于,所述步骤S2中中间变量逻辑回归的方法还包括:
向前回补:逐个将所述向后逻辑回归中剔除的中间衍生变量加回到向后逻辑回归的总入模变量中,并对加回后的整个所述中间衍生变量做逻辑回归迭代运算,判断所述运算结果是否满足第二条件,如果满足则确定加回剔除的所述中间衍生变量,直至所有所述向后逻辑回归中剔除的中间衍生变量均检测完毕;
所述第二条件包括:
加回的所述中间衍生变量使得所述权重系数依然正确;且
加回的所述中间衍生变量的p-value值大小合理,且位于沃尔德(wald)置信区间内;且
加回的所述中间衍生变量使得整个所述中间衍生变量的权重的方差膨胀系数(VIF,variance inflation factor)在合理范围内。
9.如权利要求2所述的一种评分卡建模方法,其特征在于,步骤S3模型验证的方法包括:分别将所述样本训练集以及样本验证集输入中间衍生变量逻辑回归后形成的计分模型,并通过所述计分模型计算所述样本训练集以及样本验证集的柯尔莫哥洛夫-斯米诺夫(KS,Kolmogorov-Smirnov)检验值并验证所述检验值的合理性。
10.如权利要求1所述的一种评分卡建模方法,其特征在于,所述步骤S4的评分转化及调整转换参数的方法包括:将所述计分模型计算的结果进行中心化和标准化映射,使所述计分模型计算的结果转化为一个区间内;在转化时人为根据抽样情况以及计分模型计算时剔除的部分样本训练数据做转化参数的微调,从而使的最终计分值更贴合实际应用。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202011099338.9A CN112102074B (zh) | 2020-10-14 | 2020-10-14 | 一种评分卡建模方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202011099338.9A CN112102074B (zh) | 2020-10-14 | 2020-10-14 | 一种评分卡建模方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN112102074A true CN112102074A (zh) | 2020-12-18 |
| CN112102074B CN112102074B (zh) | 2024-01-30 |
Family
ID=73782743
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202011099338.9A Active CN112102074B (zh) | 2020-10-14 | 2020-10-14 | 一种评分卡建模方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN112102074B (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112989606A (zh) * | 2021-03-16 | 2021-06-18 | 上海哥瑞利软件股份有限公司 | 数据算法模型检验方法、系统及计算机存储介质 |
| CN113572753A (zh) * | 2021-07-16 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 基于牛顿冷却定律的用户设备认证方法和装置 |
| CN114298532A (zh) * | 2021-12-27 | 2022-04-08 | 智慧芽信息科技(苏州)有限公司 | 评分卡模型生成方法、使用方法、装置、设备及存储介质 |
Citations (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| BR8202956A (pt) * | 1981-05-22 | 1983-05-03 | Data General Corp | Sistema computador digital |
| CN103440410A (zh) * | 2013-08-15 | 2013-12-11 | 广东电网公司 | 主变个体缺陷概率预测方法 |
| CN104699717A (zh) * | 2013-12-10 | 2015-06-10 | 中国银联股份有限公司 | 数据挖掘方法 |
| CN106548350A (zh) * | 2016-11-17 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及服务器 |
| CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
| CN107301467A (zh) * | 2017-04-11 | 2017-10-27 | 程在舒 | 中国未来人口数预测法 |
| CN108416495A (zh) * | 2018-01-30 | 2018-08-17 | 杭州排列科技有限公司 | 基于机器学习的评分卡模型建立方法及装置 |
| CN108898479A (zh) * | 2018-06-28 | 2018-11-27 | 中国农业银行股份有限公司 | 信用评价模型的构建方法及装置 |
| CN109191282A (zh) * | 2018-08-23 | 2019-01-11 | 北京玖富普惠信息技术有限公司 | 一种基于行为模型的贷中监测评分方法以及系统 |
| CN109598095A (zh) * | 2019-01-07 | 2019-04-09 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
| CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
| CN109858566A (zh) * | 2019-03-01 | 2019-06-07 | 成都新希望金融信息有限公司 | 一种基于多层模型构建增加入模维度的评分卡的方法 |
| CN110197426A (zh) * | 2018-04-16 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种信用评分模型的建立方法、装置及可读存储介质 |
| CN110322142A (zh) * | 2019-07-01 | 2019-10-11 | 百维金科(上海)信息科技有限公司 | 一种大数据风控模型及线上系统配置技术 |
| CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
| CN111178675A (zh) * | 2019-12-05 | 2020-05-19 | 佰聆数据股份有限公司 | 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备 |
| CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其系统 |
| CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
| CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
| CN111738819A (zh) * | 2020-06-15 | 2020-10-02 | 中国建设银行股份有限公司 | 表征数据筛选方法、装置和设备 |
-
2020
- 2020-10-14 CN CN202011099338.9A patent/CN112102074B/zh active Active
Patent Citations (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| BR8202956A (pt) * | 1981-05-22 | 1983-05-03 | Data General Corp | Sistema computador digital |
| CN103440410A (zh) * | 2013-08-15 | 2013-12-11 | 广东电网公司 | 主变个体缺陷概率预测方法 |
| CN104699717A (zh) * | 2013-12-10 | 2015-06-10 | 中国银联股份有限公司 | 数据挖掘方法 |
| WO2015085916A1 (zh) * | 2013-12-10 | 2015-06-18 | 中国银联股份有限公司 | 数据挖掘方法 |
| CN106548350A (zh) * | 2016-11-17 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及服务器 |
| CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
| CN107301467A (zh) * | 2017-04-11 | 2017-10-27 | 程在舒 | 中国未来人口数预测法 |
| CN108416495A (zh) * | 2018-01-30 | 2018-08-17 | 杭州排列科技有限公司 | 基于机器学习的评分卡模型建立方法及装置 |
| CN110197426A (zh) * | 2018-04-16 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种信用评分模型的建立方法、装置及可读存储介质 |
| CN108898479A (zh) * | 2018-06-28 | 2018-11-27 | 中国农业银行股份有限公司 | 信用评价模型的构建方法及装置 |
| CN109191282A (zh) * | 2018-08-23 | 2019-01-11 | 北京玖富普惠信息技术有限公司 | 一种基于行为模型的贷中监测评分方法以及系统 |
| CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
| CN109598095A (zh) * | 2019-01-07 | 2019-04-09 | 平安科技(深圳)有限公司 | 评分卡模型的建立方法、装置、计算机设备和存储介质 |
| CN109858566A (zh) * | 2019-03-01 | 2019-06-07 | 成都新希望金融信息有限公司 | 一种基于多层模型构建增加入模维度的评分卡的方法 |
| CN110322142A (zh) * | 2019-07-01 | 2019-10-11 | 百维金科(上海)信息科技有限公司 | 一种大数据风控模型及线上系统配置技术 |
| CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
| CN111178675A (zh) * | 2019-12-05 | 2020-05-19 | 佰聆数据股份有限公司 | 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备 |
| CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其系统 |
| CN111311128A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于第三方数据的消费金融信用评分卡开发方法 |
| CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
| CN111738819A (zh) * | 2020-06-15 | 2020-10-02 | 中国建设银行股份有限公司 | 表征数据筛选方法、装置和设备 |
Non-Patent Citations (7)
| Title |
|---|
| MICHAEL OLUSEGUN AKINWANDE等: "Variance inflation factor: as a condition for the inclusion of suppressor variable (s) in regression analysis", OPEM JOURNAL OF STATISTICS * |
| RUIZ S.等: "Credit Scoring in Microfinance Using Non-traditional Data", PROGRESS IN ARTIFICIAL INTELLIGENCE(EPIAA 2017), pages 447 - 458 * |
| 刘伟江;魏海;运天鹤;: "基于卷积神经网络的客户信用评估模型研究", 数据分析与知识发现, no. 06, pages 80 - 90 * |
| 汪政元;伍业锋;: "基于贡献度随机森林模型的公司债信用风险实证分析", 经济数学, no. 03, pages 33 - 40 * |
| 纪守领 等: "机器学习模型可解机器学习模型可解释性方法、应用与安全研究综述释性方法、应用与安全研究综述", 计算机研究与发展 * |
| 耿俊成;张小斐;袁少光;万迪明;: "基于逻辑回归模型的电力客户停电敏感度评分卡研究与实现", 电力需求侧管理, no. 03 * |
| 陈战勇: "珠联璧合:基于及其学习的网络借贷信用评分卡模型研究", 武汉金融, pages 42 - 50 * |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112989606A (zh) * | 2021-03-16 | 2021-06-18 | 上海哥瑞利软件股份有限公司 | 数据算法模型检验方法、系统及计算机存储介质 |
| CN113572753A (zh) * | 2021-07-16 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 基于牛顿冷却定律的用户设备认证方法和装置 |
| CN113572753B (zh) * | 2021-07-16 | 2023-03-14 | 北京淇瑀信息科技有限公司 | 基于牛顿冷却定律的用户设备认证方法和装置 |
| CN114298532A (zh) * | 2021-12-27 | 2022-04-08 | 智慧芽信息科技(苏州)有限公司 | 评分卡模型生成方法、使用方法、装置、设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN112102074B (zh) | 2024-01-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107193876B (zh) | 一种基于最近邻knn算法的缺失数据填补方法 | |
| CN112102074B (zh) | 一种评分卡建模方法 | |
| De Fontnouvelle et al. | Using loss data to quantify operational risk | |
| CN109034194A (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
| CN110991474A (zh) | 一种机器学习建模平台 | |
| CN108898480A (zh) | 用于授信贷款的贷款等级评估系统及方法 | |
| CN110163467A (zh) | 一种基于纺织行业中小型企业信用的风险量化建模方法 | |
| CN119229939B (zh) | 一种基于稀疏矩阵分解的储存芯片性能测试方法 | |
| CN110059126B (zh) | 基于lkj异常值数据的复杂关联网络分析方法及系统 | |
| Liu et al. | Accounting for dependencies among performance shaping factors in SPAR-H using a regularized autoencoder and WINGS-AISM | |
| US20140317066A1 (en) | Method of analysing data | |
| Chava et al. | Machine Learning Enabled Financial Statements in Assessing a Business’s Performance | |
| CN118552330B (zh) | 一种财务数据全链路监测方法及系统 | |
| CN113177733A (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
| CN120219098A (zh) | 基于智能分析的财务数据月结处理方法、装置及终端 | |
| CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
| CN117274666B (zh) | 基于YOLOv7与无参注意力机制的苹果叶病检测方法 | |
| CN118761685A (zh) | 基于黄金批次优选的生产质量动态分析方法及系统 | |
| CN119026982A (zh) | 一种企业分析评价系统及评价方法 | |
| CN119005985A (zh) | 基于机器学习模型的高关联度群体账号识别方法和系统 | |
| Vučinić et al. | Measuring systemic banking resilience: A stress testing approach | |
| KR102869015B1 (ko) | 체계적 esg 위험을 통합한 포트폴리오 최적화 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
| CN117635304A (zh) | 一种中小微企业信用评级系统构建方法 | |
| Cornaglia et al. | Rating philosophy and dynamic properties of internal rating systems: a general framework and an application to backtesting | |
| Popchev et al. | A decision support method for investment preference evaluation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |