原标题:单变量优化,单变量优化模型
导读:
Intro...
如何进行单变量回归分析
单变量回归分析是一种统计方法,用于研究两个变量之间的关系。这种方法的主要目的是确定一个变量(自变量)如何影响另一个变量(因变量)。以下是进行单变量回归分析的步骤:
数据收集:首先,你需要收集相关的数据。这些数据应该是量化的,以便可以进行统计分析。例如,如果你正在研究教育水平和收入之间的关系,你可能需要收集每个人的教育年限和年收入。
数据清洗:在进行回归分析之前,需要对数据进行清洗,包括处理缺失值、异常值和重复值。这是为了确保数据的质量和准确性。
绘制散点图:使用收集的数据,绘制一个散点图,其中自变量在x轴上,因变量在y轴上。这可以帮助你直观地看到两个变量之间的关系。
计算相关系数:相关系数是一个介于-1和1之间的数字,用于度量两个变量之间的线性关系。如果相关系数接近1,那么两个变量之间存在强烈的正相关关系;如果相关系数接近-1,那么两个变量之间存在强烈的负相关关系;如果相关系数接近0,那么两个变量之间没有明显的线性关系。
建立回归模型:使用最小二乘法或其他优化技术,根据自变量和因变量的数据,建立一个回归模型。这个模型将是一个方程,描述了自变量和因变量之间的关系。
检验模型的显著性:使用t检验或F检验,检验回归模型的显著性。如果模型是显著的,那么我们可以认为自变量对因变量有显著的影响。
解释模型:最后,你需要解释回归模型的结果。例如,你可以说“每增加一年的教育,预期的收入将增加X元”。
以上就是进行单变量回归分析的基本步骤。需要注意的是,虽然单变量回归分析可以揭示两个变量之间的关系,但它不能证明因果关系。此外,回归分析的结果可能会受到其他未考虑因素的影响,因此在解释结果时需要谨慎。
单变量分析
一、案例背景:
日常监控发现某款消费贷产品首逾率有逐渐升高的趋势,需要把首逾率降下来以减少产品带来的损失。
分析目标:
通过数据探查分析制定出可以有效降低首逾率的策略。
分析思路:
因为我们所要分析的策略是将要在客户申请时用来判断客户是否会逾期的条件,所以策略分析时的基本思路就是还原这些有首逾表现的客户在申请时的数据(这个还原是指提取出客户在申请时点各个维度的数据,越多越好),然后利用这些数据去找出能够区分好坏客户的变量,制定策略。
本次报告我们分别通过分析客户的年龄、信用评级、近半年的个查次数(征信查询次数)这几个指标,来对客户结构进行优化,达到降低首逾率,做好贷前风控的目的。通过分析我们可以得出在以上几个指标中,把“近半年征信查询次数”>=21的3213为客户拒绝后,对整体首逾率的优化效果最好,以下为分析过程:
观察一下数据的结构,数据维度为(56456,9)
优化前整体的首逾率为30.7%
按照近半年的个查次数(征信查询次数)分组,分成 [0:3),[3:6),[6:12),[12:21),[21:无穷)这5个区间
按区间将数据聚合之后,保留区间客户数,区间逾期客户数两个字段,再计算出区间没有逾期的客户数量、区间用户占比、首逾率
按照同样的方法,将客户的信用评级和年龄段也进行了分组处理,并计算出区间没有逾期的客户数量、区间用户占比、首逾率
分别计算优化不同指标对整体逾期率的提升度(图1为征信查询次数,图2为信用评级,图3为年龄),可以看出个人征信总查询次数的提升度最高,达到1.94;其次是客户信用评级,提升度达到1.71。
注:
提升度:通俗的来说就是衡量拒绝最坏那一部分的客户之后,对整体的风险控制的提升效果。提升度越高,说明该变量可以更有效的区分好坏客户,能够更少的误拒好客户。
计算公式:提升度=最坏分箱的首逾客户占总首逾客户的比例/该分箱的区间客户数占比
最后分别计算出优化掉最坏分箱的首逾客户后,对整体逾期率的影响。
可以看出拒绝掉“近半年征信查询次数”>=21的客户后,整体的逾期率降低了1.7%,在3个指标中的优化效果最好;虽然“信用评级”的提升度比较高,但排除掉最坏分箱的客户后,逾期率不降反增,不建议;“客户年龄”的提升度在3个指标中最低,只有1.06,对逾期率的降低也是收效甚微,只有0.29%,不建议。